MODELO DIMENSIONAL: MINERÍA DE DATOS

1.¿Que es minería de datos?

En general, la minería de datos (a veces se llama descubrimiento de datos o de conocimiento) es el proceso de analizar los datos desde diferentes perspectivas y resumiéndoles en información útil - información que se puede utilizar para aumentar los ingresos, reducir los costos, o ambas cosas. El software de minería de datos es uno de una serie de instrumentos analíticos para el análisis de datos. Permite a los usuarios analizar los datos desde muchas dimensiones o ángulos, clasificar, y resumir las relaciones identificadas. Técnicamente, la minería de datos es el proceso de encontrar correlaciones o patrones, entre decenas de campos de grandes bases de datos relacionales.

2. Modelo de Minería de datos

Las técnicas más representativas son:

Redes neuronales.- Son un paradigma de aprendizaje y procesamiento automático inspirado en la forma en que funciona el sistema nervioso de los animales. Se trata de un sistema de interconexión de neuronas en una red que colabora para producir un estímulo de salida. Algunos ejemplos de red neuronal son:

El Perceptrón.
El Perceptrón multicapa.
Los Mapas Autoorganizados, también conocidos como redes de Kohonen.

Regresión lineal.- Es la más utilizada para formar relaciones entre datos. Rápida y eficaz pero insuficiente en espacios multidimensionales donde puedan relacionarse más de 2 variables.

Árboles de decisión.- Un árbol de decisión es un modelo de predicción utilizado en el ámbito de la inteligencia artificial, dada una base de datos se construyen estos diagramas de construcciones lógicas, muy similares a los sistemas de predicción basados en reglas, que sirven para representar y categorizar una serie de condiciones que suceden de forma sucesiva, para la resolución de un problema. Ejemplos:

Algoritmo ID3.
Algoritmo C4.5.

Modelos estadísticos.- Es una expresión simbólica en forma de igualdad o ecuación que se emplea en todos los diseños experimentales y en la regresión para indicar los diferentes factores que modifican la variable de respuesta.

Agrupamiento o Clustering.- Es un procedimiento de agrupación de una serie de vectores según criterios habitualmente de distancia; se tratará de disponer los vectores de entrada de forma que estén más cercanos aquellos que tengan características comunes. Ejemplos:
- Algoritmo K-means.
- Algoritmo K-medoids.

Reglas de asociación.- Se utilizan para descubrir hechos que ocurren en común dentro de un determinado conjunto de datos.

3.Algoritmos de Minería de Datos usados en SQL Server 2008 R2

Un algoritmo de minería de datos es un mecanismo que crea un modelo de minería de datos. Para crear un modelo, un algoritmo analiza primero un conjunto de datos y luego busca patrones y tendencias específicos. El algoritmo utiliza los resultados de este análisis para definir los parámetros del modelo de minería de datos. A continuación, estos parámetros se aplican en todo el conjunto de datos para extraer patrones procesables y estadísticas detalladas.

El modelo de minería de datos que crea un algoritmo puede tomar diversas formas, incluyendo:

Un conjunto de reglas que describen cómo se agrupan los productos en una transacción.
Un árbol de decisión que predice si un cliente determinado comprará un producto.
Un modelo matemático que predice las ventas.
Un conjunto de clústeres que describe cómo se relacionan los casos de un conjunto de datos.

Microsoft SQL Server 2008 R2 proporciona varios algoritmos que se pueden usar en las soluciones de minería de datos, siendo los siguientes tipos de algoritmos:

Algoritmos de clasificación, que predicen una o más variables discretas, basándose en otros atributos del conjunto de datos. Un ejemplo de algoritmo de clasificación es el Algoritmo de árboles de decisión de Microsoft.
Algoritmos de regresión, que predicen una o más variables continuas, como las pérdidas o los beneficios, basándose en otros atributos del conjunto de datos. Un ejemplo de algoritmo de regresión es el Algoritmo de serie temporal de Microsoft.
Algoritmos de segmentación, que dividen los datos en grupos, o clústeres, de elementos que tienen propiedades similares. Un ejemplo de algoritmo de segmentación es el Algoritmo de clústeres de Microsoft.
Algoritmos de asociación, que buscan correlaciones entre diferentes atributos de un conjunto de datos. La aplicación más común de esta clase de algoritmo es la creación de reglas de asociación, que pueden utilizarse en un análisis de la cesta de compra. Un ejemplo de algoritmo de asociación es el Algoritmo de asociación de Microsoft.

Algoritmos de análisis de secuencias, que resumen secuencias o episodios frecuentes en los datos, como un flujo de rutas Web. Un ejemplo de algoritmo de análisis de secuencias es el Algoritmo de clústeres de secuencia de
Microsoft.

MODELO DIMENSIONAL

Páginas

MINERÍA DE DATOS

No hay comentarios:

Publicar un comentario

Datos personales