Minería de Datos
La Minería de datos nos permite extraer el conocimiento que existe en las bases de datos implícitamente. Para lograr esto, disponemos de técnicas que nos permiten clasificar, agrupar, definir o asociar los datos, para finalmente poder encontrar los patrones o las reglas que nos dan la explicación de un determinado comportamiento.
El esquema muestra las diferentes fases del ciclo de vida. Como hemos visto en el tema uno el ciclo de vida no es lineal, sino que es circular, por consiguiente se irán repitiendo las fases hasta alcanzar la fase óptima de nuestro modelo.
Para realizar el esquema partimos de la base de que a través de la Minería de Datos buscamos los modelos o patrones que aplicados a unos datos obtendremos la predicción o reglas que nos permitirán conocer el comportamiento de un determinado entorno.
Ciclo de vida
En resumen, estas son las diferentes fases del ciclo de vida:
1.- Definición del área de Data Mining.
En este punto es cuando definimos el objetivo del proyecto, estudiaremos que necesitamos y que conocimiento queremos obtener con los datos que tenemos.
2.- Selección de datos.
En este apartado debemos encontrar los datos que necesitemos para llevar a cabo nuestro proyecto. Tendremos que tener en cuenta las bases de datos que tenga la empresa.
3.- Preparación de datos.
Llegados a este punto es importante comenzar con la limpieza, el enriquecimiento, la reducción y la transformación de las bases de datos. Debemos de obtener los datos más convenientes para nuestro proyecto.
4.- Data Mining.
En esta fase, después de tener tanto los datos como el objetivo empezamos a construir el modelo que mejor responda a las características implícitas en los datos.
5.- Evaluación e interpretación del modelo.
En este punto procedemos a evaluar el modelo que hemos realizado, para esto podemos utilizar conjuntos de datos procedentes del mismo conjunto inicial o conjuntos de datos que se utiliza para construir el modelo y otro para evaluarlo.
También podemos introducir un tercer conjunto que definiremos como el conjunto de validación. En este caso utilizamos un conjunto de datos para construir el modelo; otro, para darlo por bueno y por último un tercero para evaluarlo.
6-.Integración.
En esta fase incluiremos los resultados en el proceso de información en el que estamos trabajando.
Nota:* Las bases de datos que se utilizan para realizar trabajos de Minería de datos son las denominadas OLAP (On-line Analytical Processing), que están orientadas al análisis de los datos en vez de a la transacción de datos, permitiendo realizar consultas de alto rendimiento a grandes velocidades.