FUNDAMENTOS, TÉCNICAS Y ESTUDIOS DE CASO
PARTE I
1. Como un ejercicio formule un problema en su organización que pueda ser tratado usando minería de datos. Recuerde, el trabajo o el producto disponible es personalizado. O sea, usted sabe quien es el cliente o el usuario. No es necesario limitarse a negocios lucrativos, por ejemplo, en una industria a partir de datos de accidentes construir un modelo predictivo a partir del cual se pueda evaluar la propensión de un funcionario a accidentarse.
PARTE II
1. Como continuación del ejercicio propuesto al final del capítulo La Construcción de Modelos en el Proceso KDD/DM especifique:
Establezca ahora procedimientos para la transformación de variables que sean necesarias para la extracción de características y realce. Prevea también procedimientos para la reducción de variables.
PARTE I
1. Como un ejercicio formule un problema en su organización que pueda ser tratado usando minería de datos. Recuerde, el trabajo o el producto disponible es personalizado. O sea, usted sabe quien es el cliente o el usuario. No es necesario limitarse a negocios lucrativos, por ejemplo, en una industria a partir de datos de accidentes construir un modelo predictivo a partir del cual se pueda evaluar la propensión de un funcionario a accidentarse.
PARTE II
1. Como continuación del ejercicio propuesto al final del capítulo La Construcción de Modelos en el Proceso KDD/DM especifique:
a) fuente de datos que irá ser utilizada
b) variables (atributos) que serán leídas (todas)
c) esquema de partición
d) criterios para detección de errores
e) criterios para tratamiento de outliers
2. Basado en el libro de Luis Torgo, minería de datos con R, consulte la página de enlaces (LINKS) en el blog. El método adoptado es el de regresión lineal aplicada a un problema en el área ambiental. El problema es predecir la tasa de ocurrencia de los siete (7) diferentes tipos de algas a partir de muestras de agua tomadas en diferentes estaciones, en los ríos de tamaño variable, con diferentes velocidades de flujo, en la que analizaron los niveles de ocho diferentes elementos químicos: pH máximo, valor mínimo de O2, con una media de cloro, el promedio de nitratos, el promedio de amoníaco, ortofosfato promedio,valor promedio del valor del fosfato y el promedio de la clorofila. Además de las tasas de frecuencia de algas diferentes.
La muestra de entrenamiento cuenta con 200 observaciones (algas-Entrenamiento-regresión lineal.txt) en el enlace "Datos" del blog. Tambien está incluida en el paquete DMwR.
La muestra de validación tiene 140 observaciones, que fueron divididos en dos archivos, el primero-validacion Alga de regresión lineal-txt no contiene ninguna información acerca de las algas. El segundo archivo, validacion algas de regresión lineal-sol-txt, sólo contiene información acerca de las algas.
El programa de investigación que hace el análisis exploratorio, el entrenamiento y validación, Regrssion lineal, está disponible en los "Programas" Detalles de la Minería de blog. Para utilizar el programa, los participantes del curso deben tener instalado en su computadora el paquete "DMwR" de R.
PARTE III
1. El problema es el mismo que el ejercicio 2 de la Parte II, pero ahora debe ser resuelto utilizando árboles de regresión. El programa utilizado, incluye un módulo de árbol de regresión. Aplicar para predecir la ocurrencia de cada tipo de alga. (utiliza R)
PARTE IV
1. Considerando los métodos presentados en este capítulo, escoja uno o más para resolver el problema propuesto al final de la parte I.
2. Evaluar y comparar los modelos obtenidos en los ejercícios de la Parte II y Parte III. El programa utilizado, previamente, incluye también un modulo de eavlaución. (utiliza R)
PARTE V
1. Formular un Anteproyecto de Minería de Datos segundo el paradigma del anexo III, del libro texto, páginas 101-103. El problema original puede venir de cualquier contexto. Coloque su contribución en el foro.
2. Evaluar y comparar los modelos obtenidos en los ejercícios de la Parte II y Parte III. El programa utilizado, previamente, incluye también un modulo de eavlaución. (utiliza R)
PARTE V
1. Formular un Anteproyecto de Minería de Datos segundo el paradigma del anexo III, del libro texto, páginas 101-103. El problema original puede venir de cualquier contexto. Coloque su contribución en el foro.