Código del Curso: CC66N
Créditos: 3
Duración: 24 horas
Valor Individual: 30 UF
Profesor: Mauricio Quezada
Objetivos
Al finalizar este curso se espera que los estudiantes entiendan cómo generar conocimiento a partir de diversos tipos de datos, aplicando el proceso de “knowledge discovery in databases”, con énfasis en las técnicas principales de Minería de Datos. Los estudiantes tendrán la oportunidad de conocer, identificar y seleccionar las técnicas de análisis que, según los criterios presentados en el curso, mejor se apliquen al objetivo de generación de conocimiento, según el dominio del problema planteado. Para esto se desarrollarán casos que incorporen problemáticas y datos de áreas tales como la Astronomía, Economía, Medicina, Marketing, entre otras. Se espera, además, acercar a los estudiantes a la problemática del análisis de grandes volúmenes de datos. También alertarlos respecto a prácticas de sobreajuste de los modelos de procesamiento de información que impiden un análisis objetivo de los datos, desarrollando con esto último, habilidades éticas de desempeño profesional en el ámbito de Ingeniería de Datos.
Contenidos
- Introducción a la Minería de Datos.
- Introducción a las técnicas principales de MD y sus aplicaciones (a. Supervisado, a. No supervisado, Reglas de Asociación).
- Metodologías clásicas de clasificación (árboles de decisión, SVM, naive bayes, KNN).
- Evaluación del desempeño de clasificadores (bootstrap, crossvalidation).
- Comparación de modelos y clasificadores.
- Introducción y conceptos básicos de clustering.
- Algoritmos clásicos de clustering (k-means, clustering aglomerativo jerarquico, otros métodos).
- Elección de métodos de clustering.
Evaluación de clusters.
Reglas de asociación.
- Generación de conjuntos de elementos frecuentes.
Reglas de asociación
Bibliografía
P. Tan, M. Steinbach, V. Kumar. Introduction to Data Mining. Addison-Wesley. 2006.
H. Samet. Foundations of Multidimensional and Metric Data Structures. Morgan Kaufmann. 2006.
Data Mining: Practical Machine Learning Tools and Techniques, Second Edition (Morgan Kaufmann Series in Data Management Systems) by Ian H. Witten and Eibe Frank
P. Zezula, G. Amato, V. Dohnal, M. Batko. Similarity Search: The Metric Approach. Springer. 2006.