Seminario Tópicos Avanzados en Bases de Datos
Profesor: Carlos Hurtado Larrain
churtado@dcc.uchile.cl
Departamento de Ciencias de la Computación, Universidad de Chile
Horario: Martes y Jueves 10:15-11:45am
Sala: 29-S

Programa de Curso | Referencias | Calendario | Controles | Lecturas Asignadas | Avisos | Presentaciones


Programa de Curso

El curso se centra en el área de minería de datos y su objetivo es introducir al alumno en los conceptos y técnicas fundamentales dentro de esta área. Programa de curso en postscript o PDF.

Notas


Referencias


Calendario

Fecha Comentario
Control 1 Jueves 26 de Septiembre Incluye materia hasta el 12 de Septiembre
Control 2 Jueve 17 de Octubre Incluye materia desde el 12 de Septiembre hasta el 15 de Octubre
Entrega 1 Proyecto Jueves 12 de Septiembre Informe explicando objetivos del proyecto, herramienta y datos a usar
Entrega Final Proyecto 24 de Noviembre Informe final del proyecto

Las presentaciones de artículos técnicos se realizarán los Martes y Jueves (en hora de clase) entre el 15 de Octubre y el 21 de Noviembre. Enviar email al profesor para reservar fecha.


Lecturas Asignadas

Fecha Lectura
Jueves 1 de Agosto R. Agrawal and R. Srikant. Fast Algorithms for Mining Association Rules. Proc. of the 20th Int'l Conference on Very Large Databases, Santiago, Chile, Sep. 1994.
Martes 13 de Agosto R. Agrawal and R. Srikant. Mining Generalizaed Association Rules. Proc. of the 21st Int'l Conference on Very Large Databases, Zurich, Switzerland, 1994.
Martes 13 de Agosto S. Brin and R. Motwani C. Silverstein. Beyond Market Basket: Generalizing Association Rules to Correlations. 1997 ACM SIGMOD Conference on Management of Data.
Jueves 5 de Septiembre Mehta, Agrawal, Missanen. SLIQ: a Fast Scalable Classifier for Data Mining. EDBT 1996.
Martes 1 de Octubre Kosala, Blockeel. Web Mining Research: A Survey. SIGKDD Explorations: Newsletter of the Special Interest Group (SIG) on Knowledge Discovery & Data Mining, ACM. 2000.
Jueves 10 de Octubre Rakesh Agrawal, Ramakrishnan Srikant. Mining Sequential Patterns. ICDE'95.


Avisos

Fecha Aviso
Jueves 1 de Agosto Contenido del primer Informe del proyecto: 1. Objetivo del proyecto, i.e., qué se va a hacer, tipo de patrón/modelo, cómo se va a evaluar la calidad de los resultados (score function). 2. Descripción del conjunto de datos: estructura, tamaño, cómo se obtuvo, etc. 3. Descripción de la herramienta (está debe estar instalada y funcionando al momento de entregar el informe), aspectos positivos y negativos. Las herramientas listadas arriba son sólo sugerencias, hay muchas más disponibles en la Web.
Viernes 16 de Agosto Los apuntes del curso están disponibles en secretaria docente (Magaly). Como comunique en clases, los apuntes son un borrador preliminar, por lo que es muy probable que existan algunos errores en ellos. La detección de errores será premida en la nota final (sólo tiene puntos el primero en detectar un error).
Viernes 16 de Agosto Recomiendo inscribir lo ANTES posible el paper y hora de la charla. Recuerden que los papers y horarios de presentación son limitados por lo que los ùltimos en elegir tendrán menos opciones.
Jueves 20 de Agosto El Jueves 29 de Agosto hay control de lectura de los tres papers asignados hasta el momento. El contrl es obligatorio pero la nota será opcional.
Jueves 12 de Septiembre El Jueves 12 se realizarán las presentaciones del informe 1 del proyecto. La idea es que cada grupo presente su proyecto en 5 minutos: objetivos, técnicas a usar, datos, herramientas, e ideas generales. Después de la presentacón se dedicarán 3 minutos a responder preguntas y comentarios.
Martes 24 de Septiembre El Informe final del proyecto deberá tener la siguiente estructura: 1. Introducción: 1.1 Contexto, 1.2 Objetivo del proyecto, 1.3 Trabajo relacionado; 2. Descripción de los Datos; 3. Método; 4.Resultados; 5.Conclusiones; 6. Anexo con detalles experimentos y otros (opcional)
Martes 24 de Septiembre Las presentaciones deben tomar 30 minutos más un tiempo adicional de 5-10 minutos para responder preguntas. En las presentaciones se evaluarán los siguientes aspectos:1-Claridad y precisión en la exposición; 2-Ejemplos: si se utilizaron buenos ejemplos para ilustrar ideas; 3-Material: calidad del material, dibujos y diagramas, etc; 4-Profundidad: nivel de comprensión de los puntos más complejos del artículo; 5-Visión Crítica del artículo.
Jueves 10 de Octubre Para el control 2 (Jueves 17 de Octubre) se evaluará la materia a partir de la clase anterior al Control 1. Materia: clustering, Web mining (algoritmos Hits y PageRank), Búsqueda de Correlaciones, y clase sobre búsqueda de patrones secuenciales. Los papers que se deben leer para el control son: "Web Mining Research: A Survey", "Mining Sequential Patterns" y "Beyond Market Basket: Generalizing Association Rules to Correlations" (ver papers en lista de lecturas asignadas).
Viernes 11 de Octubre Las presentaciones de artículos comienzan el Lunes 15 de Octubre.
Martes 22 de Octubre Los que quieren presentar con Datashow tienen dos posibilidades: 1-reservar y llevar el datashow del dcc y un laptop para realizar la preentacion en la sala de clases 2- avisarme con al menos una semana de anticipació y realizaremos la presentaciónen en el auditorio Li2 del Ed. de Electrotecnologías (si es un dia Martes), o en la sala de seminarios del mismo edificio, 2do piso (si la presentación es un dia Jueves). Si no aparece previo aviso en esta página del curso, la presentación será en la sala 29-S.
Martes 29 de Octubre Desde el próximo Jueves en adelante las preentaciones se realizarán en la sala de seminarios del dcc. El datashow y notebook están reservados con Magaly.
Miércoles 6 de Noviembre Están publicadas en esta página (ver arriba) las notas de los controles 1 y 2 (no incluye las notas del control opcional de lectura tomado antes del 1 y 2).

Presentaciones

Fecha Alumno Paper
15 Octubre Luis Felipe Piccolini Myra Spiliopoulou and Carsten Pohle. Data Mining to Measure and Improve the Success of Web Sites. Special issue of the International Journal Data Mining and Knowledge Discovery, January 2001.
15 Octubre Franco Canepa R.D. Lawrence, G.S. Almasi, V. Kotlyar, M.S. Viveros, and S.S. Duri. Personalization of Supermarket Product Recommendations. IBM Research Report.
22 Octubre Leonel Merino Iko Pramudiono, Takahiko Shintani, Katsumi Takahashi, Masaru Kitsuregawa. User Behavior Analysis of Location Aware Search Engine. Third International Conference on Mobile Data Management January, 2002
22 Octubre Sergio Acevedo R. Srikant and R. Agrawal. Mining Sequential Patterns: Generalizations and Performance Improvements, EDBT 1996
24 Octubre Sebastián Beca Shafer,Agrawal,Mehta. SPRINT: A Scalable Parallel Classifier for Data Mining. 1996.
24 Octubre Carla Paredes M. Garofalakis et al. Efficient Algorithms for constructing decision trees with constraints.
29 Octubre Jan Droguet
29 Octubre Cristián Navarro
31 Octubre Ernesto Miranda
31 Octubre José M. Infante Zhexue Huang. A Fast Clustering Algorithm to cluster very large categorical data sets in Data Mining. Research Issues on Data Mining and Knowledge Discovery, 1997.
5 Noviembre Daniel Sepúlveda S. Brin. Extracting Patterns and Relations from the World Wide Web
5 Noviembre Carolina Tapia
7 Noviembre Vicente Acuña Empirical Analysis of Predictive Algorithms for Collaborative Filtering (1998). John S. Breese, David Heckerman, Carl Kadie.
7 Noviembre Andrés Bilbao Mining the link Structure of the World Wide Web. S. Chakrabarti, B. Dom, D. Gibson, J.Kleinberg, S.R. Kumar, P. Raghavan, S. Rajagopalan y A. Tompkins.
12 Noviembre Andrés Pereira
12 Noviembre Roberto Riquelme T. Haveliwala. Efficient Computation of PageRank. 1999.
14 Noviembre Reinaldo Palma
14 Noviembre Mauricio Offermann
14 Noviembre Pedro Morales
19 Noviembre Cristián Gutiérrez
19 Noviembre Javier Gonzáles "SEGMENTATION PROBLEMS: A micro-economic view of data mining" de Kleinberg, Papadimitriou y Raghavan.


Preguntas y comentarios son bienvenidos churtado@dcc.uchile.cl