Universitatea Babeş-Bolyai Cluj-Napoca
Facultatea de Matematică şi Informatică
Ciclul de studii: Masterat

FISA DISCIPLINEI

Codul
Denumirea disciplinei
MIH1005 Data mining
Specializarea
Semestrul
Ore: C+S+L
Categoria
Statutul
Programare bazată pe componente - în limba engleză
3
2+0+2
specialitate
optionala
Sisteme Inteligente - în limba engleză
3
2+0+2
specialitate
optionala
Baze de date
3
2+0+2
specialitate
optionala
Sisteme distribuite în Internet
3
2+0+2
specialitate
optionala
Titularii de disciplina
Lect. Dr. CÂMPAN Alina,  alinacs.ubbcluj.ro
Obiective
Condiţiile care au favorizat dezvoltarea extensivă a data mining au fost: larga disponibilitatea a unor cantităţi mari de date, cuplată cu creşterea continuă a puterii de calcul, care a permis analizarea acestor colecţii de date. Aceste date, explorate şi analizate adecvat, pot fi transformate în informaţii şi cunoştinţe utile, în diverse domenii şi pentru diverse aplicaţii: procese decizionale, controlul proceselor, controlul producţiei, analiza pieţei, explorare ştiinţifică, gestiunea informaţiei, procesarea interogărilor.
Acest curs prezintă dezvoltările recente din domeniul descoperirii de cunoştinţe în baze de date (knowledge discovery in databases - KDD), cu focus asupra unei etape esenţiale în procesul KDD, anume data mining. Dar sunt prezentate şi alte probleme conexe data mining, relevante în procesul KDD: depozite de date, OLAP, preprocesarea datelor.
Cursul introduce concepte, metode şi tehnici data mining, din perspectiva bazelor de date. Accentul este pus asupra diferitelor funcţionalităţi (task-uri) data mining şi a soluţiilor corespunzătoare. Studenţii vor deprinde diverse tehnici de analiza datelor, şi vor aplica aceste tehnici pentru rezolvarea unor probleme data mining folosind sisteme software speciale. Se va forma o percepţie asupra data mining ca fiind un puternic domeniu aplicativ, dar şi un domeniu de cercetare semnificativ în bazele de date.
Continutul
1. Introducere
Data mining - ce este, care sunt factorii care au favorizat dezvoltarea domeniului, data mining şi procesul KDD (Knowledge Discovery in Databases)
Tipuri de date explorate în data mining
Funcţionalităţi (task-uri) data mining
Şabloane şi şabloane interesante
Data mining din persepectiva bazelor de date
2. Depozite de date şi tehnologii OLAP
Ce sunt depozitele de date
Un model de date multidimensional
Arhitectura depozitelor de date
Implementarea depozitelor de date
De la depozite de date la data mining
3. Descrierea conceptelor - caracterizare şi comparaţie
Definiţii
Generalizarea datelor şi caracterizarea bazată pe rezumare
Caracterizarea analitică: analiza relevanţei atributelor
Compararea claselor: diferenţierea claselor
Măsuri statistice descriptive în baze de date mari
4. Preprocesarea datelor
Curăţarea datelor (Data cleaning)
Transformarea şi integrarea datelor
Reducerea datelor
Discretizare şi generarea ierarhiilor de concepte
5. Descoperirea regulilor de asociere (analiza asocierilor)
Definirea problemei
Algoritmi pentru extragerea regulilor de asociere unidimensionale, booleene, din baze de date de tranzacţii - Apriori, FP-Growth
Algoritmi pentru extragerea regulilor de asociere multinivel, multidimensionale, cu constrângeri
Analiza corelaţiilor
ODM şi analiza asocierilor în ODM
6. Clasificare şi predicţie
Definirea problemei
Clasificare folosind arbori de decizie
Clasificare Bayes
Alte metode de clasificare
Predicţie - regresie lineară
Acurateţea clasificatorilor
ODM şi clasificare în ODM
7. Clusterizare (analiza clusterilor)
Definirea problemei
Tipuri de date în analiza clusterilor
Clasificarea metodelor de clusterizare
Clase de metode de clusterizare: de partiţionare, ierarhice, bazate pe densitate, bazate pe griduri, bazate pe modele
Detecţia excepţiilor (outliers)
ODM şi analiza clusterilor în ODM
8. Standarde şi software data mining - ODM, Microsoft OLE DB
9. Aplicaţii şi tendinţe in data mining
Aplicaţii: telecomunicaţii, analiza datelor financiare, analiza datelor biologice, etc.
Data mining în baze de date statistice, audio, video
Data mining, securitatea şi secretul (privacy) datelor
Bibliografie
1. Han, J., Kamber, M., Data Mining: Concepts and Techniques, 1st Edition, Morgan Kaufmann, 2000.
2. ODM (Oracle Data Mining) Documentation (electronic format).
3. P. Tan, M. Steinbach, V. Kumar, Introduction to Data Mining, Addison Wesley, 2006.
4. P. Adriaans, D. Zantinge, Data Mining, Addison-Wesley, 1996.
5. Conference and journal papers (provided by the instructor).
6. Weka system and documentation (http://www.cs.waikato.ac.nz/ml/weka/). Weka is a suite of machine learning / data mining software. It contains Java implementation for various mining algorithms, data preprocessing filters, and experimentation capabilities. Weka is free open-source software under the GNU General Public License (GPL).
Evaluare
Activitatea se încheie cu un examen scris (nota E). De-a lungul semestrului, studenţii vor realiza un raport teoretic (nota R) şi mai multe teme practice de laborator (proiecte), constând în implementarea unor algoritmi data mining (de analiza asocierilor, clasificare, analiza clusterilor) şi în efectuarea de analize ale datelor folosind unelte software speciale (nota P). Nota finală este media ponderata a celor trei note menţionate mai sus. Nota finala = 40%E + 25%R + 35%P. Studenţii care vor demonstra competenţe deosebite în cercetare, prin dezvoltarea unor proiecte spre publicare vor primi un punctaj suplimentar de 10% din Nota finala. Pentru promovare, e necesar ca nota finală să fie cel puţin 5.
Legaturi: Syllabus-urile tuturor disciplinelor
Versiunea in limba engleza a acestei discipline
Versiunea in format rtf a acestei discipline