MIH1005 | Data mining |
Titularii de disciplina |
Lect. Dr. CÂMPAN Alina, alinacs.ubbcluj.ro |
Obiective |
Condiţiile care au favorizat dezvoltarea extensivă a data mining au fost: larga disponibilitatea a unor cantităţi mari de date, cuplată cu creşterea continuă a puterii de calcul, care a permis analizarea acestor colecţii de date. Aceste date, explorate şi analizate adecvat, pot fi transformate în informaţii şi cunoştinţe utile, în diverse domenii şi pentru diverse aplicaţii: procese decizionale, controlul proceselor, controlul producţiei, analiza pieţei, explorare ştiinţifică, gestiunea informaţiei, procesarea interogărilor.
Acest curs prezintă dezvoltările recente din domeniul descoperirii de cunoştinţe în baze de date (knowledge discovery in databases - KDD), cu focus asupra unei etape esenţiale în procesul KDD, anume data mining. Dar sunt prezentate şi alte probleme conexe data mining, relevante în procesul KDD: depozite de date, OLAP, preprocesarea datelor. Cursul introduce concepte, metode şi tehnici data mining, din perspectiva bazelor de date. Accentul este pus asupra diferitelor funcţionalităţi (task-uri) data mining şi a soluţiilor corespunzătoare. Studenţii vor deprinde diverse tehnici de analiza datelor, şi vor aplica aceste tehnici pentru rezolvarea unor probleme data mining folosind sisteme software speciale. Se va forma o percepţie asupra data mining ca fiind un puternic domeniu aplicativ, dar şi un domeniu de cercetare semnificativ în bazele de date. |
Continutul |
1. Introducere
Data mining - ce este, care sunt factorii care au favorizat dezvoltarea domeniului, data mining şi procesul KDD (Knowledge Discovery in Databases) Tipuri de date explorate în data mining Funcţionalităţi (task-uri) data mining Şabloane şi şabloane interesante Data mining din persepectiva bazelor de date 2. Depozite de date şi tehnologii OLAP Ce sunt depozitele de date Un model de date multidimensional Arhitectura depozitelor de date Implementarea depozitelor de date De la depozite de date la data mining 3. Descrierea conceptelor - caracterizare şi comparaţie Definiţii Generalizarea datelor şi caracterizarea bazată pe rezumare Caracterizarea analitică: analiza relevanţei atributelor Compararea claselor: diferenţierea claselor Măsuri statistice descriptive în baze de date mari 4. Preprocesarea datelor Curăţarea datelor (Data cleaning) Transformarea şi integrarea datelor Reducerea datelor Discretizare şi generarea ierarhiilor de concepte 5. Descoperirea regulilor de asociere (analiza asocierilor) Definirea problemei Algoritmi pentru extragerea regulilor de asociere unidimensionale, booleene, din baze de date de tranzacţii - Apriori, FP-Growth Algoritmi pentru extragerea regulilor de asociere multinivel, multidimensionale, cu constrângeri Analiza corelaţiilor ODM şi analiza asocierilor în ODM 6. Clasificare şi predicţie Definirea problemei Clasificare folosind arbori de decizie Clasificare Bayes Alte metode de clasificare Predicţie - regresie lineară Acurateţea clasificatorilor ODM şi clasificare în ODM 7. Clusterizare (analiza clusterilor) Definirea problemei Tipuri de date în analiza clusterilor Clasificarea metodelor de clusterizare Clase de metode de clusterizare: de partiţionare, ierarhice, bazate pe densitate, bazate pe griduri, bazate pe modele Detecţia excepţiilor (outliers) ODM şi analiza clusterilor în ODM 8. Standarde şi software data mining - ODM, Microsoft OLE DB 9. Aplicaţii şi tendinţe in data mining Aplicaţii: telecomunicaţii, analiza datelor financiare, analiza datelor biologice, etc. Data mining în baze de date statistice, audio, video Data mining, securitatea şi secretul (privacy) datelor |
Bibliografie |
1. Han, J., Kamber, M., Data Mining: Concepts and Techniques, 1st Edition, Morgan Kaufmann, 2000.
2. ODM (Oracle Data Mining) Documentation (electronic format). 3. P. Tan, M. Steinbach, V. Kumar, Introduction to Data Mining, Addison Wesley, 2006. 4. P. Adriaans, D. Zantinge, Data Mining, Addison-Wesley, 1996. 5. Conference and journal papers (provided by the instructor). 6. Weka system and documentation (http://www.cs.waikato.ac.nz/ml/weka/). Weka is a suite of machine learning / data mining software. It contains Java implementation for various mining algorithms, data preprocessing filters, and experimentation capabilities. Weka is free open-source software under the GNU General Public License (GPL). |
Evaluare |
Activitatea se încheie cu un examen scris (nota E). De-a lungul semestrului, studenţii vor realiza un raport teoretic (nota R) şi mai multe teme practice de laborator (proiecte), constând în implementarea unor algoritmi data mining (de analiza asocierilor, clasificare, analiza clusterilor) şi în efectuarea de analize ale datelor folosind unelte software speciale (nota P). Nota finală este media ponderata a celor trei note menţionate mai sus. Nota finala = 40%E + 25%R + 35%P. Studenţii care vor demonstra competenţe deosebite în cercetare, prin dezvoltarea unor proiecte spre publicare vor primi un punctaj suplimentar de 10% din Nota finala. Pentru promovare, e necesar ca nota finală să fie cel puţin 5. |
Legaturi: | Syllabus-urile tuturor disciplinelor Versiunea in limba engleza a acestei discipline Versiunea in format rtf a acestei discipline |