Universitatea Babeş-Bolyai Cluj-Napoca
Facultatea de Matematică şi Informatică
Ciclul de studii: Masterat

FISA DISCIPLINEI

Codul
Denumirea disciplinei
MIH1010 Procesarea adaptivă a datelor
Specializarea
Semestrul
Ore: C+S+L
Categoria
Statutul
Optimizarea modelelor informatice - în limba maghiară
4
2+1+0
specialitate
optionala
Titularii de disciplina
Conf. Dr. CSATO Lehel,  csatolcs.ubbcluj.ro
Obiective
Cursul prezintă metode de procesare a datelor bazate pe modele probabilistice şi de modele avansate din instruirea automată a datelor. Sunt prezentate metode de clasificare, de regresie, de clustering.
Continutul
Cursul de modelare stohastică a datelor se ocupă cu aplicarea – pentru diferite tipuri de date – al unor algoritmi care folosesc modele stohastice.
Pe durata cursului accentul se va pune pe aplicarea algoritmilor şi analiza datelor – a caracteristicilor – pe care vrem să modelăm. Am vrea să folosim un anumit algoritm pentru date discrete şi una alta pentru cele continue. În pofida faptului că mai multe date înseamnă mai multă informaţie, dar pentru extracţia informaţiei necesită de obicei o cunoştinţă prealabilă – a-priori knowledge – despre model. Vrem să alegem un tip de algoritmi dacă avem multe observaţii şi un altfel dacă sunt disponibile numai câteva dintre acestea. De exemplu metode statistice sunt bune la foarte multe date în timp ce pentru puţine observaţii suntem nevoiţi să efectuăm o analiză a problemei şi rezultatul să-l includem ca precondiţii sau cunoştinţe a-priori în modelul al căror parametri aproximăm. Putem clasifica algoritmii şi după tipul problemelor pe care le rezolvă: să folosim un algoritm care s-a dezvoltat pentru clasificare pentru o problemă de clasificare, adică nu vrem să folosim algoritmi pentru date continue când avem de-a face cu date discrete. În acest context cursul se propune a fi o introducere avansată în modele din domeniul instruirii automate a maşinilor (machine learning) şi are ca obiectiv familiarizarea studenţilor cu folosirea modelelor care conţin variabile aleatoare respectiv a modelelor stohastice.


Tematica cursurilor:
• Analiza bazată pe componente (săpt 1-4) bib. [2,4,8,9]:
• Bazele modelării statistice – matrici, valori proprii şi vectori proprii [9],
• Componente principale şi utilizarea în curăţarea semnalelor [2,4],
• Componente independente – aplicaţii în separarea semnalelor [8].

• Modelare Bayesiană (săpt 5-7) bib. [1,2,3,4]:
• Introducere în diferite tipuri de estimare [1,2], (2 h.)
• Specificare ierarhică a parametrilor unor modele şi estimarea parametrilor [1,4],
• Modelare Bayesiană: densităţile posterioare şi predictive [3,4],

• Modele Markov Ascunse (HMMs) (săpt 8-11) bib. [6,7]:
• Definiţiile HMM-urilor [6],
• Estimarea stărilor neobservabile [6],
• Aplicaţii ale HMM-urilor în (1) procesarea sunetului [6,7],
• Aplicaţii ale HMM-urilor în (2) segmentarea ADN-urilor [6,7].

• Modele de Procese Gaussiene (săpt 12-14) bib. [4,5]:
• Distribuţii Gaussiene multidimensionale, funcţii kernel [3,4,5],
• Metode de aproximare: distanţa KL, aproximaţii rare,
• Aplicaţii ale inferenţei cu procese Gaussiene.
Bibliografie
[1]. Russell S, Norvig P. (2003) Artificial Intelligence: A Modern Approach (Second Edition), Prentice Hall.
[2]. Mitchell T (1997) Machine Learning, McGraw Hill.
[3]. Bernardo J.M, Smith A.F.M (2000) Bayesian Theory, John Wiley & Sons.
[4]. MacKay D.J.C (2003) Information Theory, Inference and Learning Algorithms, Cambridge University Press, HTTP: http://wol.ra.phy.cam.ac.uk/mackay/itila/book.html.
[5]. Rasmussen C.E, Williams C.K.I (2006) Gaussian Processes for Machine Learning, The MIT Press.
[6]. Rabiner L.R, Juang, B.H (1986) An introduction to Hidden Markov models, IEEE ASSP Magazine, pp: 4-15.
[7]. Durbin R, Eddy S.R, Krogh A, Mitchison G (1999) Biological Sequence Analysis: Probabilistic Models of Proteins and Nucleic Acids. Cambridge University Press.
[8]. Hyvärinen A, Karhunen J, Oja E (2001) Independent Component Analysis, Wiley-Interscience.
[9]. Barto A. (2002): Statistical Pattern Recognition, John Wiley & Sons.
Evaluare
Nota finală va fi compusă din
- (40%) o prezentare a unei metode aleasă în primele şase săptămâni,
- (20%) participare şi rezolvare a problemelor de laborator,
- (40%) examen oral din tematica cursului şi a seminariilor prezentate de studenţi.
Legaturi: Syllabus-urile tuturor disciplinelor
Versiunea in limba engleza a acestei discipline
Versiunea in format rtf a acestei discipline