Login
 Forum
 
 
Thesis topic proposal
 
Gábor Szűcs
Adat- és multimédiabányászati módszerek kutatása

THESIS TOPIC PROPOSAL

Institute: Budapest University of Technology and Economics
computer sciences
Doctoral School of Informatics

Thesis supervisor: Gábor Szűcs
Location of studies (in Hungarian): Távközlési és Médiainformatikai Tanszék
Abbreviation of location of studies: TMIT


Description of the research topic:

Az adatbányászat adathalmazokon történő tudásfeltárással foglalkozik, ahol lehet a cél különféle rejtett összefüggések keresése, információ tömörítés; lehetnek csoportosítási, mintaillesztési vagy predikciós feladatok. Az adatbányászat területén az adatok közti kapcsolatok feltérképezésének egyik eszköze a többváltozós statisztikai analízis egy regressziós modell felállításával, ahol a regressziós függvény lehet lineáris, logisztikus, stb. Az adatbányászatban felhasználható módszerek főleg a statisztikából származtathatók, ilyen a faktoranalízis, főkomponens elemzés; de pl. az osztályozáshoz más módszerek is használhatók (pl. a döntési fák). A döntési fa eszközös megoldás továbbfejlesztése az egyik megoldandó feladat a kutatási munkában. Jelenleg is folynak a kutatások ezen a területen, pl. hol optimális elvégezni a vágásokat a döntési fában, hogyan lehet automatizálni néhány paramétert a CHAID (Chi-squared Automatic Interaction Detection) eljárással.
A multimédiabányászatban a különböző médiatípusok (hang, kép, videó) klaszterezési, osztályozási feladataihoz elkerülhetetlen a diszkretizálási lehetőségek alapos vizsgálata és a feladathoz illeszkedő legjobb módszer kiválasztása. Cél a meglevő módszerek, mint pl. az entrópia alapú diszkretizálás, multi-intervallum diszkretizálás klaszter hasznosság kritériummal, ill. MLD alapú kritériummal, Chi-Merge alapú diszkretizálás kombinálása, továbbfejlesztése.
Ezeken kívül szövegfeldolgozó, szövegelemzési algoritmusok kutatására is lehetőség nyílik a szövegbányászat témakörben. Itt az előkészítő lépések (tokenizálás, stopszó szűrés, szótövezés) után különböző szövegosztályozási feladatokra kell új, illetve javított módszereket kidolgozni. Nagyszámú dimenziók miatt fontos a dimenzió csökkentő megoldások (PCA, ICA, továbbá szemi-klasszikus módszerek, spektrál elméleten alapuló módszerek) használata, ezeket különböző tulajdonságok alapján lehet analizálni: konzisztencia, konvergencia sebesség, teljesség, robosztusság.

Required language skills: angol nyelv
Further requirements: 
statisztika iránti érdeklődés

Number of students who can be accepted: 1

Deadline for application: 2015-01-05


2024. IV. 17.
ODT ülés
Az ODT következő ülésére 2024. június 14-én, pénteken 10.00 órakor kerül sor a Semmelweis Egyetem Szenátusi termében (Bp. Üllői út 26. I. emelet).

 
All rights reserved © 2007, Hungarian Doctoral Council. Doctoral Council registration number at commissioner for data protection: 02003/0001. Program version: 2.2358 ( 2017. X. 31. )