témavezető: Szűcs Gábor
helyszín (magyar oldal): Távközlési és Médiainformatikai Tanszék helyszín rövidítés: TMIT
A kutatási téma leírása:
Kutatási célkitűzések:
A strukturált adathalmazok mellett egyre gyakoribb, hogy a strukturálatlan adathalmazokon történik a tudásfeltárás, ahol lehet a cél különféle rejtett összefüggések keresése, információ tömörítés; lehetnek csoportosítási, mintaillesztési vagy predikciós feladatok. A strukturálatlan multimédia tartalmak (kép, hang, videó) különböző osztályozási és klaszterezési feladatainál olyan Data Science módszerek használhatók, melyek a gépi tanulás és látás, minta felismerés, jelfeldolgozás, adatbányászat, prediktív analitika tématerületeihez kapcsolódnak. A módszer családok közül a képek, hangok esetén előtérbe kerültek a mély neurális hálók, melyek használatával általában pontosabb eredményeket lehet kapni, így ígéretes részfeladat a továbbfejlesztésük. A cél olyan elméleti módszerek kutatása, melyek különböző médiatípusok osztályozási, klaszterezési, regressziós jellegű elemzési problémáinak megoldására alkalmasak nagy adathalmazok mellett is. Itt a heterogén tartalmakon kívül a másik nehézséget az adathalmazok nagysága okozza, melyet a Big Data technológiák által nyújtott elosztott megoldássokkal (pl. MapReduce, stb.) skálázni lehet. A nagy adathalmazokon való gyors tanulás másik lehetséges irányvonala egy olyan intelligens módszer a legmegfelelőbb minták beválogatására (szűrés) a tanuló állományba, melynél a mintanagyság függvényében maximalizálni lehet a tanulási pontosság növekedésének ütemét. Egy ilyen szűrési feladat előfordulhat offline feladatoknál, amikor egyszerre a teljes adathalmaz, illetve online feladatoknál (mint pl. streamelt videónál), amikor csak az aktuális adat áll rendelkezésre. A kutatási feladat a stream alapú technikákkal (Storm/Spark Streaming, Apache Flink, Kafka stb.) támogatott elméleti megoldások kidolgozása. A részfeladatokhoz tartozik a tartalmak célorientált reprezentálása is, ehhez a jellemző kinyerő módszerek különösen fontos szerepet töltenek be a multimédia tartalmaknál, hiszen a jellemzők tere általában nagyon sok dimenzióból áll. A sokdimenziós jellemző térben a tanítás nem hatékony, ezért dimenziócsökkentő módszerek használata mellett további feladat a távolság metrika tanuló módszerek javítása, újak kifejlesztése.
Kutatási feladatok:
- Osztályozási és klaszterezési algoritmusok kutatása strukturálatlan multimédia tartalmakhoz.
- Ismert megoldásokhoz hasonló új Data Science módszerek kidolgozása nagy adathalmazokra.
- Stream alapú problémák elméleti megoldásainak kidolgozása.
- Dimenzió csökkentő és távolság metrika tanuló módszerek kombinálása és kutatása.
előírt nyelvtudás: angol további elvárások: adatbányászat iránti érdeklődés