A Kaposváron rendezett céges Hackathonon az egyik részprojektünk volt, hogy a cégünk által készített magyar GATE plugint a szentiment- és emóciószótárainkkal kiegészítsük, biztosítva ezzel a magyar nyelvű szövegek automatikus szentiment- és emócióelemzését a GATE-en keresztül. Emellett arra is kísérletet tettünk, hogy az elemzést névelemek automatikus felismertetésével (named entity recognition) is kiegészítsük, gazetteerek alapján. A jelen posztban az izgalmas vállalkozás menetéről és tapasztalatairól számolunk be röviden.
Azok, akik szeretnének többet megtudni a GATE nyílt forrású nyelvfeldolgozó eszközről, tekintsék meg a szoftver honlapját itt.
A projektet egy kisebb csapatban végeztük, a csapat munkáját Kulcsár Ádám kollégámmal hangoltuk össze. Minden csapattag nagyon kooperatív és ügyes volt, ezúton is köszönet a hatékony együttműködésért!
A projekthez a tesztszövegeinket először a magyarlánc eszköz segítségével mondatra bontottuk és tokenizáltuk.
A teszteléshez olyan szövegeket kerestünk, amelyek benyomásunk szerint sok szentimentet és emóciót tartalmaznak (pl. blogszövegek).
Ezt követően betettük a GATE-be a szentiment- és az emóciószótárainkat, majd azokat a mondatra bontott és tokenizált szövegeken működésre bírtuk.
Ezúton jeleznénk, hogy a szótárainkat a közeljövőben szabadon elérhetővé szeretnénk tenni kutatási célokra. A szentimentszótárunk egy negatív és egy pozitív szentimentkifejezéseket tartalmazó, összesen közel 10 ezer elemből álló lexikon. Az emóciószótárunk jelenleg két verzióban létezik. Az első változatot az arcon megfigyelhető hat alapemócióra építve hoztuk létre, míg a másodikban az emóciókorpuszunk manuális annotálásának tapasztalatai alapján nyolc érzelemkategóriába rendeztük a kifejezéseket. A publikálás során mindkét változatot szeretnénk nyilvánossá tenni.
Alább azt láthatjuk, hogyan elemezhető egy szöveg a szentimentszótárunkkal...
... Itt pedig az, mi történik, ha a nyolcas kategóriarendszerű emóciószótárunkat használjuk, például a bánat, a harag és az öröm kifejezéseinek megtalálására:
A névelem-felismerést még tovább szeretnénk fejleszteni, ugyanis a tesztelések során nem várt problémákat tapasztaltunk. Remélhetőleg azonban ez az eszköz is hamarosan bekerülhet a pipeline-ba.