A Magyar Tudományos Akadémia november 14-én, kedden egy igazán nagyszabású konferenciával tisztelgett a Magyar Tudomány Napja előtt: bemutatkozott az újonnan alakult Számítógépes Társadalomtudomány (Computational Social Science) témacsoport.
A kezdeményezést magától értetődően üdvözölte a magyar tudomány, hiszen a társadalomtudományi kutatások nyelvtechnológiai támogatottsága ma már nélkülözhetetlen. E tudományterületek együttműködésének az eredményességét mára számos jelentős kutatási eredmény, figyelemre méltó publikáció igazolta.
A konferencián kiváló előadásokat hallhattunk, most csupán néhányat említenék közülük.
Novák Attila (PPKE-ITK, Natural Language Processing Group) Segíthetnek-e a szóbeágyazási modellek a társadalomtudósoknak? című előadásában arról beszélt, hogy milyen elemzési lehetőségeket adnak a szóbeágyazási modellek a különböző szövegek szemantikai tartalmának feltárására. Számos, rendkívül érdekes ábrát mutatott olyan fogalmi összefüggésekről, amelyek e megoldással ismerhetőek meg.
Persze mi is ki szeretnénk próbálni a módszert az újonnan elkészült orosz nyelvű korpuszunkon, és ugyancsak új orosz nyelvű emóció- és szentimentszótárunkkal! Már régóta komolyan bele szeretnénk vetni magunkat az emóciók és a funkciószók összefüggéseinek a vizsgálatába, és most úgy gondoltuk, megpróbáljuk ezt szóbeágyazási modellek segítségével.
Varjú Zolival azt feltételezzük, hogy az emóciók és a funkciószók hasonló mintázatot fognak rajzolni a térben, lévén, hogy Pennebaker (2011) alapján e két nyelvi jelenség számos fontos összefüggést mutat.
Hamarosan elmondjuk, mire jutottunk.
Magam munkatársaimmal, Takács Károllyal (az MTA TK RECENS Kutatócsoport vezetője) és Galántai Júliával (az MTA TK RECENS Kutatócsoport tudományos segédmunkatársa) egy nagy méretű, magyar spontán beszélt nyelvi adatbázis, a HuTongue létrehozásáról számoltam be, a következő előadásunkban: A pletyka a társas rend szolgálatában. Az informális kommunikáció szerkezetének mélyebb megértéséért a Computational Social Science eszközeivel.
A körülbelül 500 órányi hanganyagon feldolgozása a következő munkafolyamatokból áll: a verbális közlések rögzítéséből, a nem verbális hanghatások kódolásából, valamint egy, a kutatás szempontjából kardinális, szemantikai‒pragmatikai jellegű sajátság jelöléséből. Mindez egy rendkívül komplex feldolgozási folyamattá áll össze, amelytől azt reméljük, hogy a kutatási kérdés, vagyis a pletyka sokrétű és automatikus megoldásokkal hatékonyan támogatott vizsgálatát fogja lehetővé tenni a a jövőben.
Az előadásban érveltünk a korpuszok társadalomtudományi jelentősége mellett, majd indokoltuk a HuTongue korpusz létrehozását. Bemutattuk, milyen automatikus feldolgozási lépéseket tervezünk a HuTongue korpuszon, és ismertettük a korpusz adatait, a létrehozás menetét, eszközét és módszerét. Ezt követően szóltunk arról, milyen megoldásokkal tervezzük a pletykát azonosítani és annak szövegkörnyezetét elemezni a korpuszban. Végezetül, a továbblépési lehetőségek között tárgyaltuk azokat a további társadalomtudományi kérdéseket, amelyek vizsgálata megvalósulhat a HuTongue korpusz létrejöttével.
Simon Eszter (az MTA Nyelvtudományi Intézet tudományos munkatársa) a Magyar nyelvtechnológiai infrastruktúra a társadalomtudományok szolgálatában című előadásában olyan nyelvfeldolgozó eszközöket mutatott be, amelyek fontos támogatói lehetnek a különböző társadalomtudományi kutatásoknak.
A rendezvényt Péli Gábor, az MTA TK főigazgató-helyettese foglalta össze és zárta, a Számítógépes Társadalomtudomány témacsoport további tevékenységeire vonatkozó gondolataival.
Mi már nagyon várjuk a folytatást!
IRODALOM
Pennebaker, James W. 2011. The Secret Life of Pronouns: What Our Words Say About Us. USA, Bloomsbury.