November 27-én tartjuk következő meetupunkat, 18:00 kezdéssel, a megszokott Colabs-ben. Továbbra is ingyenes a rendezvény, de arra kérünk mindenkit, regisztráljon és jelezze részvételét meetup oldalunkon. Mivel sokan kérték, hogy mutassuk be a magyar nyelvre elérhető eszközöket, Recski Gábor szervezőtársam összeszedte ezeket nektek és készítőik ötperces bemutatókon keresztül ismertetik is ezeket.
A program:
Simon Eszter (MTA Nyelvtudományi Intézet):
A hun* eszközlánc szószintű feldolgozó eszközei
A hun* eszközláncot a BME MOKK fejlesztői hozták létre azzal a céllal, hogy segítségükkel természetes nyelvi szövegeket lehessen feldolgozni a legalapvetőbb lépésektől akár a magasabb szintű elemzésekig. Az előadásban bemutatjuk a huntokent, amely a bemenő szabad szöveget alapegységekre (szavakra és mondatokra) bontja. Aztán szó lesz a hunmorphról és a hunposról, amelyekkel a már szóként azonosított egységekhez komplett és egyértelmű morfológiai elemzést rendelhetünk, amely az olyan erősen ragozó nyelveknél, mint a magyar a következő nyelvfeldolgozó lépések fontos előfeltétele.
Szekvenciális elemzők: a hunner és a hunchunk
A címben szereplő eszközök a hun* eszközláncnak olyan elemei, amelyek nem szószintű elemzést hajtanak végre, hanem nyelvi elemek szekvenciáit azonosítják be. A háttérrendszer ugyanaz minden szekvenciális címkézési feladathoz, de eddig két területre alkalmaztuk: tulajdonnév-felismerésre (named entity recognition) és sekély szintaktikai elemzésre (chunking). Az előadásban elsősorban azt mutatjuk be, hogy a rendszer hogyan használható erre a két feladatra.
Miháltz Márton (MTA Nyelvtudományi Intézet):
Közösségimédia-szövegek feldolgozásához adaptált Hun* eszközök
A Facebookon publikusan elérhető posztok és kommentek szövegei remek forrást nyújtanak véleményelemzéshez, viszont a sztenderd írott nyelvtől eltérő nyelvezet kihívás elé állítja az elérhető magyar NLP eszközöket. Bemutatjuk a huntoken, hunmorph és hunpos eszközökhöz készült, SM nyelvezetet támogató, szabadon bővíthető open source kiegészítéseinket.Orosz György (PPKE Információs Technológiai és Bionikai Kar):
Egy adaptálható morfológiai egyértelműsítő rendszer
Magyar nyelv esetén szavak szófaji címkéinek megállapításán túl egy másik fontos előfeldolgozó lépés a szótövek meghatározása. Az előadásban ismertetjük a nyílt forráskódú PurePos rendszert, mely ezt az összetett feladatot oldja meg nagy pontossággal. Bemutatjuk még az eszköz rugalmas felépítését, mely által alkalmassá válhat különleges domének elemzésére is.
Vincze Veronika (MTA-SZTE Mesterséges Intelligencia Kutatócsoport):
Nyelvi elemzők Szegedről: morfológia, szintaxis, tulajdonnevek és többszavas kifejezések
A magasabb rendű nyelvtechnológiai alkalmazások számára alapvető fontosságú a szövegek nyelvi (morfológiai és szintaktikai) elemzése. Ezen felül hasznos a tulajdonnevek felismerése és az ún. többszavas kifejezések azonosítása, melyek sajátos jelentésük és viselkedésük miatt speciális kezelést kívánnak meg számos alkalmazásban, például információkinyerésben vagy gépi fordításban. Előadásunkban bemutatjuk a szegedi NLP-csoport nyelvi elemző eszközeit: a magyarlanc nevű morfológiai és függőségi elemzőt, angol és magyar nyelvű tulajdonnév-azonosító rendszerünket, továbbá többszavas kifejezéseket több nyelven azonosító rendszerünket.
Farkas Richárd (SZTE Számítógépes Algoritmusok és Mesterséges Intelligencia Tanszék):
Információk automatikus kiemelése magyar nyelvű szövegekből
Röviden bemutatjuk az információkinyerő rendszerünket, amely képes nagy méretű szöveghalmazokból automatikusan bizonyos célinformációkat (pl. ki, mikor, mit csinált) egy strukturált adatbázisba kiemelni. A feladat csak mély szintaktikai elemzés felhasználásával oldható meg.
Pólya Tibor (MTA Természettudományi Kutatóközpont, Kognitív Idegtudományi és Pszichológiai Intézet, KRE BTK Pszichológiai Intézet):
Regresszív Képzeleti Szótár
A Regresszív Képzeleti Szótárt Colin Martindale dolgozta ki a szöveg keletkezésekor domináló gondolkodási mód azonosítására. Az elemzési eljárás pszichológiai validitását empirikus kutatások sora igazolja. A magyar változatot Pólya Tibor és Szász Levente Péter készítette el (MTA TTK KPI).
Narratív kategorikus tartalomelemzés
A NarrCat a történetek tartalmának és szerkezetének automatikus elemzésére kidolgozott eljárás. A NarrCatot számos kutatásban alkalmaztuk a személyes és a szociális identitás vizsgálatára. A NarrCatot az MTA TTK KPI Narratív Pszichológiai Kutatócsoportja és a PTE Pszichológiai Intézete dolgozta ki a Morphologic Kft., az MTA Nyelvtudományi Intézet Nyelvtechnológiai Kutatócsoportja és a SZTE Mesterséges Intelligencia Kutatócsoportja közreműködésével.
Szekeres Péter (Neticle):
Webes vélemények egyetlen grafikonba sűrítve
A bemutatkozásban megnézzük, hogy hogyan lehet a social tartalomgyűjtés és az NLP ötvözésével 1 gombnyomásra legenerálható üzleti kimutatásokat készíteni a Neticle rendszerben.