Ezek csak szavak - amik rólunk árulkodnak

2014.04.24. 13:23 Szerző: Zoltán Varjú Címkék: nyelvtechnológia szentimentelemzés emócióelemzés Pennebaker

A szentimentelemzés vagy polaritásmérés az utóbbi öt évben rendkívül felkapott lett - mi is imádjuk. De mindig akad egy de! Ma két iskola működik, az egyik az ún. szótáras, a másik pedig a klasszifikációs módszer híve. Mindkettőnek megvannak a maga erősségei és gyengéi is. Jó hír: talán akad jobb!

A klasszifikációs módszer lényege, hogy egy sok-sok példát tartalmazó korpuszt készítünk, ami felsorol sok negatívnak, pozitívnak ill. semlegesnek ítélt mondatot. Ilyen pl. Miháltz Márton remek OpinHuBank korpusza a magyar nyelvre. Nézzük meg a leggyakoribb szavakat a pozitív példákból!

Screenshot from 2014-04-24 10_09_49.png

Vessünk egy pillantás a negatív példák leggyakoribb szavaira is!

Screenshot from 2014-04-23 20_15_13.png

Reméljük két dolog egyből látszik:

a példák híroldalakról és blogokról származnak
nagy az átfedés a leggyakoribb szavak között

Nyilván a klasszifikációt végző algoritmus (általában naív Bayes, vagy annak valamilyen változata) nem ezen szavak alapján dönti el, hogy melyik osztályba soroljon egy-egy mondatot, hanem a gyakorisági listán hátrébb szereplő szavakat vizsgálgatja. Csakhogy ezek vagy nagyon területspecifikusak, vagy túl általánosak. Éppen ezért a tanuló algoritmusokon alapuló szentimentelemzők általában spéci, az adott területhez készített korpuszt használnak.

A másik iskola szótárakat használ, melyek inkább szólisták egy-egy adott szentimenthez. Az "elemzés" lényege az, hogy megszámolják az elemzett szövegben a listákon szereplő szavak arányát. Itt gondot szokott okozni a tagadás (pl. az "Ez a könyv jó" és az "Ez a könyv nem jó" mondatok polaritása tutira ellentétes a tagadás miatt) és egyéb finomságok. Persze ezek jelentős részét lehet kezelni valamennyire, viszont itt is a területspecifikusság problémája merül fel (ennek legtöbbet idézett írása a pénzügyi területen született When is a Liability not a Liability? Textual Analysis, Dictionaries, and 10-Ks tanulmány). Érthetőbben pozitív-e a növekedés? Ha nő a cégünk az pozitív, de ha nő a költségvetés hiánya, az bizony aggasztó (persze pl. egyes keysiánusoknál ez megint lehet pozitív polaritású is).

A kérdés az, akad-e általános eszköz szentimentelemzésre? Blogunkon már többször foglalkoztunk Pennebaker megközelítésével, ami a hagyományos stopszószűrés után megmaradó tartalmas szavak elemzése helyett a funkciószavak arányaira figyel. A Counting Little Words in Big Data c. riportban Pennebaker és szerzőtársa remekül összefoglalja milyen lehetőségek rejlenek ebben a megközelítésben. A funkciószavak ugyanis nem nagyon változtatják jelentésüket a különböző regiszterekben - reméljük, hogy egy jogász ugyanazt érti alatta, mint én és a háziorvosom. A megközelítés további előnye, hogy nem csak a lassan szűkössé váló pozitív, semleges, negatív osztályozást, hanem az emócióelemzést, sőt a beszélők szegmentálását is lehetővé teszi! (L. erről a blog egyik szerzőjének Twitter-fiókján végzett elemzésünket.) Úgy tűnik érdemes számolni a szavakkal!

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

https://kereses.blog.hu/api/trackback/id/tr726081733

Kommentek:

A hozzászólások a vonatkozó jogszabályok értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.

HTML

Precognox

Precognox Blogkereső

opendata.hu

Facebook oldaldoboz

Blog figyelése (RSS)

Érdekes oldalak

Star Wars text mining

Főbb témák

Archívum

Belépés

A blog tartalmai CC licenc alá tartoznak

Big Data - Keresés - Számítógépes nyelvészet - Szövegbányászat - Gépi tanulás - NLP Meetup - Precognox

Ezek csak szavak - amik rólunk árulkodnak

2014.04.24. 13:23 Szerző: Zoltán Varjú Címkék: nyelvtechnológia szentimentelemzés emócióelemzés Pennebaker

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

Kommentek:

HTML

Precognox

Precognox Blogkereső

opendata.hu

Facebook oldaldoboz

Blog figyelése (RSS)

Érdekes oldalak

Star Wars text mining

Főbb témák

Archívum

Belépés

A blog tartalmai CC licenc alá tartoznak

Big Data - Keresés - Számítógépes nyelvészet - Szövegbányászat - Gépi tanulás - NLP Meetup - Precognox

Ezek csak szavak - amik rólunk árulkodnak

2014.04.24. 13:23 Szerző: Zoltán Varjú Címkék: nyelvtechnológia szentimentelemzés emócióelemzés Pennebaker

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Ajánlott bejegyzések:

A bejegyzés trackback címe:

Kommentek: