Mit árul el rólad a Twitter fiókod?

2013.07.30. 08:00 Szerző: Zoltán Varjú Címkék: nyelvtechnológia korpusznyelvészet Twitter emócióelemzés Pennebaker

A közösségi médiában szeretünk ismerős és ismeretlen emberekkel csevegni, magvas és kevésbé magvas gondolatokat megosztani, vagy csak időtöltésből írogatni. De mit árulunk el magunkról eközben? Mivel a Twitter lehetővé teszi, hogy letöltsük saját adatainkat s így a szerző saját fiókját (@zoltanvarju a továbbiakban mint "alany" hivatkozunk rá) elemezve keresi erre a választ. Először megnézzük, milyen eredményekre vezet minket a legelemibb elemzés, majd kitérünk arra, hogy ez mennyire fedi a valóságot.

Saját csiripek beszerzése

A Twitter a személyes beállítások alatt teszi elérhetővé a csiripek archívumát. A "Request your archive" gombra kattintva kérhetjük ezek letöltését.

Miután rákattintottunk a gombra, a Twitter nyugtázza nekünk ezt. Változó, hogy kinek mennyi időt kell várnia (az azonnali letöltéstől a két órás várakozásig tartó intervallummal számoljunk).

Az archívum elkészültéről e-mailben értesít minket a szolgáltató.

A letöltött archívum egy tömörített mappa, ami alapvetően egy html oldalt is tartalmaz, ezen böngészhetjük csiripjeinket. A "data" mappában találjuk a tweeteket tartalmazó JSON fájlokat év_hónap.js séma szerinti nevek alatt. Vizsgálatunkhoz az alany 2009 január és 2013 június között írt tweetjeit elemeztük az archívumból.

Lexikai elemzés

Automatikus nyelvfelismerés használatával azt találtuk, hogy az alany két nyelven, angolul és magyarul csiripel. Az angol nyelvű posztok aránya 77%, miután kiszűrtük a linkeket tartalmazó tartalmakat (azzal a feltételezéssel élve, hogy ezek nem saját tartalmak, hanem hírmegosztások) azt találtuk, hogy a tartalom kétharmada angol, a maradék pedig magyar nyelvű. Egy átlagos tweet 13.98 szóból áll, ami 15.88 az angol és 11.3 a magyar csiripek esetében.

A lexikai diverzitás egy olyan mérőszám, amivel egy adott szöveg választékossága jellemezhető. Ezt úgy kapjuk meg, hogy a szöveg összes szavának számát (token) elosztjuk az egyedi szavak számával (type). Pl. a híres "lenni vagy nem lenni" idézetben négy token található és három típus, így lexikai diverzitása 1.33. Azt találtuk, hogy mindkét nyelv esetében 107 feletti értéket mutatnak a vizsgált alany nyelvi megnyilatkozásai, amire a linket tartalmazó megosztások sincsenek hatással. Ez egy minimum középiskolai végzettséggel rendelkező felnőtt lexikai diverzitásának felel meg, ami alapján eddig arra jutottunk, hogy alanyunk átlagos nyelvhasználó.

Ezután egyszerű szógyakorisági vizsgálatot végeztünk. Ehhez a szöveget megtisztítottuk a linkektől és minden nem-betű karaktertől, majd minden karaktert kisbetűre alakítottunk, végül pedig mind az angol, mind a magyar stopszavakat kiszűrtük. Az alábbi ábrán a huszonöt leggyakrabban használt szó látható.

Érdekes, hogy habár a korpusz 23%-a magyar nyelvű, egy magyar szó sem került fel a listára.

Minimalista networkelemzés

Aki újra oszt egy adott tartalmat, arra valószínűleg valahogy hatott az. Nézzük meg alanyunk, mely felhasználók csiripeléseit szokta re-tweetelni.

A fenti táblázathoz nagyon hasonlót kapnánk a @TheEconomist és @PhilSciArchive nélkül, ha azt vizsgálnánk kikkel beszélget a legtöbbet a felhasználó.

Pszichológiai profilozás

Találomra kiválasztottunk hat angol tweetet és az LIWC program online elérhető változatával elemeztük, ennek eredményét mutatja az alábbi ábra.

Az eredmények értelmezéséhez Pennebaker elméletéhez fordultunk (amiről bővebben Nekünk elmélet kell! és A tweet a lélek tükre című posztjainkban tudhat meg a kedves olvasó). Feltesszük, hogy a tweetek többsége személyes hangvételű (bővebben l. Milyen is az internet nyelve című írásunkat) ezért a "Personal Texts" oszloppal vetjük össze a kapott értékeket. Az önreferenciális (Self-references) szavak magas és a kognitív kifejezések (Overall cognitive words) alacsony aránya arra utal, hogy a szerző férfi. A nagy szavak (Big words) használata jelezheti az alábbiakat (egyiket vagy akár mindegyiket); felnőtt, iskolázott, magas státuszú. (Bővebben erről l. Pennebaker The Secret Life of Pronouns c. könyvét) A LIWC teljes változatát használva az összes angol tweet elemzésére is a fentihez nagyon hasonló eredményt kapunk, ami azt mutatja hogy viszonylag kis szövegrészleten is jól működik ez az elemzés.

Mit tudunk az alanyról

Az alany 31 éves férfi, aki logikát és matematikai nyelvészetet tanult, jelenleg a Precognox Kft. számítógépes nyelvésze. Az egyszerű szógyakoriság nagyon jól tükrözi érdeklődési köreit, a pszichológiai profilozás pedig megadja alapvető demográfiai jellemzőit is. Látható, pusztán szöveges tartalmak elemzésével az alanyról jó profilt tudtunk alkotni. Az alapvető networkelemzés is ezt támasztja alá, hiszen főleg logikával, számítógépes nyelvészettel, funkcionális programozással és gépi tanulással foglalkozó felhasználókat követ.

Szavakat számoltunk és arra jutottunk, hogy egész jó jellemzését tudjuk adni egy felhasználónak. Könnyű belátni, hogy további elemzésekkel egy teljes profilt is készíthetünk.

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

https://kereses.blog.hu/api/trackback/id/tr95430107

Kommentek:

A hozzászólások a vonatkozó jogszabályok értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.

HTML

Precognox

Precognox Blogkereső

opendata.hu

Facebook oldaldoboz

Blog figyelése (RSS)

Érdekes oldalak

Star Wars text mining

Főbb témák

Archívum

Belépés

A blog tartalmai CC licenc alá tartoznak

Big Data - Keresés - Számítógépes nyelvészet - Szövegbányászat - Gépi tanulás - NLP Meetup - Precognox

Mit árul el rólad a Twitter fiókod?

2013.07.30. 08:00 Szerző: Zoltán Varjú Címkék: nyelvtechnológia korpusznyelvészet Twitter emócióelemzés Pennebaker

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

Kommentek:

HTML

Precognox

Precognox Blogkereső

opendata.hu

Facebook oldaldoboz

Blog figyelése (RSS)

Érdekes oldalak

Star Wars text mining

Főbb témák

Archívum

Belépés

A blog tartalmai CC licenc alá tartoznak

Big Data - Keresés - Számítógépes nyelvészet - Szövegbányászat - Gépi tanulás - NLP Meetup - Precognox

Mit árul el rólad a Twitter fiókod?

2013.07.30. 08:00 Szerző: Zoltán Varjú Címkék: nyelvtechnológia korpusznyelvészet Twitter emócióelemzés Pennebaker

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Ajánlott bejegyzések:

A bejegyzés trackback címe:

Kommentek: