HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (8) adatbányászat (11) adatelemzés (9) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (19) alternatív (6) alternatív keresőfelület (28) analitika (6) beszédtechnológia (13) big data (55) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (18) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) facebook (8) Facebook (9) gépi tanulás (18) Google (33) google (59) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) intelligens keresés (6) internetes keresés (35) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (87) kereséselmélet (8) keresési felület (6) keresés jövője (57) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (16) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (8) különleges keresők (7) kutatás (9) LDA (10) lda (10) live (13) machine learning (9) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (19) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP (8) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (32) nyelvtechnológia (76) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (65) Precognox Labs (14) Python (14) R (19) spam (6) statisztika (12) számítógépes nyelvészet (9) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (7) szövegbányászat (22) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (20) topik modellek (6) Twitter (18) twitter (15) vállalati kereső (7) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Szavak, városok, long tail és a 80/20 szabály

2013.08.05. 08:00 Szerző: Zoltán Varjú Címkék: statisztika nyelvtechnológia korpusznyelvészet Zipf Zipf törvény Pareto

Egy szavakat számolgató nyelvész felfedezett egyszer egy különleges statisztikai-eloszlást. A szavak eloszlásához hasonló mintázatokat láthatunk azonban az üzleti életben, a szoftverfejlesztésben, a városok lélekszámát vizsgálva is. Maradjon velünk az olvasó, a matematika helyett grafikonokkal eredünk a különös jelenség nyomába!

Pareto és a 80/20 szabály

A Pareto-elvet, vagy más néven 80/20 szabályt sokan ismerik, íme néhány példa rá a vonatkozó Wikipedia szócikkből:

  • A profit 80%-a az ügyfelek 20%-tól származik.
  • A reklamációk 80%-a az ügyfelek 20%-tól érkezik.
  • A profit 80%-a a munkára fordított idő 20%-ból keletkezik.
  • Az eladások 80%-a a termékportfólió 20%-ból keletkezik.
  • Az eladások 80%-át a sales csapat 20%-a hozza.

A felsoroláshoz hozzátehetjük még a szoftverfejlesztésben használatos 80/20 elveket is:

  • A hibák 80%-a a kód 20%-ában rejlik.
  • A követelmények 20%-a adja a funkcionalitás 80%-át.

Vilfredo_Pareto.jpg

Tehát általában elmondhatjuk, hogy az esetek 20%-a eredményezi az okozatok 80%-át. Ezt az elvet általánosan Vilfredo Pareto fogalmazta meg először és matematikai szabatossággal kidolgozott hatványtörvényét  ma Pareto-eloszlásnak hívjuk.

Long tail - sok kicsi, sokra megy

800px-Long_tail.svg.png

A legismertebb 80/20 szabály a long tail vagy hosszú farok, melyet Chris Anderson azonos című (magyarul is olvasható) könyve vezetett be a köztudatba. A fenti görbét megfigyelve láthatjuk, hogy az első 20% alatti terület kb. megegyezik a maradék 80% alattival. Anderson szerint a modern technológiák lehetővé teszik, hogy a kis mennyiségben árusított termékek is elérjenek a potenciális vásárlókhoz, ami kb. ugyanakkora piacot jelent, mint a nagy volumenben értékesített, könnyen eladható áruké.

Normál eloszlás

Ha egy mintázatot sokszor megfigyelhetünk a világban, akkor az segíthet minket szisztematikus összefüggések feltárásában. Az egyik legismertebb mintázat az ún. normál eloszlás. A statisztikai adatgyűjtés kezdetétől fogva megfigyelték, hogy az emberek magassága, testsúlya, halálozása stb. nagyjából egyforma képet mutat. Az alábbi ábrán 10.000 ember magasságát ábrázoljuk (amerikai adatokat használtunk a Machine Learning for Hackers c. könyvhöz kapcsolódó kódtárból, az értékek inchben vannak).

whole_1.jpgLátható, hogy a legtöbben 65-70 inch (165-178 cm) közötti tartományba tartoznak és az ettől magasabb vagy alacsonyabb (jobbra és balra) emberek száma fokozatosan csökken a szélső értékek felé közelítve. Ha szétválasztjuk a férfiakat és a nőket, akkor sokkal szimmetrikusabb grafikonokat kapunk.

gender_separated.png

A fenti ábrát összevetve láthatjuk, hogy mind a férfiak, mind a nők magassága majdnem tökéletesen haranggörbe alakú.

normal.png

A fenti ábrán egy "hipotetikus" normál eloszlás látható. A statisztikában ez nagyon hasznos, mivel ezzel a hipotetikus és ideális normál eloszlással viszonylag könnyű számolni, sokat tudunk róla és megbízhatóan működik. Tapasztalat alapján arra jutottak a statisztikusok, hogy a legtöbb jelenség követi a normál eloszlást (azaz közelíti, különösen ha sok megfigyelést tudunk végezni) aminek örülünk, mert nagyon kényelmes ilyen eloszlású adatokkal dolgozni.

Zipf törvénye

Pareto-elve, a hosszú farok és a sok megfigyelés támasztja alá, hogy a 80/20 szabály mögött valami általánosabb rejlik. Ezt először George Kingsley Zipf fedezte fel szógyakorisági vizsgálatai során. A róla elnevezett törvény kimondja, hogy egy szó gyakorisága fordítottan arányos a frekvenciatáblában (csökkenő sorrendű szógyakorisági táblázat) szereplő sorszámával. A következő ábrán látható pár ideális Zipf-eloszlás.

800px-Zipf_distribution_PMF.png

A Magyar Webkorpusz 10.000 leggyakoribb elemét  mutatja az alábbi grafikon (a vízszintes tengelyen a frekvenciatáblában elfoglalt pozíciót, a függőlegesen pedig a gyakorisági értéket mutatjuk). Láthatjuk, nem tökéletesen követi a hipotetikus Zipf-eloszlást, de azért hasonlít rá. 

webcorpus.png

Zipf törvénye világvárosokra alkalmazva

A szógyakoriság mellett Zipf törvényét előszeretettel alkalmazzák a társadalomtudományokban is, erről a területről a legtöbben a városok lélekszáma és a lakosság szerinti sorrendben elfoglalt pozíció közötti fordított arányosságot ismerik. Az alábbi ábra a nagyobb világvárosok Zipf-eloszlását szemlélteti. (A PopulationData.net oldal adatait használtuk a grafikonok elkészítéséhez.)

cities.png

Érdekes, hogy országokon belül is láthatjuk ezt az eloszlást (ha nem is olyan tökéletesen).

countryranks.png

A fenti nyolc ország adatait összesítve az alábbi grafikont kapjuk.

acrosscountries.png

Egy grafikonon szemléltetve jobban látszik, hogy országokon belül is megismétlődik a Zipf-eloszlás.

withincountries.png

Zipf törvénye a magyar települések esetében is működik


Az alábbi ábrát a KSH Magyaroszág közigazgatási helynévkönyve 2012. január 1. táblája alapján készítettük.

hucities.png

A fenti ábrán látható, hazánk sem kivétel a globális trendek alól. Az összes magyar települést vizsgálva látható, hogy Budapest kilóg a sorból és a vízszintes tengely végéhez közeledve nagyon sok apró település eltéríti a görbét az "ideális iránytól".

Hol használható Zipf-törvénye

A Zipf-törvény a keresésben és információkinyerésben arra a felismerésre vezetett, hogy a leggyakoribb szavak túl sok zajt okoznak. Az ún. funkciószavakat (névelők, kötőszók stb.) általában stoplistába gyűjtve kiszűrik a feldolgozás során. Előszeretettel alkalmazzák az ún. inverz frekvenciatáblákat, mivel az alacsony gyakoriságú szavak különböztetik meg általában az egyes dokumentumokat.

Az internetes áruházak életében a Zipf-törvény (és változatai) nagyon nagy szerepet játszanak. Egyrészt a készlettervezésben  érvényesül a 80/20 szabály, de a kiszállításban is megjelenik a Zipf-eloszlás.

Az internetes biztonsági alkalmazások is előszeretettel vizsgálják a felhasználói logok hosszú farkát. Az ún. anomáliadetekció abból indul ki, hogy legtöbb felhasználó a 80/20 szabály szerint viselkedik és a logok 80%-a az ismétlődő viselkedési formák 20%-át tartalmazza (pl. böngészés, chatelés, e-mailezés stb.) a gyanús és potenciálisan veszélyes dolgok a log 20%-ban találhatóak (melyek viszont az észlelt tevékenységek 80%-át tartalmazzák).

Amikor Zipf becsap minket

words.png

A nyelvtechnológiában egyre elterjedtebb emócióelemzésben és a törvényszéki nyelvészetben is egyre nagyobb figyelmet szentelnek a funkciószavaknak és a gyakorisági tábla első 20%-ába eső elemeknek. Habár egy beszélő számára lehetetlen észrevennie, hogy mely ismerőse használ több névelőt, egyre több kutató talál erős korrelációt pszichológiai faktorok és a funkciószavak gyakorisága között (l. Mit árul el rólad a Twitter fiókod és Nekünk elmélet kell című korábbi írásainkat). A szerzőség megállapításakor (legutóbb pl. J.K. Rowling esetében) is a gyakori szavak használati arányában meglévő apró különbségek vizsgálata kezd előtérbe kerülni. 

Az anomáliadetekció területén is egyre nagyobb figyelmet szentelnek a megszokott viselkedés vizsgálatára. Ennek oka elsősorban az ún. nem szándékos károkozás megakadályozása volt (pl. amikor egy fájl helyett egy egész könyvtárat töröl valaki, vagy egyszerre több programot futtat, ami lassítja más, fontos programok működését stb.). Több teljesen normális esemény láncolata rossz dolgokhoz vezethet. Ilyen láncolatok kialakulhatnak véletlenül is, de akár szándékosan is.

Úgy tűnik a Zipf-eloszlás szorosan kapcsolódik az ember alkotta dolgokhoz, legyenek azok szavak, városok vagy e-kereskedelmi oldalak. Az elsőre pofonegyszerű összefüggés felbukkanhat mindenhol, nem árt számolni vele!

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Az adatújságírás után itt a JavaScript újságírás!

2013.08.02. 08:00 Szerző: Zoltán Varjú Címkék: tartalomipar adatújságírás JavaScript McLuhan

"the content of a medium is always another medium." (Marshall McLuhan)

A vezető híroldalakon sok szöveg található, de még több JavaScript, ahogy az alábbi grafikon is mutatja. Igaz, a JavaScript "láthatatlan", hiszen a böngészőben futó értelmező számára tartalmaz utasításokat. McLuhan sokat idézett mondása, mely szerint minden médium tartalma egy másik médium itt nagyon találó.

javascript-chart.png

Ray Daly a The Washington Post front-end fejlesztője az adatújságírás mintájára alkotta meg a JavaScript újságírás fogalmát. Az online sajtóban (és tegyük hozzá, úgy általában az online világban) ui. a JavaScript felel azért, hogy a tartalom és az olvasó egymásra találjon a böngészőn keresztül. Az adatújságírás, a sajtófotó, a tényfeltáró írások végül valahogy meg kell, hogy jelenjenek a böngészőben. Daly JSConf előadásában nagyon szépen bemutatja miért fontos a JavaScript Journalism. 

Az előadáshoz kapcsolódó jsjournalism.com oldalt érdemes a videó megtekintése közben böngészni, az előadás diái mellett minden említett példa linkjét is megtalálhatjuk itt. Jó szórakozást!

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A big data buktatói

2013.08.01. 08:00 Szerző: Zoltán Varjú Címkék: módszertan big data Twitter forradalom

A közösségi médián keresztül a felhasználókról sok információt tudhatunk meg, melyek birtokában érdekes elemzéseket végezhetünk. Az utóbbi hónapokban az olyan divatszavak mellé, mint a "big data" és a "data science" felzárkózott a "behavioral analysis" azaz a viselkedéselemzés is. A közösségi médiát elemezve megállapíthatjuk a felhasználók preferenciáit, demográfiai jellemzőit és kapcsolati hálózatukat is feltérképezhetjük. De az online világban végzett mérések eredményeiből következtethetünk-e arra, hogy mi fog történni a való világban? Eredményezhet egy like áruházi vásárlást? Egy civil tüntetésről szóló tweet továbbosztása, milyen hatással van a tényleges részvételre?


raid-on-occupy-taksim-park-in-istambul-turkey-e.gif

Zeynep Tufekci a Princeton University és a University of North Caroline at Chapel Hill kutatója szerint túláradó szolúcionista optimizmus azt hinni, hogy a big data képes ezekre a kérdésekre válaszolni és Big Data: Pitfalls, Methods and Concepts for an Emergent Field című tanulmányában éles és találó kritikát fogalmaz meg az adattudomány és a hálózatelemzés társadalomtudományi alkalmazásaival szemben. Mielőtt érveit összefoglalnánk, érdemes kitérni Tufekci hátterére, mert abból kitűnik, hogy ismeri mindkét oldalt, azaz a big data használatát s a hagyományos adatgyűjtési munkát is. A kutató nagyon aktív a Twitteren és az egyiptomi forradalom során keletkezett tweetek archiválásával és kutathatóvá tételével foglalkozó The Tahrir Data Project egyik koordinátora. De Tufekci nem csak az online elérhető adatok értelmezésével foglalkozik, a Taksim téren rengeteg interjút és kérdőíves felmérést készített, melyekről blogján rendszeresen beszámolt és hamarosan tanulmányokat is szeretne közölni eredményeiről.

260px-Drosophila_melanogaster_-_side_(aka).jpg

Tufekci a big data vizsgálatokat az ecetmuslicán végzett genetikai kutatásokhoz hasonlítja. A kis rovar a laboratóriumok egyik kedvence, mert nagyon jó modellszervezet. Csakhogy az ecetmuslicákon végzett modellkísérleteket nagyon nehéz komplexebb, a laboron kívüli világban található helyzetekhez igazítani. Persze ez nem jelenti azt, hogy a modellkísérletek haszontalanok, viszont alkalmazhatóságuk erősen behatárolt. A közösségi médiára alapozott big data elemzéseknek is megvannak a maguk korlátai, a modellszervezeteken végzett vizsgálódásokhoz hasonlóan:

  1. Torzított minta - Pl. az Egyesült Államok lakosságának kb. 10%-a Twitter felhasználó, a Facebook penetráció pedig 57%-os. Bonyolítja a helyzetet, hogy az életkor szerinti eloszlásban is erős eltérések mutatkoznak. 
  2. Ismeretlen adatok - Nem tudjuk pontosan hányan láttak egy adott Facebook bejegyzést, vagy csiripet, csak azt tudjuk hányan reagáltak rá like, továbbosztás vagy komment formájában.
  3. Túláltalánosított hálózati modellek - A gráfelméleti modellek nem tesznek különbséget a közösségi média kapcsolatai, az internetes hálózatok, vagy a személyes ismertség között. A matematikának ez nem is dolga, hiszen az általánosat kutatja, de ésszerű feltételezni, hogy a személyes ismertség kapcsolati hálója minőségileg különbözik a kábeltévé szolgáltatóm hálózatától.
  4. A nem-hálózati viselkedési faktorok figyelmen kívül hagyása - Az emberi viselkedésnek vannak nem hálózati jellegű vonatkozásai. Ilyenek az ún. mező hatások a csoportviselkedés terén (nagy nemzeti katasztrófák, nagy csoportok viselkedése tüntetések/zavargások idején, véletlenszerű hatások a csoportra, mint pl. természeti csapások stb.)
  5. A megfigyelő-paradoxona - A közösségi média felhasználói többé-kevésbé tudatában vannak annak, hogy megfigyelhetőek. A Twitteren pl. ki lehet hagyni a felhasználót jelző és értesítő @ előtagot egy azonosító elöl és máris lehet úgy beszélni róla, hogy arról nem kap értesítést, egyben evvel nehézzé válik a Tweetek automatikus elemzése is.

A Sloan Management Review-nak nyilatkozva a kutató felhívta a figyelmet arra, hogy mennyire behatároltak az online adatokra alapozott vizsgálatok.

“A lot of big data research is done in an isolated, one-shot, single-method manner with no way to assess, interpret or contextualize the findings, [...] There is great potential for error and misunderstanding; worse, with a lot of money flowing into this space, there is a lot pressure to produce “results” and overlook the fact that methods that were not developed to study humans, and do not necessarily work the same way, but are being applied widely.

The online imprints that create these large, aggregate datasets are not just mere ‘mirrors’ of human activity; rather, they are partial, filtered, distorted and complex reflections.”

A tanulság annyi, hogy tanuljunk a nagyoktól! Egyre több társadalomtudóst foglalkoztatnak a nagy cégek (Google, Yahoo!, Bing, Facebook, Twitter) és sorra jelennek meg a Microsoft Research (Computational) Social Science részlegéhez hasonló szervezetek ezeken belül. Ha az emberi viselkedés érdekel minket, ne adattudóst keressünk, hanem társadalom- és/vagy viselkedéstudományokban jártas szakemberhez forduljunk!

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Lobbicsoportok és civil mozgalmak hálózatainak alakulása a SOPA-PIPA vita kapcsán

2013.07.31. 08:00 Szerző: Zoltán Varjú Címkék: tartalomelemzés vizualizáció sna hírelemzés networkelemzés

Hogyan alakul egy vita, milyen szerepe van ebben a lobbicsoportoknak, civil szervezeteknek és a sajtónak? Sokan vizsgálták már ezeket a szorosan összefüggő kérdéseket, de általában erőforrások hiányában kis mintán. Napjainkban azonban az IT költségek kicsik, a rendelkezésre álló adatok száma viszont hatalmas. A Harvard University Berkman Center for Internet and Society kutatói, név szerint Yochai Benkler, Hal Roberts, Robert Faris, Alicia Solow-Niederman és Bruce Etling, Social Mobilization and the Networked Public Sphere: Mapping the SOPA-PIPA Debate című tanulmányukban a modern technika lehetőségeit ötvözték a hagyományos tartalomelemzéssel és megvizsgálták hogyan alakult 2010 és 2012 között a Stop Online Piracy Act (SOPA) és a  Preventing Real Online Threats to Economic Creativity and Theft of Intellectual Property Act (PIPA) törvénytervezetek körül zajló vita.

sopacovershot.jpg

A tanulmány ötvözi a hagyományos tartalomelemzési módszereket (kézi kódolás) a társadalomtudományi adatfelvételt (interjúk, kötelező adatszolgáltatás során gyűjtött statisztikák használata) és a szövegbányászat eszköztárát. A vizsgálni kívánt tartalmakat a főbb hír- és közösségi oldalakon (pl. Reddit) kívül, a hagyományos módszerekkel azonosított felek (lobbicsoportok, think-tankek, civil szervezetek, kevésbé ismert szakmai kiadványok stb.) honlapjai alkották. Az ezek között meglévő kapcsolatokon (pl. tulajdonosi kör, szerzők stb.) szövegbányászati eszközökkel kerestek további összefüggéseket, melyeket az ún. link analízis (link analysis) módszerével elemeztek.

sopa screenshot.jpg

A tanulmány mellett az adatok is letölthetők. A Berkman Center által fejlesztett Media Cloud online tartalomelemző eszköz felhasználásával készült vizualizáció szemléletesen mutatja be, miképp fejlődött a vita. A tanulmány eredményei nem forradalmiak, mivel megerősítik, hogy a decentralizált civil szervezetek segítik szakértelmükkel a vitát, rajtuk keresztül jutnak el a különböző álláspontok a mainstream médiába és ők jelentik a nézetek közötti ütközőpontokat.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Mit árul el rólad a Twitter fiókod?

2013.07.30. 08:00 Szerző: Zoltán Varjú Címkék: nyelvtechnológia korpusznyelvészet Twitter emócióelemzés Pennebaker

A közösségi médiában szeretünk ismerős és ismeretlen emberekkel csevegni, magvas és kevésbé magvas gondolatokat megosztani, vagy csak időtöltésből írogatni. De mit árulunk el magunkról eközben? Mivel a Twitter lehetővé teszi, hogy letöltsük saját adatainkat s így a szerző saját fiókját (@zoltanvarju a továbbiakban mint "alany" hivatkozunk rá) elemezve keresi erre a választ. Először megnézzük, milyen eredményekre vezet minket a legelemibb elemzés, majd kitérünk arra, hogy ez mennyire fedi a valóságot.

Saját csiripek beszerzése

A Twitter a személyes beállítások alatt teszi elérhetővé a csiripek archívumát. A "Request your archive" gombra kattintva kérhetjük ezek letöltését.

Twitter01.png.png

Miután rákattintottunk a gombra, a Twitter nyugtázza nekünk ezt. Változó, hogy kinek mennyi időt kell várnia (az azonnali letöltéstől a két órás várakozásig tartó intervallummal számoljunk).

Twitter02.png.png

Az archívum elkészültéről e-mailben értesít minket a szolgáltató.

Twitter03.png.png

A letöltött archívum egy tömörített mappa, ami alapvetően egy html oldalt is tartalmaz, ezen böngészhetjük csiripjeinket. A "data" mappában találjuk a tweeteket tartalmazó JSON fájlokat év_hónap.js séma szerinti nevek alatt. Vizsgálatunkhoz az alany 2009 január és 2013 június között írt tweetjeit elemeztük az archívumból. 

Lexikai elemzés

Automatikus nyelvfelismerés használatával azt találtuk, hogy az alany két nyelven, angolul és magyarul csiripel. Az angol nyelvű posztok aránya 77%, miután kiszűrtük a linkeket tartalmazó tartalmakat (azzal a feltételezéssel élve, hogy ezek nem saját tartalmak, hanem hírmegosztások) azt találtuk, hogy a tartalom kétharmada angol, a maradék pedig magyar nyelvű. Egy átlagos tweet 13.98 szóból áll, ami 15.88 az angol és 11.3 a magyar csiripek esetében. 

A lexikai diverzitás egy olyan mérőszám, amivel egy adott szöveg választékossága jellemezhető. Ezt úgy kapjuk meg, hogy a szöveg összes szavának számát (token) elosztjuk az egyedi szavak számával (type). Pl. a híres "lenni vagy nem lenni" idézetben négy token található és három típus, így lexikai diverzitása 1.33. Azt találtuk, hogy mindkét nyelv esetében 107 feletti értéket mutatnak a vizsgált alany nyelvi megnyilatkozásai, amire a linket tartalmazó megosztások sincsenek hatással. Ez egy minimum középiskolai végzettséggel rendelkező felnőtt lexikai diverzitásának felel meg, ami alapján eddig arra jutottunk, hogy alanyunk átlagos nyelvhasználó.

Ezután egyszerű szógyakorisági vizsgálatot végeztünk. Ehhez a szöveget megtisztítottuk a linkektől és minden nem-betű karaktertől, majd minden karaktert kisbetűre alakítottunk, végül pedig mind az angol, mind a magyar stopszavakat kiszűrtük. Az alábbi ábrán a huszonöt leggyakrabban használt szó látható.

Twitter04.png.png

Érdekes, hogy habár a korpusz 23%-a magyar nyelvű, egy magyar szó sem került fel a listára.

Minimalista networkelemzés

Aki újra oszt egy adott tartalmat, arra valószínűleg valahogy hatott az. Nézzük meg alanyunk, mely felhasználók csiripeléseit szokta re-tweetelni.

Twitter06.png.png

A fenti táblázathoz nagyon hasonlót kapnánk a @TheEconomist és @PhilSciArchive nélkül, ha azt vizsgálnánk kikkel beszélget a legtöbbet a felhasználó.

Pszichológiai profilozás

Találomra kiválasztottunk hat angol tweetet és az LIWC program online elérhető változatával elemeztük, ennek eredményét mutatja az alábbi ábra.

Twitter07.PNG

Az eredmények értelmezéséhez Pennebaker elméletéhez fordultunk (amiről bővebben Nekünk elmélet kell! és A tweet a lélek tükre című posztjainkban tudhat meg a kedves olvasó). Feltesszük, hogy a tweetek többsége személyes hangvételű (bővebben l. Milyen is az internet nyelve című írásunkat) ezért a "Personal Texts" oszloppal vetjük össze a kapott értékeket. Az önreferenciális (Self-references) szavak magas és a kognitív kifejezések (Overall cognitive words) alacsony aránya arra utal, hogy a szerző férfi. A nagy szavak (Big words) használata jelezheti az alábbiakat (egyiket vagy akár mindegyiket); felnőtt, iskolázott, magas státuszú. (Bővebben erről l. Pennebaker The Secret Life of Pronouns c. könyvét) A LIWC teljes változatát használva az összes angol tweet elemzésére is a fentihez nagyon hasonló eredményt kapunk, ami azt mutatja hogy viszonylag kis szövegrészleten is jól működik ez az elemzés.

Mit tudunk az alanyról

Az alany 31 éves férfi, aki logikát és matematikai nyelvészetet tanult, jelenleg a Precognox Kft. számítógépes nyelvésze. Az egyszerű szógyakoriság nagyon jól tükrözi érdeklődési köreit, a pszichológiai profilozás pedig megadja alapvető demográfiai jellemzőit is. Látható, pusztán szöveges tartalmak elemzésével az alanyról jó profilt tudtunk alkotni. Az alapvető networkelemzés is ezt támasztja alá, hiszen főleg logikával, számítógépes nyelvészettel, funkcionális programozással és gépi tanulással foglalkozó felhasználókat követ.

Szavakat számoltunk és arra jutottunk, hogy egész jó jellemzését tudjuk adni egy felhasználónak. Könnyű belátni, hogy további elemzésekkel egy teljes profilt is készíthetünk.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

süti beállítások módosítása