HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (8) adatbányászat (11) adatelemzés (9) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (19) alternatív (6) alternatív keresőfelület (28) analitika (6) beszédtechnológia (13) big data (55) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (18) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) facebook (8) Facebook (9) gépi tanulás (18) google (59) Google (33) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) intelligens keresés (6) internetes keresés (35) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (87) kereséselmélet (8) keresési felület (6) keresés jövője (57) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (16) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (8) különleges keresők (7) kutatás (9) lda (10) LDA (10) live (13) machine learning (9) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (19) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP (8) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (32) nyelvtechnológia (76) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (65) Precognox Labs (14) Python (14) R (19) spam (6) statisztika (12) számítógépes nyelvészet (9) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (7) szövegbányászat (22) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (20) topik modellek (6) Twitter (18) twitter (15) vállalati kereső (7) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Mit árul el rólad a Twitter fiókod?

2013.07.30. 08:00 Szerző: Zoltán Varjú Címkék: nyelvtechnológia korpusznyelvészet Twitter emócióelemzés Pennebaker

A közösségi médiában szeretünk ismerős és ismeretlen emberekkel csevegni, magvas és kevésbé magvas gondolatokat megosztani, vagy csak időtöltésből írogatni. De mit árulunk el magunkról eközben? Mivel a Twitter lehetővé teszi, hogy letöltsük saját adatainkat s így a szerző saját fiókját (@zoltanvarju a továbbiakban mint "alany" hivatkozunk rá) elemezve keresi erre a választ. Először megnézzük, milyen eredményekre vezet minket a legelemibb elemzés, majd kitérünk arra, hogy ez mennyire fedi a valóságot.

Saját csiripek beszerzése

A Twitter a személyes beállítások alatt teszi elérhetővé a csiripek archívumát. A "Request your archive" gombra kattintva kérhetjük ezek letöltését.

Twitter01.png.png

Miután rákattintottunk a gombra, a Twitter nyugtázza nekünk ezt. Változó, hogy kinek mennyi időt kell várnia (az azonnali letöltéstől a két órás várakozásig tartó intervallummal számoljunk).

Twitter02.png.png

Az archívum elkészültéről e-mailben értesít minket a szolgáltató.

Twitter03.png.png

A letöltött archívum egy tömörített mappa, ami alapvetően egy html oldalt is tartalmaz, ezen böngészhetjük csiripjeinket. A "data" mappában találjuk a tweeteket tartalmazó JSON fájlokat év_hónap.js séma szerinti nevek alatt. Vizsgálatunkhoz az alany 2009 január és 2013 június között írt tweetjeit elemeztük az archívumból. 

Lexikai elemzés

Automatikus nyelvfelismerés használatával azt találtuk, hogy az alany két nyelven, angolul és magyarul csiripel. Az angol nyelvű posztok aránya 77%, miután kiszűrtük a linkeket tartalmazó tartalmakat (azzal a feltételezéssel élve, hogy ezek nem saját tartalmak, hanem hírmegosztások) azt találtuk, hogy a tartalom kétharmada angol, a maradék pedig magyar nyelvű. Egy átlagos tweet 13.98 szóból áll, ami 15.88 az angol és 11.3 a magyar csiripek esetében. 

A lexikai diverzitás egy olyan mérőszám, amivel egy adott szöveg választékossága jellemezhető. Ezt úgy kapjuk meg, hogy a szöveg összes szavának számát (token) elosztjuk az egyedi szavak számával (type). Pl. a híres "lenni vagy nem lenni" idézetben négy token található és három típus, így lexikai diverzitása 1.33. Azt találtuk, hogy mindkét nyelv esetében 107 feletti értéket mutatnak a vizsgált alany nyelvi megnyilatkozásai, amire a linket tartalmazó megosztások sincsenek hatással. Ez egy minimum középiskolai végzettséggel rendelkező felnőtt lexikai diverzitásának felel meg, ami alapján eddig arra jutottunk, hogy alanyunk átlagos nyelvhasználó.

Ezután egyszerű szógyakorisági vizsgálatot végeztünk. Ehhez a szöveget megtisztítottuk a linkektől és minden nem-betű karaktertől, majd minden karaktert kisbetűre alakítottunk, végül pedig mind az angol, mind a magyar stopszavakat kiszűrtük. Az alábbi ábrán a huszonöt leggyakrabban használt szó látható.

Twitter04.png.png

Érdekes, hogy habár a korpusz 23%-a magyar nyelvű, egy magyar szó sem került fel a listára.

Minimalista networkelemzés

Aki újra oszt egy adott tartalmat, arra valószínűleg valahogy hatott az. Nézzük meg alanyunk, mely felhasználók csiripeléseit szokta re-tweetelni.

Twitter06.png.png

A fenti táblázathoz nagyon hasonlót kapnánk a @TheEconomist és @PhilSciArchive nélkül, ha azt vizsgálnánk kikkel beszélget a legtöbbet a felhasználó.

Pszichológiai profilozás

Találomra kiválasztottunk hat angol tweetet és az LIWC program online elérhető változatával elemeztük, ennek eredményét mutatja az alábbi ábra.

Twitter07.PNG

Az eredmények értelmezéséhez Pennebaker elméletéhez fordultunk (amiről bővebben Nekünk elmélet kell! és A tweet a lélek tükre című posztjainkban tudhat meg a kedves olvasó). Feltesszük, hogy a tweetek többsége személyes hangvételű (bővebben l. Milyen is az internet nyelve című írásunkat) ezért a "Personal Texts" oszloppal vetjük össze a kapott értékeket. Az önreferenciális (Self-references) szavak magas és a kognitív kifejezések (Overall cognitive words) alacsony aránya arra utal, hogy a szerző férfi. A nagy szavak (Big words) használata jelezheti az alábbiakat (egyiket vagy akár mindegyiket); felnőtt, iskolázott, magas státuszú. (Bővebben erről l. Pennebaker The Secret Life of Pronouns c. könyvét) A LIWC teljes változatát használva az összes angol tweet elemzésére is a fentihez nagyon hasonló eredményt kapunk, ami azt mutatja hogy viszonylag kis szövegrészleten is jól működik ez az elemzés.

Mit tudunk az alanyról

Az alany 31 éves férfi, aki logikát és matematikai nyelvészetet tanult, jelenleg a Precognox Kft. számítógépes nyelvésze. Az egyszerű szógyakoriság nagyon jól tükrözi érdeklődési köreit, a pszichológiai profilozás pedig megadja alapvető demográfiai jellemzőit is. Látható, pusztán szöveges tartalmak elemzésével az alanyról jó profilt tudtunk alkotni. Az alapvető networkelemzés is ezt támasztja alá, hiszen főleg logikával, számítógépes nyelvészettel, funkcionális programozással és gépi tanulással foglalkozó felhasználókat követ.

Szavakat számoltunk és arra jutottunk, hogy egész jó jellemzését tudjuk adni egy felhasználónak. Könnyű belátni, hogy további elemzésekkel egy teljes profilt is készíthetünk.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

https://kereses.blog.hu/api/trackback/id/tr665430107

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.
süti beállítások módosítása