HTML

Precognox

precognox_logo_190.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás megoldásokat.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldhatjuk problémáidat, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Facebook oldaldoboz

Meetup ajánló

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Az opendata.hu oldalt a Magyar OpenData Alapítvány/Egyesület hivatalos megalakulásáig - lelkes önkéntesek segítségével a
K-Monitor Közhasznú Egyesület (K-Monitor) működteti, az üzemeltetést a Precognox végzi.

Főbb témák

adatok (12) adatújságírás (16) adatvizualizáció (15) AI (7) alternatív (6) alternatív keresőfelület (24) beszédtechnológia (13) big data (45) bing (14) CEU (6) clustering (6) conTEXT (7) dashboard (6) data science (8) deep learning (13) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (29) facebook (8) Facebook (9) gépi tanulás (10) Google (23) google (57) gyűlöletbeszéd (7) hackathon (9) hálózatelemzés (14) internetes keresés (26) internet hungary (6) képfeldolgozás (7) képkereső (8) keresés (57) kereséselmélet (7) keresés jövője (55) keresés problémái (38) keresők összehasonlítása (9) keresőoptimalizálás (6) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (34) könyvajánló (20) korpusznyelvészet (13) közösségi keresés (8) közösségi média (6) különleges keresők (7) kutatás (6) LDA (9) lda (10) live (13) magyar kereső (9) marketing (8) meetup (39) mesterséges intelligencia (9) metafora (6) mobil (37) mobil keresés (17) Neticle (8) NLP meetup (17) Nuance (9) nyelv (6) nyelvészet (27) nyelvtechnológia (69) open data (11) open knowledge (7) politikai blogok (22) Precognox (42) Precognox Labs (14) Python (12) R (19) spam (6) statisztika (11) számítógépes nyelvészet (6) szemantikus keresés (16) szemantikus kereső (9) szentimentelemzés (31) szövegbányászat (14) tartalomelemzés (53) tartalomjegyzék (6) tematikus kereső (19) Twitter (18) twitter (15) vertikális kereső (9) vizualizáció (11) yahoo (26) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Tüntetések, civilek és a CEU - párhuzamos valóságok az online médiában

2017.04.15. 14:45 Szerző: zoltanvarju Címkék: civilek tartalomelemzés adatvizualizáció CEU LDA

Az érdekelt minket, hogy hogyan jelenik meg az online médiában a civil szervezetek és a CEU ügye. Négy oldalt vizsgáltunk (Index, 444, Origo és 888), hogy képet alkothassunk erről. Azt találtuk, hogy napjaink nagy figyelmet kiváltó eseményeit nagyon eltérően mutatják be a híroldalak, mondhatni két párhuzamos valóságot tárnak élénk világnézeti beállítottságuktól függően. Adatok, szófelhők és egy interaktív topik modell vizualizáció.

A korpusz jellemzői

Vizsgálatunk a 2017.04.01. és 2017.04.14. között megjelent írásokra korlátoztuk. A négy vizsgált oldalt önkényesen választottuk ki, remélve, hogy tükrözik a mai magyar sajtóban meglévő elkötelezettséget. A cikkeket az oldalakon található címkéket felhasználva gyűjtöttük be (pl. Soros, CEU, civil szervezetek, stb.), ez alól kivételt képez az index, mivel az oldal nagyon kényelmesen használható aktákba rendezi tartalmait. A nyelvi feldolgozást magyalánccal végeztük, ezen kívül  a Python nltk csomagjával dolgoztunk. A szövegeken a hunNERwiki korpuszon trénelt névelemfelismerőt futtattunk le, hogy a lehető legtöbb személy- és intézménynevet egyben tudjuk tartani, majd igyekeztünk a leggyakoribb elemeket egyértelműsíteni (pl. Orbán lecserélhető Orbán Viktorra, Soros, Soros Györgyre, de Gulyás esetében nem járhattunk el így).

site cikkek száma

lexikai diverzitás

(szótövek száma / egyedi szótövek száma az adott oldal összes szövegére)

karakterek száma/cikk karakterek száma/mondat mondatok száma/cikk átlagos szóhossz karakterben
index 84 5.94 4351.4 137.4 18.6 6.9
444 267 12.37 2071.2 142.9 19.31 5.9
origo 50 11.61 3293.3 170.2 21.6 6.36
888 112 5.52 1961.8 143.7 18.5 6.28

 

A jobboldali irányultságú lapok sokkal kevesebbet írtak az eseményekről, ugyanakkor alapvető szövegstatisztikai különbséget nem mutatnak írásaik. A lexikai diverzitás a legérdekesebb mutató a táblázatban, ez azt mutatja, hogy mennyire gyakran használnak újra egy adott szót, tehát minél kisebb ez a szám, annál változatosabb az adott szöveg szókincse. Az index és a 888 eredményei kiugróan jók, annak tükrében, hogy saját tapasztalatunk szerint egy-egy oldal rovatára nézve ez az érték 12-13 között szokott lenni. A 444 esetében a teljesen átlagos érték annak köszönhető, hogy egy-egy témáról rengeteg cikket közöltek, ami óhatatlanul szóismétlésekkel jár.

Szógyakorisági adatok

wf_index.png

wf_negy.png

wf_nyolc.png

wf_origo.png

 

Kulcsszavak

Az AntConc program segítségével megnéztük, hogy az egyes oldalakon mely szavak és kifejezések kulcsszavak (azaz az korpusz adott részhalmazán belül az átlagos szógyakoriságuk magasabb).

keywords.png

Látható, hogy a 888 szereti Soros György nevét, illetve a belőle képzett Soros-egyetem, Soros-féle stb. szerkezeteket. az Index Gulyás Márton tárgyalásának részletes taglalásával emelkedik ki a mezőnyből, a 444 a tüntetések taglalásával és Mészáros Lőrinc nevének említésével, az Origo szereti kiemelni, mely nap történéseiről is ír, illetve a Századvég kap náluk külön hangsúlyt.

Topik modell

A topik modell a gensim csomag felhasználásával készült, a vizualizációt a pyldavis könyvtárral készítettük. Az interaktív vizualizáció ezen a linken érhető le. Akárhogyan is próbáltuk optimalizálni a topikok számát, mindig maradt pár marginális (8, 9, 11, 12, 13 és 14). Illetve vannak nagyon átfedésben lévő topikok (a különféle tüntetések, a civil szervezetek ellen hozandó ill. a CEU ellen meghozott törvény). A legmeglepőbb azonban az, hogy az egyes és a kettes topik nagyon jól elkülönül. Annak ellenére, hogy ugyanazon eseményekről szólnak az ezen topikokba tartozó írások, az egyes topikba (két kivételtől eltekintve) kizárólag indexes és 444-es, a kettes topikba pedig origós és 888-as cikkek kerültek.

civil_lda01.png

A 444 és az Index legtöbb cikkje egy topikba sorolható

civil_lda02.png

Habár ugyanarról ír az Origo és a 888, annyira más szóhasználattal, hogy az LDA külön topikba sorolja

De miért fontos ez?

Az internet nem csak totális elérést hozta el, hanem a filter bubble jelenségét is. Egyre inkább homogén közösségek alakulnak ki, a perszonalizált ajánlásoknak köszönhetően a saját világnézetünknek és preferenciáinknak megfelelő hírekkel kerülünk szembe a közösségi oldalakon. Ez hatással van ránk, egyre jobban megerősíti azt a fogalmi keretrendszert, ahogy a világot látjuk, amin keresztül például a társadalmi vitákban állást foglalunk. Ha két ennyire merőben eltérő narratívája alakul ki egy eseménynek, akkor az akár ellehetetlenítheti azt, hogy polgártársaink demokratikus, racionális vitákon keresztül közösen találjanak megoldást.

Irodalom

Balogh Kitti: A látens Dirichlet allokáció társadalomtudományi alkalmazása

Bill Bishop: The Big Sort: Why the Clustering of Like-Minded America is Tearing Us Apart, Mariner Books, 2009

Eli Pariser: The Filter Bubble: How the New Personalized Web Is Changing What We Read and How We Think, Penguin Books, 2012

George Lakoff: Ne gondolj az elefántra! - A progresszív gondolkodás nélkülözhetetlen zsebkönyve, Napvilág Kiadó, 2006

Norman Fairclough: Language and Power, 3rd Edition, Routledge, 2014

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

http://kereses.blog.hu/api/trackback/id/tr1312427749

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben.

Nincsenek hozzászólások.