HTML

Precognox

precognox_logo_190.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati és big data megoldásokat.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldhatjuk problémáidat, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Meetup ajánló

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Az opendata.hu oldalt a Magyar OpenData Alapítvány/Egyesület hivatalos megalakulásáig - lelkes önkéntesek segítségével a
K-Monitor Közhasznú Egyesület (K-Monitor) működteti, az üzemeltetést a Precognox végzi.

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Emócióelemzés – avagy ami a szöveg mögött van

2014.08.18. 09:05 Szerző: Szabó Martina Katalin Címkék: nyelvtechnológia emócióelemzés Precognox Labs

Kutatócsoportunk egyik legújabb, s egyben talán az egyik legnagyobb kihívást jelentő vállalkozása az érzelmek, másképpen emóciók automatikus detektálásának hatékony megoldása magyar nyelvű szövegekben. Amint arra már az Emócióelemzés, avagy Darwin és a nyelvtechnológia különös találkozása című bejegyzésben is utaltunk, bár az emócióelemzés, szövegbányászati céljait és metodológiai sajátságait tekintve több hasonlóságot mutat a szentimentelemzéssel, a két megoldás alkalmazási területe, s ezzel összefüggésben elméleti háttere teljesen eltér egymástól. Mivel a szentimentelemzésről korábban már számos alkalommal szóltunk, itt csupán az emóciódetektálás problémáit vesszük górcső alá.

De miért is szükséges az információkinyerés feladatkörét az emóciókra kiterjeszteni? Tulajdonképpen miért is fontos számunkra az, hogy képessé váljunk az emóciók, az érzelmek szövegbeni feldolgozására? A feladat jelentőségének megértéséhez vegyük fontolóra az alábbi  két sajátságot: Egyrészt, az érzelmek olyan tényezőkre adott reakciók, amelyek fontosnak tűnnek számunkra boldogulásunk, jólétünk szempotjából. Másrészt, az érzelmek gyakran olyan gyorsan jelentkeznek, hogy nem is vagyunk tudatában magának az érzelmet kiváltó oknak, illetve az érzelmi folyamatok pontos alakulásának (vö. Ekman 2007). Ha mindezt meggondoljuk, beláthatjuk, hogy az emóciótartalom feldolgozása eleddig rejtve maradt, értékes információkat hozhat a felszínre, s ezek az információk számos szövegbányászati feladatban (pl. vásárlóihangulat-mérés) jelentős haszonnal szolgálhatnak. Az elmondottak az automatikus emócióelemzés mihamarabbi hatékony megoldását sürgetik.

Az emócióelemzés viszonylag új keletűnek tekinthető a szövegbányászati projektek palettáján. Bár az emóciók bizonyos tudományos diszciplínákban, így a pszichológiában és a viselkedéstudományban kiemelt figyelmet kapnak, a természetesnyelv-feldolgozást illetően csupán az utóbbi idők termése között találni vonatkozó publikációkat (vö. Strapparava–Mihalcea 2008: 1). Az elmondottakkal összefüggésben, az emóciók automatikus kezelése kísérleti szakaszában jár, és önálló, kidolgozott megoldások híján csupán a szentiment- és szubjektivitáselemzés területein elért tudományos eredményekre támaszkodhat (vö. Mulcrone 2012: 1).

Ami a magyar nyelvű szövegek információkinyerését célzó kutatásokat illeti, jelenleg nincs tudomásunk olyan projektről, amely kifejezetten az emóciótartalmak szűrésére és feldolgozására törekedne. Kutatómunkánkkal e hiányt igyekszünk pótolni.

A magyar nyelvű szövegek automatikus emócióelemzéséhez mindenekelőtt számos elméleti kérdés alapos meggondolására van szükség. A legalapvetőbb feladatokat a következőkben állapíthatjuk meg: a) az emóció fogalmának pontos meghatározása; b) az emócióelemzés feladatkörének pontos meghatározása, annak elhatárolása más, információkinyerési feladatköröktől; c) a feladat megoldási menetének pontos kidolgozása, valamint az ahhoz kapcsolódó elméleti problémák feltárása és orvoslása. Az alábbiakban az itt említett feladatok mentén néhány kérdés részbeni tárgyalására vállalkozunk.

Amint azt Péter (1991: 35) részletesen taglalja, az emberi cselekvés mozgatórugóját a különböző szükségletek alkotják; a szükségletek motiválják az egyént a cselekedetek végrehajtására. Ezzel összefüggésben, érzelmeink szoros kapcsolatban állnak a szükségletek és a motiváció szférájával. Az érzelmeink arról a viszonyról tanúskodnak, amely az egyes szükségletek és azok kielégítése, illetve kielégítésének lehetősége között fennáll (vö. Szimonov (Симонов 1975: 89) alapján Péter (1991: 35)). Amennyiben ez a viszony kedvező, úgy pozitív, amennyiben kedvezőtlen, úgy negatív érzelmeket vált ki az egyénből.

Leontyjev (1979: 181) az érzelmeket a „belső élmény”, az „átélés” fogalmával jellemzi. Péter (1991: 35–36) ugyanakkor felhívja a figyelmet arra, hogy „ha a belső élmény a szükségletek és kielégítésük lehetősége közötti viszonyt tükrözi, úgy magának az élménynek is tartalmaznia kell e viszony értékelésének kognitív mozzanatát. [...] Az érzelemből tehát nem «vonható ki» teljességgel a gondolkodás, mint ahogy megfordítva, a gondolkodás is magában foglal érzelmi mozzanatot.” Péter (1991: 35–36) fentebb idézett sorai kiválóan mutatják be azt a problémát, amellyel az emócióknak a szentimentkifejezésektől való különválasztását illetően szembe kell néznünk. Az emócióelemzés keretében ugyanis – mint már említettük – a „puszta” érzelmeket kívánjuk a szöveg szintjén tetten érni, a kognitív értékelő folyamatokat a szentimentelemzés tárgykörébe utalva. Az elmondottak alapján azonban belátható, hogy az emóciók és a szentimentek nyelvi kifejezőeszközei bizonyos esetekben nem, vagy csupán nehezen különíthetőek el egymástól.       

Emócióelemzési projektünk megvalósításához a feladat tárgyát és célját a következőképpen igyekeztünk meghatározni: a szövegekből kiszűrünk egyrészt minden olyan elemet, amely az adott emóció nyelvi kifejezőeszközeként számba vehető, másrészt minden olyan elemet is, amely az adott emóció kialakulására, illetve meglétére utalhat. Ennek megfelelően például a düh emóció szövegszintű jelének tekintjük a begurul ige mellett a káromkodik és a belepofázik kifejezéseket is, tekintve, hogy a káromkodás gyakori kiváltó oka a düh érzete, a belepofázik igét pedig általában akkor használjuk valakivel kapcsolatban, ha annak hozzászólásai a harag érzetét keltik bennünk.

Az emóciókifejezések osztályozásához Ekman és Friesen (1969) érzelemkategorizálási rendszerét alapul véve a következő hat alapemóciót különítettük el: bánat, düh, félelem, meglepődés, öröm és undor. Bár gyakorta találkozni azzal a megközelítési móddal, hogy a fentebbi kategóriákat a két nagy, a szentimentelemzésben bevettnek számító negatív és pozitív csoportba sorolják, Ekman (2007) alapján ezt a megoldást nem követjük. A neves pszichológus amellett érvel ugyanis, hogy az érzelmek polaritása, azaz negatív vagy pozitív értéke számos emóció esetében egyénfüggő. Bizonyos emberek például pozitívnak értékelik a félelmet, ezért extrém sportokat űznek, míg mások gondosan kerülnek minden olyan szituációt, amelyben akár csak a legkisebb veszély is leselkedhet rájuk. Az emóciókat tehát nem, vagy csupán csekély mértékben lehetséges a polaritási skála mentén kezelni.

A fentebbi hat emóciócsoport kiválasztását alapos megfontolás indokolta. Mindenekelőtt arra törekedtünk, hogy annyi és olyan kategóriát válasszunk, amely viszonylag könnyen elkülöníthető egymástól, egyszerűsítve ezzel az emóciókifejezések csoportokba rendezését. Bár a vonatkozó kutatások között találni olyanokat, amelyek nyolc vagy akár több emóciócsoporttal dolgoznak (vö. Mulcrone 2012), e megoldások áttekintése alapján úgy véltük, azok átvétele esetén a szólisták rendezésekor számos kérdéses esettel kellene megbirkóznunk. Ekman és Friesen (1969) vizsgálati eredményeire támaszkodva azt a hat alapérzelmet vettük fel projektünk megvalósításához, amelyeknek arckifejezései, illetve azok azonosítása kultúrafüggetlennek mutatkozik.

 

A hat alapérzelem – a harag, a félelem, az undor, a meglepődés, az öröm és a szomorúság – megnyilvánulása különböző arcokon. Forrás: paulekman.com

 

Ugyanakkor fel kell hívnunk a figyelmet arra, hogy az egyes emóciókifejezések érzelemcsaládokba történő rendezése rendkívül bonyolult, számos elméleti problémát felvető vállakozás. Gyakorta előforduló jelenség ugyanis, hogy két – esetleg több – alapérzelem is összekapcsolódik egy adott emócióban. Gondoljuk meg például, hogy a gyűlölet érzete akár a dühvel, akár az undorral is kapcsolatban állhat, sőt e kettő fúziója éppúgy lehetséges. Amikor pedig elégedetlenek vagyunk, akkor egyaránt érezhetünk bánatot, de akár dühöt is valamely ki nem elégített szükségletünk okán. Nem beszélve arról a sajátságról, miszerint gyakran egy adott emóció váltja ki egy másik emóció létrejöttét (vö. Ekman 2007). Haragra gerjedhetünk például saját félelmünk miatt, vagy élhetünk át szorongást attól való félelmünkben, hogy vajon hosszan tartó nyomott hangulatunk, depressziónk elmúlik-e valaha. Mindezen túlmenően, az érzelmek változása gyakorta úgy történik, hogy a kiváltó emóciónak nem is, csupán a reakcióként jelentkező érzelmünknek vagyunk tudatában. Nyilvánvaló tehát, hogy az emóciók e rendkívül bonyolult rendszere az írott nyelvi produktumokra is hatást gyakorol, amely jelentősen megnehezíti az érzelmek szövegszintű feldolgozását.

Jelenleg emóciószótárunk hatékonyságának tesztelésén és fejlesztésén, valamint egy kézzel annotált emóciókorpusz létrehozásán dolgozunk. Eredményeinkről, tapasztalatainkról hamarosan újabb bejegyzésekben számolunk be.  

 

IRODALOM

Ekman P. 2007. Emotions revealed: recognizing faces and feelings to improve communication and emotional life. Revised edition. New York, St. Martin's Griffin.

Ekman, P.–Friesen, W.V. 1969. The repertoire of nonverbal behavior: Categories, origins, usage, and coding. Semiotica 1. 49–98.

Leontyjev, A.N. 1979. Tevékenység, tudat, személyiség. Budapest, Gondolat Kossuth. Az eredeti munka: Леонтьев, А.Н. 1977. Деятельность. Сознание. Личность. 2-е изд.Москва, Политиздат.

Mulcrone, K. 2012. Detecting Emotion in Text. UMM CSci Senior Seminar Conference. Morris, MN.[https://wiki.umn.edu/pub/UmmCSciSeniorSeminar/Spring2012Talks/KaitlynMulcrone.pdf]

Paul Ekman Group [http://www.paulekman.com/]

Péter, M. 1991. A nyelvi érzelemkifejezés eszközei és módjai. Budapest, Tankönyvkiadó.

Strapparava, C.–Mihalcea, R 2008. Learning to identify emotions in text. SAC 2008. [http://web.eecs.umich.edu/~mihalcea/papers/strapparava.acm08.pdf]

Симонов, П.В. 1975. Высшая нервная деятельность человека. Мотивационно-эмоциональные аспекты. Москва, Наука.

 

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Twitter dialektológia

2014.08.15. 07:52 Szerző: zoltanvarju Címkék: nyelvészet nyelvtechnológia Twitter

A legtöbb dialektológiai kutatás sajnos nagyon kevés adatközlővel készült/készül, de szerencsére napjainkban a technológiának hála akár 50 millió (!) beszélőtől is lehet adatokat beszerezni, ahogyan Bruno Gonçalves David Sánchez Crowdsourcing Dialect Characterization through Twitter című tanulmányukban arról beszámoltak.

2014-08-10 20.30.21.png

A kutatók az elmúlt két esztendő spanyol nyelvű, geolokációs meta-adatokkal ellátott tweetjeit elemezte. Az adatok földrajzi eloszlását mutatja be a fenti ábra. A kutatók elgondolása szerint a közösségi média nyelvhasználata közel áll a mindennapi beszélt nyelvhez, ezért alkalmas lehet a dialektusok tanulmányozására is (bővebben l. Milyen is az internet nyelve c. korábbi posztunkat).

2014-08-10 20.31.21.png

A kutatás egyik részében a hagyományos kutatásokat felhasználva a szókincsbeli eltéréseket vizsgálták. Majd következett a gépi tanulás bevetése.

2014-08-10 20.34.23.png

Ötvenmillió tweet csak egy nagyon, de nagyon nagy dokumentum mátrixba fér bele, aminek sok-sok dimenziója lesz, ezért főkomponens-elemzéssel szépen leredukálták azt. Ezután jöhetett a klasszifikáció legegyszerűbb módszere, a k-NN. Ennek eredménye két szuper-dialektus lett, az egyik a nagyvárosokra jellemző szóhasználat, a másik pedig a vidékiek spanyolja - mindez kontinensektől függetlenül!

2014-08-10 20.37.00.png

A vidéki spanyolt tovább vizsgálva pedig a klasszikus dialektológia által leírt főbb nyelvjárások képe rajzolódik ki, miképp a fenti ábra is mutatja.

 

A "Big Data" lassan olyan területeket is elér, ahol úgy gondolnánk nem sok keresnivalója akad. Kíváncsian várjuk a következő érdekes bevetését!

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Jobb szentimentelemzés deep learning használatával

2014.08.12. 09:34 Szerző: zoltanvarju Címkék: nyelvtechnológia szentimentelemzés deep learning

A legtöbb mai szentimentelemző rendszer valahol a 80%-os pontosság környékén mozog manapság, ami nem rossz, de "van hely a javulásra". A Stanford Deeply Moving: Deep Learning for Sentiment Analysis projektje 85% felé viszi a pontosságot a deep learning bevetésével, érdemes egy kicsit közelebbről is megvizsgálni módszerüket.

2014-08-10 17.33.20.png

A jelenleg elérhető szentimentelemző megoldások vagy valamilyen klasszifikációs (általában bayesiánus) megoldást használnak, vagy pedig szótárakat vetnek be. Mindkét irányzat figyelmen kívül hagyja a nyelvtani szerkezetet. A szótári módszernél manapság egyre gyakrabban vetik be az ún. shiftereket, azaz a módosítók (pl. negáció) figyelését is, de ez ritkán lép túl a pár soros szóláncokon. Továbbra is komoly gondot jelent a szentiment tárgyának azonosítása, az irónia és a metaforák kezelése. Úgy tűnik, ezen problémák megoldásához a nyelvtani szerkezet, sőt a szemantika vizsgálata is elengedhetetlen.

 

A stanfordi kutatók abból indulnak ki, hogy a nyelv kompozícionális, azaz egy kijelentés jelentése függ tagjainak jelentésétől és az összetétel módjától. Ezért megoldásuk a mondatok szerkezeti szinten történő szentimentelemzésére épít. A Rotten Tomatoes mozi kritikákat tartalmazó adatbázisát dolgozták fel annotátorok segítségével. Az egyes mondatokat a Stanford CoreNLP-vel parsolták (szintaktikailag elemezték) és a Mechanical Turk-ön toborzott felhasználók segítségével az elemzési fák egyes elemeihez szentimentértékeket rendeltek. Érdekes, hogy a mondatrészek hosszának növekedésével csökken a neutrális elemek száma, illetve a szélsőséges (nagyon pozitív, nagyon negatív) értékek aránya minden hossz esetében viszonylag alacsony.

2014-08-10 17.29.09.png

A szentimentértékekkel annotált treebank (azaz a szintaktikailag elemzett és szentimentinformációval is felcímkézett mondatok halmaza) tréningadatul szolgált több gépi tanulási algoritmusnak. Az ún. recursive neural tensor network (egy, a neurális hálókból származtatott eljárás) lett a legjobb ezek közül, ami az ötfokú szentimentelemzési feladatokban 80, a pozitív-negatív besorlás során 85.4 százalékos pontosságú eredményeket produkált.

 

Az eredmények tükrében úgy tűnik, a nyelvtechnológiába is megérkezett a deep learning! A magyar deep learner szentimentelemzők hivatalos dala pedig ez lesz:

 

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Nyelvazonosítás

2014.08.11. 07:33 Szerző: zoltanvarju Címkék: nyelvtechnológia R Python nyelvazonosítás

A nyelvazonosítás problémája elsőre nem tűnik nehéznek. Az ember egyszerűen felismeri hogy különböző nyelveket hall vagy éppen olvas, még akkor is, ha nem ismeri ezen nyelveket. De mi a helyzet a gépekkel? Mivel politikai blogokat elemző projektünk során felmerült a magyar tartalmak azonosításának problémája alaposabban megvizsgáltuk az elérhető eszközöket az R és Python nyelvekben is.

 

A fenti számban tökéletesen el tudjuk különíteni a francia és a bambara nyelvet, de hogy miért, azt már nagyon nehezen tudjuk megmagyarázni. A nyelvre - legnagyobb sajnálatunkra - jellemző, hogy tudása ösztönösen, magától jön, ezért a nyelvtechnológus sokszor inkább valamilyen gyors megoldást keres és nem a nyelvtudást modellezi. A nyelvazonosítás során is így járnak el a modern eszközök, melyek a TextCat program köpönyegéből bújtak ki.

 

A TextCat elsők között szakított azzal, hogy bármilyen nyelvészeti információt próbáljon megtudni az elemzett szövegről. Ehelyett ún. n-gram karakter modellekkel dolgozott, azaz egy-egy nyelvből korpuszok segítségével előállították  az n hosszúságú karaktersorok eloszlását. A kapott nyelvmodellhez hasonlít a program minden inputot és megpróbálja megtalálni melyik eloszláshoz közelít.

 

textcat - a state-of-the-art algoritmus R-ben van implementálva

A textcat (így csupa kisbetűvel) a jelenleg elérhető legjobb nyelvazonosító könyvtár. A hagyományos karakter alapú nyelvmodellek készítését gondolták újra megalkotói, illetve a korral haladva jelentősen megnövelték a modell nagyságát is, s evvel igen nagy hatékonyságot értek el. A textcat mögötti elméleti megfontolásokról a készítők tanulmányából lehet többet is megtudni, mi itt csak azt emeljük ki, hogy viszonylag nehéz "megfektetni" az eszközt. Miképp az alábbi ábra is mutatja, külön nyelvtudományi vita tárgya lehetne hogy a szerb-horvát-bosnyák hármas keverése hibának tekinthető-e, vagy hogy a skandináv nyelvekkel mit kezdjünk. 

2014-08-10 18.31.07.png

A szerzők hierarchikusan klaszterezték hogy a modellek összevetése során miképp alakulnak a tippek, ebben látható hogy a valenciai és a katalán pl. nagyon hamar kerül egymás mellé. A tudománytalan nyelvrokonítási kísérletek híveinek pedig ajánlom a magyar-breton és magyar-baszk rokonság megfontolását, karakter n-gramokra alapozva lehet mellette érvelni!

2014-08-09 19.32.34.png

langid.py - a pythonisták válasza a nyelvazonosításra

 A langid.py alkotói a hagyományos megoldást választották, de nagy gondot fordítottak a tréningadatokra és arra, hogy sok nyelvet legyen képes felismerni eszközük.

2014-08-10 18.44.26_1.png

A kiértékelés során nagyon szép eredményeket ért el a langid.py Az, hogy 97 nyelvet képes felismerni, igazi, rögtön bevethető könyvtárrá teszi, amit minden pythonista tud használni, előzetes nyelvtechnológiai ismeretek nélkül is. Akit érdekel hogyan készült az eszköz, az mindenképpen olvassa el megalkotóinak tanulmányát!

 

Verdiktet nem mondunk. Mindkét eszköz nagyon jó - hogy ki melyiket használja, az ízlés és megszokás kérdése.

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

2 komment • Kövess Facebookon • Iratkozz fel értesítőre

Magyar politikai blogszféra - általános jellemzők

2014.08.07. 08:00 Szerző: zoltanvarju Címkék: keresés politikai blogok tartalomelemzés hálózatelemzés

Előző posztunkban bemutattuk az adatok beszerzését és az egyszerűsített gráf főbb jellemzőit, ezért végre rátérhetünk a rendes, irányított gráfnak a bemutatására. A posztban a gráfok csomópontjait nem címkéztük, a felcímkézett gráfok nagyobb felbontásban megtalálhatók itt, az url-ek kódjait pedig ezen táblázat segítségével oldhatja fel a kedves olvasó.

directed_authority.png

Az irányított gráfnak 1002 csomópontja van, ezek között 3190 link található. Mivel gráfunk irányított, az A-ból B-be és a B-ből A-ba mutató kapcsolatok között különbséget teszünk. Fontos kiemelni, hogy jelen esetben a linkelés az oldalon található főszövegben történő hivatkozást jelent. A legrövidebb utak átlagos hossza 3.609506, a gráf átmérője pedig 7. A gráf ki- és befokszámainak eloszlását az alábbi ábrák szemléltetik.

directed_degree_frequency.png

directed_log_log_degree_dist.png

Gráfunk nem összekapcsolt, azaz nem érhető el egy adott pontból bármelyik másik pont. Az alábbi ábrán is láthatjuk, akadnak elszigetelt részei a gráfnak.

directed_hits.png

Az egyes csomópontok mérete itt a HITS algoritmus alapján számítottuk érték adja, ami tkp. azt jelenti hogy az élek mentén mennyire jelentős egy adott csomópont, milyen "továbbjutási lehetőségeket" biztosít. Látható, hogy ezek a hubok középen, nagyon sűrűen helyezkednek el, továbbá a gráf nagy része egy összefüggő egészet alkot, ez az "óriási összefüggő komponens", ami 997 csomópontot és 3188 élt foglal magában, legrövidebb utainak átlagos hossza 3.609511, átmérője pedig 7. A HITS algoritmussal súlyozott csomópontokat megjelenítő ábránk most így néz ki:

 directed_gc_hits.png

A forgalmas csomópontokat a magas be-fokszám jellemzi. Hasonló képet kapunk, ha a HITS továbbfejlesztett változatát a PageRank-et alkalmazzuk.

directed_gc_authorities.png

Látható, hogy a gráf legtöbb elemét a HITS és/vagy a PageRank algoritmus alapján magasra értékelt csomópontok kötik össze, ezek az ún artikulációs pontok, melyeket ha eltávolítunk a gráfból, akkor egy nagyon elszigetelt világot kapunk, amiben alig vannak kapcsolatok (865 csomópont között csupán 76 él!).

directed_community.png

Az artikulációs pontok megkeresését többek között arra szokták használni, hogy egy hálózat gyenge pontjait megtalálják, mivel ezek kiiktatásával megszakítható a legtöbb csomópont között az összeköttetés. Esetünkben ezek a pontok azok a források, amikre sokan hivatkoznak, úgy tűnik ezek az oldalak tematizálják a közbeszédet és miképp az alábbi ábra mutatja, egy összefüggő, rendesen összekapcsolt hálózatot alkotnak. 

directed_articulation.png

Az artikulációs pontok száma csupán 132 és 784 kapcsolat található közöttük. A legrövidebb utak hosszának átlaga 2.686464, a gráf átmérője pedig 5. Az artikulációs pontok listája megtalálható itt.

 

Természetesen az artikulációs pontok jelentős része ún tipikus "linktemető", azaz olyan oldal, amire szeretünk hivatkozni, pl a Wikipedia, Google, főbb híroldalak. Ezek egy jelentős része inkább mint hivatkozási pont szolgál a politikai blogok esetében, kérdés viszont hogy a többi oldal mint artikulációs pont tényleg felel-e az információ áramlásáért, képes-e hatni a hálózatban megjelentő topikokra. Ennek megválaszolásához a tartalomelemzést fogjuk segítségül hívni!

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre