HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (8) adatbányászat (11) adatelemzés (9) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (19) alternatív (6) alternatív keresőfelület (28) analitika (6) beszédtechnológia (13) big data (55) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (18) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) Facebook (9) facebook (8) gépi tanulás (18) Google (33) google (59) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) intelligens keresés (6) internetes keresés (35) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (87) kereséselmélet (8) keresési felület (6) keresés jövője (57) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (16) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (8) különleges keresők (7) kutatás (9) lda (10) LDA (10) live (13) machine learning (9) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (19) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP (8) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (32) nyelvtechnológia (76) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (65) Precognox Labs (14) Python (14) R (19) spam (6) statisztika (12) számítógépes nyelvészet (9) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (7) szövegbányászat (22) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (20) topik modellek (6) Twitter (18) twitter (15) vállalati kereső (7) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Emóciók vs. funkciószavak I. Egy kutatássorozat első lépése: Felcsigázzuk az érdeklődést

2015.07.13. 10:00 Szerző: Szabó Martina Katalin Címkék: nyelvészet szociálpszichológia pszichológia afázia névmások nyelvtechnológia emócióelemzés Pennebaker pszicholingvisztika funkciószavak

A jelen poszttal induló kutatássorozatunkhoz James W. Pennebaker The Secret Life of Pronouns című könyve adta az ötletet. A szerző angol nyelvű szövegeket vizsgál abból a szempontból, hogy vajon a funkciószavak használata milyen, eleddig rejtve maradt információkat árul el számunkra az adott nyelvhasználót illetően. Kíváncsiak voltunk, mi derül ki, ha a mindezeket a sajátságokat a magyarban is megnézzük.

Eredetileg azt szerettük volna megvizsgálni, hogy vajon találunk-e valamilyen szignifikáns összefüggést a magyar nyelvű szövegekben előforduló emóciószavak és a személyes névmások között. Pennebaker könyve azonban annyi izgalmas ötleteket adott, hogy végül úgy döntöttünk, egy egész kis kutatási projektet szentelünk a feladatnak, és mélyebben is beleássuk magunkat a témába.

Olvasóink tehát időről időre megismerkedhetnek majd a vizsgálati eredményeinkkel, s a jelen posztban - az izgalmak fokozása céljából - az ötletadó Pennebakerről lesz szó, valamint az emóciók, a személyiség, a nyelv és az agy izgalmas kapcsolatrendszerét tárgyaljuk részletesebben. 

Pennebaker 2011-ben publikált könyve, a The Secret Life of Pronouns több évtizednyi kutatómunka eredménye, amelyben a szociálpszichológus szerző többek között nyelvészekkel, számítógépes és marketinges szakemberekkel, valamint jogászokkal együtt vett részt. A vizsgálati sorozat egyik elméleti alapvetése azt volt, hogy az ún. funkciószavak, amelyek közé pl. a névmások, a névelők és a segédigék tartoznak, elárulnak bizonyos részleteket az emberi személyiségről, a gondolkodási sajátságokról, az érzelmi állapotról, illetve az adott személy emberi kapcsolatairól.

author.pngA funkciószavak az ún. tartalmas szavakkal állnak szemben. Ez utóbbiak ugyanis, ahogyan pl. a főnevek, a melléknevek, a számnevek vagy az igék, általában konvencionális alapon összeköthetőek a világ jelenségeivel - míg a funkciószavak nem. Amíg például az asztal vagy a séta hasonló képzeteket hoz létre az adott nyelv beszélőiben, addig az akkor vagy az ő jelölete rendkívül változatos lehet. A funkciószók szerepe ugyanis a tartalmas szavak közötti kapcsolatok megteremtése, illetve azok jelentéseinek árnyalása, módosítása. (A jelenségről további információt találni többek között itt.)  

Az alábbi táblázat tartalmazza a funkciószók típusait, valamint néhány példát mindegyikre az angol és a magyar nyelvből (vö. Lengyel 2000; Szita-Görbe 2010):

 

 

Kategória példák az angolból példák a magyarból
névmások I, she, it én, ő, az
névelők a, an, the a, az, egy
prepozíciók up, with, in, for -
névutók - fölé, mellett, nélkül, iránt
segédigék és segédszók is, don't, have fog, múlik, való, marad, volna
negáló elemek no, not, never ne, nem, soha
kötőszók but, and, because de, és, mert
kvantorok few, some, most néhány, sok, legtöbb
határozószók very, really kicsit, nagyon, eléggé

ob-py260_bkrvpr_dv_20111003134158.jpg

 

Pennebaker kutatócsoportjának a 90-es években sikerült létrehoznia az ún. LIWC programot (Linguistic Inquiry and Word Count), amely majd' 80 különböző, kézzel összeállított szótár alapján volt képes nagy mennyiségű szöveg elemzésére. Az eszköz segítségével a csoport számtalan szövegtípus nyelvi sajátságait térképezte fel azután, s a munkájuk eredményeképpen létrejött legfontosabb megállapításokat 2011-ben, az említett könyvben publikálták. 

A kutatás további figyelemre méltó hozadéka volt, hogy létrehoztak egy gyors személyiségelemző eszközt, amelyet bárki kipróbálhat az interneten keresztül egy szöveg bemásolása segítségével. A program természetesen angol nyelven készült, és ezen a linken érhető el.

De miért is irányítsuk figyelmünket a funkciószavakra a tartalomelemzésben? Miért ne csupán azokra a bizonyos tartalmas szavakra fókuszáljunk?

Pennebaker többek között azzal érvel, hogy hogy a 20 leggyakoribb előfordulású angol szó között kizárólag funkciószavakat találunk, s pusztán ez a húsz elem megközelítőleg a 30%-át teszi ki az angol nyelvi produktumoknak, az írott és a beszélt nyelvet illetően egyaránt. 

A Magyar Nemzeti Szövegtár (MNSZ) adatai alapján megnéztük, vajon mi a helyzet a magyar nyelvben. Az angolhoz hasonló eredményre jutottunk: tartalmas szót nem is találtunk a top 20-ban.

3.jpg

A jelenség további érdekes momentuma, hogy a nyelvhasználat során tudatosan alapvetően a tartalmas szavakra fókuszálunk, mind a produkció, mind az interpretáció folyamatában. Ez egyrészről azt jelenti, hogy amikor szövegeket alkotunk, kevésbé vagyunk megfontoltak a funkciószavak használatát illetően; inkább a közölni kívánt szemantikai tartalomra, így szükségképpen elsősorban a tartalmas szavakra koncentrálunk. Ugyanakkor a kommunikációnk során a funkciószó-használatunkkal tudattalanul is olyan információkat közlünk magunkról, mint például a nemünk, a korunk, a szociális viszonyaink vagy az aktuális érzelmi állapotunk - amelyeket esetleg egyáltalán nem is szerettünk volna a partner tudomására hozni. Az elmondottakon túl a funkciószavak "megbúvó" természete azt is eredményezi, hogy amikor szövegeket interpretálunk, a tartalmas szavakra koncentrálunk, azokra támaszkodva igyekszünk megérteni a közvetített tartalmat.  A funkciószavak mégis, mintegy tudat alatt hatnak ránk. Pennebaker Abraham Lincoln 1863-as, elementáris erővel ható beszédét hozza példaként, amelynek java része tulajdonképpen 14, több alkalommal ismételt funkciószóból állt.  

Azt mondja Pennebaker tehát, hogy funkciószó-használatunk az érzelmi állapotunkról is árulkodik. De hogyan lehetséges az, hogy ez a két faktor összefügg? Hol és hogyan kapcsolódhatnak össze ezek a faktorok az emberi agyban?

120px-limbic_lobe_animation_small.gif

A szerző az ún. Broca- és Wernicke-afázia példáján keresztül mutat rá az összefüggés természetére. Tekintsük mi is e jelenségeket részletesebben! 

Az alábbi egyszerű sematikus ábra az agyban található ún. Broca- és Wernicke-területek elhelyezkedését szemlélteti. 

tr_0108-gene-b_x220.jpg

 

A Broca-terület, amelyet felfedezője, Paul Broca után neveztek el, a bal homloklebenyen található, míg a Carl Wernicke után elnevezett Wernicke-terület a bal fali lebenyen helyezkedik el. Mindkét tudós orvos volt, és a 19. században, beszédprodukcióval és beszédértéssel kapcsolatos defektusokon keresztül ismerték fel a tárgyalt agyi területek jelentőségét (további információért l. pl. eztezt és ezt).

Broca az 1860-as években egy egész sorozat tanulmányt publikált arról, hogy a később róla elnevezett terület károsodása következtében gyakorta fájdalmasan lassú, és elemeiben össze nem függő beszéd alakul ki a betegeknél. Szigorúbban fogalmazva azt mondhatjuk, hogy a terület sérülése a funkciószavak megfelelő használatának képességét (is) veszélyezteti. Súlyos esetben akár drámaian - szinte kizárólag főnevekre -redukálódik a szókincs. Nézzünk egy rövid részletet egy Broca-afáziában szenvedő beteg beszédéből (vö. Bánréti 2006)!

 Kérdező: Hogy került a kórházba?

Vizsgálati személy: Igen ... hétfőn ... öö ... apa és Piri (a beteg neve) ... és apa ... kórházba. Két ..... orvos, és ... harminc perc ... és ... igen ... és ... kórház. És ööö szerdán ekkor... kilenc órakor ... és ... harminc perc ... csütörtök ... tíz óra, orvosok. Két orvos ..... és fogak. Igen ... így'

A fenti részlet jól szemlélteti a Bánréti (2006) által említett alapvető tüneteket, úgymint a mondatrészleteket produkáló, el-elakadó, töredezett beszédet, amelyet a szótalálási nehézségek, a gyakran elhagyott funkciószavak, valamint az elhagyott toldalékok jellemeznek. 

Az ún. Wernicke-terület károsodása Broca-afáziától igen eltérő nyelvi tüneteket produkál. Az ebben az agyi rendellenességben szenvedőkre jellemző a rendkívüli szóbőség, beszédük grammatikailag helyes, de tartalmatlan. Megfigyelhető, hogy a betegeknek szótalálási problémái vannak, egészen egyszerű főnevek és igék sem jutnak az eszükbe, ezért azokat gyakran más, oda nem illő, sőt kitalált szavakkal helyettesítik. A tartalmas szavakkal vannak tehát problémáik, ugyanakkor a funkciószavakat gond nélkül, megfelelő módon használják. 

A következő részlet egy Wernicke-afáziás magyar betegtől származik, Herman József gyűjtéséből (vö. Pinker 1999): 

Vizsgálati személy: ...eltávottam rajta így sikantiá voltunk úgyhogy nem tudtam eztet kiváltani hanem azon gondolkodtam hogy hátha lenne davivi hanem azt mondtam ippen be hogy úgy kell tenni hogy megint el tudtam fele... szóval csak aztat szerettem volna hogy így a gyerek megvan hanem szállítjuk nekik hogy mondhatját táguttuk egymást.

Kérdező: Hány éves a bácsi gyereke?

Vizsgálati személy: Hát nekem a két epretek huszon dehogy huszon hanem harm... negyven ötvenöt tül van ez az árpa...

A Broca-terület, amely tehát a funkciószavak használatának képességével szoros összefüggést mutat, a frontális agyi lebenyben található. Ez az agyi terület azonban több más képességet is irányít, és közülük számos a szociális jellegű képesség és készség. A frontális lebenyhez köthető például a különböző érzelmek kifejezési, sőt palástolási képessége, de több más, szociális kapcsolatainkban fontos szerepet játszó kompetencia is itt lokalizálódik. És ami számunkra még izgalmasabbá teszi a problémakört, az az, hogy az arckifejezések értelmezésének képessége is ehhez az agyi területhez köthető, korábbi posztunkban pedig épp arra igyekeztünk rávilágítani, hogy milyen párhuzamok találhatóak az arcon megjelenő és a szövegszintű emóciókifejezések kontextusbeli megértése között! 

A frontális lebenynek a szociális képességekben való kimagasló szerepét mutatja Phineas P. Gage (1823-1860) híressé vált, tragikus esete. A férfi mérnökként az új-angliai vasúttársaságnál a pályamunkások csoportvezetője volt, azonban egy 1848-ban bekövetkezett balesetben egy hosszú vasrúd fúródott a fejébe, amely az agyának a bal frontális lebenyét nagy mértékben elpusztította.

i-b15524a44bd4ae497b9a8f348dd2b076-gage3.jpg

A család, és a többi, róla gondoskodó legnagyobb meglepetésére azonban Gage még a tragédia évében felépült. Ugyanakkor, a baleset teljesen átformálta a férfi személyiségét és viselkedését. A korábban figyelmes, kedves, pontos és precíz műszakvezető a tragédia következtében fegyelmezetlen, trágár, figyelmetlen, agresszív, sőt perverz emberré vált, ahogyan arról az esetet publikáló amerikai orvos, John Martyn Harlow beszámolt. Gage barátai egyenesen úgy találták, hogy a férfi “többé már nem Gage”. Harlow így ír megfigyeléseiről:

His contractors, who regarded him as the most efficient and capable foreman in their employ previous to his injury, considered the change in his mind so marked that they could not give him his place again. He is fitful, irreverent, indulging at times in the grossest profanity (which was not previously his custom), manifesting but little deference for his fellows, impatient of restraint of advice when it conflicts with his desires, at times pertinaciously obstinent, yet capricious and vacillating, devising many plans of future operation, which are no sooner arranged than they are abandoned in turn for others appearing more feasible. In this regard, his mind was radically changed, so decidedly that his friends and acquaintances said he was "no longer Gage".

 1b9d43bd350aeebac6e46027b943764375fbb4228215db0686ecdcd339a723f1.jpg

 

Pennebaker amellett érvel, hogy amennyiben a személyiség és a szociális viselkedés szorosan kapcsolódik a frontális lebenyhez, nem meglepő, ha azt tételezzük, hogy magának a frontális lebenyben levő nyelvi központnak, a Broca-területnek is kapcsolata kell, hogy legyen a személyiséggel és a szociális viselkedéssel. Pennebaker rámutat, hogy a funkciószavak megfelelő használatához - amelyért tehát a Borca-terület felel - szociális képességek, illetve készségek szükségesek. Ahhoz például, hogy névmásokat megfelelően használhassunk, tisztában kell lennünk azzal, hogy a kommunikációs partnerünk képes megtalálni azok referensét a szövegben vagy a szövegen kívüli világban; így az alábbi mondat esetében:

Nem tudom, hova tehette, de hozd akkor azt a másikat onnan.

Bár a példában alig találni tartalmas szót, az ilyen és ehhez hasonló megnyilatkozásokat gond nélkül produkáljuk és interpretáljuk mindennapi kommunikációnkban - feltéve persze, ha egészséges Broca-területtel rendelkezünk.

A tárgyalt összefüggéseket támasztják alá azok a jelenségek is, miszerint bizonyos funkciószavak használati sajátságai eltérnek a férfiak és a nők, továbbá különböző korosztályok között (pl. a férfiak több névelőt, míg a nők több egyes szám első személyű személyes névmást használnak). Mindemellett a lelkiállapot is jelentősen befolyásolja a funkciószavak használatát. A Kasseli Egyetem kutatói által, Dr. Johannes Zimmerman vezetésével végzett kutatás eredményei szerint például azok az emberek, akik gyakrabban használják az egyes szám első személyű - vagyis a saját magára utaló - személyes névmásokat (én, magam, engem stb.), nagyobb valószínűséggel hajlamosabbak a depresszióra vagy szenvednek depresszióban, továbbá több nehézségük van interperszonális kapcsolataikban is, mint azoknak, akik megnyilatkozásaikban a többes szám első személyű (mi, magunkat stb.) személyes névmásokat részesítik előnyben (a kutatásról részletesebben l. itt).

 

brain_map.jpg

 

Az e poszttal indított kutatássorozatunk célja, hogy feltérképezzük, milyen kapcsolatok mutatkoznak a funkciószó- használat és az ember érzelmi állapota, szociális státusza, kora, neme és egyéb esetleges tulajdonságai között. Első eredményeinkről rövidesen beszámolunk.

note-comingsoon.jpg

IRODALOM és FORRÁSOK

Bánréti Zoltán 2006. Neurolingvisztika. In Kiefer-Siptár (szerk): Magyar nyelv.  Budapest, Akadémiai kiadó – Kluwer. 653-725.

Hoffmann Ildikó 2007. Nyelv, beszéd és demencia. Philosophiae Doctores 56. Budapest, Akadémia Kiadó.

Hoffmann Ildikó-Németh Dezső 2006. Neurolingvisztikai tanulmányok. Szeged, JGYTF Kiadó.

Lengyel Klára 2000. A segédigék és származékaik. In Keszler Borbála (szerk.): Magyar grammatika. Budapest, Nemzeti Tankönyvkiadó. 252-258.

Pennebaker, James W.  2011. The Secret Life of Pronouns: What Our Words Say About Us. New York, Bloomsbury Publishing.

Pinker, S. 1999. A nyelvi ösztön. Budapest, Typotex.

Szita Szilvia-Görbe Tamás 2010. Gyakorló magyar nyelvtan – A Practical Hungarian Grammar. Budapest, Akadémiai Kiadó.

Magyar Nemzeti Szövegtár (MNSZ) [http://corpus.nytud.hu/mnsz/]

[http://www.theguardian.com/science/blog/2010/nov/05/phineas-gage-head-personality]

[http://www.nyest.hu/hirek/nyelvtani-szofajok-az-mti-nel]

[http://index.hu/tudomany/gesch/]

[http://analyzewords.com/]

[http://www.nytud.hu/oszt/neuro/banreti/publ/banretikezi.pdf]

[http://nemettolmacs.blogspot.hu/2008/05/broca-s-wernicke-afzirl.html]

[http://life.ma/eletmod/betegsegek/8845-depresszios-lehet-aki-sokat-beszel-magarol/]

 

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Alternatív megoldások a pötyögésre mobilon

2015.07.09. 10:10 Szerző: Zoltán Varjú Címkék: mobil teszt billenytyűzet nyelvtechnológia QWERTY

Aki mindig is irígykedve figyelte mobilozás közben a két ujjal gyorsan pötyögő ismerőseit, annak jó hírünk van; simán lehet akár náluk is gyorsabb géplő, akár egy ujj használatával is! Kíváncsiak voltunk arra, hogy milyen smartphone billentyűzetek érhetőek el és kettő kiemelkedőnek tartott alkalmazást teszteltünk: a Swype-ot és a SwiftKey-t.

Régeni Anna írása

A QWERTY-jelenség

typewriter.jpg

A qwerty billentyűzetet úgy gondolták ki, hogy az lelassítsa a gépelést. A gyakori betűpárokat is egymástól távol helyezték el a billentyűzeten, hogy ne akadjanak össze a fémkarok, amikor egyszerre vagy gyors egymásutánban ütötték le őket. A pár éve megjelent és mostanában egyre népszerűbb okostelefon alkalmazások a hagyományos billentyűzetet újragondoló alternatívákat nyújtanak, mivel többé nem írógépen gépelünk - amihez alapvetően megalkották a qwerty billentyűzetet - és így ez a kiosztás gyakorlatilag elveszítette a létjogosultságát.
Mégis, hogyan lehetséges az, hogy noha az írógépek kora már rég letűnt, még sincs semmi változás a billentyűzet vonatkozásában? Ez az a jelenség, amit QWERTY-jelenségként aposztrofál a szakzsargon. Röviden annyit jelent, hogy nem szeretünk újítani. Ha egyszer már megszoktunk valamit, hiába nem praktikus, fölöslegesen bonyolult és körülményes, vagy csak pusztán rossz megoldás, megtartjuk és nem váltunk még akkor sem, ha van jobb és hatékonyabb alternatíva is a kínálatban.

A Swype alapítója Cliff Kushler, aki szerint egyébként 55 szó is begépelhető egy perc alatt és aki többek között a t9 prediktív beviteli módot is megalkotta, amit én is nagyon kedveltem még a Nokia éra alatt. A cég 2002-ben alakult, amit aztán 2011-ben felvásárolt a Nuance Communications nevű amerikai multi, ahol a Swype folytatta a fejlődést. A Swype 3 fő összetevőből áll, egy beviteli út elemzőből, egy szókereső motorból hozzá tartozó adatbázissal és egy személyre szabható interface-ből. A leggyorsabb üzenet begépelésének Guinness rekordját is a Swype-al érték el 2010-ben, bár azóta egy másik alkalmazással már megdöntötték ezt a csúcsot. A Swype crowdsourcingolja a gyakori szavakat és automatikusan hozzáadja az adatbázisához, ezzel is fejlesztve azt. Emellett nyelvi modellt használ, melynek segítségével kísérletet tesz a következő valószínű szóra. Ha több eszközön használjuk a Swype-ot, elméletileg szinkronizálja az eszközök között is a használatból illetve újonnan betáplált szavakból származó plusz információt, bár mi ezt nem teszteltük még le. A Smart Editorral pedig tanulásra is képes a Swype, ez hasonló a sima prediktív funkcióra, csak megvizsgálja a mondatban használt szavakat és megnézni, hogy milyen egyéb, előzőlegesen ajánlott szavak lehetnek esetleg valószínűbbek, mint a betáplált. Ezeken túl még számos apró okos dolog van beleépítve a jobb teljesítmény érdekében.

 

A SwiftKey mögött álló céget Jon Reynolds és Dr. Ben Medlock alapították 2008-ban. A Swiftkey is számos ügyes megoldást tartalmaz: felhő alapú tanulással biztosítja saját fejlődését, monitorozza a felhasználó gépelés pontosságát és hozzáigazítja az adott “gomb” érintésérzékeny területét. Emellett képes több nyelv szimultán használatára, akár egy mondaton belül is. (Használatban kipróbálva lásd a SwiftKey review részt)

A SwiftKey beviteli mód hasonlóan a Swype-hoz gépi tanulást használ, hogy megjósolja az aktuális mondat következő szavát. Képes tanulni a Facebook, a Twitter, a Gmail, az SMS, sőt, akár az RSS hírfolyam használatából is. Továbbá a Trending Phrases funkcióval az adott napi valószínű témákra előre “hangolva” lesz a SwiftKey, ami elég lenyűgözően hangzik. Akárcsak a Swype, a SwiftKey is képes az eszközök közötti szinkronizálásra, ami hasznos. A termék 2010-ben debütált, akkor még beta verzióként. Azóta már újabb verzióit is bemutatták, a legújabb az 5.3.2 Androidra a saját honlapjuk június 30-i posztja alapján.

 

Próbáld ki valamelyik appot, vagy mindkettőt, vagy akár a piacon megtalálható egyéb hasonló alkalmazások egyikét! Megéri egy kicsit újszerűen gondolni a pötyögésre. A teszteléshez egy 5.1.1-es Androidot és egy 8.3-as verziójú iOS-t futtató készüléket használtunk és igyekeztünk a használattal kapcsolatos személyes élményeinket röviden összefoglalni.

Swype

A Swype tesztelése során volt néhány fontos szempont, amire különös figyelmet fordítottam, hogy vajon jól működik-e. Az egyik ilyen az újonnan betáplált szavak későbbiek során való felismerése, a másik a nyelvek közötti váltás (esetemben csak az angol-magyar közti váltás lett górcső alá vonva). Ami az újonnan betáplált szavakat illeti, a Swype igazán jól teljesít, ugyanakkor, ha épp nem tud egy szót, nem minden alkalommal dobja fel a “hozzáadja …-t a szótárhoz” lehetőséget, ami problémássá teszi, hogy bővítsem a szótárt.

A nyelvek közötti váltás jól működik a Swype-nál, ha egy szót kell beszúrnia a mondatba más nyelven. Ilyen jellegű váltásnál még nem volt problémám a működéssel. Ami inkább nehézkes, az az, hogy ne csak egy szó erejéig, hanem mondatokon át a másik nyelven hozza fel az ajánlott szavakat.

A Swype egy narancssárga vonallal jelzi az ujjunkkal megtett utat, ez nekem határozottan tetszett.

Intuitív volt, hogy ha kettőzött mássalhagzót akartam bevinni (pl.: tt, ss, vv), csak egy kicsit hosszabb ideig kellett ott tartanom az ujjamat (én egy picit meg is mozgattam ott az ujjbegyemet) és meg is jelent a kívánt betűpár.

Ami a gyorsaságot illeti, van ebben a beviteli módban potenciál, de néha kissé nehézkes számomra, hogy nem látom pontosan, hová kell húznom a következő pillanatban az ujjamat és így van, hogy meghiúsul a helyes bevitel. Ugyanis a saját kezem takarja el az alsóbb sorokban elhelyezkedő betűket. Ez persze kiküszöbölhető probléma, csak gyakorlás kérdése az egész, a többit a motoros tanulás megteszi “helyettünk”. Alapvetően, minden gyengesége ellenére nagyon kellemes használni, a swype után szinte rossz egyszerűen pötyögni. Végeredményben javaslom bárkinek, aki hajlandó újítani és eltérni egy kicsit a rég megszokottól.

SwiftKey

A SwiftKey telepítés után engedélyt kér, hogy hozzáférjen különböző közösségi médiás fiókjaink tartalmához, ezzel személyes nyelvi modellünket alkotja meg, ami nagyban növeli a bevitel és a predikció pontosságát. Szerencsére egy adott szolgáltatónál több fiókot is megadhatunk, így például aki külön Twitter accountot tart fent angol és magyar csevegésre, az rögtön két nyelvi modellt taníthat meg az appnak. Használat közben a többnyelvűséget általában jól kezeli a SwitfKey, ha mondat közben váltunk nyelvet, azt azonban nem annyira szereti. A swipe funkció kifejezetten kellemes, egy ujjal könnyen kezelhető. A bejárt út elhalványodása igazán hasznos hosszabb szavak bevitele során. Az új szavak felvétele egyszerű, bevitel során a felső sávban láthatjuk milyen karaktereket vittünk fel eddig és milyen szavakra tippel az applikáció. Ha nem a legjobb tippet szeretnénk bevinni, akkor a sávban rákattintunk a szóra és az kerül bevitelre. A SwiftKey egyetlen árnyoldala az, hogy a magyar ragozott alakok nagyon megbonyolítják a prediktív bevitelt és úgy tűnik, néha teljesen esetleges, hogy melyik formát tekinti “alapnak”, azaz a legvalószínűbb bevitelnek és melyeket kínálja fel alternatívának. Gyakori probláma továbbá a hosszú, tíz-tizenkettő karakteres vagy hosszabb szavak felismerése is, de szorgos tanítással a helyzet javítható. A legnagyobb bosszúság számomra nem is az, hogy néha téved hosszú szavak esetében a SwitKey, hanem hogy a “meg” és “még” közül minden kontextusban a “még” formát tartja a legvalószínűbbnek. Mindent összevetve nagyon kényelmes az app, pár nap után nagyon természetes használni és tényleg időt és energiát spórol meg. Mindenkinek ajánlani tudom, aki sokat levelezik mobileszközön, vagy eddig barátai sokat vártak válaszaira a messengeren.

Összegzés

SwiftKey

  • használat közbeni nyelvváltás jó, mondaton belül kevésbé
  • hosszabb szavak bevitelénél hasznos a bejárt út elhalványítása
  • könnyű az új szavak bevitele
  • magyar ragozott alakok megnehezítik a prediktív bevitelt, úgy tűnik, esetlegesen dönt arról, hogy mi az éppen alapértelmezett rag.
  • hosszú szavak felismerése néha problémás, de kitartó tanítással fejleszthető

Swype

  • használat közbeni nyelvváltás gyengébb, a mondaton belüli azonban jó.
  • nem mindig dobja fel a új szó bevitelének lehetőségét, ez megnehezíti a személyes szótár fejlesztését
  • intuitív bevitel
  • gyorsaságából levesz a tény, hogy néha a saját kezemmel takarom ki a szükséges betűket, ez gyakorlással kiküszöbölhető

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Kultúrafüggetlenség kontra kontextusfüggés, avagy Ekman "veszélyes" elmélete

2015.07.07. 09:00 Szerző: Szabó Martina Katalin Címkék: nyelvészet pszichológia szemantika pragmatika nyelvtechnológia kognitív nyelvészet Ekman szentimentelemzés emócióelemzés

A jelen posztban csoportunk eddigi emócióelemzési kutatómunkájához kapcsolódunk, és az érzelmek szövegszintű kivonatolásának elméleti alapvetését szeretnénk alaposabban górcső alá venni. 

Amint arról már több konferencián, cikkben és poszban is szóltunk (l. például a Nyelv, kultúra, társadalom konferencia előadás slide-ok, a Racionalitás, érzelmek, nyelv, a MANYE-n voltunk vagy a Miért foglalkozunk emócióelemzéssel és politikai blogokkal? című bejegyzéseinket),  arra törekszünk, hogy hatékony megoldást találjunk az érzelmeket kifejező szövegelemek automatikus kiszűrésére és feldolgozására. Hogy miért tartjuk mi ezt a feladatot ennyire fontosnak, azt ebben a bejegyzésben nem részletezzük, inkább majd külön posztot szentelünk a témának. Annyit mindenesetre itt is hangsúlyozni szeretnénk, hogy a szövegekben rejtőző emóciók megismerésétől olyan információkat remélhetünk, amelyet a szentimentelemzéstől nem. Az emóciók kivonatolása tehát egy másfajta, esetlegesen a szentimentelemzés eredményét kiegészítő gazdasági haszonnal szolgálhat.   

Ahhoz, hogy az érzelmeket ki tudjuk szűrni a szövegekből, nyilvánvalóan mindenekelőtt meg kell határoznunk azt, hogy mit is keresünk. Kézenfekvő megoldás, hogy olyan nyelvi kifejezéseket igyekezzünk megtalálni, amelyek egyértelműen egyik vagy másik érzelemtípushoz tartoznak. Nézzünk néhány valós nyelvi példát a netről!

1. XDDDDDDD hát hallod téged még egy ártatlan mosolygós fej is felmérgel.:)

2. Még mindig retteg a színésznő, ezért fordult a nyilvánossághoz. 

Úgy tűnik, hogy érdemes az itt kiemelt elemeket összegyűjteni, és aszerint szótárakba rendszerezni, hogy azok mely emóció kifejezésére szolgálnak, tehát mely érzelem meglétét jelölik. Ahhoz azonban, hogy ezeket az emóciókifejezéseket rendszerezni tudjuk, értelemszerűen meg kell határoznunk a kategóriákat, vagyis azt, hogy milyen rendszer szerint kívánjuk a kifejezéseket osztályozni. És itt jön a következő kézenfekvő lépés a nyelvész számára: keressük meg, mit mond a pszichológia, milyen érzelemkategóriákkal érdemes foglalkozni!

Az emócióelemzésnek e fentebb vázolt metódus jelenleg a kitaposott útja - már ha a nem túl magas számú nemzetközi, és még csekélyebb számú hazai publikáció mellett egyáltalán lehet kitaposott útról beszélni. Az emóciókat elemző nyelvtechnológus megnézi a pszichológia vonatkozó eredményeit, és megtalálja Paul Ekman elméletét. Ekman azt mondja, hogy hat olyan, ún. alapérzelem van, amelynek arckifejezései a vizsgálati eredmények alapján kultúrafüggetlenül azonosíthatóak, azaz ezek arckifejezései a világon minden ember számára ugyanazt az érzelmi állapotot (bánat, düh, félelem, meglepődés, öröm és undor) tükrözik

emitiou.jpg

Az 1970-es években azután Ekman, Friesennel együtt kidolgozta az ún. Arctevékenység-kódoló Rendszert, röviden a FACS rendszert. A módszer, amely több évtizednyi kutatás eredménye, feltérképezi az arc 23 pár izmának mozgását, s ezen apró mozgások elemzése alapján megállapítja, hogy az adott személy éppen milyen érzelmi állapotban van. Az elemző precizitását mutatja, hogy a segítségével az igazi és a színlelt érzelmeket is pontosan el lehet különíteni egymástól.

Nem csoda hát, ha a Time magazin 2009-ben Ekmant a világ 100 legbefolyásosabb emberének sorába választotta. 

lie-to-me-production-aug-2008-download-2-087.jpg

Paul Ekman és a Hazudj, ha tudsz! című tévésorozat sztárja, Tim Roth

(www.paulekman.com) 

Az ekmani elmélet átütő sikeréből következően a nyelvtechnológiai emócióelemzés is alapvetően ebből a kategorizálásból építkezik. A legtöbb vonatkozó dolgozat vagy egyenesen az ekmani hat alapemóció mentén csoportosítja az értelemkifejezéseket (l. pl. Liu et al. 2003; Alm et al. 2005; Neviarouskaya et al. 2007 a,b; Aman-Szpakowicz 2007), vagy ezeket alapul veszi, majd néhány egyéb csoporttal kiegészíti azt (pl. a vonzalom vagy a feszültség kategóriáival, ahogyan újabban például magunk is teszünk, l. Szabó et al. 2015). Annyira meggyőző érv ugyanis az, hogy ezek az érzelemtípusok kultúrafüggetlenek, hogy a számítógépes nyelvész bele sem gondol: Vajon valóban ez az a sajátság, amire nekünk szükségünk van? Illetve, vajon nem takar-e el ez (az egyébként nyilvánvalóan fontos) tény olyan jellegzetességeket a számítógépes nyelvész szeme elől, amely dugába döntheti az elemző munka eredményét?

Azt ígértem a poszt címében, hogy Ekman "veszélyes" elméletéről fogok írni. Nos, ezzel a jelzővel Daniel C. Dennett Darwin's dangerous idea (1995) című művére kívántam rájátszani, és az "ekmani veszélyre" igyekeztem rámutatni. Dennett két okból nevezi a darwini elméletet veszélyesnek: Egyrészt, mert Darwin gondolata alapjaiban forgatta fel a hagyományos kozmológiai gondolkodást, miszerint az ember kitüntetett szereppel bír a létezők sorában, sőt alapjaiban kérdőjelezte meg azt, hogy magának az életnek is egyáltalán kitüntetett ontológiai státusza volna. Másrészt, Dennett arra is rá kíván mutatni, hogy (véleménye szerint) sokan rosszul értelmezik Darwint az elmélete könnyű félreérthetősége okán, s ez a félreértelmezhetőség veszélyessé teszi azt. Ekman elmélete azért "veszélyes", mert annak kultúrafüggetlenül érvényes volta olyannyira meggyőző erejű, hogy hajlamosak vagyunk az emóciókifejezések - és legyenek azok most arc- vagy nyelvi kifejezések - egyéb sajátságaira már különösebb figyelmet nem is fordítani.

Az egyik ilyen sajátság a kontextus szerepe az emóciókifejezések interpretálásában. És itt nem feltétlenül szövegek elemzéséről van szó. Nézzük meg a jelenséget közelebbről is!

Barrett és szerzőtársai (Barrett et al. 2007) dolgozatukban egy a téma szempontjából igen érdekes fotóra hívják fel a figyelmet. A fényképet Jim Webbről, az Amerikai Egyesült államok szenátoráról készítették, miközben a 2007-es választási győzelmet ünnepli. A pszichológiai kísérletek azt mutatják, hogy amennyiben a szenátor arcát önmagában, a kontextusa nélkül látják az alanyok (l. (a) lentebb), arról azt a megállapítást teszik, hogy a férfi arckifejezése agressziót és haragot tükröz. Amennyiben azonban a szenátor arcát a kép eredeti formájában, a teljes kontextusban mutatják meg az alanyoknak (l. (b) lentebb), úgy azok örömöt és izgatottságot vélnek felfedezni rajta.   

nihms37844f1.jpg

A vizsgálat eredménye különösen figyelemre méltó, ha meggondoljuk, hogy a szenátor arckifejezését a vizsgálati személyek egyáltalán nem érzékelik  félreérthetőnek, többértelműnek, hanem automatikusan és bármiféle megerőltetés nélkül jutnak ellentétes megállapításra.

Barrett (Barrett et al. 2007) a jelenségre paradoxonként utal, hiszen mégiscsak elég paradoxális, ha van hat, egymástól biológiai jegyeiben jól elkülöníthető, emellett univerzális arckifejezés, amelynek interpretációja, mindennek ellenére, akár teljes mértékben kontextusfüggő lehet. A szerzők megpróbálnak valamiféle magyarázatot adni a jelenségre, és dolgozatukban a szavak mint a kategóriaképzés eszközével operálnak, véleményem szerint azonban elméletük nem ad megnyugtató választ.

Ugyanakkor, (talán az ekmani kategóráiákért cserébe?) most mintha a nyelvészet kölcsönözne elméleti keretet a pszichológiának. 

Az elméleti keretet egészen Wilson és Sperber (2004) pragmatikájáig kell visszavezetnünk. Wilson és Sperber (2004) azt mondja, hogy a megnyilatkozás kommunikált tartalma messze túlmutat azon a tartalmon, amelyet a puszta nyelvi elemek és szerkezetek kódolnak, ezért a jelentést a hallgatónak kell kidolgoznia az aluldeterminált jelentésből a kontextus alapján. Mindez a lexikai pragmatika elméleti keretében azt jelenti, hogy maga a puszta lexéma csupán alulspecifikált szemantikai reprezentációval rendelkezikEnnek következtében a lexéma a teljes jelentését majd csak a kontextusban nyeri el (vö. Bibok 2014). De honnan van mégis ez az aluldeterminált jelentés? Nyilvánvalóan lennie kell egy pragmatikai tudásnak, amely a kódok kidolgozásához szükséges enciklopédikus információkat tartalmazza. 

 

Mindez igen bonyolultan hangzik, ezért nézzünk meg néhány példát az elmélet működésére a szentiment- és emóciókifejezések megértése területéről!

3.a. Őrizetben a brutális kettős gyilkosság gyanúsítottja (mno.hu)

b. Félelmetes élményben volt része egy amerikai nőnek, aki Dél-Afrikában, a Mossel-öbölben vett részt egy ketreces cápamegfigyelésen. (www.erdekesvilag.hu)

4. Bemutatkozott a brutális Volkswagen GTI Supersport Vision Gran Turismo (...) Egy félelmetes ferdehátú, amely egy másik nézőpontból kelti életre a „GTI” koncepcióját. (http://auto-live.hu/)

Az fentebb vázolt elképzelés szerint a (3a) és (3b) mondatok esetében a kiemelt szavak megértése a pragmatikai tudásunkban lévő enciklopédikus információkra támaszkodva történik. Mindez azt jelenti, hogy van valamilyen, az eddigi tapasztalatainkon alapuló elképzelésünk arról, hogy milyen az, ami brutális, és milyen az, ami félelmetes. Ez tulajdonképpen az az enciklopédikus információ, amelyet a vizsgált kifejezések alulspecifikált szemantikai reprezentációi magukban foglalnak, és ezekre a számunkra már rendelkezésre álló információkra támaszkodva azt is meg tudjuk fejteni, hogy mit takarnak ezek a kifejezések ezekben az aktuális kontextusokban. Ugyanakkor, a (4) alatti példa esetében ez az enciklopédikus információ nem áll összhangban teljes mértékben az aktuális kontextussal, tehát az alulspecifikált szemantikai reprezentációban foglalt enciklopédikus információ nem elegendő a számunkra, ezért „távolabbi” enciklopédikus információk elérésére van szükség. A (4) alatti példa esetében ez a "távolabbi" információ a brutális és félelmetes kifejezések affektív jegye. Azt mondjuk tehát, hogy ebben és az ehhez hasonló esetekben a vizsgált lexémák prototipikus vagy sztereotipikus jelentése helyett annak puszta affektív vagy intenzitási szemantikai jegye aktiválódik az interpretáció során. Még egyszerűbben: nem arra a következtetésre jutok, hogy a Volkswagen e típusa úgy brutális, mint egy gyilkosság, és rettegnem kell tőle, hiszen félelmetes, hanem arra, hogy annyira hatásos, lehengerlő és meglepő, mint - hogy úgy fogalmazzunk - "amekkora" affektív jegy van a brutális és a félelmetes kifejezésekben.  

Ha meggondoljuk ezt az interpretálási folyamatot, könnyen felfedezhetünk egyfajta párhuzamot a szövegszintű emóciókifejezések, valamint az emóciók arckifejezéseinek a megértése között. Hiszen nem lehet nem észrevenni, hogy mennyire hasonlít egymásra az a két jelértelmezési folyamat, amelynek során képes vagyok megfelelően, a  prototipikus vagy sztereotipikus jelentéstől eltérően, a puszta affektív szemantikai sajátság alapján interpretálni jelen esetben például a brutális szót az ezt a fajta interpretációt megkívánó kontextusban, és, hogy képes vagyok az egyébként, kontextus nélkül a számomra a harag egyértelmű jegyeit mutató szenátori arcot az izgatottság és az öröm kifejeződéseként interpretálni az ezt a fajta értelmezést megkívánó kontextusban. 

Persze a fentebb bemutatott elméleti párhuzamot nem ok nélkül tárgyaltam - bár kétségtelen, hogy izgalmas és mindenképpen megfontolásra érdemes elképzelés önmagában is. Azt szerettem volna mindenekelőtt megvilágítani, hogy amíg az emócióelemzők (és áruljuk el: a szentimentelemzők is) gyakorta alapvetően a kategóriarendszerre, a rendszerezés problémáira és lehetőségeire fókuszálnak, elsikkadnak olyan jelentős kérdések fölött, mint jelen esetben például a kontextus szerepe a nyelvi (és az arckifejezések esetében nem nyelvi) jelek megértésében. Így pedig egy helytálló, és akár a nyelvtechnológiában és sikerrel alkalmazható pszichológiai elmélet is könnyen "veszélyessé"  válhat.           

IRODALOM

Alm, C.O.-Roth, D.-Sproat, R. 2005. Emotions from text: machine learning for textbased emotion prediction. In Proceedings of the Joint Conference on Human Language Technology / Empirical Methods in Natural Language Processing (HLT/EMNLP 2005). Vancouver, Canada. 579-586.

Aman, S.-Szpakowicz, S. 2007. Identifying Expressions of Emotion in Text. In Proceedings of the 10th International Conference on Text, Speech, and Dialogue (TSD- 2007), Plzeň, Czech Republic, Lecture Notes in Computer Science (LNCS). SpringerVerlag. 196-205.

Barrett, L.F.-Lindquist, K.A.-Gendron, M. 2007. Language as context in the perception of emotion. Trends in Cognitive Sciences 11. 327-332.

Bibok, K. 2014. Lexical semantics meets pragmatics. Argumentum 10. Debreceni Egyetemi Kiadó. 221-231.

Ekman, P.-Friesen, W.V. 1969. The repertoire of nonverbal behavior: Categories, origins, usage, and coding. Semiotica 1. 49-98.

Ekman, P.-Friesen, W. V.-Ellsworth, P. 1982. What emotion categories or dimensions can observers judge from facial behavior? In P. Ekman Ed. Emotion in the human face. New York: Cambridge University Press. 39-55.

Liu, H.-Lieberman, H.-Selker, T. 2003. A Model of Textual Affect Sensing using RealWorld Knowledge. In Proceedings of the International Conference on Intelligent User Interfaces, IUI 2003, Miami, Florida, USA.Wilson, D.-Sperber, D. 2004. Relevance Theory. In Ward, G.-Horn, L. eds. Handbook of Pragmatics. Oxford, Blackwell. 607−632.

Neviarouskaya, A.-Prendinger, H.-Ishizuka, M. 2007a. Analysis of affect expressed through the evolving language of online communication. In Proceedings of the 12th International Conference on Intelligent User Interfaces (IUI-07). Honolulu, Hawaii, USA. 278-281.

Neviarouskaya, A.-Prendinger, H.-Ishizuka, M. 2007b. Narrowing the Social Gap among People involved in Global Dialog: Automatic Emotion Detection in Blog Posts, In Proceedings of the International Conference on Weblogs and Social Media (ICWSM 2007). Boulder, Colorado, USA. 293-294. 

Szabó M.K.−Vincze V.−Morvay G. 2015. Magyar nyelvű szövegek emócióelemzésének elméleti nyelvészeti és nyelvtechnológiai problémái. Nyelv – Nyelvtechnológia – Nyelvpedagógia: 21. századi távlatok. 25. MANYE-kongresszus, Budapest

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Hogyan befolyásolja a gondolkodásunkat a mindennapi számítógép-használat?

2015.07.06. 16:08 Szerző: Zoltán Varjú Címkék: kérdőív

Egy kérdőív kitöltésére buzdítjuk kedves olvasóinkat, amit alább meg is találhatnak. A vizsgálat eredményeiről természetesen egy posztban fogunk hamarosan beszámolni.

 cd.jpg

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Hogyan cenzúrázd az internetet?

2015.07.03. 09:00 Szerző: Kitti Balogh Címkék: pagerank politikai blogok R fragmentation

Miután felderítettük a politikai blogok hálózatát, elemezgettük és előadtunk róla, épp itt az ideje, hogy szétromboljuk, ahogyan egy rendes LEGO-építményt illik. Na de mennyire ellenálló az építményünk? Szétesik egy jól irányzott csapástól vagy fogainkat és körmeinket segítségül véve kell szétszednünk az elemeket? Mit tegyen egy gonosz manó, ha nem tetszik neki, hogy a különböző nézeteket képviselő oldalak között összeköttetéseket, utakat találhatunk? Posztunkban a hálózat támadásának két stratégiáját vetjük össze.

001.png

Hogy szétbombázzuk az 1195 kapcsolattal összekötött 747 blogból és híroldalból álló hálózatunkat, két stratégiát vetettünk be Albert Réka, Hawoong Jeong és Barabási Albert László cikke alapján. Az első stratégia a random meghibásodások mintáját követi. Mivel egy hiba véletlenszerűen jelentkezik, mi is véletlenszerűen választunk ki egy-egy weboldalt, és töröljük minden kapcsolatával együtt. Majd jön a következő oldal, azt is töröljük, és így tovább. A második stratégiát követve azonban nem bízzuk a véletlenre a rombolást, hanem megkeressük a hálózat igazán fájó pontjait és azokat támadjuk meg. Barabásiék cikkétől eltérően nem a legnagyobb fokszámú (legtöbb kapcsolattal bíró) oldalakat szüntettük meg, hanem a legnagyobb PageRank értékkel rendelkezőket. (Ezt előzetesen kipróbáltuk, és a PageRank támadás nem sokkal, de valamivel hatásosabb tömegpusztítónak bizonyult.) A rombolást addig folytathatjuk, míg el nem fogy az összes oldal, de mivel mi éppen azon vagyunk, hogy kiélhessük a destruktív hajlamunkat, annak örülünk, ha minél kevesebb oldalt megsemmisítve tudjuk szétszedni a hálózatot.

És hogy melyik a nyerő stratégia, a véletlenszerű vagy a PageRank érték szerinti támadás, a következő két videó elárulja:

 

 

 

Mindkét videón 100 oldalt iktattunk ki egyik és másik stratégia szerint. Azt valószínűleg sejthettük, hogy ha a PageRank érték szerinti legfontosabb oldalakat semmisítjük meg, a hálózat súlyos sérüléseket szenved és hamar szétesik. Az azonban meglepő lehet, hogy a random támadások szinte meg sem kottyannak a hálózatnak, és alig történik valami a szerkezetével.

Ahogy Barabásiék cikkében is olvashatjuk, ez annak köszönhető, hogy a vizsgált hálózat - ahogyan a valós hálózatok többsége - skálafüggetlen, tehát nagyon sok olyan weboldal van a hálózatban, amely kevés kapcsolattal rendelkezik, és csak néhány olyan oldal van, amely nagyon sokkal. Ezért van az, hogy ha véletlenszerűen támadunk, jóval nagyobb valószínűséggel fogunk ki olyan oldalt, amelynek csak kevés kapcsolata van, és a hálózat szerkezetére nézve nincs különösebb jelentősége a kiiktatásának. Míg ha a PageRank érték szerint támadunk, akkor pont azokat az oldalakat semmisítjük meg, amelyek központi jelentőségűek a gráf szerkezetében.

Ezt a jelenséget szemlélteti a következő ábra is, csak a hálózat egy másik tulajdonságának szempontjából. Az ábra azt mutatja, hogy hogyan változik a hálózatban az átlagos úthossz a véletlenszerű és a PageRank támadások hatására. Az eredeti hálózatban kb. 3,26-os volt az átlagos úthossz, azaz bármelyik oldaltól egy másik bármelyik oldalig nagyjából három oldalon keresztül jutottunk el átlagosan. A PageRank támadás hatására az egyre fogyatkozó hálózatban az átlagos úthossz szinte azonnal növekedni kezd, ami azt jelzi, hogy fontos összekötő elemeket szüntettünk meg. Az oldalak csupán egytizedének törlésével szét is esik a hálózat, és az átlagos úthossz értéke is leesik. A random támadások azonban nincsenek nagy hatással az átlagos úthosszra, az oldalak ¾-ét is törölnünk kell ahhoz, hogy megérezze a támadást a hálózat és elkezdjen szétesni.

 

avl.png

 

Ha tehát van egy skálamentes hálózatunk, és szét szeretnénk rombolni, a legjobb amit tehetünk, hogy kiiktatjuk a szerkezetileg legfontosabb elemeket. A fontosságot pedig megítélhetjük fokszám, PageRank, köztesség vagy más szimpatikus centralitásmérték alapján. 

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

süti beállítások módosítása