Ngrammatológia - túl az adatokon

2013.05.29. 08:00 Szerző: Zoltán Varjú Címkék: big data Google Google Ngram Ngram

A Google Ngram Viewer rendkívül népszerű lett elindulása óta. A Google korpusza a Google Books során beszkennelt és karakterfelismeréssel feldolgozott könyvek tartalmára alapozott történeti korpusz több nyelvre. A humán- és társadalomtudományok körében népszerűvé vált az Ngram használata, mivel könnyen tesztelhetünk vele eszmetörténeti trendeket. Külön irányzat is született Cultoromics néven erre. Azonban nem szabad elfelejtenünk, hogy az adatok önmagukban nem sokat mondanak, jelentős háttértudás szükségeltetik értelmezésükhöz.

A LanguageLog mutatott rá három Ngram-ra alapozott tanulmányra. Twenge, Campbell és Gentile Increases in Individualistic Words and Phrases in American Books, 1960–2008 című tanulmánya szerint az utóbbi ötven évben egyre individualistábbá váltak az amerikaiak és ez tükröződik az ezen időszak alatt megjelent könyvek nyelvhasználatában is. Kesebir és Kesebir is hasonló eredményekre jutott melyeket The Cultural Salience of Moral Character and Virtue Declined in Twentieth Century America című tanulmányukban mutatnak be. Kesebirék példái szerint az erénnyel kapcsolatos kifejezések gyakoriságának csökkenése párhuzamba állítható az individualizmus előtérbe kerülésével és az erény hanyatlásával. McWhorter (ismert nyelvész és közíró) mutatott rá arra, hogy ezen tanulmányok nem veszik figyelembe a nyelv változását. Gondoljunk pl. a magyar "derék ember" kifejezésre. Ez ma már régiesnek hat, inkább "tisztességes ember"-t mondanánk helyette, de szlengben akár a "jó arc" is elmegy. Hasonlóképpen az amerikai angolban a "negro" (néger) szó használatát mára szinte teljesen felváltotta az "African American" kifejezés.

Daniel B. Klein Ngrams of the Great Transformations című tanulmányában a Polányi Károly által felvázolt nagy átalakulás nyomait kutatja az Ngram korpuszban. Klein nagyon helyesen meg is jegyzi, hogy az Ngram grafikonok csupán szemléltető eszközök, nem "tudományos bizonyítékok". Hogy miért? Egy adott szó jelentése átmehet bizonyos változásokon. Pl. a "Women suffrage" kifejezés eredetileg a női választójogi mozgalmat jelentette, ám napjainkban szélesebb értelemben használjuk és a nők politikai-, gazdasági- és közéleti tevékenységekbe történő egyenjogúságát, egyenlőségét és aktivizálását értjük rajta. Így a kifejezésre kapott ngram értelmezéséhez figyelembe kell vennünk, hogy a választójogi mozgalom a múltszázad tízes és húszas éveiben érte el tetőpontját és első sikereit, majd a hatvanas, hetvenes években indult a második hullám ami kiszélesítette az egyenjogúságot.

Azt sem szabad elfelednünk, hogy a puszta gyakoriság értelmezése sem egyszerű. Az ún. flogiszton-elmélet a 17. és 18. században nagyon népszerű volt az égés magyarázatára míg Lavoisier meg nem cáfolta. A modern kategóriaelmélet megjelenését 1942-re datálják, de maga az elnevezés az 1960-as évekig nem terjedt el. Ugyanakkor a kategóriaelmélet tárgyalása során egészen a 19. században megjelenő algebrai geometriáig szokása visszamenni. Nézzük meg miképp alakul a "phlogiston theory" és a "category theory" kifejezések ngram-ja:

A flogiszton-elmélet fontosabb lenne a kategóriaelméletnél? Fektessünk flogisztonnal foglalkozó startupba? Akik ismerik a filozófiatörténetet tudják, hogy az említésgyakoriság fokozatos emelkedésének oka egyszerű; a tudományfilozófusok egyik kedvenc példájával állunk szembe. A kategóriaelmélet hiába az egyik legfontosabb kutatási terület napjainkban (főbb "felhasználási területei" mint például a matematika alapjai, a kvantumfizika matematikai modellezése, kompozícionális-disztribúciós jelentéselmélet, kvantumszámítógépek, probabilisztikus programozás, bioinformatika tkp. lefedik a leginnovatívabb kutatási irányokat) ennek ellenére nagyon alacsony a frekvenciája.

Nagyon érdekes, hogy még olyan kutatók sem fordultak segítségért szakemberekhez, akik jónevű egyetemeken bizonyára találtak volna segítőkész kollégát. Szeretnénk azt hinni, az adatok áradata elsodorja a nagy elméleteket, de ahogy látható, önmagukban az adatok csak szép grafikonokat generálnak és nem tudást. Vigyázzunk, ha adatelemzésre adjuk a fejünket!

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Marketing és (nyelv)technológia

2013.05.28. 12:00 Szerző: Zoltán Varjú Címkék: marketing nyelvtechnológia

Az Onlinemarketing blogon jelent meg Marketing mérnökök címmel egy poszt kb. két hete. Nagyon érdekes azt látni, hogy vannak akik szerint ez a jövő, vannak akik szerint már most is alapvető elvárás az analitikai alaptudás ezen a területen. A The Economist egy cikke szerint az amerikai nagyvállalatok hetven százaléka alkalmaz ma már "chief marketing technologist" szakembert. Mivel az említett írás alapvetően üzleti szempontból foglalkozik az információtechnológia nyújtotta új lehetőségekkel, érdemes főbb pontjain végigmenni és megvilágítani technológiai oldalról ezeket. Egyben szeretném felhívni a figyelmet arra, hogy nem csak a "nálunk szerencsésebb történelmi fejlődésű országokban" érhetők el hasonló technológiák. Mi lenne ha az NLP meetup-on egyszer összetalálkozhatna pár marketinges és a területet technológiai oldalról támogatni próbáló kolléga? Ha van igény erre, írjatok nekünk és összehozunk egy beszélgetést!

Sentiment Analysis.png

A mobilinternet és a perszonalizáció elterjedése olyan kontextust teremt, mely lehetővé teszi az ún. adaptív (vagy személyre szabott) marketinget. A kontextusnak óriási ereje van a keresésben is, a GoogleNow pl. erre alapozva találja ki gondolatainkat és tálalja fel az adott helyzetben számunkra szükséges információt. A reklámozás terén ez valahogy így néz ki:

With new digital tools marketers can reach the likeliest customers when they are most in the mood to buy. Last summer Wall’s ice cream and O2, a mobile-phone network, teamed up to send advertisements to Londoners’ smartphones when temperatures climbed. When the weather cooled Kleenex, a brand of tissues, used Google search terms and health-service data to target ad spending to areas likely to suffer the most sneezes.

A webkettes tartalmak monitorozása akár sci-fi-be illő jeleneteket is produkálhat. A Nestlé "digital acceleration team" főhadiszállását így mutatja be a riport:

The setting was a situation-room-like studio, where the focus is normally on how Nestlé’s own products are faring among electronic opinion-formers. A glowing map shows where social-media buzz is liveliest. A screen records that Kit Kat bars were the subject of 164,462 recent posts on Twitter, Facebook and the like. Of these, 73% were positive. (Though it is hard to imagine why anyone would complain about chocolate. What’s not to like?)

Kit Kat captured 34% of the chocolatey chit-chat, reveals an illuminated pie chart, while Snickers did better, with 39%. If sentiment droops, “community managers”, many of them DAT alumni, can swoop in to soothe a malcontent or suggest a fix. Such give and take has “radically changed the relationship between our brands and the consumer”, says Patrice Bula, Nestlé’s marketing chief. “Today we have really entered the age of conversation.”

A tartalom- és szentimentelemzés a jelek szerint bevett dolog a Nestlé marketing osztályán.

Az utóbbi években az ügyfeleikkel hosszú kapcsolatot ápoló cégeknél (pl. bankszektor, telekommunikáció stb.) kialakított CRM (customer-relationship management) rendszerekhez hasonló megoldásokat vesz át a többi iparág is. A cégek ugyanis igyekeznek magukhoz kötni a fogyasztókat. Ezért "beszélgetnek" velük a közösségi médiában s különféle tevékenységekbe (pl. online nyereményjátékok, kampányok stb.) próbálják bevonni őket. Ez egyben kihat a hirdetésekre is, hiszen nem a klasszikus reklámok, hanem tartalmak kerülnek előtérbe. Ezek hatékonysága nem mérhető jól a hagyományos eszközökkel (pl. A/B teszteléssel) a közösségi médiában megjelenő reakciók monitorozása pedig alapvetően SNA (social network analysis - közösségi hálózatelemzés) és tartalomelemzéssel végezhető csak el.

Alábbi posztjainkban külföldi megoldásokat mutattunk be erről a területről:

Mennyire érett a nyelvtechnológia ma? (AlchemyAPI és ConveyAPI)
DiscoverText, a szövegfelfedező
Crimson Hexagon - tartalomelemzés másképp

A magyar piacon is elérhetők hasonló szolgáltatások! Ezek közül a legismertebb talán a Replise (korábban Brandmonitor) a blogunkon is bemutatott Neticle Technologies és a Maven7. Rajtuk kívül is akad szép számmal nyelvtechnológiai cég hazánkban. Habár ezt nem szokás reklámozni, ezen a területen tényleg a világ élvonalába tartozik hazánk! Az NLP meetup előadói, a Nyelv- és Beszédtechnológiai Platform és a LinguaPark Klaszter tagjai között érdemes keresnie annak, akinek ilyen fejlesztésre van szüksége.

Saját tapasztalatom az, hogy nagyon nehéz elmondani miben is tud segíteni a technológia egy szakembernek (persze ebben sokszor benne van az is, hogy mi nem értjük, mire is lenne szüksége a másik oldalnak és elbeszélünk egymás mellett). Szerencsére van pár rövid elemzés, melyekben nem a technológián, hanem az elemzésen és az eredményeken van a hangsúly. Ezek talán segítenek elképzelni azt, mire is alkalmazhatók olyan nagy szavak mint SNA, polaritás mérés stb.:

Tempfli Péter: A legfontosabb blog nyomában - Rövid cikk a borászattal foglalkozó blogok elemzéséről és általában a blogos hálózatokról
Network blog: Online politikai harctér I. és II. - A hazai politikai pártok online jelenlétét elemzi a Facebook-on és a Twitter-en
Méltányosság Politikaelemző Központ - Neticle Technologies: Politikai véleményárfolyam - havi rendszerességgel megjelenő elemzés a hazai politikai élet webes lenyomatáról

Milyen szép lenne, ha a két szakma képviselői le tudnának ülni egy kicsit beszélgetni! Mit tudnak most nyújtani a nyelvtechnológiai cégek, milyen nemzetközi trendekre érdemes figyelni? Mire lenne szüksége a felhasználóknak (ezt a legnehezebb kitalálni)? Hogy viszonyulnak a marketingesek pl. a szentimentelemzésekhez? A tavalyi NLP matiné mintájára találkozzunk valamikor és beszélgessünk el ezekről a kérdésekről!

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Magyar Open Data Hub indul

2013.05.27. 08:00 Szerző: Zoltán Varjú Címkék: Precognox Open Data CKAN

Május 22-én tartottuk a második Open Data Meetupot, ahol a résztvevők megegyeztek abban, hogy a jövőben szorosabban fognak együttműködni a nyílt adatok ügyének előmozdításán. Ennek első lépése a magyar Open Data Hub elindítása.

Cégünk, a Precognox vállalta egy CKAN (Comprehensive Knowledge Archive Network) szerver felállítását és üzemeltetését. A LEG fogja koordinálni a kezelőfelület és a dokumentáció honosítását, a K-Monitor pedig megszervezi a működést segítő önkéntesek munkáját.

A CKAN-t az Open Knowledge Foundation fejlesztette ki és jelenleg a legnépszerűbb open data hub szoftver. Szerte a világon egyre több kormányzati és önkormányzati szervezet indít open data hubot. Az Egyesült Államok és az Egyesült Királyság mellett többek között Ausztria, Németország és Hollandia is CKAN szerveren osztja meg az állami adatokat. Önkormányzati szinten is egyre több város és régió indít hivatalos data hubot, pl. Buenos Aires, Berlin, Hamburg, Róma és Manchester használja a technológiát.

A mi kezdeményezésünk az ún. közösségi data hubok sorába tartozik, melyeket civilek üzemeltetnek. Ilyen pl. az orosz, a görög, a szerb és a norvég data hub is. Az Open Data Hubra bárki feltölthet nyílt adatokat, melyek licencét önkéntesek ellenőrzik majd. A CKAN lényege, hogy egy helyen elérhetővé és kereshetővé tegye ezeket. A szoftver lehetővé teszi, hogy ne csupán "nyers" adatokat töltsenek le a felhasználók, hanem a honlapon értelmezzék azt egyszerű vizualizációk (grafikonok, térképek stb.) segítségével.

A nyílt adatok segítik a polgárokat abban, hogy jobban rálássanak életükre - legyen szó buszmenetrendről, légszennyezettségi adatokról vagy költségvetési számokról. Az üzleti életben is nagyon fontos szerepük van a nyílt adatoknak és egyes elemzések szerint csupán az EU-ban 140 milliárd euró hasznot hajtana, ha jobban kihasználnánk ezt. Az Open Data Hub az első lépés ezen a téren idehaza.

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

1 komment • Kövess Facebookon • Iratkozz fel értesítőre

Idibon - Big Data Bábel

2013.05.21. 12:00 Szerző: Zoltán Varjú Címkék: nyelvészet nyelvtechnológia big data Idibon Nyelv és Tudomány

Az interneten keletkező információ legnagyobb része nyelvi, legyen az szöveg, audió vagy pedig videó. Napjainkban kb. ötezer nyelvet használnak a modern tömegkommunikációs eszközök használói és az általuk generált adatok elemzése során gyakran merülnek fel nyelvi, nyelvészeti kérdések. Az Idibon célja, hogy segítsen eligazodni az ilyen kérdésekben. Az NLP meetup volt előadója, Tyler Schnoebelen a friss startup senior data scientist munkatársa szerint a cég piacát azok az adatelemző központok jelentik, melyek felismerik, hogy a nyelvi adatok elemzéséhez szükségük van külső szakértőkre.

Az összes kommunikáció kb. hét százaléka az interneten zajlik ma. Ezt szemlélteti a Robert Munro (Idibon CEO) Strata előadásának ábrája.

Habár több mint ötezer nyelvet használnak a netezők, a tíz leggyakrabban használt nyelv beszélőinek száma lefedi a felhasználók több mint felét. Látható, többet kommunikálunk mobilon (beszélgetés és SMS formájában is) mint interneten. Fontos ugyanakkor megemlíteni, hogy egyre gyakoribb az eltérő anyanyelvűek közötti kommunikáció (ami általában valamilyen közvetítőnyelven történik, ami legtöbbször az angol vagy valamelyik másik világnyelv). Akár egynyelvű, akár többnyelvű a vizsgálni kívánt dokumentumok köre, könnyen belátható, szükség van szakemberekre az adatok elemzése során. Számítógépes nyelvészt tartani drága mulatság és valószínűleg a legtöbb cégnek nincs is szüksége folyamatosan ilyen képzettségű munkatársakra. Az Idibon-on keresztül olyan szakemberek érhetők el, akiknek tapasztalata van az akadémia és az ipar világában is.

Az Idibon munkatársait a Stanford Department of Linguistics és a University of Pennsylvania-n működő Linguistic Data Consortium körében toborozta. A cég első magvető befektetője 1.4 millió dollárral az a Khosla Ventures, melynek olyan cégekben vannak érdekeltségei mint a bitly, a Kaggle és a Metamarkets.

Az Idibon az első olyan nyelvtechnológiai és nyelvészeti tanácsadó cég, amely kockázati tőkét vont be és szinte egyedülálló a piacon. De csak szinte! Itthon a Nyelv és Tudomány kínál hasonló szolgáltatásokat.

Hogy mit nyújthat egy nyelvész a big data terén? Erre jó példa Tyler meetup előadása, melyben arról beszél, hogyan gazdagíthatjuk egy Twitter vizsgálat demográfiai adatait nyelvészeti elemzéssel.

Tyler Schnoebelen : Gender and style in American English tweets from Szamitogepes nyelveszet on Vimeo.

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Twitter forradalmak

2013.05.14. 12:00 Szerző: Zoltán Varjú Címkék: forradalmak arab tavasz Twitter social network analysis UStream

A közösségi médiában futótűzként terjedhetnek el a hírek. Erre a legjobb példa az egyiptomi forradalom, amit élőben követhettünk nyomon a Twitteren. Kérdés azonban mi volt előbb, elégedetlenség, ami kereste az útját, vagy a tömegkommunikáció teremtette meg annak lehetőségét, hogy az indulatok egymásra találjanak és elérjék azt a kritikus tömeget, ami már cselekvésre késztetett embereket? A Twitter forradalmak bepillantást engednek abba, milyen szerepe van a közösségi médiának a kollektív cselekvésben.

Ahogy később látni fogjuk, a forradalmak helyébe behelyettesíthetünk más eseményeket is, mint pl. a pletyka, az innováció vagy a divat, de akár gondolhatunk tudományos forradalmakra is á la Kuhn. Az ilyen jelenségek megértése nem egyszerű és általában több szinten történik, ezért először nagyon röviden kitérünk a „nagy képre”, azaz a forradalmak kapcsán leginkább emlegetett politikafilozófiai elméletekre, majd magát a „folyamatot” leíró formális kerettel foglalkozunk. Ezután megvizsgáljuk, hogy a tömegkommunikáció és a közösségi média milyen szerepet játszik napjaink forradalmaiban és végül egy példán keresztül szemléltetjük milyen következtetéseket vonhatunk le a Twittert elemezve.

Forradalmak régen

Napjaink forradalmainak értelmezéséhez az eszmetörténészek sokszor nyúlnak vissza a francia forradalomról szóló művekhez. Ennek oka, hogy a forradalmak után Egyiptomban és Tunéziában is erős centralizáció tapasztalható, ami párhuzamba állítható a francia történelemmel.

Tocqueville szerint a felkelők nem akartak igazából eltörölni mindent, sokkal inkább a reformok iránti igény vezette őket. A kontinuitás utáni vágy erősebben hatott, mint a forradalmi hevület, hiszen az ancien régime helyett hamarosan egy erősen centralizált állam jött létre. (Bővebben l. Tocqueville: A Régi rend és a forradalom)

Burke a francia forradalmat az amerikai függetlenségi háborúval állította szembe. Míg az újvilági telepesek körében szerves fejlődés vezetett az önszerveződéshez és a függetlenségi háború az angol korona korlátozó intézkedéseire adott válasz volt, addig a francia forradalom a felvilágosodás absztrakt eszméire épült. Burke szerint eleve bukásra volt ítélve a forradalom, hiszen túl racionális volt, nem számolt az emberi természettel (ti. az absztrakt eszmék helyett a társadalmilag rögzült gondolkodás elsőbbségével). A forradalom végül a centralizált bonapartista rendszerhez vezetett, később pedig a restaurációhoz. (Bővebben l. Burke: Töprengések a francia forradalomról)

Burke elemzését sokan az egyiptomi helyzethez hasonlónak tartják. Érdemes megjegyezni ugyanakkor, hogy sem Tocqueville, sem Burke nem ad magyarázatot arra, hogy mi váltotta ki a forradalmat és miért éppen az adott pillanatban. Erre Marx híres, hírhedt tétele, a „mennyiségi változások minőségbe ugrása” tett kísérletet. Ennek értelmében a társadalmi változások egy idő után elérnek egy olyan kritikus mennyiséget, ami minőségi változáshoz vezet.

A politikai gondolkodók meglátásai jó fogalmi keretet biztosítanak egy adott helyzet elemzéséhez. Azonban nem adnak lehetőséget arra, hogy modellezzünk vagy éppen összehasonlítsunk hasonló helyzeteket. Arra pedig végképp nem alkalmasak, hogy előrejelzéseket tegyünk. (Fontos ugyanakkor megjegyezni azt, hogy ez nem is a céljuk, a politikafilozófia egy sajátos megértésre törekszik és nem tudományos leírásra. A tudományos és a bölcseleti megértés nem alá- vagy fölérendelt viszonyban áll, hanem ugyanannak az érmének a két oldala.)

Társadalmi beágyazottság, hálózatok és az információ terjedése

A forradalmak és egyéb társadalmi jelenségek okait szeretjük egy-egy dologgal magyarázni. Ezek közül általában a legkézenfekvőbb a gazdaság. De elkülöníthetjük-e a gazdaságot a politikától? A politika független a kultúrától?

Polányi Károly elemezte először a különböző területek egymásba ágyazottságát, amit később Mark Granovetter fejlesztett tovább. Granovetter a közgazdaságtan elszigetelt, individualista homo economicus-a és a szociológia „túlszocializált”, a társadalmi környezet által meghatározott egyénfelfogása helyett egy középutas megoldást javasolt Economic Action and Social Structure: The Problem of Embeddedness című tanulmányában, amit a társadalmi hálózatokban talált meg. Ez nem annyira meglepő egy hálózatkutatótól, de ha jobban szemügyre vesszük elméleteit, látható miért is gondolta ezt.

Granovetter ún. küszöbérték modellje (amit Threshold Models of Collective Behavior c. tanulmányában mutat be) formálisan írja le miképp terjednek el bizonyos jelenségek (pl. pletyka, divat, vagy éppen a forradalmi eszmék és cselekvések) a társadalomban. A modell szerint mindenki bizonyos küszöbértékkel bír. Pl. vannak akik újítók és maguktól kezdenek el hordani egy vicces sapkát, mások rögtön követik őket, a többség csak akkor veszi meg a sapkát ha már sok emberen látta és így tovább. Ahogy a lenti ábra is szemlélteti, egy jelenség így először nagyon lassan terjed, majd egy ponton megugrik és hirtelen eléri azt az értéket, amikor a többség is követi a trendet, majd egy idő után nagyon lassan fejlődik tovább a trend. Persze ez a modell sem magyarázza meg azt, hogy miért alakulnak ki a forradalmi eszmék, de Marx mennyiségek minőségbe történő átcsapásáról szóló gondolatánál sokkal egzaktabb, formális rendszerben ír le egy jelenséget.

De miképp terjed az információ a közösségen belül? Erre kísérek meg válaszolni Granovetter ún. gyenge kapcsolatok (weak ties) elmélete (amit The Strength of Weak Ties tanulmányában fektett le). Egy embernek általában sok kapcsolata van, ezek között egyesek erősebbek (pl. család, barátok, szomszédok stb.) mások gyengébbek. Kitől szoktunk új információkat hallani; azoktól akikkel szoros kapcsolatot ápolunk vagy azoktól akikkel gyenge kapcsolatban állunk? Egy találkozás egy rég nem látott volt osztálytárssal vagy szomszéddal gyakran beindítja a pletykát és hirtelen sok mindent megtudunk hajdani barátokról, ismerősökről.

Granovetter empirikus vizsgálataiban kimutatta, hogy a gyenge kapcsolatoknak sokkal nagyobb szerepe van, mint az erőseknek, mivel rajtuk keresztül sokkal több információ áramlik. Ez kontraintuitív, hiszen azt gondoljuk az informális álláskeresésben az erős szálak fontosak. De hasonló következtetéseket vontak le az innováció terjedését vizsgálva is.

Tömegkommunikáció és a mobil hatása

2004 novembere és 2005 decembere között lezajlott Ukrán narancsos forradalom még nem használta a közösségi oldalakat, de erősen támaszkodott az olyan web 2.0 eszközökre, mint a blogok és az online sajtó kommentjei. Legalább ilyen fontos volt, hogy a résztvevők zsebében ott lapult egy mobiltelefon. De mire is használták ezeket az eszközöket?

Minden protest mozgalom két kulcsfontosságú területre koncentrál, szeretne minél több embert megnyerni és csatlakozásra bírni és egyben koordinálnia kell a már csatlakozott tagok akcióit. Az ukrán forradalom során általánosságban elmondható, hogy a nyilvános internetes tartalmak a propaganda, a mobilkommunikáció inkább a koordináció eszközei voltak. (Érdemes elolvasni a The Role of Digital Networked Technologies in the Ukrainian Orange Revolution c. tanulmányt evvel kapcsolatban.)

Koordináció vagy propaganda?

Jevgenyi Morozov viccesen jegyzi meg egy írásában, hogy a nyilvános interneten tervezni egy forradalmat hülyeség, hiszen a hatalom emberei is ugyanazokat a forrásokat olvassák (The Net Delusion című könyvében külön fejezetet szentel ennek Why the KGB Wants You to Join Facebook címmel). A 2009-es moldovai twitter forradalom sem kivétel ez alól. Az internetet elárasztották a különféle irományok, de ezek szerepe a propaganda volt, nem pedig a koordináció. Mivel a tiltakozók gyülekezési helyén erősen korlátoztatták a mobiltelefonok használatát, akadozott a résztvevők koordinációja és egyesek ebben látják annak okát is, hogy kaotikus állapotok alakultak ki (Bővebben l. More analysis of Twitter's role in Moldova). Morozov szerint Twitter helyett hangszórókra volt inkább szüksége a szervezőknek.

A moldáv Twitter felhasználók száma Morozov kutatása alapján kb. 70 volt 2009-ben. Mivel azonban Romániában különös figyelemmel kísérték az eseményeket és jelentős számú moldáv diaszpóra él szerte a világban, a tüntetésekről szóló beszámolók jelentős visszhangot kaptak a csiripelők között. Ebből arra következtethetünk, hogy a Twitter és a közösségi média szerepe elsősorban a propaganda. Ezt támasztja alá a Guardian és az LSE vizsgálata a londoni zavargások kapcsán is, ahol a koordináció eszköze a mobil volt.

The Revolution Will Be Tweeted

A 2010 decemberében indult elégedetlenségi hullám 2011 tavaszára csúcsosodott ki az "arab tavaszban" és jelentős változásokat indukáltak az arab világban. Hiába próbálkoztak az elnyomó rezsimek a mobilkommunikáció és az internet részleges vagy teljes korlátozásával, a hírek megállíthatatlanul eljutottak a világ minden tájára. Maxim Tsvetovat hálózatkutató és kollégái a DeepMile Networks-nél ekkor úgy érezték, elérkezett az idő hogy Granovetter elméleteit a Twitteren is teszteljék. A továbbiakban ezt ismertetjük Tsvetovat és Kouznetsov Social Network Analysis for Startups című könyvének első fejezete alapján.

A Twitter aszinkron közösségi háló. Alapbeállítások mellett nem kell a másik fél jóváhagyása, hogy „kövessük”, de ez azt is jelenti, hogy a viszony nem kölcsönös, azaz nem köteles minket visszakövetni a másik. A Facebook-kal ellentétben a fiókok többsége nyilvános, tehát nem kell személyes ismeretség a kapcsolatok között. 2011 május 1-jén Sohaib Athar (@ReallyVirtual) abbottabadi informatikus az alábbi tweeteket tette közzé pár ezer követőjének:

Helicopter hovering above Abbottabad at 1AM (is a rare event).
— Sohaib Athar (@ReallyVirtual) May 1, 2011

A huge window shaking bang here in Abbottabad Cantt. I hope its not the start of something nasty :-S
— Sohaib Athar (@ReallyVirtual) May 1, 2011

Mint utóbb kiderült, ő közvetítette az Osamára bírt amerikai csapást:

Uh oh, now I'm the guy who liveblogged the Osama raid without knowing it.
— Sohaib Athar (@ReallyVirtual) May 2, 2011

A Tweetek nagyon gyorsan elterjedtek, pedig a @ReallyVirtual ekkor még a mai 63 ezernél nagyságrendekkel kevesebb követővel rendelkezett. Az egyiptomi forradalom során is hasonló módon egy akkor még átlagos követőszámmal bíró csiripelő, Wael Ghonim tweet-jei kapták a legtöbb újramegosztást (retweet). @Ghonim ekkor 80.000 követővel rendelkezett és minden tweetjére átlagosan 3200 reakció (retweet, említés, válasz) érkezett. Ugyanekkor Justin Bieber 7.5 millió követője 300 reakciót produkált a tinisztár egy-egy csiripelésére. Ezt szemlélteti Tsvetovat alábbi ábrája.

Ghonim követői gyenge kapcsolatok „sűrű” hálózatába szerveződnek, még Bieber hívei között még a gyenge kapcsolatok száma is gyenge. A kutatók ebből azt a következtetést vonták le, hogy Granovetter elmélete a közösségi médiára is alkalmazható; a gyenge kapcsolatok több információt közvetítenek, hiszen ezeken keresztül kerülhet be a „körön kívüli” információ. Minél sűrűbb ezeknek a kapcsolatoknak a hálózata, annál gyorsabban tud terjedni és lépi át egyre több ember küszöbértékét.

Mi ebből a tanulság?

A Twitter forradalmakról megállapíthatjuk, a propaganda eszközéről kapták nevüket. A közösségi média megkönnyíti az információ áramlását mivel sok lazán kapcsolódó sűrű hálózat alakul ki rajta. Ha szeretnénk, hogy az általunk közölni kívánt információ sok emberhez eljusson, érdemes kikutatni az erre legalkalmasabb utakat. Viszont ha koordinációra is szükségünk van, azaz valamilyen cselekvésre is szeretnénk rávenni a hálózat tagjait, akkor más eszközökre is szükségünk lesz. A Twitter mint propagandaeszköz mellett egyre elterjedtebbek az online közvetítést lehetővé tévő streaming szolgáltatások mint pl. a UStream és a jövőben érdemes lesz ezek szerepét is vizsgálni ilyen szemszögből. Addig is ajánljuk Kiss Dániel inkLink előadását, amiben szó esett arról, kik és hogyan használták a UStream-et hasonló helyzetekben.

Video streaming by Ustream

Összességében elmondható, hogy a közösségi média remek terep arra, hogy teszteljük elméleteinket, de nem helyettesíti az alapos kutatói és elemzői munkát.

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

HTML

Precognox

Precognox Blogkereső

opendata.hu

Facebook oldaldoboz

Blog figyelése (RSS)

Érdekes oldalak

Star Wars text mining

Főbb témák

Archívum

Belépés

A blog tartalmai CC licenc alá tartoznak

Big Data - Keresés - Számítógépes nyelvészet - Szövegbányászat - Gépi tanulás - NLP Meetup - Precognox

Ngrammatológia - túl az adatokon

2013.05.29. 08:00 Szerző: Zoltán Varjú Címkék: big data Google Google Ngram Ngram

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Marketing és (nyelv)technológia

2013.05.28. 12:00 Szerző: Zoltán Varjú Címkék: marketing nyelvtechnológia

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Magyar Open Data Hub indul

2013.05.27. 08:00 Szerző: Zoltán Varjú Címkék: Precognox Open Data CKAN

1 komment • Kövess Facebookon • Iratkozz fel értesítőre

Idibon - Big Data Bábel

2013.05.21. 12:00 Szerző: Zoltán Varjú Címkék: nyelvészet nyelvtechnológia big data Idibon Nyelv és Tudomány

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Twitter forradalmak

2013.05.14. 12:00 Szerző: Zoltán Varjú Címkék: forradalmak arab tavasz Twitter social network analysis UStream

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre