Kalev H. Leetrau a tartalomelemzés igazi fenegyereke. Még 2011-ben egy Nature hír kapcsán lett igazán közismert, amiben beszámoltak arról, hogy a kutató online híreken végzett szentimentelemzései az arab tavaszt jól előre jelezték, de még Oszama tartózkodási helyét is sikerült kb. belőnie.
Big data és tartalomelemzés
Leetrau elemzései figyelemreméltóak, de felmerül a kérdés, hogy a hírek mozgatják-e a világot, vagy a hírek a világ történéseit képezik le. Predikcióra pedig végképp alkalmatlanok a hírfigyelésre alapozott vizsgálatok, nincs elfogadott "forradalmi hangulatot jelző negatív szentimenthatár". A tartalomelemzés remek eszköz és a big data rengeteg lehetőséget rejt magában, de még többet is jelenthet, ha több adatot tudunk kombinálni! Marco Lagi, Karla Z. Bertrand és Yaneer Bar-Yan a New England Complex Systems Institute kutatói The Food Crises and Political Instability in North Africa and the Middle East című tanulmányukban klasszikus módon közelítették meg a témát és szétnéztek a jó öreg elméletek között, s azok alapján keresetek megfelelő adatokat, melyek előrejelezhetnek egy politikai eseményt.
Small data és a jó öreg elméletek
Amartya Sen közgazdász-filozófus munkásságának egyik központi eleme a "képesség/lehetőség" (capabilitiy) melynek egy alapvető része az alapvető javakhoz való hozzáférés. Sen maga is megélte az 1943-as bengáli éhinséget mint gyermek, s az élmény hatására kezdett foglalkozni a fejlődéselméletekkel. Az éhínségek kapcsán kimutatta, hogy nem az árú hiánya jelenti a legnagyobb problémát, hanem az, hogy bizonyos társadalmi csoportok képtelenek hozzájutni az alapvető élelmiszerekhez. Ebben az értelmezésben a szegénység a lehetőségek (capabilities) hiányát jelenti. A fejlődés mint szabadság című magyarul is hozzáférhető kötetében Sen remekül érvel amellett, hogy a demokráciákban az általános választójognak hála a legalapvetőbb javakhoz való hozzáférést igyekeznek biztosítani, s így az éhséglázadások és forradalmak igen ritkák ezekben az országokban. Ellenben ott, ahol a hatalmi elitet nem korlátozza a rendszeres választás, nem jelenik meg a szegények igényeinek kielégítése és az élelmiszerellátásban adódó problémák éhínségekhez, lázongásokhoz és forradalmakhoz vezethetnek.
Lagi és tsai az ENSZ Food and Agriculture Organization Food Price Index-ét elemezve jutottak arra, hogy a régen feltételezett összefüggés kimutatható az élelmiszerárak emelkedése és a társadalmi elégtelenség között.
A tanulmány legérdekesebb pontja, hogy egy küszöbértéket határoz meg, melyet elérve számítani lehet valamilyen elégedetlenségi mozgalom elindulására. Érdemes megjegyezni, hogy ez a küszöbérték, amellett, hogy remek prediktor, "nincs benne az adatokban", hanem a Granovetter által lefektetett kollektív viselkedési modellek hagyományára épül (bővebben erről l. Twitter forradalmak című posztunkat).
A közösségi média mítoszai
Az arab tavasz, a törökországi és a brazil tüntetések kapcsán egyre inkább előtérbe került a közösségi média elemzése és használata predikcióra. Persze nem haszontalan elemezni ezen forrásokat, de tisztában kell lennünk a big data buktatóival és az online tartalomelemzés határaival is. Nem árt tudni, hogy Brazília és Törökország alapvetően demokratikus országok (lehet azon vitatkozni, hogy mennyire persze) és habár felmerült a hatóságokban az internet korlátozása a zavargások alatt (ahogy a londoni zavargások alatt is felmerült a mobilhálózatok ideiglenes lekapcsolása) nem éltek ezzel az eszközzel.
A többé-kevésbé elnyomó rendszerekben a közösségi média szerepe minden társadalmi szerveződésnél a propaganda, s nem a koordináció. Jevgenyi Morozov viccesen jegyzi meg egy írásában, hogy a nyilvános interneten tervezni egy forradalmat hülyeség, hiszen a hatalom emberei is ugyanazokat a forrásokat olvassák (The Net Delusion című könyvében külön fejezetet szentel ennek Why the KGB Wants You to Join Facebook címmel). Az egyiptomi forradalom során érdekes módon a közösségi médiát használó középosztály fiataljai csak a hálózat lekapcsolása után váltak aktívakká:
[...] Az internet leállítása sosem látott tömegeket vitt ki az utcára, olyanokat, akik egyébként nem mentek volna ki. A rezsim lebecsülte az emberek információ iránti igényét. [...] El lehet venni egy embertől a szabad választásokat, a demokráciát, el lehet venni a szabadságjogainak nagy részét, de nem vehetik el a kommunikációs eszközeit, melyeket használ és ismer. Senki sem fog önként sötétségben maradni, elvágva mindentől és mindenkitől. (Jászberényi Sándor: Budapest-Kairó)
A The Economist China and the Internet melléklete nagyon részletesen mutatja be, hogy a kommunista állam milyen módszerekkel tartja kontroll alatt netező polgárait. Az Aranypajzs (más néven Nagy Tűzfal) kifinomult technikái, a szorgos cenzorok és az öncenzúra kényesen ügyel arra, hogy milyen információ kerülhet nyilvánosságra. A nagy hírek rendre fennakadnak a tűzfalon, de akadnak olyan dolgok (pl. légszennyezés, alacsonyabb rangú pártkatonák és hivatalnokok mocskos ügyei stb.) melyek felszínre kerülhetnek. Mindezek ellenére a leghíresebb kínai blogger Han Han kétségbe vonja a közösségi média forradalmi erejét:
“You feel everyone’s really angry, you feel like you could go open the window and you would see protesters on the street,” Mr Han said. “But once you open the window, you realise that there’s nothing there at all.” Microblogging, he said, encouraged people to tune into a big story briefly, almost as entertainment, until the next big story comes along. It did not bring about “any real change or progress”. (forrás)
Don't panic!
A big data minden hibájától eltekintve jó dolog, de önmagában attól, hogy van egy hatalmas adatbázisunk még nem oldottunk meg minden problémát. A legtöbb esetben nem áll rendelkezésünkre megfelelő mennyiségű adat, mivel vagy anyagi korlátai vannak a begyűjtésüknek (bizony, nem mindenki a Google költségvetésével gazdálkodik) vagy nem is férhetünk hozzá minden adathoz (minden közösségi médiás API-nak vannak korlátai!) Azonban egy jó elemző tudja merre érdemes keresni releváns adatokat, melyek legtöbbször a "small data" kategóriájába esnek, ellenben jó minőségűek és nyilvános protokoll szerint dolgozták fel őket.
Az ipari felhasználás terén is érdemesebb saját adatainkat nyilvánosan elérhető "small data" adatsorokkal kiegészítve elemezni. Habár az adattudományokban népszerű kétségbe vonni a területspecifikus szakértelem fontosságát, szerencsére még tartja magát az az elképzelés, hogy érteni kell valamennyire a vizsgált területet mielőtt elemzésekbe fogunk.
Bővebben a témáról
The Revolution Will Not Be Televised