A közösségi médián keresztül a felhasználókról sok információt tudhatunk meg, melyek birtokában érdekes elemzéseket végezhetünk. Az utóbbi hónapokban az olyan divatszavak mellé, mint a "big data" és a "data science" felzárkózott a "behavioral analysis" azaz a viselkedéselemzés is. A közösségi médiát elemezve megállapíthatjuk a felhasználók preferenciáit, demográfiai jellemzőit és kapcsolati hálózatukat is feltérképezhetjük. De az online világban végzett mérések eredményeiből következtethetünk-e arra, hogy mi fog történni a való világban? Eredményezhet egy like áruházi vásárlást? Egy civil tüntetésről szóló tweet továbbosztása, milyen hatással van a tényleges részvételre?
Zeynep Tufekci a Princeton University és a University of North Caroline at Chapel Hill kutatója szerint túláradó szolúcionista optimizmus azt hinni, hogy a big data képes ezekre a kérdésekre válaszolni és Big Data: Pitfalls, Methods and Concepts for an Emergent Field című tanulmányában éles és találó kritikát fogalmaz meg az adattudomány és a hálózatelemzés társadalomtudományi alkalmazásaival szemben. Mielőtt érveit összefoglalnánk, érdemes kitérni Tufekci hátterére, mert abból kitűnik, hogy ismeri mindkét oldalt, azaz a big data használatát s a hagyományos adatgyűjtési munkát is. A kutató nagyon aktív a Twitteren és az egyiptomi forradalom során keletkezett tweetek archiválásával és kutathatóvá tételével foglalkozó The Tahrir Data Project egyik koordinátora. De Tufekci nem csak az online elérhető adatok értelmezésével foglalkozik, a Taksim téren rengeteg interjút és kérdőíves felmérést készített, melyekről blogján rendszeresen beszámolt és hamarosan tanulmányokat is szeretne közölni eredményeiről.
Tufekci a big data vizsgálatokat az ecetmuslicán végzett genetikai kutatásokhoz hasonlítja. A kis rovar a laboratóriumok egyik kedvence, mert nagyon jó modellszervezet. Csakhogy az ecetmuslicákon végzett modellkísérleteket nagyon nehéz komplexebb, a laboron kívüli világban található helyzetekhez igazítani. Persze ez nem jelenti azt, hogy a modellkísérletek haszontalanok, viszont alkalmazhatóságuk erősen behatárolt. A közösségi médiára alapozott big data elemzéseknek is megvannak a maguk korlátai, a modellszervezeteken végzett vizsgálódásokhoz hasonlóan:
- Torzított minta - Pl. az Egyesült Államok lakosságának kb. 10%-a Twitter felhasználó, a Facebook penetráció pedig 57%-os. Bonyolítja a helyzetet, hogy az életkor szerinti eloszlásban is erős eltérések mutatkoznak.
- Ismeretlen adatok - Nem tudjuk pontosan hányan láttak egy adott Facebook bejegyzést, vagy csiripet, csak azt tudjuk hányan reagáltak rá like, továbbosztás vagy komment formájában.
- Túláltalánosított hálózati modellek - A gráfelméleti modellek nem tesznek különbséget a közösségi média kapcsolatai, az internetes hálózatok, vagy a személyes ismertség között. A matematikának ez nem is dolga, hiszen az általánosat kutatja, de ésszerű feltételezni, hogy a személyes ismertség kapcsolati hálója minőségileg különbözik a kábeltévé szolgáltatóm hálózatától.
- A nem-hálózati viselkedési faktorok figyelmen kívül hagyása - Az emberi viselkedésnek vannak nem hálózati jellegű vonatkozásai. Ilyenek az ún. mező hatások a csoportviselkedés terén (nagy nemzeti katasztrófák, nagy csoportok viselkedése tüntetések/zavargások idején, véletlenszerű hatások a csoportra, mint pl. természeti csapások stb.)
- A megfigyelő-paradoxona - A közösségi média felhasználói többé-kevésbé tudatában vannak annak, hogy megfigyelhetőek. A Twitteren pl. ki lehet hagyni a felhasználót jelző és értesítő @ előtagot egy azonosító elöl és máris lehet úgy beszélni róla, hogy arról nem kap értesítést, egyben evvel nehézzé válik a Tweetek automatikus elemzése is.
A Sloan Management Review-nak nyilatkozva a kutató felhívta a figyelmet arra, hogy mennyire behatároltak az online adatokra alapozott vizsgálatok.
“A lot of big data research is done in an isolated, one-shot, single-method manner with no way to assess, interpret or contextualize the findings, [...] There is great potential for error and misunderstanding; worse, with a lot of money flowing into this space, there is a lot pressure to produce “results” and overlook the fact that methods that were not developed to study humans, and do not necessarily work the same way, but are being applied widely.
The online imprints that create these large, aggregate datasets are not just mere ‘mirrors’ of human activity; rather, they are partial, filtered, distorted and complex reflections.”
A tanulság annyi, hogy tanuljunk a nagyoktól! Egyre több társadalomtudóst foglalkoztatnak a nagy cégek (Google, Yahoo!, Bing, Facebook, Twitter) és sorra jelennek meg a Microsoft Research (Computational) Social Science részlegéhez hasonló szervezetek ezeken belül. Ha az emberi viselkedés érdekel minket, ne adattudóst keressünk, hanem társadalom- és/vagy viselkedéstudományokban jártas szakemberhez forduljunk!