Ma már szinte korlátlanul tárolhatunk adatokat, ill. szerezhetünk be számunkra érdekes adatbázisokat. Ezek elemzése sokak szerint forradalmasítani fogja az üzleti világot. De tényleg ennyire mesés, szép, új világ vár ránk?
A Harvard Business Review-n októberben jelent meg Adrew McAfee és Erik Brynjolfsson Big Data: The Management Revolution című tanulmánya (ingyenes regisztráció után teljes terjedelmében szabadon olvasható). A szerzőpáros remekül összefoglalja milyen szerepe van/lehet a big data-nak egy vállalat működésében és a döntéshozatali mechanizmusokban. Persze önmagában az adatokon alapuló döntésekben nincs semmi újdonság. Steve Lohr cikkében rámutat arra, hogy a legfontosabb különbség a "big data" és az üzleti intelligencia között az alkalmazott elemzési modellek szofisztikáltságában és az automatizáltság nagyobb fokában rejlik.
Kérdés azonban, mennyire bízhatunk meg modelljeinkben? George E. P. Box híres mondása szerint "Essentially, all models are wrong, but some are useful", azaz alapvetően minden modell rossz, de pár hasznos. Nate Silver (a népszerű Five Thirty Eight New York Times blog szerzője) The Signal and the Noise: Why So Many Predictions Fail - but Some Don't című könyvét tkp. erre a mottóra építette. A statisztikai és valószínűségi modellek természetéhez tartozik, hogy nem egy telejós biztonságával jelentik ki, mi is fog történni a jövőben, hanem valamilyen valószínűséget rendelnek hozzá, sőt az óvatos tudósok szeretnek amolyan apróbetűs záradékban megemlékezni arról, hogy ez a valószínűség rendelkezésre álló adatokra épített modellre értendő. Ez annyit tesz, hogy az előrejelzés az adatok minőségétől és mennyiségétől függ, továbbá a valószínűség annyit jelent, hogy az adott modellben az adott előrejelzés "mellett szól a legtöbb érv". Ilyen megkötésekkel kell dolgoznia az elemzőknek, de ez sokszor jól működik, ill. nem okoz nagy zavart egy-egy hiba. Silver két területet emel ki, ahol a saját bőrünkön érezhetjük azt, amikor a modellek rosszak; a pénzügyek és a egészségügy. A pénzügyi modellek problémáinak következményeit senkinek sem kell ecsetelni és sajnos gyakran megesik, hogy egy gyógyszert visszahívnak a piacról, mert kiderül nem tesztelték elég alaposan. De hol is van ilyenkor a hiba?
Silver könyvét Cathy O'Neil (a big data iránt érdeklődők körében népszerű mathbabe blog szerzője) kritizálta az O'Reilly Radaron (általában az IT és a big data iránt érdeklődők egyik legfontosabb igazodási pontja a világhalón). Az ellenérvek szerint egyrészt a hibák a rossz adatoknak köszönhetőek. A pénzügyi világban rossz statisztikák születtek (meghamisított jelentések pl.) az egészségügyben rossz adatfelvétel és egyéb problémák (szubjektív kérdőívezés, bizonyos páciensek kizárása a mintából stb.) Másrészt O'Neil szerint, ha rossz is egy modell, az csak jó! Ez nagyon nyakatekerten hangzik, de gondoljunk csak a saját kárán tanul mondásra, a hiba egyben visszajelzést is jelent, valami olyan, amiből jó esetben tanulhatunk.
Karl Popper tudományfilozófus úgy gondolta, hogy minden elmélet arra vár, hogy megcáfolják. Minden tisztességes elmélet megadja megcáfolhatóságának feltételeit és a tudósok általában rendesen tesztelik is. Nagyon sokáig úgy tűnt pl. hogy David X. Li függvénye remekül működik a pénzügyi kockázatok elemzése során. Majd jött a pénzügyi válság és a modellbe vetett hit szertefoszlott. (Bővebben erről Felix Salmon Recepie for Disaster: The Formula That Killed Wall Street című cikkében olvashat a kedves olvasó, ami az American Statistical Society ismeretterjesztő díját is megnyerte anno.)
Marije Meerman Quants: The Alchemists of Wall Street című dokumentumfilmje mutatja be a pénzügyi szakma vergődését a modellek bukása után. Hogy mit hoz a jövő azt még senki sem tudja pontosan. Két dolog biztos; új modellekre van szükségünk és sokkal szkeptikusabban kell minden modellhez viszonyulnunk.
Rugaszkodjunk el a pénzügyektől és vizsgáljuk meg mit is szeretnének mérni a modern kor menedzserei! Egyrészt a hagyományos vállalatirányítási mérőszámokat, továbbá a cég életére hatással lévő külső tényezőket és a vásárlók releváns viselkedését. Hol húzzuk meg a határt? Minden cég egy adott régióban, országban működik, de egyben hat rá a globalizáció. Az ügyfelek viselkedéséből mi releváns? Földrajzi helyzet, nem, kor, böngészési előzmények, netán politikai beállítottság, szexuális irányultság, más márkák iránti hűség? A gyakorlat kiköveteli, hogy jelöljük ki a felhasználásra kerülő adatok körét. További megkötést jelent, hogy nem minden adatot használhatunk fel (szerencsére a jog ebben megköti a cégek kezét) és nem biztos, hogy az ami szabad, egyben etikus is (pl. kikövetkeztetni a felhasználók nemét, korát stb. kifejezett engedélyük nélkül). Ettől persze a big data még forradalmi eszköz, de érdemes fél szemmel a kudarcokra is figyelni és nem árt tisztában lenni határaival sem.