Habár napjainkban az újdonság erejével hat az üzleti felhasználók körében az ún. data science vagy adattudomány, az igazság az, hogy az üzleti életben már régóta bevett dolog az adatok módszeres gyűjtése és elemzése. További kérdést vet fel, hogy tudománynak nevezhetjük-e azt a gyakorlatot, amikor csupán mintázatokat keres valaki egy hatalmas adatbázisban.
Statisztika és tudomány
Chris Anderson híres The End of Theory című cikkében egyenesen arra az álláspontra jut, hogy a big data értelmetlenné teszi a tudományos módszert, hiszen a számok immár magukért beszélnek és a mögöttük megbújó mintázatok mindent elmondanak nekünk. Így a minden statisztika órán ismételt a "korreláció nem oksági kapcsolat" mantra helyét felváltja a "nekem elég a korreláció, mivel nagyon sok adatom van" szemlélet. Ezzel szemben George E. P. Box, a modern statisztika egyik atyja úgy gondolja, a statisztikának különös helye van a tudományban, hiszen a módszeresen tervezett kísérletek nyitnak ablakot a világra, teszik lehetővé elméleteink tesztelését, a tesztek pedig alkalmat nyújtanak elméleteink korrigálására.
Box Science and Statistics esszéjében a modern statisztika egy másik megalapozója, Ronald Fisher életútján keresztül szemlélteti a statisztika szerepét a tudományban és az alkalmazott kutatásokban. Fisher a Rothamsted Experimental Station mezőgazdasági kutatóintézetnél kezdte meg pályafutását, ahol olyan nagyon gyakorlati kérdésekkel került szembe, mint pl. az éves termés mennyiségének előrejelzése, az egyes növényfajták termelékenységének összevetése stb. A fiatal tudós annyira komolyan vette munkáját, hogy tkp. megteremtette a modern kutatásmódszertant!
Box rövid írásában Fisher életművéből kiemeli, hogy az alkalmazott statisztika nem csupán matekzsonglőrködés (mathematistry), vagy a módszerek receptszerű követése (cookbookery), hanem együttműködés az adott terület szakértőivel, hogy az adatok megfelelően értelmezhetőek legyenek. Ez pedig egy iteratív munkát követel meg, melyben a modell kidolgozása, a kísérletek megszervezése és az adatok elemzése egy körfolyamat, amiben a statisztika egy eszköz egy probléma jobb megértéséhez.
Box elképzelése tkp. Karl Popper tudománymodelljével egyezik meg, mely szerint minden valamennyire komolyan vehető tudományos elméletnek meg kell adnia cáfolhatóságának feltételeit. A tudományos elméletek lényege így nem csupán bizonyos mintázatok megtalálása és egyes események előrejelzése, hanem valamilyen magyarázattal is kell szolgálniuk, s egyben a téves előrejelzésekre is reagálniuk kell (ilyenkor általában az adatokban, vagy az elemzésben van a hiba, de előfordulhat az is, hogy magát az elméletet kell módosítani, mert falszifikálódott, azaz megcáfolódott). Lehetnek hasznosak az Anderson által is említett mintázatok, és a korrelációk hozhatnak jó előrejelzéseket, de nagyon ingatag lábakon állnak önmagukban, mivel pont a tudomány önkorrekciójára képtelenek!
Tudományos menedzsment
Az adatok gyűjtése és tanulmányozása egyidős a modern vezetéstudomány megszületésével. A tudományos menedzsment, vagy taylorizmus megalapítója Frederick W. Taylor minden munkafolyamat aprólékos tanulmányozásában látta az ipari termelés maximalizálásának kulcsát.
Alfred P. Sloan a General Motors-nál tökélyre fejlesztette a taylorizmust és az autógyártás minden munkafolyamatára kiterjedő aprólékos mérésekre alapozva szervezte át az általa vezetett gyáróriást. A pontos mérések és nyilvántartások statisztikai elemzése a GM-et a világ vezető vállalatává tette több évtizedre.
A nyolcvanas években a Motorola a tudományos menedzsment eredményeire támaszkodva dolgozta ki a Six Sigma módszertanát, mely célja, hogy 99.9999998 % legyen a hibamentes termékek aránya a gyártásban.
A tudományos menedzsment eszközeit lassan minden üzleti szereplő átvette, mind a munkaszervezés, mind a piackutatás területén. A kilencvenes évektől megjelentek az üzleti intelligencia csoportok is, melyek elkezdték összefogni egy adott cégen belül az adatok gyűjtését és elemzését, ami nagyban megnövelte a statisztikákra alapozott döntések hatékonyságát. Immár nem egy-egy különálló részleg hoz adatokra alapozott döntést, hanem lehetőség van a különböző adatok közötti összefüggések feltárására is.
Big data és data science
Technikai értelemben mindenképpen váltásról beszélhetünk a big data kapcsán, hiszen hihetetlen mértékben növekedett meg a begyűjthető és tárolható adatok köre az utóbbi években. Azonban Box arra figyelmeztet minket, hogy az adatelemzés nem merülhet ki előre megírt receptek követésében és számmisztikában! Miképp a jó statisztikus részt vesz az általa segített kutatásban, úgy a rendes adattudósnak is értenie kell hogyan kapcsolódik munkája cégéhez, a "tudós" jelző használata pedig csak akkor indokolt, ha a mintázatokon túl magyarázatokat és előrejelzéseket is képes adni, továbbá képes tanulni kudarcaiból is.