Itt a big data, Hal Varian is megmondta, hogy a 21. század legszexibb foglalkozása lesz a statisztikus, de elveszettnek érzi magát a kedves olvasó az adatok tengerében és zavartan bólogat miközben adatújságírásról, Pearson korrelációról vagy éppen Kendall tauról beszélnek hipszter ismerősei? Megnyugtatjuk, nagyon kevesen értik miről is szól az adatok kora, még kevesebben vannak azok, akiknek volt kb. 60. 000 USD a zsebükben egy a UC Berkeley data science mesterképzéséhez hasonló diploma megszerzéséhez. Jó hírünk is van, ha szorgalmas a kedves olvasó, akkor a józan paraszti ész mellé csak egy laptopra és internethozzáférésre van szüksége ahhoz, hogy megértse a nagy szavakat és saját maga is vizsgálhassa az adatokat - nem mellesleg saját tapasztalatunk szerint ezzel már többet fog tudni, mint a legtöbb önjelölt szakember.
Az Open Knowledge Foundation School of Data programja remek alapozó kurzust kínál, amit tényleg bárki elkezdhet, aki tud egy kicsit angolul és rendelkezik megbízható IT felhasználói alapismeretekkel (pl. tudja hol keresse a táblázatkezelő szoftvert a gépén, képes telepíteni önállóan egy programot). Az alapozó kurzust érdemes végigcsinálni, a leckék nem túl rövidek és nem emészthetetlenül hosszúak. Haladóknak érdemes egy Data Expedition-höz, azaz adatfelfedező akcióhoz csatlakozni. A School of Data annak ellenére, hogy alig egy éves, máris rengeteg használható anyagot tartalmaz. Egyetlen hátránya, hogy az alapozó kurzus és az expedíciók szintje között nincs anyag, sokak számára nehéz lehet az egyszerű feladatok után hirtelen éles bevetésre menni, de állítólag a csapatok segítőkészek és nem szólják le a zöldfülűeket.
"Az adatokkal történeteket kell mesélni" mondat minden rendes big data könyvben, cikkben és beszélgetésben előjön. A kérdés az, hogy hogyan csináljuk ezt! Ehhez ad tippeket az ingyenesen hozzáférhető Data Journalism Handbook.
A nyílt adatokról sokat hallunk manapság, de mit is jelent az, ha egy adathalmaz nyílt? Az Open Knowledge Foundation Open Data Handbook-ja ebben segít eligazodni. Kezdőknek elsőre a függeléket ajánljuk, ami gyorsan eligazít mindenkit a leggyakrabban használt fájlformátumok és licencek világában.
A statisztika nem kerülhető meg, ha valaki adatokkal foglalkozik. A Coursera, az edX és a Udacity is ajánl remek bevezető kurzusokat, érdemes a linkeket követni és szétnézni az oldalakon. Mi most a CMU Open Learning Initiative ajánlatára hívjuk fel a figyelmet. Ezek minőségükben messze a többi felett állnak és sokkal kezdőbarátabbak is, az pedig csak hab a tortán, hogy bármikor el lehet kezdeni őket és mindenki a saját tempójában haladhat az anyaggal. A Statistical Reasoning kurzus inkább "filozófiai" és igyekszik a valószínűségi és statisztikai gondolkodás hátterét megvilágítani, a Probability and Statistics pedig gyakorlatiasabb (érdemes mindkettőt elvégezni!)