A brit parlamentben nem rég jelentették be az Alan Turing Institute megalapítását. Az intézet célja, hogy az Egyesült Királyság a big data és az gépi tanulási algoritmusok területén vezető szerepét megerősítse. Alan Turing a múlt század egyik legnagyobb logikusa volt, aki a modern számítástudomány mellett a számítógépes statisztika úttörője is egyben. A második világháború során sikeresen törte fel csapatával a németek Enigma kódját, de érdemei ellenére is bíróságon hurcolták meg homoszexualitása miatt. Turing 2013-ban kapott csak kegyelmet, ez tette lehetővé, hogy nevét állami intézmények is felvehessék immár. De mi köze van Turing-nak a big data-hoz?
Turing neve leginkább az ún. Turing-gép kapcsán ugrik be a legtöbb embernek. Ez még nem egy valódi gép, hanem egy elméleti konstruktum, mely segítségével az ún. eldöntés probléma megoldása vázolható. A probléma nagyon slendriánul fogalmazva arról szól, hogy adható-e egyszerű igen vagy nem válasz egy matematikai állítás érvényességére nézve. Az amerikai Alonzo Church is hasonló problémákon dolgozott Princetonban, az ő megoldása az ún. lambda kalkulus lett. A két megközelítés ekvivalens, ezért ma Church-Turing tézis néven hivatkoznak a függvények kiszámíthatóságáról szóló tételre.
A világháborúban vált az elméleti gép valóságos számítógéppé, mivel a németek Enigma kódját emberi erőforrásokkal nem lehetett feltörni. A logikai alapokon nyugvó gép célja bayesiánus statisztikai elemzés lett! Az Y Service által rögzített német rádióforgalmazást naponta többször is elküldték a kódfejtők központjába, ezzel a kor mércéje szerint igazi big data keletkezett. A kommunikáció sajátosságait vizsgálva arra jutottak, hogy az üzenetek bizonyos elemei ismétlődnek (pl. a rejtjelezők először közlik, hogy adásban vannak, azonosítják magukat a másik félnek stb.) ezt kihasználva, mint előfeltevés a számítógépek sikeresen tudták feltörni a rejtjeleket (no meg persze pár készüléket is sikerült megszereznie a hírszerzésnek). Akit bővebben érdekel a módszer, annak Larranaga és Bielza rövid és érthető tanulmányát ajánljuk.
A történet érdekessége, hogy napjainkban ismét kezd egymásra találni a lambda kalkulus ihlette funkcionális programozás és az adatok elemzése (gondoljunk pl. az R statisztikai programozási nyelvre, vagy a Clojure népszerűségére a gépi tanulás területén). A britek hagyományosan jók mind a számítástudomány, mind a statisztika területén, ezért az Alan Turing Institute biztosan remek szakemberekkel lesz feltöltve. Érdemes lenne elgondolkodni azon, hogy hazánkban sem állunk rosszul - a Rényi Intézet és a SZTAKI Adatbányászat és Keresés Csoportja világviszonylatban is megállja a helyét - és viszonylag kis anyagi ráfordítást igényel ez a terület, más tudományágakkal összevetve.