A Bletchley Park titkos élete - minden geek kötelező nyári olvasmánya

2014.06.03. 08:00 Szerző: Zoltán Varjú Címkék: könyvajánló

Alan Turing ma már nem csak a számítástudomány, de az adattudomány atyja is egyben, hiszen az első fizikai formában is megvalósult számítógépek a német Engima kódok feltörésére lettek megalkotva. Turingon kívül természetesen még sok ezer ember dolgozott a rejtjelek megfejtésén, Sinclair McKay könyve, A Bletchley Park titkos élete, minden technikai részletet mellőzve mutatja be Bletchley Park, a kódfejtők központjának történetét és mindennapjait.

Mindenki ámuldozik a Google, vagy hogy hazai példát mondjunk a Prezi laza hangulatú irodáin. A kötetből azonban kiderül, hogy ha összeeresztünk több ezer okos embert, adunk nekik egy komoly feladatot (a szabad világ megmentése egész nagy dolognak hangzik), akkor nem tehetünk mást, mint hagyjuk őket dolgozni. Nagyon úgy tűnik, hogy Bletchley Parkban fittyet hánytak a katonai szabályzatokra, de mégis a work hard, play hard elvet érvényesítették. A veteránok mind úgy emlékeznek vissza a háborús évekre, mint ha a legjobb magániskolába kerültek volna, ahol komoly tudósokkal dolgoztak le egy műszakot, majd belevetették magukat a különféle klubok életébe (tánc, kórus, zenekar, stb). Persze a kemény munka mellett volt intrika, szerelem és a politika is beleszólt az életükbe.

McKay nagyon élvezetes stílusban mutatja be a park történetét és állít emléket az ott dolgozóknak. Persze senki ne várjon mély magyarázatokat! A kötet nem megy bele technikai részletekbe és a háborús eseményekkel is csak annyira foglalkozik, amennyire azok befolyásolták a park életét. Szóval igazi könnyed ismeretterjesztésre készüljön fel, aki elolvassa a könyvet! Nyárra a legjobb választás minden geek számára!

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

NLP meetup slideok

2014.05.29. 13:24 Szerző: Zoltán Varjú Címkék: NLP meetup Precognox kognitív nyelvészet nowcasting digitális testbeszéd

A tegnapi meetup előadásainak diáit közkívánatra közöljük. Nagyon köszönjük mindenkinek a részvételt! Igazi hősök vagytok, hogy kibírtatok másfél órát a pici tárgyalóban amit kaptunk!

Balogh Kitti (Precognox): A munkanélküliség jelenbecslése

Kovács-Ördög Zita (Clementine Consulting): Digitális testbeszéd

Petykó Márton (MTA NyI - ELTE): Milyenek a trollok

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Elindult az r-projekt.hu

2014.05.24. 17:05 Szerző: Zoltán Varjú Címkék: statisztika R statisztikai programozás

Végre van már oldala a magyar R közösségnek is! Az r-projekt.hu oldalon mindent megtalálhatnak a magyar felhasználók. A Q&A oldalt tartom a legfontosabbnak, hiszen egy kezdőnek (de sokszor profiknak is) jelentős könnyebbség, ha anyanyelvén beszélheti meg problémáit a többiekkel. Emellett sok segédanyag található az oldalon és magyar nyelven írott R-rel kapcsolatos írásokat is gyűjtik a szerkesztők. Természetesen az r-projekt.hu mögött is az Easysats, a Rapporter fejlesztői és a hazai R meetup, a BURN szervezői állnak - köszönjük srácok, hogy ennyi mindent megtesztek a hazai R közösségért!!!

letöltés.jpg

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A karakterkĂłdolĂˇs problematikája és a Unicode

2014.05.21. 08:00 Szerző: annapetra Címkék: karakterkódolás nyelvtechnológia ASCII Unicode

Karakterkódolási rendszer egy olyan módszer az informatikában, amely a számok, betűk és más hasonló adatok megjelenítésével foglalkozik, aminek az alapja az, hogy minden karakterhez egy-egy egyedi szám van hozzárendelve. Hasonlóan a Morzekódhoz, ahol a távbillentyű hosszú vagy rövid lenyomásának kombinációi határoztak meg egy karaktert.

Ez a fajta kódrendszer a latin ábécé betűit és az arab számokat tartalmazta. Az 1963-as fejlesztésű ASCII 7 bites rendszerrel rendelkezett, ám ezek egy idő után beteltek és nem tudtak az új szimbólumokhoz egyedi számsorozatot rendelni, ez pedig szükséges lett volna a kelet-ázsiai nyelvek írásszimbólumainak implementálásához. Tehát jól látszik, hogy egy-egy ilyen kódrendszer hibája lehet az, hogy a sokféle szimbólumoknak (például: cirill, héber, kínai, japán, koreai írásjelek) csak egy csoportját képes reprezentálni. Ehhez közel álló probléma a latin ábécé betűivel író, de írásban az 'ss' hangjának leírásához használatos ligatúrát, a scharfes s-t (ß) használó német nyelv esete, ahol ezt a szimbólumot csak a Unicode nevű karakterkódolás tudja kezelni.

Néhány kínai és indiai nyelv írásbeli sajátosságai szintén problémát jelentenek a karakterkódolással foglalkozó informatikusok számára. Jelölhet hangsúlyt vagy magasabb illetve mélyebb hangon való kiejtést is, egy adott betű mellékjele. De hasonló problémát jelent a csak konszonánsokat (mássalhangzókat) író arab és héber nyelvek is, ahol magánhangzókat, ezzel együtt az adott szó jelentését is, a kontextus határozza meg, így egy szimbólumsornak akár egymástól eltérő jelentései és kiejtései is lehetnek más-más kontextusokban, amit jelölhetnek mellékjelekkel is akár. Mellékjelből pedig millió fajta lehetséges, ráadásul a karaktereket a mellékjeleikkel együtt teljesen felesleges új számsorral ellátni. A következő problémát a szótagíró nyelvek jelentik, ahol szintén a mellékjelezés az, ami döntő lehet a jelentéssel kapcsolatban, ráadásul ezek a mellékjelek bárhol megjelenhetnek az alapkarakter körül. Az igazi nehézséget mégis a kínai jelenti, hiszen egy karakterben egyszerre reprezentálódik a jelentése és a kiejtése is. A koreai írás pedig egyszerre ötvözi a betű és szótagírást is, azaz egyfajta hibrid az írásfajták közül.

Unicode, a szabványosítás

Visszatérve az ASCII-hez, ezeket a sokrétű szimbólumrendszereket már nem tudta befogdani. Ezek után több fajta karakterkódolást is írtak, de ezek is csak egy-egy rendszert tudtak reprezentálni. Az ISO-8859-7 a görög betűkhöz, az ISO-8859-8 pedig a héberhez volt megfelelő. Ezek hátránya az volt, hogy sokszor használtak ugyanahoz a karakterhez több számsort vagy éppen fordítva. A Unicode ezt a problémát küszöbölte ki. Közel 109 ezer karaktert képes reprezentálni, azaz egy nemzetközi szabványt állított fel az egységes karakterkódolással. A szabvány 16 biten tárolt síkokra osztja ezt a közel 109 ezer karaktert, így a legtöbbet használt karaktereink már az első 64 ezres síkban megtalálhatóak, akkora kapacitással rendelkezik.

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

2 komment • Kövess Facebookon • Iratkozz fel értesítőre

Az adattudomány sötét titka

2014.05.14. 08:00 Szerző: Zoltán Varjú Címkék: big data data science

Hilary Mason a bitly kutatója az egyik legismertebb data scientist manapság. Rövid előadásában felhívja a figyelmet arra, hogy a manapság nagyon divatos adattudomány nem a semmiből nőtt ki, olyan egzotikus helyeken űzik már évtizedek óta mint az asztrofizika és a pénzügyi modellezés. Chris Anderson víziójával ellentétben Mason úgy gondolja, hogy az adattudomány lényege hogy értelmezzük is mit művelünk, az adatok nem beszélnek magukért. Érdemes 13 percet rászánni az előadásra! Egyrészt kb helyre teszi a data science, big data fogalmakat, másrészt az eszköz fetisizmusra is hat egy kicsit.

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

HTML

Precognox

Precognox Blogkereső

opendata.hu

Facebook oldaldoboz

Blog figyelése (RSS)

Érdekes oldalak

Star Wars text mining

Főbb témák

Archívum

Belépés

A blog tartalmai CC licenc alá tartoznak

Big Data - Keresés - Számítógépes nyelvészet - Szövegbányászat - Gépi tanulás - NLP Meetup - Precognox

A Bletchley Park titkos élete - minden geek kötelező nyári olvasmánya

2014.06.03. 08:00 Szerző: Zoltán Varjú Címkék: könyvajánló

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

NLP meetup slideok

2014.05.29. 13:24 Szerző: Zoltán Varjú Címkék: NLP meetup Precognox kognitív nyelvészet nowcasting digitális testbeszéd

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Elindult az r-projekt.hu

2014.05.24. 17:05 Szerző: Zoltán Varjú Címkék: statisztika R statisztikai programozás

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A karakterkĂłdolĂˇs problematikája és a Unicode

2014.05.21. 08:00 Szerző: annapetra Címkék: karakterkódolás nyelvtechnológia ASCII Unicode

2 komment • Kövess Facebookon • Iratkozz fel értesítőre

Az adattudomány sötét titka

2014.05.14. 08:00 Szerző: Zoltán Varjú Címkék: big data data science

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre