HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (8) adatbányászat (11) adatelemzés (9) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (19) alternatív (6) alternatív keresőfelület (28) analitika (6) beszédtechnológia (13) big data (55) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (18) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) Facebook (9) facebook (8) gépi tanulás (18) google (59) Google (33) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) intelligens keresés (6) internetes keresés (35) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (87) kereséselmélet (8) keresési felület (6) keresés jövője (57) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (16) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (8) különleges keresők (7) kutatás (9) LDA (10) lda (10) live (13) machine learning (9) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (19) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP (8) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (32) nyelvtechnológia (76) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (65) Precognox Labs (14) Python (14) R (19) spam (6) statisztika (12) számítógépes nyelvészet (9) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (7) szövegbányászat (22) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (20) topik modellek (6) twitter (15) Twitter (18) vállalati kereső (7) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

A Bletchley Park titkos élete - minden geek kötelező nyári olvasmánya

2014.06.03. 08:00 Szerző: Zoltán Varjú Címkék: könyvajánló

Alan Turing ma már nem csak a számítástudomány, de az adattudomány atyja is egyben, hiszen az első fizikai formában is megvalósult számítógépek a német Engima kódok feltörésére lettek megalkotva. Turingon kívül természetesen még sok ezer ember dolgozott a rejtjelek megfejtésén, Sinclair McKay könyve, A Bletchley Park titkos élete, minden technikai részletet mellőzve mutatja be Bletchley Park, a kódfejtők központjának történetét és mindennapjait. 

bletchley.jpg

Mindenki ámuldozik a Google, vagy hogy hazai példát mondjunk a Prezi laza hangulatú irodáin. A kötetből azonban kiderül, hogy ha összeeresztünk több ezer okos embert, adunk nekik egy komoly feladatot (a szabad világ megmentése egész nagy dolognak hangzik), akkor nem tehetünk mást, mint hagyjuk őket dolgozni. Nagyon úgy tűnik, hogy Bletchley Parkban fittyet hánytak a katonai szabályzatokra, de mégis a work hard, play hard elvet érvényesítették. A veteránok mind úgy emlékeznek vissza a háborús évekre, mint ha a legjobb magániskolába kerültek volna, ahol komoly tudósokkal dolgoztak le egy műszakot, majd belevetették magukat a különféle klubok életébe (tánc, kórus, zenekar, stb). Persze a kemény munka mellett volt intrika, szerelem és a politika is beleszólt az életükbe.

 

McKay nagyon élvezetes stílusban mutatja be a park történetét és állít emléket az ott dolgozóknak. Persze senki ne várjon mély magyarázatokat! A kötet nem megy bele technikai részletekbe és a háborús eseményekkel is csak annyira foglalkozik, amennyire azok befolyásolták a park életét. Szóval igazi könnyed ismeretterjesztésre készüljön fel, aki elolvassa a könyvet! Nyárra a legjobb választás minden geek számára!

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

NLP meetup slideok

2014.05.29. 13:24 Szerző: Zoltán Varjú Címkék: NLP meetup Precognox kognitív nyelvészet nowcasting digitális testbeszéd

A tegnapi meetup előadásainak diáit közkívánatra közöljük. Nagyon köszönjük mindenkinek a részvételt! Igazi hősök vagytok, hogy kibírtatok másfél órát a pici tárgyalóban amit kaptunk!

Balogh Kitti (Precognox): A munkanélküliség jelenbecslése

Kovács-Ördög Zita (Clementine Consulting): Digitális testbeszéd

Petykó Márton (MTA NyI - ELTE): Milyenek a trollok

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Elindult az r-projekt.hu

2014.05.24. 17:05 Szerző: Zoltán Varjú Címkék: statisztika R statisztikai programozás

Végre van már oldala a magyar R közösségnek is! Az r-projekt.hu oldalon mindent megtalálhatnak a magyar felhasználók. A Q&A oldalt tartom a legfontosabbnak, hiszen egy kezdőnek (de sokszor profiknak is) jelentős könnyebbség, ha anyanyelvén beszélheti meg problémáit a többiekkel. Emellett sok segédanyag található az oldalon és magyar nyelven írott R-rel kapcsolatos írásokat is gyűjtik a szerkesztők. Természetesen az r-projekt.hu mögött is az Easysats, a Rapporter fejlesztői és a hazai R meetup, a BURN szervezői állnak - köszönjük srácok, hogy ennyi mindent megtesztek a hazai R közösségért!!!

letöltés.jpg

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A karakterkĂłdolás problematikája és a Unicode

2014.05.21. 08:00 Szerző: annapetra Címkék: karakterkódolás nyelvtechnológia ASCII Unicode

Karakterkódolási rendszer egy olyan módszer az informatikában, amely a számok, betűk és más hasonló adatok megjelenítésével foglalkozik, aminek az alapja az, hogy minden karakterhez egy-egy egyedi szám van hozzárendelve. Hasonlóan a Morzekódhoz, ahol a távbillentyű hosszú vagy rövid lenyomásának kombinációi határoztak meg egy karaktert.

Ez a fajta kódrendszer a latin ábécé betűit és az arab számokat tartalmazta. Az 1963-as fejlesztésű ASCII 7 bites rendszerrel rendelkezett, ám ezek egy idő után beteltek és nem tudtak az új szimbólumokhoz egyedi számsorozatot rendelni, ez pedig szükséges lett volna a kelet-ázsiai nyelvek írásszimbólumainak implementálásához. Tehát jól látszik, hogy egy-egy ilyen kódrendszer hibája lehet az, hogy a sokféle szimbólumoknak (például: cirill, héber, kínai, japán, koreai írásjelek) csak egy csoportját képes reprezentálni. Ehhez közel álló probléma a latin ábécé betűivel író, de írásban az 'ss' hangjának leírásához használatos ligatúrát, a scharfes s-t (ß) használó német nyelv esete, ahol ezt a szimbólumot csak a Unicode nevű karakterkódolás tudja kezelni.

 

01.jpg

 

Néhány kínai és indiai nyelv írásbeli sajátosságai szintén problémát jelentenek a karakterkódolással foglalkozó informatikusok számára. Jelölhet hangsúlyt vagy magasabb illetve mélyebb hangon való kiejtést is, egy adott betű mellékjele. De hasonló problémát jelent a csak konszonánsokat (mássalhangzókat) író arab és héber nyelvek is, ahol magánhangzókat, ezzel együtt az adott szó jelentését is, a kontextus határozza meg, így egy szimbólumsornak akár egymástól eltérő jelentései és kiejtései is lehetnek más-más kontextusokban, amit jelölhetnek mellékjelekkel is akár. Mellékjelből pedig millió fajta lehetséges, ráadásul a karaktereket a mellékjeleikkel együtt teljesen felesleges új számsorral ellátni. A következő problémát a szótagíró nyelvek jelentik, ahol szintén a mellékjelezés az, ami döntő lehet a jelentéssel kapcsolatban, ráadásul ezek a mellékjelek bárhol megjelenhetnek az alapkarakter körül. Az igazi nehézséget mégis a kínai jelenti, hiszen egy karakterben egyszerre reprezentálódik a jelentése és a kiejtése is. A koreai írás pedig egyszerre ötvözi a betű és szótagírást is, azaz egyfajta hibrid az írásfajták közül. 

Unicode, a szabványosítás

Visszatérve az ASCII-hez, ezeket a sokrétű szimbólumrendszereket már nem tudta befogdani. Ezek után több fajta karakterkódolást is írtak, de ezek is csak egy-egy rendszert tudtak reprezentálni. Az ISO-8859-7 a görög betűkhöz, az ISO-8859-8 pedig a héberhez volt megfelelő. Ezek hátránya az volt, hogy sokszor használtak ugyanahoz a karakterhez több számsort vagy éppen fordítva. A Unicode ezt a problémát küszöbölte ki. Közel 109 ezer karaktert képes reprezentálni, azaz egy nemzetközi szabványt állított fel az egységes karakterkódolással. A szabvány 16 biten tárolt síkokra osztja ezt a közel 109 ezer karaktert, így a legtöbbet használt karaktereink már az első 64 ezres síkban megtalálhatóak, akkora kapacitással rendelkezik.

 

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

2 komment • Kövess Facebookon • Iratkozz fel értesítőre

Az adattudomány sötét titka

2014.05.14. 08:00 Szerző: Zoltán Varjú Címkék: big data data science

Hilary Mason a bitly kutatója az egyik legismertebb data scientist manapság. Rövid előadásában felhívja a figyelmet arra, hogy a manapság nagyon divatos adattudomány nem a semmiből nőtt ki, olyan egzotikus helyeken űzik már évtizedek óta mint az asztrofizika és a pénzügyi modellezés. Chris Anderson víziójával ellentétben Mason úgy gondolja, hogy az adattudomány lényege hogy értelmezzük is mit művelünk, az adatok nem beszélnek magukért. Érdemes 13 percet rászánni az előadásra! Egyrészt kb helyre teszi a data science, big data fogalmakat, másrészt az eszköz fetisizmusra is hat egy kicsit.

 

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

süti beállítások módosítása