HTML

Kereső Világ: keresés, szövegbányászat, big data

A keresők lelkivilága, szöveges keresés, szövegbányászat és big data.
2001 óta foglalkozunk keresőfejlesztéssel a Precognox kereteiben. A blog írói: Jóföldi Endre és Varjú Zoltán. A Goldenblog versenyen IT kategóriában a legjobb 3 blog közé választott minket a szakmai zsűri 2011-ben és 2012-ben is. 2013-ban a Biznisz blogok között hetedik helyen végeztünk.


Precognox

precognox_logo_190.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati és big data megoldásokat. Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldhatjuk problémáidat, akkor lépj velünk kapcsolatba a céges oldalunkon található űrlapon keresztül.

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Az opendata.hu oldalt a Magyar OpenData Alapítvány/Egyesület hivatalos megalakulásáig - lelkes önkéntesek segítségével a
K-Monitor Közhasznú Egyesület (K-Monitor) működteti, az üzemeltetést a Precognox végzi.



Meetup ajánló

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Főbb témák

adatok (12) adatújságírás (16) ajánló (4) állás (4) alternatív (6) alternatív keresőfelület (24) analitika (5) beszédtechnológia (10) big data (39) bing (14) blogkereső (5) clustering (6) computational social science (4) data science (7) digitális bölcsészet (4) egészség (7) egészség kereső (7) emócióelemzés (12) facebook (8) Facebook (7) fintech (5) firefox (4) goldenblog (5) google (57) Google (22) GoogleTrends (5) Google Ngram (4) Hadoop (6) helyi keresés (4) hírkeresés (4) internetes keresés (27) internetes keresők (4) internet hungary (6) iphone (5) johu (4) képkereső (8) keresés (50) kereséselmélet (7) keresés jövője (57) keresés problémái (38) keresők összehasonlítása (9) keresőoptimalizálás (6) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (6) konferencia (11) könyvajánló (4) korpusznyelvészet (5) közösségi keresés (8) közösségi média (6) különleges keresők (7) kutatás (4) linked data (5) live (13) magyar (4) magyar kereső (9) marketing (8) meetup (16) metafora (5) metakereső (4) microsoft (4) miner (4) mobil (30) mobil keresés (15) Neticle (7) nlp meetup (5) NLP meetup (4) Nuance (8) nyelvészet (8) nyelvtechnológia (50) open data (7) pénzügy (6) politika (4) Precognox (15) Precognox Labs (9) seo (5) smartmobil (4) sna (4) spam (6) statisztika (5) számítógépes nyelvészet (5) szemantikus keresés (15) szemantikus kereső (10) szemantikus web (8) szentimentelemzés (20) szövegbányászat (11) társadalomtudomány (4) tartalomelemzés (16) tartalomipar (5) tartalomjegyzék (6) tematikus kereső (20) twitter (13) Twitter (23) Twitter forradalom (4) valósidejű keresés (4) vertikális kereső (9) vizualizáció (10) wikia (4) Wikipedia (4) wolframalpha (4) yahoo (26) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Nyelvészet mindenkinek!

2014.04.23. 13:32 Szerző: zoltanvarju Címkék: nyelvészet könyvajánló nyelvtechnológia

A magabiztosság az élet része, sokan ezért mindenféle nyelvészeti ismeret nélkül vágnak bele a nyelvtechnológiai problémák megoldásába. Persze a nyelvhez mindenki ért, hiszen mindenkinek van nyelve, beszélni minden egészséges ember tud. Ugyanakkor szíve is van mindenkinek, valahogy mégse gondolja magát szívsebésznek mindenki. A nyelvtechnológia furcsa terület, nem kell hozzá nyelvészeti végzettség - de ez nem jelenti azt, hogy nem kell rendelkezni bizonyos háttértudással a területről. Az egyik legjobb nyelvészeti tankönyv egyik szerzője, Emily M. Bender volt olyan kedves és a Linguistics Fundamentls for Natural Language Processing 100 Essentials from Morphology and Syntax című rövid kis könyvben összefoglalta azt, amit minimum tudni illik! 

linguistic_essentials.jpg

A tartalom egyszerűen zseniális, Bender remek tanár, minden egyes szaván érződik hogy az University of Washington híres számítógépes nyelvészeti képzésén oktatva ezerszer elmagyarázta már ezeket a kérdéseket okos és tanult, de a nyelvészetet közelebbről nem ismerő embereknek. Habár a nagyobb mélységeket mellőzi - kb 120 oldalon 100 témát kifejteni nem is lehet - arra mindenképpen elegendő, hogy a kötet elolvasása után érezze az ember nem teljesen haszontalan a nyelvtudomány és van mit keresni nyelvészeknek a nyelvtechnológiában. Személyes tapasztalatom szerint a számítástudomány és reáliák felől érkezők számára nehéz megérteni mit várhatnak egy nlp eszköztől és hogyan ítélhetik meg hatékonyságát, sőt gyakran a egy-egy probléma definiálása során is nehézséget jelent számukra, hogy nem igazán ismerik a nyelv szeszélyes természetét. Különösen akkor ajánlom ezt a könyvet, ha valaki egyedül, nyelvészeti előismeretek nélkül szeretne nyelvtechnológiai kérdésekkel foglalkozni. Sajnos egyre gyakrabban találkozhatunk olyan csapatokkal is, akik foglalkoznak nyelvtechnológiai kérdésekkel, de nincs köztük nyelvész - nekik szívem szerint receptre íratnám fel Bender művét! Nyelvészeknek viszont egyáltalán nem ajánlom - nekik kicsit unalmas, túl sűrű lehet ez a könyv.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Beszélj a drónodhoz!

2014.04.21. 16:59 Szerző: zoltanvarju Címkék: nyelvfilozófia nyelvtechnológia drónok funkcionális programozás

Szeretnénk beszélni a gépekhez. Még jobban szeretnénk, ha meg értenének minket. Szeretnénk, ha megértenék céljainkat, vágyainkat és azoknak megfelelően cselekednének. Eközben persze nem akarunk nekik részletesen elmagyarázni mindent. Szeretjük, ha a "olyan meleg van itt a szobában" típusú megnyilatkozásaink után valaki megkérdezi udvariasan hogy "ne nyissuk ki az ablakot", vagy ne is kérdezzen, hanem egyből nyissa ki az ablakot. Álom? Carin Meier azon dolgozik, hogy ez valóra is válhasson!

 

(Aki egy kicsit jobban szeretne elmélyülni a technikai részletekben, az nézze meg ezt, a sajnos nem beágyazható videót is!) Meier gondolt egy nagyot és visszanyúlt a mesterséges intelligencia születésének idején megfogalmazott ötletekhez; mi lenne, ha egy Lisp nyelvben implementálhatná az ún. beszédaktusok elméletére alapozott Elephant nyelvet? 

lisplogo_fancy_256.png

A Lisp a második legöregebb programozási nyelv. John McCarthy gyermeke, akinek az az ötlete támadt, hogy Church lambda kalkulusában akart programozni. Hogy miért? Mert a egy számítástudósnak ez sokkal intuitívabb! Mielőtt valaki kételkedni kezd, érdemes Paul Graham, az Y combinator startup program elindítójának Beating the Averages és What Made Lisp Different c. esszéit elolvasni - a többieknek legyen elég annyi, hogy a mesterséges intelligencia nyelve a Lisp. A modern irányzatok pedig ennek egy új változatát, a Clojure-t használják.

mccarthy4_300.jpg

John McCarthy több tanulmányában is amellett érvelt, hogy a valódi mesterséges intelligenciának kezdenie kell valamit avval, hogy az embereket hitek, célok és meggyőződések (is) mozgatják. Nem kell minden gépnek kifinomult meggyőződések rendszerével rendelkezni és nem kellenek nekik nagy célok sem. Egy termosztátnak legyen az a célja, hogy a szoba megfelelő hőmérsékletű legyen, és legyen információja arról, hogy adott pillanatban éppen megfelelő, hideg, vagy éppen meleg-e a helyiség.

speechacts.jpg

McCarthy John R. Searl beszédaktus-elméletéből merített ihletet. A nyelvfilozófia a múlt század közepétől egyre inkább az ún. hétköznapi nyelv felé fordult. A beszédaktus-elméletet a nyelvi viselkedés izgatja, hiszen amikor mondunk valamit, akkor nem csak egy állítást teszünk, hanem egyben cselekvést is végrehajtunk. Pl. amikor a bíró kimondja hogy "öt év letöltendő fegyházra ítélem" vagy amikor az anyakönyvvezető szájából elhangzik hogy "házastársnak nyilvánítom önöket", akkor nem csak állítások kerülnek kimondásra, hanem egyben cselekvések, aktusok hajtódnak végre. Ezen aktusok megértéséhez rendelkeznünk kell közös hitekkel és célokkal - másképp könnyen mondhatjuk, hogy  a házasság érvénytelen pl. mert az egyik fél kiskorú volt és nem fogta fel mi is történik vele stb.

 

Meier zseniális hobbi projektje McCarthy álmát valósítja meg egy a beszédaktus-elméletre alapozott robot nyelvvel. Érdemes megjegyezni, hogy ez a nyelv nem csupán az ember-gép, hanem a gép-gép kommunikációt is segíti! Egy Roomba porszívó és egy drón táncának lehetnek tanúi azok akik végignézik a fenti videót!

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A rút kiskacsa meg az ingyen ebéd

2014.04.18. 08:42 Szerző: zoltanvarju Címkék: gépi tanulás

Manapság mindenki azt hiszi, hogy ha van adata, akkor majd valamilyen gépi tanulás csoda segít majd megoldani a problémáit - sőt, az egész világ szebb, jobb és úgy általában egy élhetőbb hely lesz. Persze mi is imádjuk ha van adat és lehet rajta dolgozni. Két dolgot azonban nem árt észben tartani!

No-free-lunch.png

1. Az ún. No Free Lunch Theorem (vagy inkább Theorems) rámutat arra, hogy nincs univerzálisan jól működő eljárás, ergo meg se próbáljunk automatikusan módszert választani egy előttünk álló feladathoz.

The_Ugly_Duckling_(1939_film)_poster.jpg

2. Az Ugly Duckling Theorem remek példa arra, hogy a gépek azt csinálják amit mondunk nekik, az eredményekhez kell az emberi intuíció. Magyarán ahhoz, hogy egy klasszifikáció működjön, bizony valamilyen részrehajlást be kell vinnünk az eljárásba, máskülönben nem működhet a dolog! (Aki nem hiszi, kattintson a linkre!!!!!)

 

Magyarán szükség van szakértőkre és foglalkozni kell a problémáinkkal, nem elég ülni az adatokon és várni hogy valaki előáll majd egy gépi tanulás algoritmussal, ami mindent megold!

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Making Sense of Data - Google MOOC kurzus

2014.04.17. 08:00 Szerző: zoltanvarju Címkék: kurzus Google MOOC data science

Minden az adatokról szól manapság! Ha valaki szeretné érteni, hogy miért, továbbá szeretné is használni az adatokat (legyenek azok sajátjai, vagy nyílt adatok), akkor a Google ingyenes online kurzusa a Making Sense of Data legjobb választás!

 

A kurzus nem igényel különösebb előképzettséget és egy laptopon és működő internetkapcsolaton kívül nem kell más az elvégzéséhez - vagy mégis, egy Google fiók azért nem árt :D A kurzus elvégzése után nem lesz az emberből egyből data scientist, de az alapokkal tisztába kerülhet és megtanulja kezelni a Google Fusion Tables-t. Csak ajánlani tudjuk ezt a remek kis kurzust!

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Az angol bizony nem elég!

2014.04.15. 09:54 Szerző: zoltanvarju Címkék: nyelvek nyelvtechnológia

Ma már minden angolul van! Aki nem tud angolul, az nem is létezik! Nem érdemes foglalkozni más nyelvekkel, ami számít az úgyis meg fog jelenni angolul! Az előbbi mondatok nem képezik hivatalos álláspontunkat, csupán az utóbbi időkben egyre gyakrabban hallunk ehhez hasonló kijelentéseket - és akik így vélekednek azok TÉVEDNEK! Nem csak a szép bölcsész lelkünk mondatja ezt velünk, hanem a rideg gazdasági racionalitás is.

arabic_cloud.jpg

Habár nem szeretünk az angol (és esetleg anyanyelvünk) mellett más nyelvekkel próbálkozni, általánosan elterjedt siránkozni amiatt, hogy telített a piac. A válság után még mindig nehéz kinyitni a megrendelők pénztárcáját is. Érdemes megnézni, hol van most tartós növekedés! A pénzügyi világban elterjedt mozaikszavak, mint a BRIC (Brazília, Oroszország, India, Kína), BRIMC (Mexikót takarja az M), BIRCA (ahol az A az arab országokat jelöli) ill. a BRICET (az E kelet-európa, a T pedig Törökország) jelzik merre érdemes nézelődni. 2001 és 2011 között ezen országok nyelvein megjelenő netes tartalmak száma hihetetlen mértékben növekedett!

the growth in English usage online stands at just over 281% over the past decade – far less than Spanish (743%), Chinese (1,277%), Russian (1,826%) or Arabic (showing a massive growth of 2,501% over the same period). [forrás]

Ezek bizony nem kicsi nyelvek, rajta vannak a tíz legnagyobb nyelv listáján, de jelenleg "alig" használják őket az interneten. A kínait a világ lakosságának kb. 14.4 százaléka beszéli, az internetes tartalmak terén az aránya viszont csupán 3.3%. Az arab nyelv különféle változatait kb. 300 millióan beszélik mint első nyelv és összesen 450 millióan értik, ami több mint az emberiség 4%-a, de weboldalak kb. 0.8%-a érhető el arabul. (Az érdeklődő olvasó figyelmébe ajánljuk az Ethnologue statisztikáit a világ nyelveiről és a Wikipedia szócikkét az internetes arányukról.) A globalizáció ellenére, ahogy erősödik ezen országok gazdasága, egyre többen anyanyelvükön kezdik használni az internetet. Nekik pedig előbb, vagy utóbb szükségük lesz nyelvtechnológiai megoldásokra...

 

Jelenleg a feljövőben lévő nyelvekkel leginkább a kormányzati és pénzügyi elemzéseket végző kutatók foglalkoznak. A Twitter forradalmak kutatása, a társadalmi változások közösségi média elemzéssel történő előrejelzése, vagy a hírelemzés a nyugati világ mániája még manapság. De érdemes elgondolkodni azon, hogy ezen a területen növekedés és biztos kereslet mutatkozik és valószínűleg ez még sokáig így is marad!

1 komment • Kövess Facebookon • Iratkozz fel értesítőre