HTML

Kereső Világ: keresés, szövegbányászat, big data

A keresők lelkivilága, szöveges keresés, szövegbányászat és big data.
2001 óta foglalkozunk keresőfejlesztéssel a Precognox kereteiben. A blog írói: Jóföldi Endre és Varjú Zoltán. A Goldenblog versenyen IT kategóriában a legjobb 3 blog közé választott minket a szakmai zsűri 2011-ben és 2012-ben is. 2013-ban a Biznisz blogok között hetedik helyen végeztünk.


Precognox

precognox_logo_190.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati és big data megoldásokat. Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldhatjuk problémáidat, akkor lépj velünk kapcsolatba a céges oldalunkon található űrlapon keresztül.

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Az opendata.hu oldalt a Magyar OpenData Alapítvány/Egyesület hivatalos megalakulásáig - lelkes önkéntesek segítségével a
K-Monitor Közhasznú Egyesület (K-Monitor) működteti, az üzemeltetést a Precognox végzi.



Meetup ajánló

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Főbb témák

adatok (12) adatújságírás (16) ajánló (4) állás (4) alternatív (6) alternatív keresőfelület (24) analitika (5) beszédtechnológia (10) big data (39) bing (14) blogkereső (5) clustering (6) computational social science (4) data science (7) digitális bölcsészet (4) egészség (7) egészség kereső (7) emócióelemzés (13) facebook (8) Facebook (7) fintech (5) firefox (4) goldenblog (5) Google (22) google (57) GoogleTrends (5) Google Ngram (4) Hadoop (6) helyi keresés (4) hírkeresés (4) internetes keresés (27) internetes keresők (4) internet hungary (6) iphone (5) johu (4) képkereső (8) keresés (50) kereséselmélet (7) keresés jövője (57) keresés problémái (38) keresők összehasonlítása (9) keresőoptimalizálás (6) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (6) konferencia (11) könyvajánló (4) korpusznyelvészet (5) közösségi keresés (8) közösségi média (6) különleges keresők (7) kutatás (4) linked data (5) live (13) magyar (4) magyar kereső (9) marketing (8) meetup (16) metafora (5) metakereső (4) microsoft (4) miner (4) mobil (30) mobil keresés (15) Neticle (7) NLP meetup (4) nlp meetup (5) Nuance (8) nyelvészet (8) nyelvtechnológia (51) open data (7) Pennebaker (4) pénzügy (6) politika (4) Precognox (15) Precognox Labs (9) seo (5) smartmobil (4) sna (4) spam (6) statisztika (5) számítógépes nyelvészet (5) szemantikus keresés (15) szemantikus kereső (10) szemantikus web (8) szentimentelemzés (21) szövegbányászat (11) társadalomtudomány (4) tartalomelemzés (16) tartalomipar (5) tartalomjegyzék (6) tematikus kereső (20) Twitter (23) twitter (13) Twitter forradalom (4) valósidejű keresés (4) vertikális kereső (9) vizualizáció (10) wikia (4) Wikipedia (4) wolframalpha (4) yahoo (26) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Ezek csak szavak - amik rólunk árulkodnak

2014.04.24. 13:23 Szerző: zoltanvarju Címkék: nyelvtechnológia szentimentelemzés emócióelemzés Pennebaker

A szentimentelemzés vagy polaritásmérés az utóbbi öt évben rendkívül felkapott lett - mi is imádjuk. De mindig akad egy de! Ma két iskola működik, az egyik az ún. szótáras, a másik pedig a klasszifikációs módszer híve. Mindkettőnek megvannak a maga erősségei és gyengéi is. Jó hír: talán akad jobb!

 

A klasszifikációs módszer lényege, hogy egy sok-sok példát tartalmazó korpuszt készítünk, ami felsorol sok negatívnak, pozitívnak ill. semlegesnek ítélt mondatot. Ilyen pl. Miháltz Márton remek OpinHuBank korpusza a magyar nyelvre. Nézzük meg a leggyakoribb szavakat a pozitív példákból!

Screenshot from 2014-04-24 10_09_49.png

Vessünk egy pillantás a negatív példák leggyakoribb szavaira is!

Screenshot from 2014-04-23 20_15_13.png

Reméljük két dolog egyből látszik:

  • a példák híroldalakról és blogokról származnak
  • nagy az átfedés a leggyakoribb szavak között

Nyilván a klasszifikációt végző algoritmus (általában naív Bayes, vagy annak valamilyen változata) nem ezen szavak alapján dönti el, hogy melyik osztályba soroljon egy-egy mondatot, hanem a gyakorisági listán hátrébb szereplő szavakat vizsgálgatja. Csakhogy ezek vagy nagyon területspecifikusak, vagy túl általánosak. Éppen ezért a tanuló algoritmusokon alapuló szentimentelemzők általában spéci, az adott területhez készített korpuszt használnak.

NewsInCharts.bmp

A másik iskola szótárakat használ, melyek inkább szólisták egy-egy adott szentimenthez. Az "elemzés" lényege az, hogy megszámolják az elemzett szövegben a listákon szereplő szavak arányát. Itt gondot szokott okozni a tagadás (pl. az "Ez a könyv jó" és az "Ez a könyv nem jó" mondatok polaritása tutira ellentétes a tagadás miatt) és egyéb finomságok. Persze ezek jelentős részét lehet kezelni valamennyire, viszont itt is a területspecifikusság problémája merül fel (ennek legtöbbet idézett írása a pénzügyi területen született When is a Liability not a Liability? Textual Analysis, Dictionaries, and 10-Ks tanulmány). Érthetőbben pozitív-e a növekedés? Ha nő a cégünk az pozitív, de ha nő a költségvetés hiánya, az bizony aggasztó (persze pl. egyes keysiánusoknál ez megint lehet pozitív polaritású is).

 images.jpg

A kérdés az, akad-e általános eszköz szentimentelemzésre? Blogunkon már többször foglalkoztunk Pennebaker megközelítésével, ami a hagyományos stopszószűrés után megmaradó tartalmas szavak elemzése helyett a funkciószavak arányaira figyel. A Counting Little Words in Big Data c. riportban Pennebaker és szerzőtársa remekül összefoglalja milyen lehetőségek rejlenek ebben a megközelítésben. A funkciószavak ugyanis nem nagyon változtatják jelentésüket a különböző regiszterekben - reméljük, hogy egy jogász ugyanazt érti alatta, mint én és a háziorvosom. A megközelítés további előnye, hogy nem csak a lassan szűkössé váló pozitív, semleges, negatív osztályozást, hanem az emócióelemzést, sőt a beszélők szegmentálását is lehetővé teszi! (L. erről a blog egyik szerzőjének Twitter-fiókján végzett elemzésünket.) Úgy tűnik érdemes számolni a szavakkal!

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Nyelvészet mindenkinek!

2014.04.23. 13:32 Szerző: zoltanvarju Címkék: nyelvészet könyvajánló nyelvtechnológia

A magabiztosság az élet része, sokan ezért mindenféle nyelvészeti ismeret nélkül vágnak bele a nyelvtechnológiai problémák megoldásába. Persze a nyelvhez mindenki ért, hiszen mindenkinek van nyelve, beszélni minden egészséges ember tud. Ugyanakkor szíve is van mindenkinek, valahogy mégse gondolja magát szívsebésznek mindenki. A nyelvtechnológia furcsa terület, nem kell hozzá nyelvészeti végzettség - de ez nem jelenti azt, hogy nem kell rendelkezni bizonyos háttértudással a területről. Az egyik legjobb nyelvészeti tankönyv egyik szerzője, Emily M. Bender volt olyan kedves és a Linguistics Fundamentls for Natural Language Processing 100 Essentials from Morphology and Syntax című rövid kis könyvben összefoglalta azt, amit minimum tudni illik! 

linguistic_essentials.jpg

A tartalom egyszerűen zseniális, Bender remek tanár, minden egyes szaván érződik hogy az University of Washington híres számítógépes nyelvészeti képzésén oktatva ezerszer elmagyarázta már ezeket a kérdéseket okos és tanult, de a nyelvészetet közelebbről nem ismerő embereknek. Habár a nagyobb mélységeket mellőzi - kb 120 oldalon 100 témát kifejteni nem is lehet - arra mindenképpen elegendő, hogy a kötet elolvasása után érezze az ember nem teljesen haszontalan a nyelvtudomány és van mit keresni nyelvészeknek a nyelvtechnológiában. Személyes tapasztalatom szerint a számítástudomány és reáliák felől érkezők számára nehéz megérteni mit várhatnak egy nlp eszköztől és hogyan ítélhetik meg hatékonyságát, sőt gyakran a egy-egy probléma definiálása során is nehézséget jelent számukra, hogy nem igazán ismerik a nyelv szeszélyes természetét. Különösen akkor ajánlom ezt a könyvet, ha valaki egyedül, nyelvészeti előismeretek nélkül szeretne nyelvtechnológiai kérdésekkel foglalkozni. Sajnos egyre gyakrabban találkozhatunk olyan csapatokkal is, akik foglalkoznak nyelvtechnológiai kérdésekkel, de nincs köztük nyelvész - nekik szívem szerint receptre íratnám fel Bender művét! Nyelvészeknek viszont egyáltalán nem ajánlom - nekik kicsit unalmas, túl sűrű lehet ez a könyv.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Beszélj a drónodhoz!

2014.04.21. 16:59 Szerző: zoltanvarju Címkék: nyelvfilozófia nyelvtechnológia drónok funkcionális programozás

Szeretnénk beszélni a gépekhez. Még jobban szeretnénk, ha meg értenének minket. Szeretnénk, ha megértenék céljainkat, vágyainkat és azoknak megfelelően cselekednének. Eközben persze nem akarunk nekik részletesen elmagyarázni mindent. Szeretjük, ha a "olyan meleg van itt a szobában" típusú megnyilatkozásaink után valaki megkérdezi udvariasan hogy "ne nyissuk ki az ablakot", vagy ne is kérdezzen, hanem egyből nyissa ki az ablakot. Álom? Carin Meier azon dolgozik, hogy ez valóra is válhasson!

 

(Aki egy kicsit jobban szeretne elmélyülni a technikai részletekben, az nézze meg ezt, a sajnos nem beágyazható videót is!) Meier gondolt egy nagyot és visszanyúlt a mesterséges intelligencia születésének idején megfogalmazott ötletekhez; mi lenne, ha egy Lisp nyelvben implementálhatná az ún. beszédaktusok elméletére alapozott Elephant nyelvet? 

lisplogo_fancy_256.png

A Lisp a második legöregebb programozási nyelv. John McCarthy gyermeke, akinek az az ötlete támadt, hogy Church lambda kalkulusában akart programozni. Hogy miért? Mert a egy számítástudósnak ez sokkal intuitívabb! Mielőtt valaki kételkedni kezd, érdemes Paul Graham, az Y combinator startup program elindítójának Beating the Averages és What Made Lisp Different c. esszéit elolvasni - a többieknek legyen elég annyi, hogy a mesterséges intelligencia nyelve a Lisp. A modern irányzatok pedig ennek egy új változatát, a Clojure-t használják.

mccarthy4_300.jpg

John McCarthy több tanulmányában is amellett érvelt, hogy a valódi mesterséges intelligenciának kezdenie kell valamit avval, hogy az embereket hitek, célok és meggyőződések (is) mozgatják. Nem kell minden gépnek kifinomult meggyőződések rendszerével rendelkezni és nem kellenek nekik nagy célok sem. Egy termosztátnak legyen az a célja, hogy a szoba megfelelő hőmérsékletű legyen, és legyen információja arról, hogy adott pillanatban éppen megfelelő, hideg, vagy éppen meleg-e a helyiség.

speechacts.jpg

McCarthy John R. Searl beszédaktus-elméletéből merített ihletet. A nyelvfilozófia a múlt század közepétől egyre inkább az ún. hétköznapi nyelv felé fordult. A beszédaktus-elméletet a nyelvi viselkedés izgatja, hiszen amikor mondunk valamit, akkor nem csak egy állítást teszünk, hanem egyben cselekvést is végrehajtunk. Pl. amikor a bíró kimondja hogy "öt év letöltendő fegyházra ítélem" vagy amikor az anyakönyvvezető szájából elhangzik hogy "házastársnak nyilvánítom önöket", akkor nem csak állítások kerülnek kimondásra, hanem egyben cselekvések, aktusok hajtódnak végre. Ezen aktusok megértéséhez rendelkeznünk kell közös hitekkel és célokkal - másképp könnyen mondhatjuk, hogy  a házasság érvénytelen pl. mert az egyik fél kiskorú volt és nem fogta fel mi is történik vele stb.

 

Meier zseniális hobbi projektje McCarthy álmát valósítja meg egy a beszédaktus-elméletre alapozott robot nyelvvel. Érdemes megjegyezni, hogy ez a nyelv nem csupán az ember-gép, hanem a gép-gép kommunikációt is segíti! Egy Roomba porszívó és egy drón táncának lehetnek tanúi azok akik végignézik a fenti videót!

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A rút kiskacsa meg az ingyen ebéd

2014.04.18. 08:42 Szerző: zoltanvarju Címkék: gépi tanulás

Manapság mindenki azt hiszi, hogy ha van adata, akkor majd valamilyen gépi tanulás csoda segít majd megoldani a problémáit - sőt, az egész világ szebb, jobb és úgy általában egy élhetőbb hely lesz. Persze mi is imádjuk ha van adat és lehet rajta dolgozni. Két dolgot azonban nem árt észben tartani!

No-free-lunch.png

1. Az ún. No Free Lunch Theorem (vagy inkább Theorems) rámutat arra, hogy nincs univerzálisan jól működő eljárás, ergo meg se próbáljunk automatikusan módszert választani egy előttünk álló feladathoz.

The_Ugly_Duckling_(1939_film)_poster.jpg

2. Az Ugly Duckling Theorem remek példa arra, hogy a gépek azt csinálják amit mondunk nekik, az eredményekhez kell az emberi intuíció. Magyarán ahhoz, hogy egy klasszifikáció működjön, bizony valamilyen részrehajlást be kell vinnünk az eljárásba, máskülönben nem működhet a dolog! (Aki nem hiszi, kattintson a linkre!!!!!)

 

Magyarán szükség van szakértőkre és foglalkozni kell a problémáinkkal, nem elég ülni az adatokon és várni hogy valaki előáll majd egy gépi tanulás algoritmussal, ami mindent megold!

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Making Sense of Data - Google MOOC kurzus

2014.04.17. 08:00 Szerző: zoltanvarju Címkék: kurzus Google MOOC data science

Minden az adatokról szól manapság! Ha valaki szeretné érteni, hogy miért, továbbá szeretné is használni az adatokat (legyenek azok sajátjai, vagy nyílt adatok), akkor a Google ingyenes online kurzusa a Making Sense of Data legjobb választás!

 

A kurzus nem igényel különösebb előképzettséget és egy laptopon és működő internetkapcsolaton kívül nem kell más az elvégzéséhez - vagy mégis, egy Google fiók azért nem árt :D A kurzus elvégzése után nem lesz az emberből egyből data scientist, de az alapokkal tisztába kerülhet és megtanulja kezelni a Google Fusion Tables-t. Csak ajánlani tudjuk ezt a remek kis kurzust!

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre