HTML

Precognox

precognox_logo_190.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati és big data megoldásokat.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldhatjuk problémáidat, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Facebook oldaldoboz

Meetup ajánló

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Az opendata.hu oldalt a Magyar OpenData Alapítvány/Egyesület hivatalos megalakulásáig - lelkes önkéntesek segítségével a
K-Monitor Közhasznú Egyesület (K-Monitor) működteti, az üzemeltetést a Precognox végzi.

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Ezt olvasd, ha a gépi tanulásba vágnád a fejszédet

2016.06.07. 10:04 Szerző: zoltanvarju Címkék: könyvajánló gépi tanulás R

A gépi tanulás, hipszter nevén data science, egyre több érdeklődőt vonz, sokak szerencsétlenségére a terület azonban nagyon szerteágazó; a gépi tanulás ma az, ami mindenre ráhúzható az egyszerű statisztikai adatelemzéstől kezdve a képfeldolgozáson át a nyelvfeldolgozásig minden bele tud férni. Bonyolítja a helyzetet, hogy ezeken a területeken különböző megközelítések versenyeznek, vannak bayesiánusok, konnekcionisták stb. Aki szeretné átlátni ezt a területet, az könnyen zavarba kerülhet; nekik nyújt segítséget két remek könyv, amelyek, habár kezdőknek íródtak, mindenkinek jó szolgálatot tehetnek.

Pedro Domingos: The Master Algorithm

Domingos a gépi tanulás egyik központi figurája, aki a tanuló algoritmusok szent grálját keresi, azaz azt az algoritmust, ami egyesíti az összes jelenlegi megközelítés erényeit - erről (is) szól ez az ismeretterjesztő könyv. Domingos saját bevallása szerint is távol áll még a mester algoritmus megtalálásától, de mániájának hála alaposan meg kellett ismerkednie a gépi tanulás különféle irányzataival (szimbolizmus, konnekcionizmus, evolúciós algoritmusok, bayesianizmus, analogizmus), melyeknek egy-egy fejezetet szentelt. Sajnos nem-felügyelt módszereket és a meta-tanulást egy fejezetbe sűríti, amit a saját kutatásáról (számomra) érthetetlenül megírt fejezet követ. A kötet zárása a gépi tanulás társadalmi hatásairól szól, amin érződik, hogy Domingos érdeklődik a téma iránt és olvassa a társadalomtudományokban zajló vitákat erről, de ennél több nincs benne.

01ma.jpg

Minden hibája ellenére csak ajánlani tudom a könyvet profiknak és kezdőknek egyaránt, hiszen a gépi tanulás ott van a mindennapjainkban, nem árt ismerni.

 

Brett Lantz: Machine Learning with R

Akik tudnak már valamennyire programozni és rendelkeznek némi statisztikai alapismeretekkel, azok számára ez a könyv a legjobb. Lantz nagyon élvezetesen magyarázza el a legalapvetőbb gépi tanulási algoritmusokat és illusztrálja működésüket egy-egy adathalmazon. A kötet végén az adatelemzői munkához kapunk gyakorlati tippeket, kezdve a kiértékeléstől, az egyszerű hatékonyságot növelő módszerektől az ensemble módszerekig.02mlr.jpg

A könyvet elolvasva és példákat követve még nem válik senki profi data scientist-é, de aki rendesen dolgozik, az megpróbálkozhat a terület alapkönyvének számító Introduction to Statistical Learning tanulmányozásával.

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Magyar nyelvű tartalmak elemzése

2016.05.17. 10:51 Szerző: zoltanvarju Címkék: keresés tartalomelemzés nyelvtechnológia

Ma az MTA TK "Lendület" RECENS hálózati előadás-sorozat keretében Magyar nyelvű tartalmak elemzése címmel adunk elő. Korlátozott számban még akadnak férőhelyek, itt lehet regisztrálni. Az előadás az MTA TK Politikatudományi Intézetének tárgyalótermében (1014 Budapest, Országház utca 30.) lesz 15 órai kezdettel.

A Születésház Egyesület 2015. március 1. – 2016. április 30. között lezajlott projektje azt a célt szolgálta, hogy hozzájáruljanak a magyar szülészeti ellátórendszer egyenlő módon hozzáférhetővé válásához és a nők méltóságát tiszteletben tartó, szakszerű ellátás biztosításához. Ennek keretében négy közösségben (Pécs: Istvánakna, Györgytelep, Szakácsi, Told) készítettek mélyinterjúkat közel harminc nővel. Cégünk az interjúelemzői munka támogatásához, illetve kiegészítéséhez készített egy alkalmazást. A szoftver lehetővé teszi a dokumentumokban történő szabad szavas keresést, az interjú részleteket ún. facetekbe (kategóriákba) rendezi topik modellezés segítségével, továbbá a szövegek szentiment- és emócióelemzését is megjeleníti szófelhők formájában.

dashboard_sentiment.png

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Van fogalmunk róla?

2016.05.09. 14:43 Szerző: zoltanvarju Címkék: gépi tanulás klaszterezés kognitív nyelvészet Tversky prediktív kódolás

Miről lehet fogalmunk? Hogyan tudunk határt húzni fogalmaink közé? Hogyan lehetséges az, hogy a go is egy játék, meg a foci is az? Mi vetítjük a világra fogalmainkat, vagy azokat a dolgok valamilyen természetes tulajdonsága alapján alkotjuk meg? A tudományos fogalmak helyesebbek-e, mint a “hagyományos” fogalmaink? Egyáltalán, miért szeretünk mindent kategorizálni?

cc.png

A klaszterezés illúziója

Nézze meg az alábbi ábrát alaposan. Észrevesz valamilyen szerveződést a pontok között?

300_random.png

És ha így mutatjuk?

kmeans.png

Nyilvánvaló? Van benne valami? Hülyeség? Igen, ha arra gondolt hogy ez hülyeség, akkor jól gondolta. Az első ábrát úgy készítettük, hogy 150, random generált pontot tettünk rá. Ezután egy nagyon kedvelt klaszterezési eljárással kerestünk hasonlóságot a pontok között, és hát találtunk is, ezt mutatja a második ábra. Lehet szidni az algoritmust (jelen esetben ez a k-means), hogy miért talál ott is rendszert, ahol nincs, de az emberek is így működnek.

Az emberek szeretnek belelátni csoportokat, vagy tudományoskodósabban klasztereket, a random mintákba. Ezt nevezzük Tversky és Kahneman nyomán a klaszterezés illúzójának, ami egy ún. kognitív torzulás és abból ered, hogy nem elég nagy mintát vettünk a random sokaságból. Ez azonban komoly problémákhoz vezethet, hiszen mintázatokat látunk ott, ahol nincsenek. A probléma másik vége az, hogy egyszerűen lehetetlen lenne elboldogulni a világban klaszterezés nélkül.

 

Prediktív elmék

Nem csak az gazdaságtalan, ha minden egyes dolognak külön nevet adunk, az is roppant pazarló, ha mindenre odafigyelünk. A kognitív tudományokban egyre elfogadottabb az ún. prediktív kódolás irányzata, mely szerint az elménk elvárja hogy a dolgok a megszokott mederben folyjanak és csak akkor kezd keményen dolgozni, ha elvárásainak ellentmondó dolgokat tapasztal. Ilyenkor a mintázattól való eltérésre figyeltünk fel és rögtön egy másik mintázat által suggalt cselekvési sort hajtottunk végre. Például, amikor nem találjuk a lakáskulcsot a megszokott helyén, akkor megtörik a rutinunk, de ha nem először fordult elő ez velünk, akkor rögtön módszeresen kezdünk utána kutakodni. A prediktív kódolás nagyon elmés magyarázat arra, hogy miért keresünk mindenhol mintázatokat, azonban arra nem ad választ, hogy miért találunk mintázatokat és mennyire hasznosak, netán “igaziak” azok a klaszterek, amiket a világ dolgaira húzunk.

 

Természetes fajták

A filozófia úgy fordítja le a fenti kérdést, hogy léteznek-e természetes fajták (natural kinds). A fogalmat Quine vezette be a mai analitikus filozófiába. Quine számára a természetes fajták olyan fogalmak, melyek segítségével induktív következtetéseket tudunk végezni. Ilyenek például a kémai elemek, hiszen tulajdonságaik alapján megjósolhatjuk mi történik velük ha melegítjük vagy éppen összekeverjük azokat. Ebből következik, hogy a természetes fajták a fizika törvényei által szabályozottak. De mi a helyzet az olyan hétköznapi fogalmakkal mint például a fekete vagy a holló? Ezek is alkalmasak az indukciós következtetésre, mivel a “minden holló fekete” hipotézis megalkotásához szükséges hogy legyenek fekete dolgok és legyenek hollók. A nem-fekete és nem-holló dolgok ellenben nem természetes fajták.

 

Persze olyat, hogy nem-fekete, vagy nem-holló, nem szoktunk mondani. Olyanokat szoktunk mondani, hogy emberek, állatok, székek, kutyák és ezekkel nagyon szépen működnek következtetési szabályaink, legyenek azok induktívak, vagy deduktívak. Gondolhatnánk, a nyelv nagyon remekül felvértezett minket arra, hogy elboldoguljunk a világban. Ellenben régebben teljesen természetesen vádoltak meg és ítéltek el embereket boszorkányság vádjával. Mondhatjuk, egy időben a borszorkányság természetes fajta volt, hiszen sok dolgot meg lehetett magyarázni, ha feltettük egy illetőről hogy boszorkány. Ma már úgy gondoljuk, a boszorkányság fogalma nem valós, nem használható, hiszen nincsenek olyan tulajdonságai az embereknek, melyek alapján joggal alkalmazható rájuk a szó. Valami hasonló történt a kémia történetében híres flogisztonelmélettel is. Sok tudós rákapott az égés magyarázatában a flogiszton feltételezésére, amit látni nem láthat senki, de ha feltesszük hogy minden éghető anyagban van valami közös, amitől az éghető, akkor eljutunk tudományos fogalomhoz. Így az égés, jobban mondva a tűz kikerült az ősi alapelemek közül és egy megmagyarázható természeti jelenséggé vált. A flogiszton létét tudományos kísérletekkel igyekeztek bizonyítani, amik amúgy Lavoisier ma is elfogadott magyarázatának megjelenéséig nagyon meggyőzőek voltak.

 

Quine elve működni látszik, a boszorkányság fogalma nem alkalmazható jól induktív következtetésekre, ahogy a flogiszton sem. Mondhatjuk, az empíria tükrében változhatnak fogalmaink. Az ún. elminatív materializmus elmefilozófiai irányzata szerint a “hagyományos” vagy szakszóval népipszichológia fogalmait a tudomány szépen lassan lebontja és rendes fizikai magyarázatra épülő fogalmakkal váltja fel. Ezzel csak annyi baj van, hogy a tudományos fogalmak is állandóan változnak, mindig jön egy “igazabb” elmélet, “jobb” fogalmakkal. A másik probléma az, hogy a legracionálisabb tudós sem akarja a vacsoráját annak összetevőinek képleteiben leírva megrendelni, szerelmének nem a benne lezajló kémiai és fiziológiai reakciókt fogja leírni, stb.

 

A tudomány nyelve is emberi nyelv

Az eliminatív materializmus legnagyobb hibája az, hogy ha mindent visszavezetünk a fizika vagy a matematika nyelvére, akkor is egy nagyon emberi nyelvet kapunk. Hiába a szép formalizmus, ha valaki fizikus, kémikus, orvos, vagy éppen irodalmár, filozófus, stb. akar lenni, akkor nem tudja a szakmát csupán könyvekből megtanulni. Hiába olvassa el valaki ezerszer, hogyan kell egy rendes kémiai kísérletet megcsniálni, ha nem mutatja meg neki valaki és vezeti végig az eljáráson, akkor nagyon könnyen baj lehet a dologból. Még a matematika sem mentes ezektől! Polányi Mihály, aki maga is gyakorló természettudós volt, tudományfilozófiai műveiben ezt nevezi hallgatólagos tudásnak.

 

Polányi az autóvezetés példáján keresztül szemlélteti a hallgatólagos tudás mibenlétét. Leírhatjuk a kormány tekerésének finom részleteit, a KRESZ szabályait, a járművezetés illemtanát, de az egyáltalán nem ugyanaz, mint amikor valaki ténylegesen vezet, érzi hogy mikor kell megnyomnia a fékpedált, elengednie egy besorolni akaró autót, vagy egy kicsit gyorsítani a sárgán villogó lámpánál. Az autóvezetéshez kapcsolódó fogalmakat nem önállóan, vagy egymáshoz viszonyítva tanuljuk meg leírások alapján, hanem használat közben. A tudomány is így működik és ez egyáltalán nem jelenti azt, hogy fogalmai zavarosak, vagy következetlenek lennének, csak az van hogy a tudományt is emberek művelik.

 

Mitől fogalom egy fogalom?

Láthattuk, a fogalmak, klaszterek, vagy mintázatok átszövik az emberi életet. De hogyan alakulnak ki? Mi köti össze az adott fogalom alá tartozó dolgokat?

“Vizsgáld meg például egyszer a azokat a folyamatokat, amelyeket “játékok”-nak nevezünk. A táblajátékokra, kártyajátékokra, labdajátékra, küzdősportokra stb. Gondolok. Mi a közös mindezekben? - Ne mondd, hogy “Kell valami közösnek lennie bennük, különben nem hívnák őket ‘játékok’-nak” - hanem nézd meg, van-e valami közös mindben. - Mert ha menézed őket, nem fogsz ugyan olyasmit látni, ami mindben közös, de látsz majd hasonlóságokat, rokonságokat, mégpedig egész halomnyit. Szóval ne gondolkozz, hanem nézz! [...] ezeket a hasonlóságokat nem tudom jobb szóval jellemezni, mint hogy “családi hasonlóság”-ok; mert így fedik át és keresztezik egymást azok a különböző hasonlóságok, amelyek egy család tagjai között állnak fenn: termet, arcvonások, a szem színe, a járás, a temperamentum stb., stb.” (Wittgenstein PHI §66-67)

Wittgenstein családi hasonlóság koncepciója a modern kognitív nyelvészet egyik origója. Az ún. prototípus-elmélet alapítója Eleanor Rosch a filozófiai alapokról indulva arra volt kíváncsi, hogy az egyes kategóriák elmeit mennyire tartják az emberek tipikus, vagy reprezentatívnak. Ezzel amolyan sorrendet állapíthatunk meg a kategória egyes elemei között. Ez már jó alap a fenti idézetben emlegetett hasonlóság definiálásához. Ennél tovább is léphetünk egy kicsit, vegyük például az ország fogalmát. Rangsoroljuk tipikusság szerint az országokat, majd nézzünk egy adatsort hogy hány négyzetkilométer a területük. Képzeletbeli adatsorunk első pár sora valahogy így nézne ki:

Ország

Tipikusság

Méret

Lakosság

Meseország

2

100

22

Csodaország

3

50

30

Seholország

3

60

50

Nagyország

1

55

40

Kisország

4

4

1

 

Adatainkat ábrázoljuk egy ploton, ahol az egyik tengely a tipikusság, a másik pedig a terület.

countries.png

Láthatjuk, a tipikus országok méretük tekintetében sincsenek messze egymástól. Most nézzük meg, hogy a méret és a lakosságszáma szerint hogy néz ki a plotunk.

countries02.png

Itt is, az átlagos nagyságú és átlagos lakosságszámú országok összetartanak és példánkban ezek a legtipikusabb országok.

 

A fenti példában ún. metrikus térbe helyeztük az országokat két dimenzió mentén. De tovább is mehetünk és további jellemzőket is mérhetünk, ezek további dimenziókat jelentenek. Az egyes pontok között lemérhetjük a távolságot. Sőt, nem is kell tudnunk előre miről gyűjtünk adatokat, elég rögzíteni milyen értékeket társítunk egy-egy elemhez az adott dimenziók mentén. Ha klaszterezni szeretnénk az adatainkat, akkor nagyon jó stratégia, hogy szeretnénk egymáshoz közelállóakat találni és egyszerű geometriai számításokkal ezt el is érhetjük. Egy-egy csoport központi elemét, melytől a többi elem távolsága a legkisebb, tekinthetjük a csoport prototípusának. A legtöbb klaszterző algoritmus ezen eljárás változatait használja és igen jó eredményeket produkálnak általában. Az is nagyon meggyőző, hogy a tipikalitási ítéletek többnyire vissza szoktak tükröződni ezekben a klaszterezésekben. De sajnos nem minden esetben.

 

Túl a metrikus tereken

Nagyon korán, a hetvenes években bebizonyosodott Tversky úttörő munkáinak hála, hogy a metrikus terekre jellemző szép matematikai tulajdonságok nem jellemzőek az emberi gondolkodásra. Egy rendes metrikus térben A és B pont között a távolság pontosan akkora, mint B és A pontok között. Ellenben a hasnolósági ítéletekben ez nem igaz, pl. “Mennyire hasonlít Észak-Korea az Egyesült Államokra” és a “Mennyire hasonlít az Egyesült Államok Észak-Koreára?” kérdésekre nagyon eltérő válaszokat szoktak kapni a kutatók. Hasonlóan gyakran sérül az ún. háromszögelés elve, azaz az A és B közötti távolság, hozzáadva a B és C közötti távolsághoz, nagyobb vagy egyenlő A és C távolságánál (röviden ha két pot között egy harmadikat is érintek, akkor minimum ugyanannyit, vagy többet kell utaznom mint egyedül a két pont között). Például Szerbiát hasonlónak tekinthetjük Magyaroroszághoz (mint poszt-kommunista országok pl.), Magyarországot hasonlóbbnak Szlovákiához (pl. mert mindkettő EU-tag). Ebből elvileg következnie kell, hogy Szerbia Szlovákiához vagy kevésbbé, vagy Magyarországgal egyenlő mértékben hasonló (amit sokan megkérdőjeleznek intuitívan).

 

A rendes metrikus terektől való eltérésnek több oka lehet. Az egyik legfontosabb az, hogy fogalmaink nem rendesek, nem monothetikusak, azaz nem az összes dimenzió mentén vesznek fel értékeket. Ez még önmagában nem lenne baj, hiszen önmagában az egy jó tulajdonság is lehetne ami alapján szépen elkülönülhetnének. Gondoljunk bele Wittgenstein játék példájába. Milyen szép lenne ha a labadjátákok a csoportosan, labdával játszott játékok osztályát adnák ki, a kártyajátékok az egyedül, párban, többen játszottakét, stb. Nem csak a játék fogalma lenne szépen lefedve, hanem annak alkategóriái is. Erre akadnak olyan furcsaságok mint a freestyle foci, amit egyedül űznek, de labdával.

 

Van fogalmunk valamiről?

Annak ellenére tudunk nap mint nap fogalmakat használni, tanulni és alkotni, hogy nem sok fogalmunk van arról, mit jelent fogalmakkal rendelkezni. Nagyon jó lenne többet megtudni erről a területről, hiszen az alapvető kíváncsiságon túl gyakorlati haszna is lehetne eme tudásunknak. Az asszisztív technológiák a tanulási nehézségekkel küzőknek segíthetnének, a tudományos munkában és az üzleti életben pedig a különböző klaszterező és klasszifikációs algoritmusok már ma is létfontosságúak.

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Meetup slides

2016.04.26. 09:42 Szerző: zoltanvarju Címkék: Neticle NLPmeetup Meltwater Zurvey

 

 

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Szentimentek, emóciók és témák elemzése interjúkban

2016.04.15. 08:27 Szerző: kittibalogh Címkék: keresés konferencia tartalomelemzés szentimentelemzés emócióelemzés Banana Születésház Solr

Április 15-én bemutatjuk legújabb fejlesztésünket a "Tedd meg az első lépést" zárórendezvényen.

Az esemény a Születésház Egyesület 2015. március 1. – 2016. április 30. között lezajlott projektjét zárja le. A projekt azt a célt szolgálta, hogy hozzájáruljanak a magyar szülészeti ellátórendszer egyenlő módon hozzáférhetővé válásához és a nők méltóságát tiszteletben tartó, szakszerű ellátás biztosításához. Ennek keretében négy közösségben (Pécs: István-akna, György-telep, Szakácsi, Told) készítettek mélyinterjúkat közel harminc nővel. Az eseményen az interjúk elemzéséhez készített analitikai felületet fogjuk demózni.

A felületet az interjúelemzői munka támogatásához, illetve kiegészítéséhez készítettük. Az elkészült dashboardon az interjúk szentimentjei, emóciói, témái és leggyakoribb szavai jelennek meg különböző ábrákon, például oszlopdiagramokon vagy szófelhőkön. Emellett a felület lehetőséget ad az interjúkban való keresésre és szűrésre, amikkel az ábrák és az interjúegységek dinamikusan váltanak.

Az előadás során beszélünk a feldolgozási folyamatról és az eszközökről is és egy példaelemzést is bemutatunk az eszköz használatával:

Az analitikai felület demójának használatát ezeken a videókon is megtekintheted:

 

Topikelemzési példa egy interjún keresztül:

 

Szentimentelemzési példa egy interjún keresztül és topikelemzéssel kombinálása:

Emócióelemzési példa egy interjún keresztül:

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre