HTML

Precognox

precognox_logo_190.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati és big data megoldásokat.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldhatjuk problémáidat, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Meetup ajánló

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Az opendata.hu oldalt a Magyar OpenData Alapítvány/Egyesület hivatalos megalakulásáig - lelkes önkéntesek segítségével a
K-Monitor Közhasznú Egyesület (K-Monitor) működteti, az üzemeltetést a Precognox végzi.

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Egyenlőtlenség és keresési trendek

2014.09.01. 09:41 Szerző: zoltanvarju Címkék: egyenlőtlenség Google GoogleCorrelate

Ahogy korábban is írtuk már, a nowcasting szépsége az, hogy a hagyományos adatfelvétel gyors és olcsó alternatívája lehet - persze csak akkor ha tudjuk, mivel helyettesíthetjük szokásos adatainkat. A The Upshot az Egyesült Államokban vizsgálata az életminőségben tapasztalható területi egyenlőtlenségeket, majd a GoogleCorrelate segítségével megtalálták mely keresési kifejezések jelzik jól előre a hagyományos indikátorokat.

inequality01.png

A What Are the Hardest Places to Live in the U.S.? minden megyére kiszámított egy hat mutatóból (oktatás, jövedelem, munkanélküliség, fogyatékossági ráta, várható élettartam, elhízottság) álló indexet.  

inequality02.png

A GoogleCorrelate segítségével megvizsgálták, mely keresési kifejezések korrelálnak az indexben szereplő adatokkal, erről a In One America, Guns and Diet. In the Other, Cameras and ‘Zoolander.’ posztban számoltak be. Fontos megjegyezni, hogy a keresések nem abszolút trendet jelentenek, hanem az adott területen megfigyelhető kapcsolatot az indexet alkotó változók és a keresési kifejezések között. Érdekes, hogy a jóléti térségben a digitális kamerák, utazási desztinációk, a bébimasszázs és társaik, a leszakadó régiókban a betegségekkel, fegyverekkel és szociális ellátással kapcsolatos kifejezések jó prediktorok. Érdekes lenne megvizsgálni, hogy egy adott régióban tapasztalható társadalmi változások előrejelezhetőek-e a Google keresési trendjeire alapozva...

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Szeptember 3-án R and C++ a BURN meeutpon

2014.08.28. 08:00 Szerző: zoltanvarju Címkék: meetup R

A BURN meetup ismét remek témával örvendezteti meg az R iránt érdeklődő közönséget! Szeptember 3-án Romain Francois az R és a C++ egyre népszerűbb kombinálásáról tart előadást, a rendezvény ingyenes, de a szervezők arra kérnek mindenkit, hogy az esemény oldalán regisztráljon

ppt.png

A leírás alapján igazi hardcore fejlesztői élményben lehet része a résztvevőknek:

Romain Francois is a well-know R developer, R Enthusiast and R/C++ hero beside being an occasional stand up comedian. This suggests that we will have a wonderful time at the next R User Group. Romain will talk about his Rcpp11 package:

R and C++ is an increasingly popular mix. I will talk about past, present and future of this combination. 

Integrating R and C++ has been facilitated by R packages around Rcpp for several years now, we will review some of the key features of Rcpp and discuss some successful packages that have been using Rcpp. 

The last part of the talk will be dedicated to the future of R and C++. For that purpose I will introduce Rcpp11, a new implementation that focuses on the last C++ standard. Beyond C++11, we will discuss directions for future work in R and C++. 

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

De miért nem doménfüggetlen? A nyúl miatt!

2014.08.27. 08:03 Szerző: zoltanvarju Címkék: tudományfilozófia kontextus nyelvtechnológia Quine Wittgenstein Gavagai

Az egyik leggyakoribb kérdés a nyelvtechnológiai megoldásokkal kapcsolatban az, hogy miért nem doménfüggetlenek. Idegesítő, hogy ami működik a tudományos cikkek feldolgozása során, az a közösségi média tartalmait elemezve egyszerűen elvérzik, arról már ne is beszéljünk hogy mennyi pénzt, időt és erőforrást visz el egy-egy doménre adaptálni egy eszközt.

 context.jpg

Legutóbb a Why Sentiment Analysis Engines Need Customization című írás futott körbe a neten a témában, ami lényegre törően magyarázza el, hogy a kontextus miatt változhat egy-egy szó szentimentértéke. Habár mi is úgy gondoljuk, hogy a kontextus mindent visz és a technika fejlődésének hála hamarosan ezt is egyre jobban tudjuk majd kezelni, tisztában kell lennünk azzal, hogy a nyelv nem egy könnyű dió. Hogy miért? Wittgensteint hívjuk segítségül, kinek híres város hasonlata segít megérteni a helyzetet.

[...] azt is kérdezd meg magadtól, hogy vajon a mi nyelvünk teljes-e; - hogy teljes volt-e, mielőtt a kémiai szimbólumokat és az infintezimáljeleket bekebelezte; mert ezek, mondhatni nyelvünk elővárosai. (És hány háztól, utcától fogva város egy város?) Nyelvünket olybá tekinthetjük, mint egy régi várost: mint zegzugos térséget utcácskákkal és terekkel, régi és új házakkal, meg olyan házakkal, amelyekhez különböző korokban építettek hozzá; s az egészet egy csomó előváros öleli körül, egyenes és szabályos utcákkal és egyforma házakkal. (Wittgenstein: Filozófiai vizsgálódások 18.)

Ahhoz, hogy tudjunk tájékozódni a városban egy térképre van szükségünk. Egy ilyen szép, szabályos utcákból álló helyen igazából nem is kell nagyon a térképet böngésznünk.

varos01.png

Ellenben az "óvárosban" hiába bogarásszuk percenként a térképet, szükségünk van jellegzetes viszonyítási pontokra a tájékozódáshoz.

varos02.jpg

Egy jó GPS persze hasznunkra lehet, de nem árt észben tartani, a városok folyamatosan változnak, új utak és házak épülnek, a régieket átalakítják, egyes részek pedig kihalnak. Ha a városok esetében lépést is tud tartani a technológia ezzel, a nyelv végtelensége miatt nem készíthetünk tökéletes térképet.

Gavagai.jpg

Van azonban egy nagyon erős ismeretelméleti probléma is, ami arra int minket, hogy szkeptikusak legyünk a doménfüggetlen megoldásokkal szemben. Képzeljük magunkat egy antropológus bőrébe, aki egy eddig ismeretlen törzshöz kerül. Nem beszéljük a törzs nyelvét, de szeretnénk azt megtanulni és leírni. Elindulunk a törzs vadászaival az erdőbe, amikor egy nyúl fut át előttünk és egyikük rámutatva felkiált "gavagai". Gondosan lejegyezzük noteszünkbe; "a nyúl láttán azt mondta az egyik alany hogy >>gavagai<<". Este vacsoránál kezünkbe adnak egy húsdarabot és azt mondja a mellettünk ülő "gavagai", erre mi gondosan lejegyezzük "a húsra mutatva, erősen gesztikulálva azt mondta a megfigyelt, hogy >>gavagai<<". Egy napon elég adatunk van hasonló helyzetekből és elkezdjük megírni szeretett törzsünk nyelvének szótárát. A "gavagai" magyar megfelelőjének megadhatjuk a "nyúl" és a "nyúlhús" szavakat, de mennyire lehetünk ebben biztosak? Quine - akinek a gavagai példát köszönhetjük - a kölcsönös megfeleltetést a múzeum mítoszának hívja, mivel feltételezi, hogy a jelentés eleve adott valahogy és az egyes nyelvek ezekhez rendelnek szavakat. Az előttünk átfutó nyúl azonban nem egy kiállítás darab, aminek a címkéjét a törzs tagja megadta nekünk! A "gavagai" szó jelentését a kontextus adja, az a tapasztalat, hogy éppen az erdőben vagyunk és átfut valami előttünk. A "gavagai" fordítása éppúgy lehet "ott fut egy nyúl", vagy "finom nyúlhús" az adott kontextusokban.

 

Quine holista felfogása szerint a nyelv egyes szavainak jelentését az emberi tapasztalat egésze adja. A múzeumban kiállított tárgyak címkéi is csak keletkezési koruk és az arra vonatkozó ismereteink tükrében nyernek értelmet, azaz egy adott kontextusba helyezve. Ezt a gondolatot tovább építve jut el Quine az ún. radikális fordítás, vagy inkább lefordíthatatlanság gondolatkísérletéhez. A gavagai-példa is mutatja, egy mondat, vagy kifejezés jelentése és a tapasztalat között csak laza kapcsolat van. A "gavagai" jelentésének leírásához egy nagyobb elméletet kellett megalkotnunk, mégpedig arra alapozva, hogy milyen szituációkban hangzott el. Ebből adódik, hogy a jelentésre vonatkozó elméletünk aluldeterminált az empirikus tudás által s ennek következtében nem tudunk egy kizárólagosan helyes fordítást rendelni minden szóhoz, kifejezéshez, vagy mondathoz. Ebből nem az következik, hogy nem lehetséges a fordítás két nyelv között, hiszen a gyakorlat is mutatja, hogy születnek fordítások. Ellenben a gyakorlat azt is mutatja, hogy a fordítások lábjegyzetekkel, vitákkal és gyakran alternatív fordításokkal járnak együtt.

 

gestalt.gif

 

Amíg egy adott doménen belül dolgozunk, addig nem szakad ránk az "egyetemes emberi tapasztalat" problémája. Lehet abban bízni, hogy ha sok-sok doménre adaptáltuk megoldásainkat, akkor előbb utóbb kitisztul a kép és jöhet az általános problémamegoldó alkalmazás (az is GPS, egyszer már elvetélt az ötlet, pont azért mert nagyon doménfüggetlennek szerették volna). Azért nem árt észben tartani a gestaltpszichológia jelmondatát "az egész több, mint a részek összessége”!

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Kvantumfizika és nyelvészet

2014.08.25. 13:06 Szerző: zoltanvarju Címkék: nyelvészet könyvajánló szemantika nyelvtechnológia kvantumszámítás

A nyelvtechnológia jelentős része az ún. normál tudomány körébe tartozik, azaz bevett eszközökkel próbálunk megoldani rejtvényeket, minden úgy működik ahogy az "a nagykönyvben meg van írva". A kilencvenes évekig ez a szabályalapú, logikai módszerek alkalmazását jelentette, Charniak könyvének megjelenése óta pedig a statisztikai és gépi tanulási módszerek egyeduralomra jutottak. Napjainkban jelent meg egy új irányzat az Oxford University kutatócsoportjának hála amely megpróbálja közös nevezőre hozni a két irányzatot a szemantikában, azaz a kompozícionális és a disztribúciós elméleteket és ehhez a kvantumfizikát hívták segítségül!

qpl.jpg

A Quantum Physics and Linguistics egy tanulmánykötet, szerzői a Quantum Group-hoz kötődnek így vagy úgy. A témák egészen vegyesek, a kvantumszámítástól a kompozícionális-disztributív szemantikáig sok dologgal találkozhatunk benne s gyanítom hogy kevés ember akad a földön aki képes megérteni minden érintett téma hátterét. Az biztos, hogy akinek nem dereng egy kicsit a kategóriaelmélet, a kvantumlogika és a disztribúciós szemantika (vagy a vektorterek), az inkább bele se kezdjen az olvasgatásába (nekik ajánljuk Widdows Geometry and Meaning könyvét)!

 

Nagyon dióhéjban a kvantumfizika azért keveredik a szemantikához, mert abban is fellelhető hogy a makroszinten más törvények (kompozícionalitás) uralkodnak mint a mikroszinten (disztribúció). Nagyon úgy tűnik, a fizikusok számára eme kettősség kezelésére a kategóriaelmélet kézenfekvő volt, szerencsére ez a matematikai nyelvészettől és a logikától sem idegen dolog. A kötetből én az alábbi tanulmányokat ajánlom kezdésnek ennek szellemében:

  • Michael Müger: Modular Categories
  • Dion Coumans and Bart Jacobs: Scalars, Monads, and Categories
  • Peter Hines: Types and forgetfulness in categorical linguistics and quantum mechanics
  • Stephen Pulman: Distributional Semantic Models
  • Stephen Clark: Type-Driven Syntax and Semantics for Composing Meaning Vectors

Mielőtt bárki azt hinné, ez csak üres elméleti bűvészkedés ne felejtsük el, hogy a Google nem is olyan régen vette magának kvantumszámítógépeket a D-Wave cégtől és a kereső óriás rengeteg energiát fektetett már a disztribúciós szemantikába (csak ők információkinyerésnek hívják, mint rendes számítástudósok), aminek lassan elérkezünk a korlátaihoz s ezért saját Quantum AI Group-ot alapított. Aki pedig a pénzhajhászokat hurrogná le, hogy "no de hol marad az elme modellezése?", azoknak érdemes Loewenstein Physics in Mind: A Quantum View of the Brain című könyvét elolvasniuk.

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Nyelvészet mindenkinek 3.

2014.08.22. 08:00 Szerző: zoltanvarju Címkék: nyelvészet könyvajánló

Az egyik legnépszerűbb olvasói kérdésünk, hogy mit olvasson az ember ha érdekli a nyelvtechnológia, de magával a nyelvvel még nem nagyon foglalkozott. Korábban már ajánlottunk kifejezetten ilyen embereknek írott könyvet és a legjobb magyar nyelvészeti tudományos ismeretterjesztő könyvet is bemutattuk blogunkon. Még az előbbit sokan "túl keménynek", az utóbbit "túl lazának" tartják, ezért most az örök klasszikust, A nyelv és a nyelvek című tankönyvet ajánljuk mindenkinek.

borito2.jpg

A kötet először 1984-ben jelent meg, legutóbbi, hatodik kiadása pedig 2011-ben. Az elmúlt harminc évben a könyv folyamatosan bővült és természetesen a kor követelményeinek megfelelően frissítették a tartalmát. A mű kb. egy rendes, akadémikus, de mégis könnyed bevezetés a nyelvtudományba. Túllép az ismeretterjesztésen, de nem merül el a részletkérdésekben, "csak" egy rendes, átfogó képet próbál adni a nyelv tudományos vizsgálatáról. Ebben a könyvben tényleg mindenről olvashat az ember, ami a nyelvvel kapcsolatos; a klasszikus szemantika, nyelvtan, morfológia, hangtan témákon túl egy-egy fejezet foglalkozik a nyelvelsajátítással, a nyelv idegrendszeri alapjaival, az írással, a számítógépes nyelvészettel, a pszicholingvisztikával és még a nyelvfilozófia sem maradt ki. Az egyes fejezetek nyelvezete kifejezetten jól érthető kb. egy érdeklődő középiskolásnak is felfogható módon próbálnak fogalmazni a szerzők. Szerencsére példákat is találunk, nem csak unalmas leírásokat olvashatunk arról mi hogyan működik elvileg a nyelvben. Minden fejezet végén találunk feladatokat, a kötet honlapja további feladatokat tartalmaz (meg az összes feladat megoldását). Egyetlen problémám van csupán a könyvvel, néhol annyira kerülni próbálják a szakzsargont a szerzők, hogy nagyon megnehezítik annak a dolgát, aki tovább keresgélne egy-egy témában.

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre