opendata.hu - honosítók kerestetnek

2013.10.02. 08:00 Szerző: Zoltán Varjú Címkék: CKAN opendata.hu

Hamarosan nyilvánossá válik az opendata.hu CKAN szerver, mely a magyar vonatkozású nyílt adatok kereshetővé tételét tűzte ki célul maga elé. A CKAN egy nyílt forráskódú szoftver, s mint ilyen szabadon honosítható. A szoftver kezelőfelületének és dokumentációjának fordítását tőlünk függetlenül már elkezdték lelkes önkéntesek a Transifex oldalán - amit ezúton is köszönünk nekik - és eljutottak 33%-os honosítási arányhoz. Szeretnénk, ha a rendszer mindenki számára hozzáférhető lenne magyarul is, ezért kérünk mindenkit aki tud angolul és akad egy kis ideje, regisztráljon a Transifex-en és kapcsolódjon be a honosításba.

Továbbra is várjuk lelkes tesztelők jelentkezését a zoltan.varju(kukac)precognox.com címre - hamarosan indulunk, addig is adatra fel!

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Google Hummingbird

2013.09.30. 08:00 Szerző: Zoltán Varjú Címkék: keresés szemantikus keresés Google Hummingbird Knowledge Graph Freebase lda topik modellek látens dirichlet allokáció

A napokban jelentette be a Google, hogy a keresőmotor jelentős átalakuláson megy (és már ment) keresztül. Az új motor a Hummingbird kódnevet kapta és a bejelentés szerint sokkal jobban ki tudja szolgálni a manapság egyre népszerűbb beszédvezérelt válaszkeresést. A Guardian érthetően és röviden összefoglalta a lényeget, a Webisztán pedig rámutatott arra, hogy ezzel egyben lassan el is köszönhetünk a kulcsszavaktól, mi pedig megvilágítjuk miért válnak egyre lényegtelenebbé a kulcsszavak, miért kell jobban koncentrálni a tartalomra és mi köze van ennek a Knowledge Graph-hoz.

Bye-bye keywords, hello topics!

Már 2010-ben sokan gyanakodtak arra, hogy a Google valamilyen formában használja a látens dirichlet allokáció (latent dirichlet allocation, vagy röviden LDA) módszerét a találatok rangsorolására. Egy gyors keresés a Google Research oldalon megerősít minket abban, hogy az eljárás nagyon foglalkoztatja a keresőóriás kutatóit.

Az LDA módszert tekinthetjük egy klasszifikációs eljárásnak, abból a szempontból, hogy az egyes dokumentumokhoz ún. topikszavakat rendel. Vegyünk egy konkrét példát, amiben az alábbi mondatokhoz hasonló rövid szövegek szerepelnek:

Szeretek banánt és almát enni.
Répát és körtét eszek minden este vacsorára.
A kutyák és a macskák aranyos háziállatok.
A testvérem tegnap örökbefogadott egy macskát a menhelyről.
Nézd azt a nyuszit, milyen aranyosan majszolja az almát!

Az LDA elemzés során két topikot keresünk. 1) és 2) mondatokat egy topikhoz, nevezzük A-nak, sorolná az algoritmus. 3) és 4) szintén egy topikhoz tartozik, legyen ez most B. 5) esetében azt mondhatjuk, 50%-ban A, 50%-ban pedig B topikhoz tartozik. A többi mondathoz A és B arányát 0 és 100% között adja meg, végül listázza az A (pl. banán, alma, répa, körte, dinnye, uborka, zsemle, kenyér, vaj, reggeli, ebéd, vacsora stb.) és B (kutya, macska, aranyhal, nyuszi, egér, hörcsög stb.) topikszavakat.

Általánosságban az LDA algoritmusnak megadjuk hány topikot szeretnénk azonosítani. Ezután az egyes dokumentumokban szereplő szavak eloszlása alapján kapjuk meg a topikszavakat. Hogy miért jó ez nekünk? Hagyományosan az információkinyerő és kereső alkalmazások a dokumentumhalmazban előforduló szavak gyakoriságán alapuló eljárásokat alkalmaznak klasszifikációra és az egyes dokumentumok közötti hasonlósági metrikák megállapítására. Habár ezek sok feladatra kiválóan megfelelnek, az LDA eredményei konzisztensek és természetesek (ez alatt azt értjük, hogy ha "nevet adunk" egy-egy topik listának, az általában megfelel egy humán erőforrásokkal azonosított topiknak, továbbá gyakran olyan szavakat is tartalmaz, amire az ember nem is gondolná, hogy jó megkülönböztető jegye lehet egy topiknak):

Az nTopic a webes tartalmak elemzése révén állapítja meg, hogy milyen topikszavak tartoznak egy adott tartalomhoz, s ez alapján tesz ajánlásokat a SEO szakembereknek a megfelelő kulcsszavak kiválasztásához. Érdemes ugyanakkor megjegyezni, hogy egy topikszavakból álló lista eltér a hagyományos keresési kulcsszavaktól, hiszen ez tkp. egy ajánlás arra nézve, hogy tartalmunkban milyen terminológiát alkalmazzunk.

Minden gráf!

A híres PageRank algoritmus a honlapok közötti linkek alapján felépített gráf struktúrán keresi és rangsorolja egy adott keresés találatait.

Egy mondat szintaktikai elemzése is egy fát eredményez.

tree why_graphs002.png

És az emberi tudást reprezentáló szimbolikus rendszerek is szeretik a gráfokat. Porfüriosz fája egy Arisztotelész kategóriái nyomán készült egyszerű "döntésfa", ami segít rendszerezni minden élő és élettelen létezőt.

A linked data is az arisztotelészi hagyományt viszi tovább. A Freebase, melyet a Google által felvásárolt Metaweb alkotott meg 2006-ban, is egy linkelt adathalmaz, amit a felhasználók szerkesztenek.

A Google Knowledge Graph a Freebase adataira épül, de kiegészítették automatikusan generálható tudáselemekkel (a Wikipedia és egyéb wikik ilyen felhasználása ma már bevett gyakorlat) és szabadon felhasználható linked data adatokkal.

Szemantikus keresés és SEO

Minden hipochonder álma egy orvos ismerős, de ha jogi gondunk akad szeretnénk gyorsan találni egy ismerős ügyvédet és kedvenc hentesünk véleményét kérjük ki, hogy jó steaknek való húst szerezzünk be. A szakértők sajátos szótárat használnak és ismerik a szakszavak közötti hierarchiát. A keresőtől egyre inkább azt várjuk el, hogy ilyen szakértő tanácsadó legyen. A topikokat megfeleltethetjük a szakzsargonnak, a topikszavak közötti hierarchiát pedig a Knowledge Graph-nak. A legegyszerűbb keresőoptimalizálási trükk ebben a paradigmában az, ha minőségi tartalmat készít számunkra egy szakértő, vagy keresünk valakit, aki képes rövid időn belül otthonosan mozogni egy területen és jó tartalmat készíteni (ezt nevezzük újságírónak). Jól jöhet még egy nTopic-hoz hasonló eszköz a terminológia megválasztásához, ennek hiányában érdemes szövegergonómiai szakértőhöz fordulni.

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Mire jók a tudományos modellek?

2013.09.27. 08:00 Szerző: Zoltán Varjú Címkék: tudomány komplexitás data science Schelling NetLogo

Az adatokban minden ott van! De akkor mire jók a tudományos elméletek? Igaza volt Chris Anderson-nak, amikor a tudományos módszer végéről írt? A szegregáció kapcsán megvizsgáljuk mi értelme van az íróasztal mellett valós adatok nélkül elméleteket gyártani, de előbb kitérünk arra, hogyan is vélekedik az elméletekről az egyik legismertebb adattudós Drew Conway.

Conway data science Venn diagramja rendkívül népszerű, érdemes azonban kiemelni a kapcsolódó posztból a veszélyzónáról (Danger Zone!) szóló részt (kiemelés tőlünk):

Finally, a word on the hacking skills plus substantive expertise danger zone. This is where I place people who, "know enough to be dangerous," and is the most problematic area of the diagram. In this area people who are perfectly capable of extracting and structuring data, likely related to a field they know quite a bit about, and probably even know enough R to run a linear regression and report the coefficients; but they lack any understanding of what those coefficients mean. It is from this part of the diagram that the phrase "lies, damned lies, and statistics" emanates, because either through ignorance or malice this overlap of skills gives people the ability to create what appears to be a legitimate analysis without any understanding of how they got there or what they have created. Fortunately, it requires near willful ignorance to acquire hacking skills and substantive expertise without also learning some math and statistics along the way. As such, the danger zone is sparsely populated, however, it does not take many to produce a lot of damage.

Az adatok értelmezéséhez és elemzéséhez elméleti háttér szükséges tehát. Ez nem csupán a statisztika alapos ismeretét feltételezi! Thomas Schelling nyomán a szegregáción keresztül próbáljuk meg azt szemléltetni, hogy nagyon is elméleti megfontolások mentén kell értelmezni a statisztikai adatokat.

Hogyan adhatjuk meg a szegregáció definícióját? X város, iskola stb. mihez képest szegregált? A teljes lakossághoz viszonyítva, egy térséghez képest? Ha egy adott kisebbség tagjainak arány egy településen 20%, de egyes kerületekben arányuk 25% feletti akkor beszélhetünk szegregációról? Egyáltalán, van olyan ideális helyzet, amikor nincs szegregáció? Schelling híres Dynamic Models of Segregation tanulmányában abból indult ki, hogy egy tökéletesen deszegregált környezetben mindenki véletlenszerűen választ magának lakhelyet. Tegyük fel, hogy egy adott város lakói egyáltalán nem rasszisták, de jellemző rájuk a homofília azaz a velük egy csoportba tartozóakat preferálják bizonyos mértékig (bővebben l. korábbi posztunkat). Ha ezután az emberek elkezdenek költözködni, bizony kis homofília preferencia mellett is kialakulnak homogén szigetek egy adott területen belül! Mindez nem jelenti azt, hogy a szegregáció "természetes" jelenség, csupán azt szemlélteti, hogy a homofília miatt egy ideális helyzetben is megjelenik némi elkülönülés.

A NetLogo program segítségével modelleztünk egy világot, melyet egyenlő arányban népesítenek be zöld és piros háromszögek és preferenciájuk szerint azt szeretik, ha minimum 30%-a a szomszédaiknak hasonló színű. A kiindulási helyzetben véletlenszerűen népesítik be a rendelkezésükre álló területet.

Ezután "megengedjük" a lakóknak hogy elköltözzenek. Pár költözés után már látszik, hogy elkezdenek kialakulni homogén területek.

Több költözési ciklus után szabályos zöld és piros "negyedek" alakulnak ki.

Érdemes egy pillantást vetni a Pro Publica szegregációról szóló Living Apart sorozatának térképeire. Az 1940-es években még éltek a szegregációs törvények és a fekete népesség a déli államokban összpontosult. Az északi iparvárosokban is egyértelműen egy-egy nagy tömbben összpontosultak a feketék.

A polgárjogi mozgalomnak hála sokat változott a helyzet délen. Az északi városokba egyre több fekete költözött a gazdasági változások hatására, de meglepő módon továbbra is etnikailag homogén lakókörnyezetbe érkeztek az új migránsok. Schelling modelljének értelmében ez a diszkrimináció és a szegregáció nyilvánvaló jele, hiszen messze túlmutat a preferenciákon alapuló véletlen mintázatokon.

Ha csupán az adatokat néznénk, akkor szinte minden esetben szegregációt kiálthatnánk. Mivel nincs tökéletesen deszegregált társadalom, nehéz megtalálni azt a pontot, amikor szegregációról beszélhetünk - a klasszikus elméletek pontosan az ilyen viszonyítási pontok megtalálásában segítenek.

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Nyílt adatok - Open Access konferencia a W3C Magyar Iroda szervezésében október 3-án

2013.09.25. 08:00 Szerző: Zoltán Varjú Címkék: konferencia open access open data W3C nyílt adatok

A W3C Magyar Iroda Nyílt adatok - Open access témában konferenciát rendez 2013. október 3-án.

A konferencia a szabadon hozzáférhető adatok szerepét, illetve felhasználását járja körül olyan területeken, mint a kutatás, az államigazgatás, valamint a web világa. A programot "Nyílt hozzáférés a hazai kutatóhálózatban" címmel Makara Gábor akadémikus előadása nyitja. Phil Archer, a W3C munkatársa a weben közvetlenül elérhető nyílt adatok szerepéről tart előadást a nap folyamán.

A konferencián való részvétel ingyenes, de regisztrációhoz kötött. Jelentkezni Pataki Máténál lehet az office@w3c.hu címen.

További információk és részletes program: http://www.w3c.hu/

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Szótár egy óra alatt - Kutatók Éjszakája szeptember 27-én

2013.09.24. 08:00 Szerző: Zoltán Varjú Címkék: SZTAKI Kutatók Éjszakája

A SZTAKI Nyelvtechnológiai Kutatócsoportja idén is izgalmas programmal várja az érdeklődőket a Kutatók Éjszakáján. A részvétel ingyenes, de előzetes regisztrációhoz kötött.

Gondolkoztál már azon, hogy hogyan készülnek a szótárak? Te hogy fognál hozzá pl. egy örmény-finn szótár építéséhez? A SZTAKI Nyelvtechnológiai csoportja több módszert is bemutat szótárak automatikus készítésére.

A bemutatott eljárások egy része a Wikipediához hasonlóan közösség által épített Wiktionary-t használja kiindulási alapként, a többi pedig statisztikai módszerekkel nyer ki fordításokat különböző nyelvű szövegpárokból. A szótárépítést élőben is figyelemmel követhetik az érdeklődők.

Észrevetted már, hogy a böngésző felismeri a weboldalak nyelvét? Vagy a Google Translate kitalálja, hogy milyen nyelvű szót írtál be? Elegendő egy hosszú lista az adott nyelv szavairól? Sajnos ez a lista sosem lehet teljes, mindig találnánk új és új szavakat. Míg a szótárak épülnek, bemutatunk néhány egyszerű módszert, amikkel nem szükséges szavak millióit számon tartanunk. A nyelvfelismerőnket élőben is ki lehet próbálni.

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

HTML

Precognox

Precognox Blogkereső

opendata.hu

Facebook oldaldoboz

Blog figyelése (RSS)

Érdekes oldalak

Star Wars text mining

Főbb témák

Archívum

Belépés

A blog tartalmai CC licenc alá tartoznak

Big Data - Keresés - Számítógépes nyelvészet - Szövegbányászat - Gépi tanulás - NLP Meetup - Precognox

opendata.hu - honosítók kerestetnek

2013.10.02. 08:00 Szerző: Zoltán Varjú Címkék: CKAN opendata.hu

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Google Hummingbird

2013.09.30. 08:00 Szerző: Zoltán Varjú Címkék: keresés szemantikus keresés Google Hummingbird Knowledge Graph Freebase lda topik modellek látens dirichlet allokáció

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Mire jók a tudományos modellek?

2013.09.27. 08:00 Szerző: Zoltán Varjú Címkék: tudomány komplexitás data science Schelling NetLogo

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Nyílt adatok - Open Access konferencia a W3C Magyar Iroda szervezésében október 3-án

2013.09.25. 08:00 Szerző: Zoltán Varjú Címkék: konferencia open access open data W3C nyílt adatok

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Szótár egy óra alatt - Kutatók Éjszakája szeptember 27-én

2013.09.24. 08:00 Szerző: Zoltán Varjú Címkék: SZTAKI Kutatók Éjszakája

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre