Adat piac 3. rész

2012.03.13. 12:00 Szerző: Zoltán Varjú Címkék: szemantikus web linked data kasabi adat piac

Sorozatunk korábbi részeiben olyan szolgáltatásokat mutattunk be, melyek nyers adatokat és az elemzésükhöz szükséges eszközöket kínálják, ill. rendezett formában egy API-n (application programming interface, alkalmazás programozási interfész) keresztül teszik elérhetővé a szükséges információt. Most a Kasabi szolgáltatását vesszük górcső alá.

A Kasabi mögött a szemantikus technológia egyik legismertebb és legerősebb cége a brit Talis áll. Az alapötlet nagyon egyszerű, a Factual mintájára begyűjtik az adatokat és egy API-n keresztül elérhetővé teszik. A hasonló filozófia mögött azonban két merőben eltérő technológiai megközelítés rejlik.

A Factual maga szedi össze a különböző adatokat és gondozza azokat (data curation). A Kasabi ellenben a DataMarket-hez hasonlóan kész adathalmazokat tárol saját szerverein. Ezek vagy ingyenesen elérhetőek vagy az adatokat létrehozó személyek és vállalatok töltik fel és bocsájtják áruba. Az igazi különbség abban rejlik, hogy a Kasabinak határozott elvárásai vannak az adatok formátumaira vonatkozóan.

Minden Kasabi adathalmaz egy ún linkelt adathalmaz melyben a linkek tkp. az egyes elemek közötti viszonyokat jelölik. Ezeket RDF (Resource Description Framework) formátumban - egy a HTML-hez hasonló jelölőnyelv szabvány, melyben leírhatjuk a linkelt adatokat - tárolják a szerveren. Az RDF adatbázisok lekérdezését végző kereső nyelv (query language) a SPARQL (SPARQL Protocol and RDF Query Language) szabvány melynek több implementációja (megvalósítása) is létezik. SPARQL endpoint-nak (végpontnak) nevezzük az olyan nyilvános vagy zárt online szolgáltatásokat, melyek szabványos RDF alapú linked data adatbázisokat tesznek elérhetővé online. Minden Kasabi adathalmaz tkp. egy SPARQL endpoint.

Nem csodálkozunk ha az olvasó kicsit belefáradt az előző bekezdésbe. A linkelt adatok nagyon hasznosak, de használatuk korántsem triviális. Nagyon találónak tartjuk hogy a Kasabi logója egy szorgos kis méhecske, hiszen a linkelt adatok nem csak egy adahalmazon belül kapcsolódnak, hanem egymás között is tartalmazhatnak kapcsolatokat, egy helyen tárolva egyszerűen összekapcsolhatóakká válnak egy SPARQL lekéredezésen belül is.

Az elmúlt öt évben az adatvezérelt alkalmazások fejlesztői előtt tornyosult az adatok megszerzésének, kitisztításának és gondozásának problémája. A sorozatunkban bemutatott cégek szolgáltatásai jelentősen lecsökkentették a piacra lépés költségeit és reméljük már nem kell sokáig várni arra hogy egy vibráló startup ökoszisztéma alakuljon ki körülöttük.

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

1 komment • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

https://kereses.blog.hu/api/trackback/id/tr14292470

Kommentek:

A hozzászólások a vonatkozó jogszabályok értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

kirunews 2012.03.13. 16:41:41

Egy kis kiegészítés: a hagyományos API-kat a Kasabi megfejelte azzal, hogy felületet biztosít saját API létrehozsára. Ehhez alapvetően egy/több saját SPARQL lekérdezést kell megírni és valamennyire dokumentálni, amit mások már a lekérdezőnyelv ismerete nélkül is fognak tudni hazsnálni, pusztán felparaméterezve a lekérdezéseket (ugyanúgy, ahogy mondjuk a Flickr vagy Google APIt használjuk.) Továbbá: van Kasabi kliens könyvtár is (PHP-ra), ami további technikai rétegeket tud elrejteni.

Az Egyesült Királyságban tavaly óta több mashup versenyt is kiírtak, melyeknek a célja az adatok kreatív felhasználásának ösztönzése volt különféle területeken (kormányzati adatoktól a közgyűjteményi, bölcsész adatbázisokig). Több ilyen versenyben jutott fontos szerep a Kasabi már meglévő infrastruktúrájának.

Végül elhagyhatatlan, hogy a Kasabi nem pusztán egy platform, hanem igenis törekszenek az adatok felhasználásra. A blogjukban (blog.kasabi.com/) részletes esettanulmányok találhatóak, például arról, hogy mit és hogy lehet kihozni a new yorki menetrendekből. A fejlesztők pedig általában elérhetőek a #kasabi IRC csatornán is.

Válasz erre

HTML

Precognox

Precognox Blogkereső

opendata.hu

Facebook oldaldoboz

Blog figyelése (RSS)

Érdekes oldalak

Star Wars text mining

Főbb témák

Archívum

Belépés

A blog tartalmai CC licenc alá tartoznak

Big Data - Keresés - Számítógépes nyelvészet - Szövegbányászat - Gépi tanulás - NLP Meetup - Precognox

Adat piac 3. rész

2012.03.13. 12:00 Szerző: Zoltán Varjú Címkék: szemantikus web linked data kasabi adat piac

1 komment • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

Kommentek:

kirunews 2012.03.13. 16:41:41

HTML

Precognox

Precognox Blogkereső

opendata.hu

Facebook oldaldoboz

Blog figyelése (RSS)

Érdekes oldalak

Star Wars text mining

Főbb témák

Archívum

Belépés

A blog tartalmai CC licenc alá tartoznak

Big Data - Keresés - Számítógépes nyelvészet - Szövegbányászat - Gépi tanulás - NLP Meetup - Precognox

Adat piac 3. rész

2012.03.13. 12:00 Szerző: Zoltán Varjú Címkék: szemantikus web linked data kasabi adat piac

1 komment • Kövess Facebookon • Iratkozz fel értesítőre

Ajánlott bejegyzések:

A bejegyzés trackback címe:

Kommentek:

kirunews 2012.03.13. 16:41:41