Sorozatunk korábbi részeiben olyan szolgáltatásokat mutattunk be, melyek nyers adatokat és az elemzésükhöz szükséges eszközöket kínálják, ill. rendezett formában egy API-n (application programming interface, alkalmazás programozási interfész) keresztül teszik elérhetővé a szükséges információt. Most a Kasabi szolgáltatását vesszük górcső alá.
A Kasabi mögött a szemantikus technológia egyik legismertebb és legerősebb cége a brit Talis áll. Az alapötlet nagyon egyszerű, a Factual mintájára begyűjtik az adatokat és egy API-n keresztül elérhetővé teszik. A hasonló filozófia mögött azonban két merőben eltérő technológiai megközelítés rejlik.
A Factual maga szedi össze a különböző adatokat és gondozza azokat (data curation). A Kasabi ellenben a DataMarket-hez hasonlóan kész adathalmazokat tárol saját szerverein. Ezek vagy ingyenesen elérhetőek vagy az adatokat létrehozó személyek és vállalatok töltik fel és bocsájtják áruba. Az igazi különbség abban rejlik, hogy a Kasabinak határozott elvárásai vannak az adatok formátumaira vonatkozóan.
Minden Kasabi adathalmaz egy ún linkelt adathalmaz melyben a linkek tkp. az egyes elemek közötti viszonyokat jelölik. Ezeket RDF (Resource Description Framework) formátumban - egy a HTML-hez hasonló jelölőnyelv szabvány, melyben leírhatjuk a linkelt adatokat - tárolják a szerveren. Az RDF adatbázisok lekérdezését végző kereső nyelv (query language) a SPARQL (SPARQL Protocol and RDF Query Language) szabvány melynek több implementációja (megvalósítása) is létezik. SPARQL endpoint-nak (végpontnak) nevezzük az olyan nyilvános vagy zárt online szolgáltatásokat, melyek szabványos RDF alapú linked data adatbázisokat tesznek elérhetővé online. Minden Kasabi adathalmaz tkp. egy SPARQL endpoint.
Nem csodálkozunk ha az olvasó kicsit belefáradt az előző bekezdésbe. A linkelt adatok nagyon hasznosak, de használatuk korántsem triviális. Nagyon találónak tartjuk hogy a Kasabi logója egy szorgos kis méhecske, hiszen a linkelt adatok nem csak egy adahalmazon belül kapcsolódnak, hanem egymás között is tartalmazhatnak kapcsolatokat, egy helyen tárolva egyszerűen összekapcsolhatóakká válnak egy SPARQL lekéredezésen belül is.
Az elmúlt öt évben az adatvezérelt alkalmazások fejlesztői előtt tornyosult az adatok megszerzésének, kitisztításának és gondozásának problémája. A sorozatunkban bemutatott cégek szolgáltatásai jelentősen lecsökkentették a piacra lépés költségeit és reméljük már nem kell sokáig várni arra hogy egy vibráló startup ökoszisztéma alakuljon ki körülöttük.