Az interneten keletkező információ legnagyobb része nyelvi, legyen az szöveg, audió vagy pedig videó. Napjainkban kb. ötezer nyelvet használnak a modern tömegkommunikációs eszközök használói és az általuk generált adatok elemzése során gyakran merülnek fel nyelvi, nyelvészeti kérdések. Az Idibon célja, hogy segítsen eligazodni az ilyen kérdésekben. Az NLP meetup volt előadója, Tyler Schnoebelen a friss startup senior data scientist munkatársa szerint a cég piacát azok az adatelemző központok jelentik, melyek felismerik, hogy a nyelvi adatok elemzéséhez szükségük van külső szakértőkre.
Az összes kommunikáció kb. hét százaléka az interneten zajlik ma. Ezt szemlélteti a Robert Munro (Idibon CEO) Strata előadásának ábrája.
Habár több mint ötezer nyelvet használnak a netezők, a tíz leggyakrabban használt nyelv beszélőinek száma lefedi a felhasználók több mint felét. Látható, többet kommunikálunk mobilon (beszélgetés és SMS formájában is) mint interneten. Fontos ugyanakkor megemlíteni, hogy egyre gyakoribb az eltérő anyanyelvűek közötti kommunikáció (ami általában valamilyen közvetítőnyelven történik, ami legtöbbször az angol vagy valamelyik másik világnyelv). Akár egynyelvű, akár többnyelvű a vizsgálni kívánt dokumentumok köre, könnyen belátható, szükség van szakemberekre az adatok elemzése során. Számítógépes nyelvészt tartani drága mulatság és valószínűleg a legtöbb cégnek nincs is szüksége folyamatosan ilyen képzettségű munkatársakra. Az Idibon-on keresztül olyan szakemberek érhetők el, akiknek tapasztalata van az akadémia és az ipar világában is.
Az Idibon munkatársait a Stanford Department of Linguistics és a University of Pennsylvania-n működő Linguistic Data Consortium körében toborozta. A cég első magvető befektetője 1.4 millió dollárral az a Khosla Ventures, melynek olyan cégekben vannak érdekeltségei mint a bitly, a Kaggle és a Metamarkets.
Az Idibon az első olyan nyelvtechnológiai és nyelvészeti tanácsadó cég, amely kockázati tőkét vont be és szinte egyedülálló a piacon. De csak szinte! Itthon a Nyelv és Tudomány kínál hasonló szolgáltatásokat.
Hogy mit nyújthat egy nyelvész a big data terén? Erre jó példa Tyler meetup előadása, melyben arról beszél, hogyan gazdagíthatjuk egy Twitter vizsgálat demográfiai adatait nyelvészeti elemzéssel.
Tyler Schnoebelen : Gender and style in American English tweets from Szamitogepes nyelveszet on Vimeo.