HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (8) adatbányászat (11) adatelemzés (9) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (19) alternatív (6) alternatív keresőfelület (28) analitika (6) beszédtechnológia (13) big data (55) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (18) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) Facebook (9) facebook (8) gépi tanulás (18) Google (33) google (59) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) intelligens keresés (6) internetes keresés (35) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (87) kereséselmélet (8) keresési felület (6) keresés jövője (57) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (16) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (8) különleges keresők (7) kutatás (9) LDA (10) lda (10) live (13) machine learning (9) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (19) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP (8) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (32) nyelvtechnológia (76) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (65) Precognox Labs (14) Python (14) R (19) spam (6) statisztika (12) számítógépes nyelvészet (9) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (7) szövegbányászat (22) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (20) topik modellek (6) twitter (15) Twitter (18) vállalati kereső (7) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

A Nuance van a Siri beszédfelismerője mögött - ez már hivatalos

2013.06.05. 08:00 Szerző: Zoltán Varjú Címkék: beszédtechnológia nyelvtechnológia Google Siri Nuance

Habár a szakmában ezt amolyan nyílt titoknak tartották, a Nuance "hivatalosan" is elismerte, hogy a cég szállítja a Siri beszédfelismerő rendszerét. Paul Ricci (Nuance, CEO) az All Things Digital konferencián kifejtette, a digitális asszisztensek elterjedésében látja cége a jövőt.

“I think that we will see virtual assistants within two years that are quite robust with respect to the most common domains [subjects] that you would want to use on a smartphone,”[...] “They’ll be very good at command and control of the device; they [will have] very high functionality at doing that. They will be context specific and they will have some information that carries over from your usage, so they will become refined by your personal usage and the preferences you have. I think those systems will become really quite good for general usage within the next couple of years.”

 

A Nuance saját asszisztense a Nina Androidon érhető el jelenleg és a Samsunggal állapodott meg egy modern beszédalapú vezérlőfelület kialakításáról. A Google ellenben saját beszédfelismerőjét használja és integrálta a Google Now-val. A két cég beszéd- és nyelvtechnológiai megoldásait egy korábbi írásunkban már bemutattuk. A C|Net alábbi videójában nagyon ötletesen hasonlították össze a Google Now és a Siri képességeit.

Érdemes megjegyezni, hogy a Google Now bizonyos esetekben kezeli a névmások feloldását (anaphora resolution) ami nagyon szép teljesítmény! Reméljük a Nuance és a Google versenyéből a felhasználók és a tudomány kerül ki győztesen és jobb alkalmazások, remek tanulmányok születnek a közeljövőben.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Azt beszéli már az egész város

2013.06.04. 12:00 Szerző: Zoltán Varjú Címkék: mobil keresés hely közösségi média Banjo lokációs keresés Geofeedia

A közösségi médiából nagyon sok dolgot megtudhatunk. Jó esetben nem csak az számít, hogy mit mondanak az emberek, hanem hogy mikor, hol és ki mondott valamit. Tovább tetézi a bajt, hogy sok közösségi oldal van a világban és azok a fránya felhasználók képtelenek egy mellett elkötelezni magukat. A Banjo és a Geofeedia ezekre a problémákra ad választ.

 

A Geofeedia sajnos nem érhető el egyszerű regisztrációval, ezért nem ismerkedhettünk meg alaposabban a szolgáltatással. A cég nagy hangsúlyt fektet mind a térképészeti megoldások minőségére, mind a különböző források integrálására. A szolgáltatást kormányzati szerveknek (pl. katasztrófák jelentése, szemtanúk keresése, biztonsági monitorozás) marketingeseknek és a médiáknak ajánlják elsősorban.

A Banjo térképei nem annyira profik, ellenben ingyenes regisztrációval elérhető a szolgáltatás. A regisztrációt követően összeköthetjük különböző közösségi médiás profiljainkat az appal (pl. Facebook, Twitter, LinkedIn, G+, Instagram, Foursquare, Weibo). Az önmagába, hogy a felhasználó helyzetéhez közeli megosztásokat láthatjuk ezután, még nem nagy szám. Az már érdekesebb, hogy nem csupán a barátaink és az általunk követett emberek tartalmait látjuk, hanem minden nyilvános posztot, minden közösségi oldalról. Ha már adott a lehetőség, megpróbáltuk olyan területen tesztelni az appot, ami a hagyományos keresőmotoroknak nem fekszik annyira.

Ha a közösségi médiában a sanghaji lakosok ingatlanpiaccal kapcsolatos véleményére vagyunk kíváncsiak, akkor eleve nem sok haszna van a Twitternek vagy a Facebooknak, hiszen a Nagy Tűzfal miatt ezek elérhetetlenek a kínai polgárok számára. Mivel a Banjo a kínai közösségi oldalakról is összeszedi a nyilvános posztokat, nekünk nem kell bajlódni a regisztrációval és a kereséssel. Először a helyre, esetünkben Sanghaj, kerestünk rá, ezután állíthattuk be a szűrőnket a témára. Így megtudhattuk mit gondolnak a sanghajiak a helyi ingatlanpiacról - sőt akár utcákra lebontva is végignézhettük menyire idegesíti őket a nagy forgalom.  Az app szépséghibája, hogy nem lehet szűrni a találatok nyelvét és nincs integrálva semmilyen gépi fordítóprogram.

2013-05-31 20.16.32.png

Az alkalmazás tesztelése közben jutott el a poszt írójához a törökországi tüntetések híre a Twitteren keresztül. Ekkor még a hagyományos keresőkön semmilyen információ nem volt fellelhető erről. Kik, miért és hol tüntetnek? A Banjo ebben is segített. Az anakari tüntetések kapcsán jelent meg az #occupygezi hashtag.

2013-05-31 21.14.35.png

Rákeresve Gezi-re világossá vált, hogy az isztambuli Gezi parkot takarja ez.

2013-05-31 21.15.56.png

Rögtön lehetett látni, hogy viszonylag sokan posztolnak a közelben. A jobboldali sávban vegyes posztok között is felülreprezentáltak voltak a "protest" "protests" "protesto" hashtag-gel ellátott bejegyzések és rengeteg képet töltöttek fel a helyszínen tüntetők.

2013-05-31 21.15.10.png

A szűrés eredménye még több kép és bejegyzés lett. Itt ismét felmerült az a probléma, hogy nem lehet nyelvi szűrést végezni és/vagy gépi fordítással próbálkozni. Azonban így is gyorsan lehetett több angol bejegyzést találni, amelyek közös pontjai (az alkohol árusítás szigorítása elleni tiltakozás, Kemal Atatürk és világi rendszerének védelme, Erdogan központosító és konzervatív intézkedéseinek kritikája stb). A "hagyományos" médiának kb. másfél órába telt mire az első hírek megjelentek. Külön érdekesség, hogy ezek az első beszámolók mind a Twitter-re alapozták híreiket és a képek zömét is a helyszínről csiripelő Twitter felhasználóktól vették át.

A lokációs keresés a közösségi médiában kicsit azt az érzést adja, hogy az ember bepillantást nyer abba, mit beszél egy-egy város. Személyes szinten is hasznos lehet, de szerkesztőségeknek különösen jól jöhet a civil újságírás forrásainak összeszedéséhez és szűréséhez.  A felhasználók monitorozása és lokalizálása marketing célokra vagy éppen kormányzati vizsgálatokra viszont minden esetben felveti a reprezentativitás problémáját.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Juristat - jog és big data

2013.06.03. 11:03 Szerző: Zoltán Varjú Címkék: jog big data Juristat

Az IEEE podcastban a Juristat startup egyik alapítójával, Andrew Winship-pel készítettek interjút (a posztba beágyazva lentebb megtalálható) a múlt héten. A nyelvtechnológia és az információkinyerés régóta jelen van a jogi területen, de előrejelzésre még nem igazán használták eddig.

juristat.png

A Jursistat alapvetően szöveges adatokat dolgoz fel és köt össze, ezzel segítve a jogászok munkáját.

juristat01.png

A szövegbányászat mellett kiemelt szerepet kap a keresés is, hiszen napjainkban mind ügyb esetében a vonatkozó jogszabályok erdejében könnyű eltévedni, nem beszélve arról, milyen mennyiségű irat tud keletkezni akár egy egyszerűbb jogi procedúra során is.

A legizgalmasabb ugyanakkor a Juristat prediktív rendszere. Az angolszász országok precedens alapú jogrendszere megkönnyíti, hogy egy nagy esettárral és sok kiegészítő információval felvértezve, megjósolhatók legyenek egyes eljárások végkimenetelei. Mielőtt arra gondolnánk, hogy így akár adott esetben a büntetőeljárás is megspórolható, megnyugtatunk mindenkit hogy ezt főleg a megegyezéssel lezárható ügyekben használják.

Jó látni, hogy a tudományos kiadók területére tévedt egy startup. Reméljük Európában is akadnak majd hasonló kezdeményezések!

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A tweet a lélek tükre (?)

2013.05.31. 10:10 Szerző: Zoltán Varjú Címkék: marketing nyelvtechnológia Twitter IBM pszichoinformatika

Eben Haber, az IBM kutatója olyan szolgáltatás indításán dolgozik, amely a demográfiai adatok helyett a felhasználók pszichológiai profilja alapján teszi lehetővé a targetálást. A The Economist szerint évente 170 milliárd dollárt költenek el direkt marketingre az Egyesült Államokban. A postai megkeresések 3%-a, az online hirdetések 0.01% eredményez vásárlást, ami annyit tesz, hogy 165 milliárdért küldözgetnek a cégek zavaró ajánlatokat (sőt spameket).

Direct Market.jpg

A legtöbb piackutató manapság demgoráfiai karakterisztikát rendel egy-egy fogyasztóhoz. Habár nyilván akadnak olyan termékek, melyeket egy adott demográfiai csoport számára érdemes hirdetni (pl. pelenkát kisgyerekeseknek, sört csak felnőtteknek, gyógyászati segédeszközöket inkább idősebbeknek), sok termék esetében célszerűbb a fogyasztó személyiségét figyelembevenni (pl. otthon-centrikus házikertész apukáknak nem biztos hogy kalandtúra felszereléseket kell reklámozni). Haber és munkatársai már 50 tweet elemzéséből már be tudnak sorolni a felhasználót egy pszichológiai profilba és 200 tweet elegendő a nagy bizonyosságú eredményhez. A kutatók még az idén szeretnék a potenciális felhasználók számára elérhetővé tenni szolgáltatásukat, ami iránt a Twitter ad targeting sikere láttán biztosan lesz érdeklődés.

Haber Tal Yarkoni vizsgálatai alapján vágott bele a fejlesztésbe. Yarkoni Personality in 100,000 Words: A large-scale analysis of personality and word use among bloggers tanulmányában arra a következtetésre jutott, hogy online szövegek esetében is működik a szerzők besorolása az öt személyiségfaktorba. Az ún. Big Five, vagy Öt Nagy személyiségvonásba (emocionalitás/neurocitás, extraverzió, nyitottság/intellektus, barátságosság/együttműködés és lelkiismeretesség) elvileg mindenki besorolható. Megfigyelték, hogy bizonyos nyelvhasználati szokásokkal korrelálnak a személyiségjegyek és Yarkoni igazolta, hogy online szövegek esetén is fennáll ez. Az egyes személyiségjegyekre jellemző bizonyos szavak hazsnálata, illetve kerülése, ahogy az alábbi ábra is mutatja.

yarkoni_1.PNG

Meg kell azonban jegyeznünk, hogy a módszer hatékonyságának megvannak a maga korlátai.

 As data from Mary Meeker show, the number of people using Twitter may be increasing, but the amount that people share online varies widely between different countries. On average, 24% of respondents shared “everything” or “most things” online. In countries with some of the largest concentrations of Twitter users, such as America and Britain, that proportion fell to 15% and 12%. Just as this group of happy sharers may not entirely representative of humankind, public forums such as Twitter may not hold the key understanding the strange things that go on inside that most mysterious of organs, the human brain. [forrás]

Az eljárás ennek tükrében talán nem is a demográfiai módszer alternatívája, hanem inkább kiegészítője lehet a jövőben. Külön kérdés, hogy más közösségi oldalakon és más nyelveken milyen hatékonyan működne. Akit érdekelnek hasonló megoldások magyar nyelvre, azoknak az MTA Pszichológiai Kutatócsoportjának Narratív Pszicshológia Csoportjának és a PTE Narratív Pszichológiai Kutatócsoportjának oldalain találnak bővebb információt. A terület művelői nagyon eredményesek és szorosan együttműködnek a nyelvtechnológiai kutatókkal, izgalmas lenne látni mit tudnak nyújtani a piac számára.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Elindult a Twitter TV ad targeting

2013.05.30. 08:00 Szerző: Zoltán Varjú Címkék: marketing közösségi média nyelvtechnológia Twitter TV bluefin Bluefin Labs

A Twitter elindította TV ad targeting programját. Jelenleg a technológia kizárólag az Egyesült Államokban az országos adókon hirdetők közül is csupán azok számára érhető el akik korábban már folytattak Twitter kampányt.

twitter01.png

A Twitter új szolgáltatása a Bluefin Labs technológiájára épít, melyet pár hónapja vásárolt fel a cég. A Deb Roy és csapata által kifejlesztett rendszer szinte valós időben képes figyelni a televíziós csatornákon folyó műsorokat és azonosítja az egyes programokat és a köztük lévő reklámokat. Ezzel egy időben történik a közösségi média monitorozása és a kapcsolódó posztok azonosítása és elemzése. A TV ad targeting lehetővé teszi, hogy a Twitteren folytatott nézői beszélgetésekbe be tudjanak kapcsolódni a marketingesek. Ehhez, miképp a fenti ábra is mutatja, a közösségi média elemzése mellett egyben a kapcsolódó tartalmakat is megjeleníti a rendszer.

Érdekes, hogy egy eredetileg nyelvelsajátítást vizsgáló kísérletből született egy marketing eszköz. Gondoljunk erre, amikor azon mélázunk miért költünk sokat a bölcsészkarok fenntartására!

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

süti beállítások módosítása