HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (8) adatbányászat (11) adatelemzés (9) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (19) alternatív (6) alternatív keresőfelület (28) analitika (6) beszédtechnológia (13) big data (55) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (18) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) Facebook (9) facebook (8) gépi tanulás (18) google (59) Google (33) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) intelligens keresés (6) internetes keresés (35) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (87) kereséselmélet (8) keresési felület (6) keresés jövője (57) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (16) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (8) különleges keresők (7) kutatás (9) LDA (10) lda (10) live (13) machine learning (9) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (19) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP (8) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (32) nyelvtechnológia (76) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (65) Precognox Labs (14) Python (14) R (19) spam (6) statisztika (12) számítógépes nyelvészet (9) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (7) szövegbányászat (22) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (20) topik modellek (6) twitter (15) Twitter (18) vállalati kereső (7) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Gavagai - a nyúlon túl

2012.05.29. 12:00 Szerző: Zoltán Varjú Címkék: twitter prediktív analitika gavagai

A közösségi média elemzése az egyik legfelkapottabb téma manapság. Megszámolni is lehetetlen hány startup célja, hogy információt nyerjen ki a netezők által generált tartalmakból. Kevesen jutnak el pl. a DiscoverText szintjére és tudnak széles rétegek számára használható elemzést kínálni.  Azok a cégek pedig, melyek a megrendelő igényeihez jobban alkalmazkodnak és mélyebb elemzést végeznek, mint pl. a Quid, sokkal drágábban dolgoznak. A svéd gavagai az utóbbi irányzat egyik legerősebb tagja, olyan eljárást dolgozott ki, amely a közösségi médiát hatékonyan tudja elemezni.

 

 

A cég nevét Willard Van Orman Quine analitikus filozófus híres gondolatkísérletében szereplő nyúlról kapta. Szabadalmaztatott "ethersource" technológiájuk az ún. disztribúciós szemantikán alapul, mely dióhéjban annyit tesz, hogy egy szó jelentését az határozza meg milyen környezetben, azaz milyen más szavakkal fordul elő. Így egy mondat, vagy egy hosszabb szöveg nem más, mint egy újabb disztribúciója (eloszlása) a benne szereplő szavaknak. A módszer az ún. látens dirichlet allokáció (latent dirichlet allocation, röviden lda) eljárásra épít, de ennél többet - érthető okokból - nem lehet megtudni róla. Ez a metódus viszonylag könnyen átültethető egyik nyelvről a másikra. Mivel mérhetővé teszi az egyes szavak egymáshoz viszonyított jelentését, teret nyit arra hogy, pl. szentiment analízist (érzelmi viszonyt) végezzenek szövegeken, vagy trendeket kövessenek nyomon.

 

Az idei Eurovízió Twitter elemzése sikeresen előrejelezte a svéd győzelmet.

 

 

 

Figyelembe véve az egyes országok közötti különbségeket (pl. internet penetráció és Twitter használati eltérések) még sokkal jobb eredményt kaptak.

 

 

A gavagai példája jól mutatja, hogy ha igazán fontos számunkra a közösségi média elemzése, akkor (még) nem hagyatkozhatunk a "dobozos" megoldásokra. Az adatok kezeléséhez, kiegészítő információk kereséséhez és az elemzés értelmezéséhez szükséges szakértők bevonása. Ez azonban meg is drágítja egy-egy ilyen eszköz használatát, de az IT területén viszonylag gyorsan tömegtermékké válhat egy árú vagy szolgáltatás szerencsére, ami leszoríthatja az árakat.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Szövegbányászat minden mennyiségben

2012.05.26. 19:01 Szerző: Zoltán Varjú Címkék: r meetup szövegbányászat text mining számítógépes nyelvészet

A Hungarian Natural Language Processing Meetup csoport szervezésében július 24-én két rendezvény is várja a szövegbányászat iránt érdeklődőket.

 

R tm hands-on tutorial by Ingo Feinerer

Az R statisztikai programozási nyelv tm (text mining) csomagjának szerzője vezeti be az érdeklődőket a szövegbányászatba. A tutorial ingyenes, de a részvétel előzetes regisztrációhoz kötött. Reggel 10-kor kezdünk és délután négyig meg sem állunk, na jó egy ebéd bele fog férni.

 

Text Mining

Hagyományos meetup, 19 órától, szintén július 24-én. Jelenleg egy előadó biztos, Ingo Feinerer, aki Distributed Text Mining című előadásában beszél nekünk hogyan fogták munkára a Hadoop-ot a tm csomaggal. Ha valaki szeretne előadni szövegbányászatról, jelentkezzen (vendégünkre tekintettel ezen az estén kizárólag angol előadásokra vagyunk nyitottak).

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Silk - adatra fel!

2012.05.22. 12:00 Szerző: Zoltán Varjú Címkék: adatok silk vizualizáció adatújságírás silkapp

Az adatújságírásról szóló posztunkban röviden bemutattuk azt az új irányzatot, mely az egyre nagyobb mennyiségben elérhető adatokra támaszkodva igyekszik megreformálni az újságírást. Habár rengeteg eszköz érhető el, melyekkel az adatokat érthető formában megjeleníthetjük, egy történet "elmeséléséhez" akár több, különböző applikációt is használnunk kell. Ennek legjobb példája a Guardian Data blog. De nem mindenki engedheti meg magának, hogy egy csapat újságírót és programozót tartson, és ez a csoport teszi ki az emberiség nagyobb hányadát. Nekik a Silk nyújt egyszerű megoldást.

 

 

A Silk tkp. az adatok Tumblre. Pár kattintással létrehozhatuk egy csatornát (nem kell feltétlenül tematikusnak lennie), amihez aloldalakat is rendelhetünk. Ezután a neten található adatokat importálhatjuk a Silkbe, majd egyszerűen készíthetünk vizualizációkat hozzájuk. A végeredmény egy (jobb név híjján) poszt, ami az adatokat s azok képi megjelenítését is tartalmazza és természetesen írhatunk szöveges elemzést is hozzá. Akik követik a Guardian Data blogot, azoknak ez nagyon ismerős lehet, a különbség "csupán" annyi, hogyha találunk adatokat a neten, akkor a Silk azt megpróbálja nekünk kitisztítani, és el is tárolja, nem kell külön eszközöket keresnünk a képi megjelenítéshez, hanem a rendszer felajánlja nekünk automatikusan az elérhető grafikonokat.

 

 

Az adatok importálás után táblázatos formában jelennek meg. Itt van lehetőségünk a séma ellenőrzésére, vagy akár egyes elemek javítására is. A Silk célja, hogy egy helyen gyűjtsön össze minnél több adatot, az egyes Silk csatornák ezeket megoszthassák egymás között és ne kelljen kétszer feltölteni ugyanazt az adathalmazt.

 

 

A rendszer valamennyire intelligens és megpróbál felajánlani vizualizációs technikákat (nyilván a táblázatok sémái alapján). Ez természetesen nem jelenti azt, hogy csak azokat a módszereket érhetjük el, melyek alkalmazhatóak is az adatokra. A várható élettartamra vonatkozó adatok esetében pl. felajánlja az ilyen típusú adatok megjelenítésére kivállóan alkalmas ún. column (v. bar) chart formát.

 

 

Ellenben a line chart is választható, amit inkább idősorok esetében érdemes használni inkább.

 

 

A térképes megjelenítés nem rossz, de lehetne jobb is.

Összességében elmondható, hogy a Silk segítségével nagyon egyszerűen mesélhetünk el adatokkal támogatott történeteket, vagy csak mutathatunk be adatokat. Mindenki elindíthatja a maga kis Data blogját, a Silk pedig összeszedhet sok-sok szabadon elérhető, vagy direkt a felhasználók által gyűjtött és feltöltött információt. Kifejezetten szimpatikus, hogy a cég legtöbb fejlesztését "visszaadja" a közösségnek mint nyílt forráskódú szoftver. Mindenképpen jó, hogy két irányból is építkeznek (adatok begyűjtése, ill. felhasználói kör kiépítése), de kérdéses még, melyik irány fogja termőre fordítani a céget, addig maradnak a sikeres kockázati tőke befektetések.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Weotta - mit csinálsz ma?

2012.05.15. 12:00 Szerző: Zoltán Varjú Címkék: mobil real time keresés lokális keresés weotta

"Data is stupid. Weotta makes it smart." A mottó első felével egyet is ért mindenki, a második fellengzősnek hathatna, de igaz. Többször leírtuk már, hogy a mobil korszakban milyen fontos a kontextus és mi mindenre lehet(ne) használni, a Weotta ennek iskolapéldája.

 

A Weotta tevékenységének nagy része még szupertitkos, amit tudni lehet azt most bemutatjuk. Hogy nem csupán hype-ról van szó azt erősíti, hogy vezetőfejlesztőjük Jacob Perkins, aki az egyik legnépszerűbb számítógépes nyelvészeti blog és könyv szerzője és a szakmai konferenciák elengedhetetlen előadója (a Számítógépes nyelvészet blognak adott interjúja itt olvasható).

 

A Weotta Stations önmeghatározásában a perszonalizált internetes rádiókhoz hasonlítja magát. Fogalmam sincs miért ezt a hasonlatot választották a fejlesztők, de biztos igazuk van. Az alapötlet nagyon egyszerű, a mit csináljak ma este (vagy X napon Y órában) kérdésre a lehető legegyszerűbben választ találni.

 

 

Különféle alkalmakhoz állíthatunk be "állomásokat", pl. koncertek, szombat esti partik stb. Az ezekhez kapcsolódó adatokat összeszedi a Weotta és szépen tálalja nekünk.

 

A további két, még nem éles szolgáltatás is ehhez kapcsolódik. A Go valós időben ajánl "eseményeket", legyen az egy film a közeli moziban, vagy éppen a körzetben található mexikói éttermek listája. A Plans pedig segít megszervezni egy napot, a reggelitől az esti filmig.

 

 

A Weotta nagy fába vágta a fejszéjét, de rendkívüli szürkeállományt rendeltek a feladahoz. Maga a problém már egy ideje ott van a levegőben, de senkinek sem sikerült még igazából megoldani. Reméljük egyre többen indulnak el ezen az úton!

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

1 komment • Kövess Facebookon • Iratkozz fel értesítőre

Első magyar NLP meetup

2012.05.14. 12:00 Szerző: Zoltán Varjú Címkék: meetup számítógépes nyelvészet hungarian natural language processing meetup

Május 10-én, a Colabs-ben tartottuk az első Natural Language Processing Meetupot.

Több mint ötvenen regisztráltak a meetupra és kereken negyvenen vettek részt. Köszönjük az előadóknak a színvonalas prezentációkat, a hallgatóságnak pedig az aktív részvételt.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

süti beállítások módosítása