HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (8) adatbányászat (11) adatelemzés (9) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (19) alternatív (6) alternatív keresőfelület (28) analitika (6) beszédtechnológia (13) big data (55) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (18) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) Facebook (9) facebook (8) gépi tanulás (18) google (59) Google (33) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) intelligens keresés (6) internetes keresés (35) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (87) kereséselmélet (8) keresési felület (6) keresés jövője (57) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (16) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (8) különleges keresők (7) kutatás (9) lda (10) LDA (10) live (13) machine learning (9) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (19) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP (8) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (32) nyelvtechnológia (76) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (65) Precognox Labs (14) Python (14) R (19) spam (6) statisztika (12) számítógépes nyelvészet (9) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (7) szövegbányászat (22) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (20) topik modellek (6) Twitter (18) twitter (15) vállalati kereső (7) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Prismatic - hírolvasás Google Reader után

2013.04.02. 12:00 Szerző: Zoltán Varjú Címkék: nyelvtechnológia big data adatújságírás Prismatic

Ma már mindenki tudja, a Google hamarosan bezárja RSS olvasó szolgáltatását. Az okok között szerepel, hogy szeretnének jobban a közösségi média felé nyitni. Több mint egy éve elérhető már a Prismatic, ami egyszerre nyújtja a közösségi olvasás élményét és ügyel arra, hogy elkerüljük a filter bubble-t. Állítólag ez annyira jó dolog, hogy még a párkeresésben is segít.

First dates are never easy. Prismatic is here to help. from Prismatic on Vimeo.

A Prismatic tkp. arra az egyszerű ötletre épít, hogy a közösségi médiában rengeteg tartalmat osztunk meg. A regisztráció során összekapcsolhatjuk Twitter, Facebook és Google fiókjainkat a Prismatic-kel, beállíthatjuk milyen témák érdekelnek minket és persze követhetjük itt is ismerőseinket. Mindezt pedig egy nagyon minimalista, magazinszerű felületen prezentálják felénk.

prismatic01.png

Nagyon sok alkalmazás van a piacon, ami hasonló elven működik (ilyenek pl. a blogunkon már bemutatott Wavii és bottlenose). A Prismatic megkülönböztetőjegye az, hogy a közösségi média forrásokat és a felhasználó preferenciáit vegyítve alakítja ki a személyre szabott tartalmat. A használat során egyszerűen tanítjuk a rendszert, pl. számon tartja mit olvastunk el, mit osztottunk meg másokkal, mit tettünk a kedvencek közé és mit töröltünk, mi érdektelen. A nyelvtechnológiai megoldásoknak köszönhetően a duplikátumok (ugyanarról a témáról szóló, szinte azonos tartalmú cikkek) száma elenyésző, viszont megdöbbentően jól szolgálja ki a felhasználó ízlését. A filter bubble elkerülése viszont kicsit esetlegesre sikeredett, néha úgy érzi az ember, hogy véletlenszerűen kapott egy cikket, máskor viszont teli találat és egy nekünk kedves nézettel szöges ellentétben álló véleménnyel szembesít minket.

A Prismatic technológiai körökben avval vívott ki elismerést, hogy egy nagyon kis létszámú csapattal építette fel az egész szolgáltatást. Az alapító Bradford Cross a Flightcaster-el tette le névjegyét a big data fronton, majd teljesen kívülállóként vágott a hírek újragondolásába. Blogja a Measuring Measures legendás a szakmában (habár a szerző új cége indulásakor törölte) mivel itt jelentek meg először a big data termékfejlesztéssel kapcsolatos kérdések. Crossnak nagyon erős elképzelései vannak az adatvezérelt termékek fejlesztésével kapcsolatban, ezek egyike hogy egy kicsi, erősen és sokoldalúan képzett csapat sokkal hatékonyabb ilyen feladatokra. Ennek szellemében a Prismatic-nél mindenki a Berkeley vagy a  Stanford doktori fokozatával van felvértezve.

A minimalista külső mögött komoly design megfontolások állnak. A Prismatic a tartalomra épít, az összegyűjtött híreket könnyen áttekinthető formában prezentálja a felhasználók felé és megkönnyíti a forráshoz navigálást. Ebben nagyon hasonlít a Google-re. A Prismatic célja egy általános felfedező motor (discovery engine) létrehozása, ami nem csak hírek felfedezésében segít. Habár a befektetők megnyerésével nincs gondja a cégnek, még nem sikerült megtalálni a bevételszerzés módját, de talán ahogy a fenti interjúban is elhangzik, a felhasználók célba juttatásáért kapott jutalék lehet ennek egyik módja.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Adatújságírás - vissza a gyökerekhez

2013.03.26. 12:00 Szerző: Zoltán Varjú Címkék: társadalomtudomány adatújságírás The Guardian precision journalism Datablog Philip Meyer

Az adatújság megjelenése után sokan úgy gondolták, az új újságírók dolga az adatok gondozása (data curation) és elemzése lesz a jövőben, ahogy az a pénzügyi újságírásban már bevett évtizedek óta. Az adatokat valakik, valahol máshol, majd összegyűjtik szépen, legyenek azok kormányzati vagy éppen nemzetközi szervezetek, netán cégek. Az újságíró dolga annyi, hogy "emészthető" formában mondja el, mit rejtenek az adatok. De eljött 2011 és  az angliai zavargások!

london-riots.jpg

A The Guardian - hasonlóan sok más újsághoz - a kezdetektől nyomon követte a zavargásokat. A Datablog meglátta a Twitter-ben és egyéb közösségi oldalakban a potenciált és gyorsan el is kezdte elemezni milyen hírek terjednek a neten, hogyan reagálnak a zavargások résztvevői és a közvélemény az egyes eseményekre. Külön összeszedték az ilyenkor felröppenő álhíreket is és nagyon ötletesen vizualizálták ezeket. A lap kihasználta a modern technika lehetőségeit és a ma már megszokott módon kérte olvasóit, hogy tudósítsanak az általuk látott fejleményekről. Nagyon hamar rájöttek, ez csak arra jó, hogy egy hiányos leírását adják a történéseknek. Ennek legfőbb oka pedig az, hogy nem tudtak megfelelő adatokat szerezni. Részben maguk az elérhető adatok sem voltak megbízhatóak. Hiába bányászták akkurátusan a közösségi oldalakat az újságírók, ha a lázongók egymás között a Blackberry készülékek titkosított üzenetküldő szolgáltatását használták (mivel ez a funkció ingyenes a Balckberry tulajdonosok között, 2011-ben a gyártó készülékei a fiatal korosztályokban igen elterjedtek voltak) . Másrészt az egész brit társadalmat megrendítette az esemény és igazából senki sem értette miért törtek ki a zavargások, a közösségi oldalak státuszjelentéseiből a legelvakultabb szocmédia elemzők sem mernének mélyreható következtetéseket levonni. Nem maradt más választás, saját adatgyűjtésbe kezdett a Guardian, melyet Philip Meyer inspirált. 

1967-ben zavargások törtek ki Detroitban. A városban már történt hasonló 1943-ban, de intenzitásában és az okozott kár értékében a hatvanhetesnek sikerült olyan kétes hírű rekordot felállítani, melyet csak a '92-es Los Angeles-i zavargások múltak felül. A fiatal Meyer épp a Harvard Egyetem Nieman fellowship éve után volt, mely során alapos társadalomtudományi és adatbáziskezelési képzésben részesült, nem csoda, hogy égett a vágytól, hogy frissen szerzett tudását kamatoztassa. A Detroit Free Press lap a zavargások során nagyon lelkiismeretesen tudósított a fejleményekről és nyitott volt Meyer új ötleteire is. A város és különböző alapítványok segítségével felállítottak egy újságírókból, társadalomtudósokból és önkéntesekből álló csoportot. Egy hét alatt megállapodtak az adatfelvétel metodikájáról és betanították az önkénteseket (főleg a környék fekete iskoláinak tanárait) a lekérdezésre. A második héten megtörtént az adatfelvétel. A harmadik héten már lyukkártyán voltak a lekérdezések eredményei és megindult az elemzői munka, mely végén megszületett a speciális lapszám.

free_press.png

A vizsgálat eredményei megdöbbentőek voltak sokak számára. A közhiedelem szerint a zavargások résztvevői a déli államokból bevándorolt, iskolázatlan, mezőgazdasági vidékről érkező feketék voltak, de bebizonyosodott, a többé kevésbé integráltnak hitt feketék vettek részt a sajnálatos eseményekben. Szintén kiderült, hogy jócskán túlbecsülték a zavargók létszámát is. De ami a legmegdöbbentőbb volt az, hogy a magát toleránsnak gondoló észak is ellenségesen viselkedett a feketékkel szemben, ami komoly elégedetlenséghez vezetett köztük.

preview.jpg

A Guardian a London School of Economics-szal (LSE) fogott össze és egy ambiciózus 10 hónapos projekt keretében újságírók és társadalomtudósok boncolgatták az angliai zavargások okait. A Reading the Riots ma a legátfogóbb gyűjteménye a modern, adatvezérelt, oknyomozó újságírásnak és riportoknak. A kutatás első fázisában a zavargásokban résztvevő személyekkel készítettek interjúkat és vettek fel kérdőíveket. A második fázisban az intézkedő hatósági személyektől (rendőrök, bírók stb.) gyűjtöttek adatokat. Így olyan dolgok derültek ki mint például mennyire messze laktak az elkövetők az elkövetés helyétől és összefügg-e a szegénységgel a zavargás. Ehhez kapcsolódóan a zavargók legvalószínűbb útvonalait is feltérképezték. Külön összegyűjtötték a kutatók, hogy kik milyen büntetést kaptak a zavargások során elkövetett törvényszegésekért. Az LSE később összeállított összegző tanulmánya is elérhető online.

Talán úgy tűnik, az adatújságírás felforgatta a médiát. Ez korántsem igaz. A print média válságban van, pár kivételtől eltekintve a példányszámok folyamatosan csökkennek. Az ingyenes online híroldalak is nehezen tudnak bevételre szert tenni. Az adatújságírás részben egy természetes reakció, amivel új utakat keres magának a szakma. A Kinght Foundation, a Knight-Mozilla OpenNews és a Nieman Journalism Lab olyan kezdeményezéseket karol fel, melyek új utakat mutatnak. A befektetők is egyre nagyobb fantáziát látnak az új utakra tévedő startupokban, mint pl. a Circa, a Silkapp és a Prismatic. Ugyanakkor megjelentek, az olyan hagyományos elemzőműhelyekre hasonlító vállalkozások (pl. a Quid és a Palantir), melyek az adatok begyűjtésére és elemzésére is nagy hangsúlyt fektetnek.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Mit mond az internet - NLP meetup március 27-én

2013.03.19. 12:00 Szerző: Zoltán Varjú Címkék: meetup nlp meetup Replise Textplore

Március 27-én tartjuk e havi meetupunkat. A rendezvény ingyenes, de arra kérünk mindenkit, hogy regisztráljon oldalunkon és jelezze részvételi szándékát.

meetuplogo.jpeg

A program:

Textplore https://www.textplore.org/

Előadásunkban bemutatjuk a Gazdaság- és Vállalkozáskutató Intézet által fejlesztett Textplore szövegelemző szoftver funkcióit és elemzési lehetőségeit, majd egy folyamatban levő kutatás előzetes eredményeit. Ennek során egy magyar és egy angol hírportálon megjelent, korrupcióval kapcsolatos cikkek jellegzetességeit vizsgáljuk. A cikkek szóhasználati sajátosságai segíthetnek feltárni, hogy az online média hogyan viszonyul a korrupcióhoz, mennyire tölti be azt a lehetséges szerepét, hogy a nyilvánosság erejével akadályozza a korrupció terjedését.

Az előadók

Tóth István János Közgazdász-szociológus, az MTA Közgazdaságtudományi Intézetének tudományos főmunkatársa, a Gazdaság- és Vállalkozáskutató Intézet ügyvezető igazgatója, a BCE Korrupciókutató-központjának társigazgatója. Fő érdeklődési területe a rejtett gazdasággal és a korrupcióval kapcsolatos jelenségek vizsgálata és a konjunktúrakutatás, továbbá szívesen foglalkozik a kvantitatív tartalomelemzés módszerével vizsgálható kérdésekkel.

Czibik Ágnes közgazdász, a Gazdaság- és Vállalkozáskutató Intézet elemzője, a Budapesti Corvinus Egyetem Korrupciókutató Központjának munkatársa. Főként munkaerő-piaci kutatásokkal, a GVI által fejlesztett Textplore szövegelemző szoftver fejlesztésének irányításával, valamint a szoftver segítségével elemzések készítésével foglalkozik

Social media monitoring - Replise http://replise.com

Az prezentáció bemutat néhány, a közösségi média figyelés napi gyakorlatában felmerülő problémát. Szólok az adatok megkereséséről és begyüjtéséről, a releváns kérdések megfogalmazásáról és az eredmények bemutatásáról. Szó fog esni arról, mit lehet és mit nem lehet mérni, illetve arról is, mikor érdemes mérni, mikor pedig más technikát választani. Végül, röviden bemutatom a Replise rendszert.

Tempfli Péter az ELTE BTK orosz szakán végzett, jelenleg a Budapest Corvinus Egyetem gazdasági informatika szakos hallgatója. Szociális méda elemző a Replise-nél, magyar, lengyel és orosz piacokkal foglalkozik.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Silk - indíts saját adatblogot

2013.03.12. 12:00 Szerző: Zoltán Varjú Címkék: szemantikus web adatbányászat linked data big data adatújságírás Silk Silkapp

Szép a The Guardian Datablog-ja, de készíthetünk mi magunk valami hasonlót? Korábban már bemutattuk blogunkon a Silk-et, mely segítségével bárki elindíthatja saját adatblogját.

A Silk a legtöbb nyilvánosan elérhető adatot tárolja (pl. a Wikipedia, linked data adatbázisok stb.) de lehetőséget biztosít arra is, hogy mi magunk vigyük fel azokat. Az adatbázisok könnyen szűrhetők is - pl. ha a  kétmilliónál nagyobb lakosságú európai városokat szeretnénk térképen megjeleníteni, akkor nem nekünk kell kézzel ezeket kikeresni. Az adatok szűrése és rendszerezése után egy egyszerű kezelőfelületen kiválaszthatjuk miképp szeretnénk megjeleníteni ezeket - mint korábbi posztunkban említettük, a megfelelő grafikon megtalálásához nem árt némi jártasság és a Silk itt nem nyújt segítséget. Ezután már csak  a kísérőszöveg megírása van hátra.

lod-cloud_1000px.png

A Silk egyre népszerűbb és sikeresen tud tőkét szerezni, valahogy mégsem tud igazán beindulni. Sokan a cég legnagyobb értékének a mögöttes technológiát tartják, ami nagyon közel áll a szemantikus web és a linked data ideájához. A szemantikus web alapötlete egyszerű; a weboldalak ne csak az emberileg olvasható és érthető információt tartalmazzák, hanem ezt tegyék elérhetővé szabványos, gépileg feldolgozható formában is. A honlapok felépítése egyszerű, egyrészt nem árt ha van mit olvasni egy oldalon,  ezt pedig a böngésző számára értelmezhető formába kell "becsomagolni" ami a html szabvány dolga,  ezt kiegészíti a külcsínért felelős CSS  és a JavaScript ami lehetővé teszi az interakciót is. Ehhez jön még hozzá az átlag felhasználó számára gyakran láthatatlan háttérben futó adatbázis és egyéb szerveroldali eszközök. Berners-Lee a tartalom és a forma (html) mellé kívánatosnak tartaná a jelentés (szemantika) beágyazását is az oldalakba - innét ered az elnevezés. A linked data - vagyis linkelt adatok - ennek egy visszafogottabb megvalósítása, ami az egyes adatelemek közötti kapcsolatokat is tartalmazza, pl. a Magyarország elem Budapesttel az "ország fővárosa", az Európai Unióval és a NATO-val a "tagállama" viszonyban áll egy ilyen adatbázisban. A Silk erőssége, hogy sok-sok ilyen adatbázist tartalmaz és kifejlesztett egy könnyen kezelhető lekérdezőfelületet ezekhez (szemben a nem szakmabeliek által nehezen elsajátítható standard SPARQL-lel). A felhasználók által létrehozott oldalak pedig további relációkkal gazdagítják az adatbázist, hiszen gyakran két adathalmazt kombinálnak.

Silkapp.png

Aki kedvet kapott egy saját Datablog indításához, annak érdemes a Silk YouTube csatornáján körülnézni, pár példát áttekinteni és a tanulási segédleteket átfutni. Sok sikert minden adatbloggernek!

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

inkLink 2013 - adatújságírás-nap április 6-án

2013.03.06. 15:11 Szerző: Zoltán Varjú Címkék: adatújságírás inkLink inkLink2013

Alakul az inkLink programja és már kijelenthetjük, igazi nemzetközi esemény résztvevői lehetünk április 6-án. Az előadói teremben (Discussion Room) érdekes előadásokat hallgathatunk az adatújságírás és a modern digitális média kérdéseiről, a Hack Room ad teret a fejlesztőknek, az IdeaShop-on pedig kötetlen formában lehet megismerkedni mindenki által könnyen használható eszközökkel. A továbbiakban a programmal kapcsolatos információkat az inkLink blogján és a Nyelv és Tudományon találhatják meg az olvasók. A hackday-re a szervezők a zoltan.varju(kukac)gmail.com címre várják az érdeklődő fejlesztők jelentkezését egyénileg és csapatban. Szponzori megkeresésekkel Kincse Szabolcshoz fordulhatnak a kincse(kukac)nyest.hu e-mail címen.

 

inklink-hekkerek-es-ujsagirok.jpg

 

Előadók 

IdeaShop résztvevők

 

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

süti beállítások módosítása