HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (8) adatbányászat (11) adatelemzés (9) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (19) alternatív (6) alternatív keresőfelület (28) analitika (6) beszédtechnológia (13) big data (55) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (18) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) Facebook (9) facebook (8) gépi tanulás (18) google (59) Google (33) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) intelligens keresés (6) internetes keresés (35) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (87) kereséselmélet (8) keresési felület (6) keresés jövője (57) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (16) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (8) különleges keresők (7) kutatás (9) lda (10) LDA (10) live (13) machine learning (9) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (19) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP (8) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (32) nyelvtechnológia (76) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (65) Precognox Labs (14) Python (14) R (19) spam (6) statisztika (12) számítógépes nyelvészet (9) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (7) szövegbányászat (22) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (20) topik modellek (6) Twitter (18) twitter (15) vállalati kereső (7) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Szól az autórádió

2013.03.05. 12:00 Szerző: Zoltán Varjú Címkék: autó beszédtechnológia Ford Nuance Spotify Svox

A barcelonai Mobile World Congress-en mutatta be a Ford új, hangvezérlésű autós szórakoztató és információs rendszerét. Az eszköz még korántsem teljes, jelenleg a Spotify streaming szolgáltatását lehet vele irányítani csupán.

spotify.jpg

A Ford a Nuance-szal együttműködve vágott bele az autók vezérlésének újragondolásába. A beszédtechnológia meghatározó cége még 2011-ben vásárolta fel a svájci SVOX-ot, ami úttörő munkát végzett a nagy német autógyártókkal egy központi hangvezérlő rendszer kialakításában. Érdekes, hogy ennek eredményei végül a Fordokban jelennek meg.

fordspotify02.jpg

A hangvezérléstől a legtöbb felhasználó idegenkedik, de vezetés közben a legkézenfekvőbb megoldás a beszéd alapú interakció a vezető és a jármű szórakoztató és információs rendszere között. A Spotify integrációja remek első lépés, hiszen az autórádió használata bevett dolog és joggal remélhetik az együttműködő cégek, hogy sikerül sok felhasználót megnyerniük. Ha sikerül elfogadtatni a hangvezérlést a volánnál, akkor megnyílhat az út további fejlesztések előtt is.

spotifyford.png

Az Egyesült Államokban forgalmazott Ford gépkocsikba ezentúl beépítik a Nuance hangvezérlő rendszerét és a Spotify alkalmazását. A Forbes cikke szerint más gyártók is hasonló megoldásokon törik a fejüket. Talán új terület fog születni és a jövőben autókra is lehet appokat írni?

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Adatújságírás - mérföldkövek

2013.02.26. 12:00 Szerző: Zoltán Varjú Címkék: nyelvtechnológia adatújságírás Django The Overview Project

Előző posztunkban bemutattuk, miképp hatottak az új IT trendek és társadalomtudományi kutatások az újságírásra és alakult ki az adatvezérelt irányzat. Az internet elterjedésével a nyomtatott sajtónak is számolnia kellett, megjelentek a híroldalak és minden valamire való lap saját oldallal jelentkezett a világhálón. Ekkor jelentek meg az ún. MVC (model-view-controller, model-nézet-kontroller) keretrendszerek, amik nagyon népszerűek lettek a hír- és tartalomiparban. A megoldás lényege, hogy elkülönítik az adatok reprezentálását (modell) és megjelenítését (nézet). Így egy modellhez, akár több nézet is tartozhat, amit a két egység között közvetítő kontroller határoz meg. 2005-ben az Egyesült Államok egy kansasi kisvárosában Lawrence-ben a Lawrence Journal megengedte fejlesztőinek, hogy saját MVC keretrendszert fejlesszenek ki , ezzel született meg a Django webprogramozási keretrendszer, amit a Pinterest és a Mozilla mellett olyan nagy híroldalak is használnak, mint a The Washington Times és a Public Broadcasting Service.

django.png

A Django fejlesztői között akadt egy nagyon érdekes figura, Adrian Holovaty. Alig egy évvel a keretrendszer megalkotása után ő írta A fundamental way newspaper sites need to change (Ahogy a híroldalaknak alapvetően meg kell változniuk) című esszét, amit a modern adatújságírás manifesztumának tartanak. Az esszé lényegében a hírekre is kiterjeszti az MVC alapelvet. Mivel a narráció célja, hogy a tényadatokat (ki[k], mikor, hol és mit csináltak) kontextusba helyezze, érdemes külön is kigyűjteni az adatokat. Így pl. egy helyi lapnál minden egyes betörésről születhet egy cikk, de egyben bővül is az adatbázisa és az olvasók maguk is megnézhetik hol és mikor történtek betörések. Így lehetőség nyílik arra, hogy alaposabban megvizsgáljuk az adatokat és összevessük más tényezőkkel is azokat (pl. van-e rendőrőrs a betörések közelében, mekkora arrafelé a munkanélküliség, milyen más bűncselekmények történnek az adott környéken stb.) Holovaty alapított is egy startup-ot ötletére, az Everyblock-ot, amit sajnos új tulajdonosa hamarosan be fog zárni. Az esszé hatása azonban tovább él és sokakat inspirál (pl. a blogunkon nemrég bemutatott Circa is az esszé alapötletére épül).

WL_Hour_Glass_small.jpg

2006-ban alapították lelkes aktivisták a WikiLeaks alapítványt és portált. A híres kiszivárogtatások nagy kihívás elé állították a szerkesztőségeket, hiszen a WikiLeaks első évében több mint 1.2 millió dokumentum került napvilágra különböző ügyekben. Ezek áttekintése és értelmezése szinte lehetetlen feladat lenne a modern technika vívmányai nélkül. A 2010-ben kiszivárogtatott Iraq War Logs (iraki hadi cselekmények jelentései) összefoglalója egy 92,201 soros táblázat, ami tartalmazza a harci cselekmény helyét, idejét és rövid leírását. Ennek egy része hagyományos módszerekkel is elemezhető, de a leírások áttekintéséhez be kellett vetni a nyelvtechnológiát is.

SIGACTS dec 2006 hi res2.jpg  4793×6228 .png

Jonathan Stray (adatújságíró és programozó) az Associated Press-nél vezette a szöveges megjegyzések feldolgozására irányuló munkát és felismerte, hogy egy általános problémával került szembe. Nem csak a kiszivárogtatások során özönlenek a dokumentumok a szerkesztőségekre. Az ún. FOIA (információs szabadság törvények által biztosított jog) keretében kikért információt a hatóságok gyakran szeretik átadni sok lényegtelen kísérő dokumentummal. A törvényes, ám cseppet sem etikus eljárás célja, hogy minél később akadjon az információt kérő a számára fontos adatokra. Ám maguk a szerkesztőségek is sok adatot halmoztak fel archívumaikban, melyek "cikkekbe" vannak zárva. A nyelvtechnológia segít abban, hogy kinyerhessük a szükséges információt és Holovaty elveinek megfelelően külön eltárolhassuk az adatokat. Stray a Knight Foundation támogatásával elindította az ilyen problémák megoldására alkotott The Overview Project-et (amit egy korábbi írásunkban már bemutattunk).

A technológia és az újságírás sikeresen egymásra talált a közelmúltban és sokan gondolták azt, hogy az adatok korában a társadalomtudományi ihletettségű ún. precíziós újságírás (precision journalism) pepecselős adatgyűjtése helyett, a nyílt és az ilyen-olyan módon megszerezhető adatok leveszik a kutatás terhét az újságírók válláról. A 2011-es angliai zavargások azonban rámutattak arra, hogy nem ilyen egyszerű a helyzet - sorozatunk következő részében erről számolunk be.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

2013 a beszédtechnológia éve?

2013.02.22. 10:20 Szerző: Zoltán Varjú Címkék: mobil beszédtechnológia neurális hálók Google Microsoft

Még tavaly októberben Rick Rashid (Chief Research Officer, Microsoft) egy tajvani konferencián demonstrálta mire képes a beszédfelismerés és a gépi fordítás.

A felvételen látható, Rashid beszédét valós időben szöveggé konvertálja a rendszer és a kivetítőn olvasható mit mond az előadó. 4:28-nál a feliratot a szoftver rögtön le is fordítja kínaira, majd 7:28-tól a kínai szöveget hallhatjuk is (állítólag Rashid hangjához hasonló gépi hang olvas fel, én nem fedeztem fel nagy hasonlóságot a két hang között).

Mindez az ún. neurális hálók technológiájában történt áttörésnek és az olcsó GPU egységek elterjedésének köszönhető. A Microsoft mellett a Google is széles körben alkalmazza ezt az eljárást, pl. a korábban már bemutatott beviteli eszközök kapcsán. A témában érdemes elolvasni a Wired cikkét, ami ezt a posztot is inspirálta.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Web Intelligence - NLP meetup február 28-án

2013.02.21. 12:00 Szerző: Zoltán Varjú Címkék: nyelvtechnológia nlp meetup web intelligence web epistemology associativy

Február 28-án tartjuk évadnyitó meetupunkat 18 órától a Colabs-ben (Budapest, Irányi utca 3.) A rendezvény továbbra is ingyenes, de kérünk minden kedves érdeklődőt, regisztráljon oldalunkon és részvételi szándékát jelezze (ezzel is segítve a szervezők munkáját).

meetuplogo.jpeg

A tavaszi szezonban két angol meetup kerül megrendezésre, ebből az első rögtön a februári. A következő angol meetup április 6-án lesz, ami rendhagyó módon szombati nap. Az Open Knowledge Foundation látogat meg minket az inkLink 2013 keretében és egy rövid beszélgetésre ülünk össze. Reményeink szerint itthon is szárnyra kap az open data (nyílt adatok) mozgalom! Már erre az eseményre is lehet regisztrálni a megfelelő oldalon!

Természetesen magyar meetupok is lesznek márciusban és májusban. Ezek programját is hamarosan feltöltjük.

Az e havi meetup programja:

Christophe Heintz: Web Epistemology

Social phenomena, I will argue, are made of long cognitive causal chains that span several individuals, extend in the public environment, and possibly involve cognitive tools such as ICTs. Social scientists have issued great analyses of the the new practices and communities that are created by new ICTs, but the analysis of cognitive causal chains is especially adequate for specifying the causal role of ICTs in the making of social phenomena. I will illustrate this point with three examples: the distributed selection of relevant information via search engines, some IT aspects of contemporary finance, and recent uprising fostered by social media.

Short bio:
C. Heintz is an assistant professor of cognitive science at CEU, Budapest, Hungary. He is working on cultural evolution and its cognitive bases, with analyses in the history of science and mathematics, and in economics. C. Heintz studied mathematics and philosophy at the universities of Paris and Cambridge. He obtained his PhD from the School for Advanced Studies in the Social Sciences (EHESS, Paris).

Zoltán Lehóczky: Associativy

Associativy is a fully open knowledge graph platform for the web. Its components are based on the ASP.NET MVC-based Orchard CMS and they provide a toolbox for storing, searching, exploring and visualizing knowledge graphs. Graphs in Associativy store pieces of knowledge with the edges connecting them representing associative connections, in the human sense. The project's ultimate goal is to provide a system that can store knowledge similarly structured to how our mind works and what can be "asked" to "think" about associations.

Short bio

Loving technology ever since I'm a Computer Science and Engineering student at Óbuda University in Budapest. Web application development is my key skill, having been involved with PHP and ASP.NET MVC for years. I embrace open source and live it through the Orchard ASP.NET MVC-based content-management framework: I'm one of its developers, released dozens of open source modules to it and even do work with it. My interest in artificial intelligence, knowledge representation and machine learning lead me to the development of the Associativy graph platform.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Adatújságírás - a kezdetek

2013.02.19. 12:00 Szerző: Zoltán Varjú Címkék: adatújságírás inkLink 2013

"Három rend van jelen a parlamentben de ott fönn, a Tudósítók Galériáján foglal helyet a Negyedik Rend, mely mindnyájuknál fontosabb." (Edmund Burke)

Tavaly év végén jelent meg a New York Times Snow Fall riportsorozata, ami igazán látványos grafikákkal és multimédiás tartalmakkal nyűgözte le az olvasókat. A sorozattal a kiadó azt szerette volna jelezni, hogy az adatújságírás és a nyomtatott sajtó kora utáni média már felnőtt. Most dióhéjban megmutatjuk milyen utat kellett megtennie idáig.

Nightingale-mortality.jpg

Az adatok gyűjtése és az értelmezésüket megkönnyítő grafikonok készítése korántsem új hóbort. Florence Nightingale a krími háború során ápolóként kísérte a brit csapatokat és felfigyelt arra, hogy mennyire magas a sérült katonák halandósága. A negyedik hatalmi ágat kihasználva lépett akcióba és a The Times-hoz fordult egy levéllel, melyben megírta milyen szegényes körülmények között is ápolják a sérült katonákat. Ennek eredményeképpen a brit parlament elkezdte vizsgálni a hadikórházak helyzetét és Nightingale a bizottság számára elkezdte híres jelentéseit készíteni (a fenti képen ennek egy híres oldala látható).

1908_Hollerith_Machine.jpg

A 18. és 19. század folyamán a legtöbb államban kialakultak a mai statisztikai hivataloknak megfelelő intézmények. A népszámlálási adatok nem csak a demokratikus berendezkedéshez elengedhetetlen választások lebonyolításához szükséges szavazókörzetek kialakításához nyújtottak információkat, hanem a gazdasági és politikai döntések előkészítéséhez és monitorozásához is. Kialakultak az adóztatáshoz és ágazati politikacsináláshoz (policy making) szükséges adatszolgáltatási kötelezettségek (pl. könyvelés, iskolai nyilvántartások stb.) valamint velük együtt fejlődtek a társadalomtudományok és a társadalomstatisztika is. Az első számítógépek egyike, Herman Hollerith tabulátora az USA népszámlálási hivatalának segített a cenzus adatainak feldolgozásában (később a gépet gyártó cégből IBM lett).

The_Miami_Herald_International_Edition_front_page.jpg

1969 fontos fordulópont az adatújságírás történetében. Ebben az évben Clarence Jones a The Miami Herald büntető igazságszolgáltatásról szóló cikkében komoly anomáliákra hívta fel a figyelmet, amelyek a helyi sheriff hivatalának menesztéséhez vezettek. A fiatal újságíró oknyomozása során számítógépes eljárásokat használt, melyek kimutatták, hogy a rend és igazság őrei megbotlottak. Ugyanebben az évben jelent meg Philip Meyer Precision Journalism című könyvének első kiadása. Meyer amellett érvel, hogy az újságírás (legalábbis annak egy jelentős része) számára elengedhetetlen a társadalomtudományok módszertanának átvétele, hiszen habár funkciójában más (célja a köz tájékoztatása, a problémák bemutatása és megvitatása, nem a mély elemzés és a megoldások keresése) vizsgálódási terepe nagyban hasonló. A közös metodológia központi magja az adatok gyűjtése és kezelése, a kötet későbbi kiadásaiban Meyer egyre inkább előtérbe helyezi ezt a szerepet.

precisionjournalism.jpg

A nyolcvanas években a Meyer által lefektetett alapokon lassan felépült a társadalomtudományokhoz közelálló újfajta újságírás. David Weaver és Maxwell McCombs egy nagy hatású cikkben (a teljes hozzáféréshez jelszó szükséges) összegezte ezt a változást. Persze a társadalmi kérdésekre való nyitottság és a majdhogynem tudományos igényű elemzés sosem állt távol az újságírástól, de ezek sokkal inkább szociográfiai riportok voltak, hasonlóak Illyés Puszták népéhez. A nyolcvanas években a kvalitatív, megértésre és már-már irodalmi eszközökkel készített riportokra építő ún. posztmodern vagy narratív irányzat és a kvantitatív, empirikus adatokat használó és társadalomtudományi elméletekre alapozó irányzat végleg elvált egymástól.

opendata.jpeg

Az internet megjelenése életre hívta az open data, vagyis a nyílt adatok mozgalmát. A demokratikus országokban mára a legtöbb statisztikai hivatal által gyűjtött adat nyilvános és elérhető az interneten. A nagy nemzetközi szervezetek (Világbank, EU, ENSZ szervezetek) is elérhetővé teszik adataikat. Egyre több nemzeti archívum érhető el digitális formában (gondoljunk hazánkban a MEK-re és a DIA-ra). Intézményesített formája is van annak, ha olyan adatot szeretnénk elérni, ami nem nyilvános - erről szólnak a FOIA (Freedom of Information Act) törvények. Amennyiben egy hatóság nem tudja meggyőzni a bíróságot, hogy az általa gyűjtött és kezelt adatok titkosítása szükséges, akkor a kért információt nyilvánosságra kell hozni.

Az internet nyújtotta infrastruktúra és az információhoz való hozzáférés új módja hívta életre az adatújságírást a kétezres évek derekán. Következő posztunkban erről fogunk beszámolni.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

süti beállítások módosítása