HTML

Kereső Világ: keresés, szövegbányászat, big data

A keresők lelkivilága, szöveges keresés, szövegbányászat és big data.
2001 óta foglalkozunk keresőfejlesztéssel a Precognox kereteiben. A blog írói: Jóföldi Endre és Varjú Zoltán. A Goldenblog versenyen IT kategóriában a legjobb 3 blog közé választott minket a szakmai zsűri 2011-ben és 2012-ben is. 2013-ban a Biznisz blogok között hetedik helyen végeztünk.


Precognox

precognox_logo_190.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati és big data megoldásokat. Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldhatjuk problémáidat, akkor lépj velünk kapcsolatba a céges oldalunkon található űrlapon keresztül.

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Az opendata.hu oldalt a Magyar OpenData Alapítvány/Egyesület hivatalos megalakulásáig - lelkes önkéntesek segítségével a
K-Monitor Közhasznú Egyesület (K-Monitor) működteti, az üzemeltetést a Precognox végzi.



Meetup ajánló

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Főbb témák

adatok (12) adatújságírás (16) ajánló (4) állás (4) alternatív (6) alternatív keresőfelület (24) analitika (5) beszédtechnológia (10) big data (39) bing (14) blogkereső (5) clustering (6) computational social science (4) data science (7) digitális bölcsészet (4) egészség (7) egészség kereső (7) emócióelemzés (12) Facebook (7) facebook (8) fintech (5) firefox (4) goldenblog (5) Google (22) google (57) GoogleTrends (5) Google Ngram (4) Hadoop (6) helyi keresés (4) hírkeresés (4) internetes keresés (27) internetes keresők (4) internet hungary (6) iphone (5) johu (4) képkereső (8) keresés (50) kereséselmélet (7) keresés jövője (57) keresés problémái (38) keresők összehasonlítása (9) keresőoptimalizálás (6) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (6) konferencia (11) korpusznyelvészet (5) közösségi keresés (8) közösségi média (6) különleges keresők (7) kutatás (4) linked data (5) live (13) magyar (4) magyar kereső (9) marketing (8) meetup (16) metafora (5) metakereső (4) microsoft (4) miner (4) mobil (30) mobil keresés (15) Neticle (7) nlp meetup (5) NLP meetup (4) Nuance (8) nyelvészet (7) nyelvtechnológia (48) open data (7) pénzügy (6) politika (4) Precognox (15) Precognox Labs (9) seo (5) smartmobil (4) sna (4) spam (6) statisztika (5) számítógépes nyelvészet (5) szemantikus keresés (15) szemantikus kereső (10) szemantikus web (8) szentimentelemzés (20) szövegbányászat (11) társadalomtudomány (4) tartalomelemzés (16) tartalomipar (5) tartalomjegyzék (6) tematikus kereső (20) twitter (13) Twitter (23) Twitter forradalom (4) valósidejű keresés (4) vertikális kereső (9) vizualizáció (10) wikia (4) Wikipedia (4) wolframalpha (4) yahoo (26) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

CEU MicroData is hiring a junior programmer to perform text analytics tasks

2014.04.02. 08:00 Szerző: zoltanvarju Címkék: állás nyelvtechnológia CEU CEU Microdata

CEU MicroData is hiring a junior programmer to perform text analytics tasks. You would work with a team of faculty, programmers and research assistants to identify and match Hungarian firms and individuals by their name and address.

ceu_microdata.png

Required skills:

  • familiarity with standard Unix text processing tools

  • demonstrated expertise with a high-level programming language (preferably Python)

  • fluent Hungarian, conversational English

  • experience with text processing is a plus


You would be working 20 hours a week with flexible schedule. We are paying market wages and providing a better-than-market work environment.


If you are interested, please send your CV and samples of your programming work to Miklós Koren at korenm@ceu.hu.


CEU is an equal opportunity employer.

 

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Trading Consequences: gazdaságtörténet és nyelvtechnológia

2014.04.01. 08:00 Szerző: zoltanvarju Címkék: gazdaság gazdaságtörténet nyelvtechnológia digitális bölcsészet

Talán csak azok tudnak megúszni egy napot anélkül, hogy belefutnak a globalizáció szóba, akik egy lakatlan szigeten élnek (természetesen külön-külön mind érintett). A Trading Consequences projekt célja, hogy a fellelhető adatokat digitalizálva kutathatóvá tegye miképp alakult ki a globális kereskedelem - ehhez pedig számítógépes nyelvészek és gazdaságtörténészek együttműködése kellett!

tradingconsequences-banner.jpg

A Trading Consequences igazi interdiszciplináris projekt, a gazdaságtörténeti kutatást kanadai tudósok végzik, a nyelvtechnológiai hátteret pedig skóciai szakik biztosították. Az eredmény nem csak internetes felületen keresztül érhető el, hanem github-ról is mindenki letöltheti az adatokat és a kapcsolódó kódot is.

 

Az online felület elvileg négy szempont szerinti keresést tesz lehetővé, de ezek közül mi csak hármat találtunk működőképes állapotban; árucikkek és helyek szerinti keresés ill. a kettő együttes vizualizációja.

 

Az árucikk keresés során a keresőmezőbe gépelve keresési javaslatokat kapunk, ami kifejezetten hasznos tud lenni, mert nem olyan egyszerű egy árucikket hivatalos nevén nevezni. Az eredmények szűkíthetőek korpusz és év alapján, egy térképen pedig a kapcsolódó helyek is megjelennek.

tradingconsequences_commodity.png

Helyekre keresve meglepően jól szerepel az alkalmazás. Azonban a térképen csak a jelenlegi politikai határok láthatóak és nem derül ki, hogy egy-egy adott hely hova is tartozott egy adott időpontban. Az árucikkeknél is alkalmazott korpusz és évszám szerinti szűkítés itt is nagyon hasznos.

tradingconsequences_location.png

A Location Cloud Visualization néven emlegetett kereső megpróbálja emészthető formában tálalni a hely és árucikk alapú keresés eredményeit. Talán ez lehet a legfontosabb a téma iránt érdeklődők számára, sajnos azonban még nem olyan fejlett, mint az előző két megoldás. Egy kulcsszóhoz évtizedekre bontva jelennek meg a kapcsolódó földrajzi nevek, a szófelhőkből megszokott módon betűméretükkel jelezve frekvenciájukat. Ugyanakkor az árucikk mellett megadhatunk egy földrajzi nevet is másodlagos keresésnek, ez semmi mást nem tesz, mint kiemeli a találatot a szófelhőben. Láthatunk továbbá egy grafikont, ami a földrajzi név említésgyakoriságát jeleníti meg. Egy térképen pedig kontinensekre bontva láthatjuk az említések megoszlását. A projekt abszolút rajongói vagyunk az első perctől, de úgy gondoljuk van még mit dolgozni ezen az alkalmazáson.

2014-03-31 19.05.09.png

A Trading Consequences egyike az első olyan digitális bölcsészet projekteknek, melyek nagy mennyiségű történeti dokumentum feldolgozását teszik lehetővé. Az új módszerek eddig elérhetetlen perspektívát nyújtanak a kutatóknak s várhatóan izgalmas eredményekkel fognak szolgálni hamarosan. 

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Elindult a kozbeszerzes.ceu.hu oldal

2014.03.25. 08:42 Szerző: zoltanvarju Címkék: data open data CEU Precognox kozbeszerzes.ceu.hu CEU Microdata

A CEU Department of Economics Koren Miklós és Szeidl Ádám által vezetett CEU Microdata kutatócsoportja elindította a kozbeszerzes.ceu.hu oldalt, ami a magyar közbeszerzési hirdetményeket teszi egyszerűen kereshetővé és elemezhetővé. 

ceu_microdata.png

A közbeszerzési hirdetmények sajnos strukturálatlan szöveges fájlok formájában kerülnek nyilvánosságra, ezek feldolgozását cégünk, a Precognox Kft. végezte. Büszkék vagyunk arra, hogy magyar kutatók nemzetközileg is elismert munkáját segíthetjük. Az adatok segítségével már most nagyon érdekes dolgokra derült fényt, pl. egy, az Indexen olvasható cikkben számoltak be arról, hogy a mindenki által sejtett közbeszerzési mutyi empirikusan is kimutatható.

kozbeszerzes.png

Maga az oldal egyszerű, könnyen kezelhető, nagyon hamar megismerhető. Akik szeretnék az adatokat letölteni, azok akár programmatikusan is megtehetik ezt, hiszen mindenkit arra ösztönöznek az üzemeltetők, hogy vigye magával robotját is az oldalra.

 

A CEU Microdata csoporttól további izgalmas projektek várhatóak még, melyeket izgatottan várunk. Sok sikert kívánunk a csapatnak!

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Mi az a nowcasting?

2014.03.24. 10:31 Szerző: zoltanvarju Címkék: Google nowcasting GoogleTrends GoogleCorrelate

Egyik kedves olvasónk nekünk szegezte a kérdést, hogy akkor most mi ez a nowcasting őrület. A legegyszerűbb válasz az, hogy az ún. high-frequency real time, azaz nagyon gyorsan frissülő valós idejű adatok segítségével beleláthatunk a jelenbe. Ez elsőre nem tűnik egy nagy dobásnak, de gondoljunk bele abba, hogy a legtöbb gazdasági statisztikát havonta közlik, és általában bizonyos időközönként ki is igazítják a jelentéseket. Ilyen körülmények között nagyon hasznos lehet látni a pillanatnyi állapotot is, amire már lehet rövidtávú előrejelzést is adni. A hosszabb válaszhoz a mindenki által ismert Google eszközeit hívjuk segítségül.

gc01.PNG

A Google Trends eszközt nagyon sokan kedvelik, mivel betekintést nyújt egy-egy keresési kifejezés népszerűségébe és immár minden év végén szerepelnek a hírekben az ún. Zeitgeist helyezettek, azaz egy térség legnépszerűbb keresései. A Google kutatói 2009-ben a Nature-ben publikálták tanulmányukat arról, hogy eszközük az influenza trendek előrejelzésében is hasznosítható, s innét nem volt megállás.

 

A Google vezető közgazdásza Hal Varian szintén 2009-ben publikálta híres Predicting the Present with Google Trends című tanulmányát, ami a nowcasting irodalomban legtöbbet idézett mű lett. Varian kutatásai alapozták meg a Google Correlate eszközt, ami tkp. lehetővé teszi, hogy a felhasználó által megadott idősorhoz a Google Trends adataiból automatikusan megkapjuk azon idősorokat, melyek korrelálnak adatainkkal.

gc02.PNG

Habár fantasztikus eszközt adott kezünkbe a Google, nem árt megjegyezni, hogy maga Varian is arra ösztönöz mindenkit, akinek hasonló adatai vannak, hogy próbálják meg ezeket valahogy kombinálni. Sajnos/szerencsére azonban nehezen elképzelhető, hogy a hitelkártya adatok, vagy éppen a kiskereskedelmi forgalom adatai elérhetők lesznek mindenki számára. Azonban hatalmas mennyiségű adatot gyűjt immár a kormányzati szektor is, ezek általában amúgy is nyilvánosak, érdemes ezeket elérhetővé tenni, mivel így az ipar is növelheti hatékonyságát, továbbá a civil kontroll és a tudományos elemző munka eredményessége is növelhető így.

Érdemes megjegyezni, hogy a nowcasting területén alkalmazott korrelációs módszerek nem szólnak az okságról! Minden statisztika órán elhangzik, hogy a korreláció nem jelent okságot, a Wikipedia pedig külön szócikket szentel a "correlation does not imply causation" frázisnak. Ezért az ilyen vizsgálatokat fogadjuk egészséges szkepticizmussal!

cell_phones.png

 

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Alan Turing Institute - brit tudósok és a big data

2014.03.21. 09:55 Szerző: zoltanvarju Címkék: big data

A brit parlamentben nem rég jelentették be az Alan Turing Institute megalapítását.  Az intézet célja, hogy az Egyesült Királyság a big data és az gépi tanulási algoritmusok területén vezető szerepét megerősítse. Alan Turing a múlt század egyik legnagyobb logikusa volt, aki a modern számítástudomány mellett a számítógépes statisztika úttörője is egyben. A második világháború során sikeresen törte fel csapatával a németek Enigma kódját, de érdemei ellenére is bíróságon hurcolták meg homoszexualitása miatt. Turing 2013-ban kapott csak kegyelmet, ez tette lehetővé, hogy nevét állami intézmények is felvehessék immár. De mi köze van Turing-nak a big data-hoz?

 

Turing neve leginkább az ún. Turing-gép kapcsán ugrik be a legtöbb embernek. Ez még nem egy valódi gép, hanem egy elméleti konstruktum, mely segítségével az ún. eldöntés probléma megoldása vázolható. A probléma nagyon slendriánul fogalmazva arról szól, hogy adható-e egyszerű igen vagy nem válasz egy matematikai állítás érvényességére nézve. Az amerikai Alonzo Church is hasonló problémákon dolgozott Princetonban, az ő megoldása az ún. lambda kalkulus lett. A két megközelítés ekvivalens, ezért ma Church-Turing tézis néven hivatkoznak a függvények kiszámíthatóságáról szóló tételre.

templeton-codemachine.jpeg

A világháborúban vált az elméleti gép valóságos számítógéppé, mivel a németek Enigma kódját emberi erőforrásokkal nem lehetett feltörni. A logikai alapokon nyugvó gép célja bayesiánus statisztikai elemzés lett! Az Y Service által rögzített német rádióforgalmazást naponta többször is elküldték a kódfejtők központjába, ezzel a kor mércéje szerint igazi big data keletkezett. A kommunikáció sajátosságait vizsgálva arra jutottak, hogy az üzenetek bizonyos elemei ismétlődnek (pl. a rejtjelezők először közlik, hogy adásban vannak, azonosítják magukat a másik félnek stb.) ezt kihasználva, mint előfeltevés a számítógépek sikeresen tudták feltörni a rejtjeleket (no meg persze pár készüléket is sikerült megszereznie a hírszerzésnek). Akit bővebben érdekel a módszer, annak Larranaga és Bielza rövid és érthető tanulmányát ajánljuk.

 

A történet érdekessége, hogy napjainkban ismét kezd egymásra találni a lambda kalkulus ihlette funkcionális programozás és az adatok elemzése (gondoljunk pl. az R statisztikai programozási nyelvre, vagy a Clojure népszerűségére a gépi tanulás területén). A britek hagyományosan jók mind a számítástudomány, mind a statisztika területén, ezért az Alan Turing Institute biztosan remek szakemberekkel lesz feltöltve. Érdemes lenne elgondolkodni azon, hogy hazánkban sem állunk rosszul - a Rényi Intézet és a SZTAKI Adatbányászat és Keresés Csoportja világviszonylatban is megállja a helyét - és viszonylag kis anyagi ráfordítást igényel ez a terület, más tudományágakkal összevetve.

2 komment • Kövess Facebookon • Iratkozz fel értesítőre