HTML

Precognox

precognox_logo_190.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati és big data megoldásokat.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldhatjuk problémáidat, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Meetup ajánló

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Az opendata.hu oldalt a Magyar OpenData Alapítvány/Egyesület hivatalos megalakulásáig - lelkes önkéntesek segítségével a
K-Monitor Közhasznú Egyesület (K-Monitor) működteti, az üzemeltetést a Precognox végzi.

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Így hivatkoznak egymásra a magyar politikai blogok és híroldalak

2015.03.04. 16:01 Szerző: zoltanvarju Címkék: politikai blogok gráfok

Politikai blogokat vizsgáló projektünk adatait kibővítettük és megvizsgáltuk hogyan hivatkoznak egymásra a magyar politikai blogok és híroldalak.

Ezzel főztünk

Crawlerünk egy nyolcvan magyar politkai blogot tartalmazó listán indult el és tízes mélységben vizsgálta a link struktúrát (az megnézte a kiindulási listán blogbejegyzéseiben található linkeket, majd az azokon találhatókat és így tovább tíz lépésben). A crawler kizárólag a tartalomban szereplő linkeket kereste, ezért amennyiben azok közösségi média oldalra, nem szöveges tartalomra, vagy nem magyar nyelvű tartalomra mutattak, nem haladt tovább.

Gyűjtésünk eredménye 12121 darab egyedi url, melyek között 22542 él (azaz link) található. Az egyedi url-eket összevontuk az ún. pay-level domain alá. Pl. legutóbbi posztunk egyedi url azonosítójához "http://kereses.blog.hu/2015/03/02/kiszamithatoak_vagyunk" a "kereses" pay-level tartozik. A pay-levelre átkódolt url-ek segítségével egy új, egyszerűbb gráfot készítettünk melyben 1441 csomópont (pay-level url) és 2472 él (link) található. A csomópontok közötti átlagos utak hossza 3.341833, a gráf átmérője 9. 

Az alábbi gráfokon a legalább négy be- vagy kimenő éllel rendelkező csomópontok láthatók, ez adataink 9.02 százaléka, az éleknek pedig 50.81 százaléka látható. A csomópontok nagysága minden ábrán eltér, mert más-más ranking eljárással állapítottuk meg. A csomópontok színét modularitásuk alapján alapítottuk meg, ami nagyon leegyszerűsítve annyit tesz, hogy a gráfban leírt tulajdonságaik alapján egy csoportba tartoznak.

PageRank

A Google által kifejlesztett PageRank algoritmus mind a be-, mind a kimenő éleket figyelembe veszi, ezért nagyon jó képet ad egy-egy csomópont autoritásáról. Az alábbi ábrán a csomópontok nagysága PageRank értékük alapján lett megállapítva.

blog_pr.png

In-degree

A bemenő élek száma alapján rangsoroltuk a csomópontokat az alábbi ábrán, azaz minél nagyobb egy csomópont, annál több hivatkozást kapott.

blog_id.png

Out-degree

Az ábrán a kimenő élek száma alapján rangsoroltuk a csomópontokat, azaz minél nagyobb egy csomópont, annál több hivatkozás indul róla más oldalak irányába.

blog_od.png

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

18 komment • Kövess Facebookon • Iratkozz fel értesítőre

Kiszámíthatóak vagyunk?

2015.03.02. 13:56 Szerző: zoltanvarju Címkék: tudományfilozófia big data Soros Barabási Popper falszifikáció

Gyűlnek rólunk az adatok. A mobilszolgáltatónk nálunk is jobban tudja, hol leszünk holnap ilyenkor, kedvenc online könyváruházunk barátainknál is jobban el tudja találni melyik új kötet okozna nekünk feledhetetlen élményt, a sarki hipermarket bizton számít arra, hogy holnap elfogy a kenyerünk s ismét betérünk vásárolni. Az NSA terrorista-gyanús emberek után kutat az online világban, az arab tavasz kapcsán pedig a forradalmak megjósolhatósága napjaink egyik kedvenc kérdésévé vált. Végre rendes tudománnyá válhat az emberi viselkedés előrejelzése?

karl-popper-quotes-5.jpg

 

Kiszámíthatóak vagyunk!

Barabási Popper Prediction and Prophecy in the Social Sciences című esszéjére többször is hivatkozik, mint a társadalmi folyamatok előrejelezhetetlenségét legjobban kifejtő műre.

Miközben az előrejelzésnek és a véletlenszerűségnek ezen a bizonytalan határvonalán töprengünk, rá kell jönnünk, hogy akármilyen tekintélyes és nagy hatású gondolkodó volt Popper, nem feltétlenül volt igaza. Állításával ellentétben nincs rá szilárd bizonyíték, hogy a társadalmi rendszereket nem lehet előre jelezni.[...]

[...] Az előrejelző eszközök, első sorban üzleti érdekektől hajtva, folyamatosan fejlődnek, különösen azok, amelyek az egyéni viselkedés mérésére szolgálnak. És a pontosság növelése érdekében ezek az eszközök a jövőben az egyének helyett egyre inkább az őket magukba foglaló csoportokra fognak koncentrálni, mert amikor az ember eltér a szabályszerű, megszokott viselkedéstől (például munka után nem egyenesen haza, hanem előbb a sörözőbe megy), gyakran a barátai tehetnek róla.Az előrejelző eszközök hatóköre is ki fog bővülni néhány percről néhány órára, ami cselekvéseink rövid távú tehetetlenségét tekintve elképzelhető időtartamnak tűnik. És amikor ugyanezek az eszközök az egy- vagy többnapos előrejelzésre való áttéréssel birkóznak, eleinte pontatlanok lesznek, mint évtizedekkel korábban az időjárás-előrejelzés. Ám előrejelző képességük szükségképpen fejlődni fog, és egyszer csak azt látjuk majd, hogy a jövő már egyáltalán nem olyan talányos, mint korábban volt. (Barabási Albert László: Villanások)

A fenti idézet remekül kifejezi vágyunkat. Az üzleti élet és maga a politikai is egyre nagyobb igényt tart arra, hogy valamilyen módon előre tudja jelezni az egyéni és csoportos viselkedést. Mielőtt hátradőlnénk és megnyugodnánk, hogy a fizika és az alkalmazott matematika eszköztára hamarosan meghozza a várva várt áttörést nézzük meg egy kicsit, miről is beszélt Popper.

Kis kitérő 

A Barabási által hivatkozott esszét helyezzük először kontextusba. Popper tudományfilozófus volt, aki mélyen hitt a racionalitásban. Ennek ellenére meg kellett élnie a nácizmus térnyerését és hazája, Ausztria elhagyására kényszerült. A világháború alatt írta az Open Society and Its Enemies című könyvét (ennek címe köszön vissza tanítvány, Soros György alapítványának nevében), ami tulajdonképpen a diktatúrákra alkalmazta tudományfilozófiai nézeteit. Popper szerint a tudomány lényege, hogy megadja cáfolhatóságának feltételeit (falszifikálható). A tudományhoz hasonlóan egy nyílt, demokratikus társadalom nem hibátlan, hanem rendelkezik a korrekció képességével (szabad véleménynyilvánítás, szabad választások, nyílt viták stb). 1945-ben ez nyílt állásfoglalás volt a fasizmussal és a kommunizmussal szemben, s ettől kezdve tudományfilozófusunk időről-időre visszatért ehhez a témához.

popper-and-the-poker-barnes-philosophy-society-14-638.jpg

A Prediction and Prophecy a marxizmust kritizáló hosszabb könyvecske, a The Poverty of Historicism előfutára. Popper célja, hogy a történelmi materializmus és a tudományos szocializmus, s így minden tudományos köntösbe bújtatott ideológia cáfolatát adja. Nagyon leegyszerűsítve, a történelmi materializmus és a tudományos szocializmus szerint a történelem menete szükségszerű változások sorozata, melynek elkerülhetetlen vége a kommunizmus. Mivel a történelmi változásokat törvények alakítják, egy-egy társadalmi jelenség előrejelezhető. Akit jobban izgat a kérdés, annak Balibar Marx filozófiája című rövid könyvét ajánljuk.

 

Popper historicizmusnak nevezi azt a doktrínát, mely szerint a politikacsináláshoz a történelmi szükségszerűségek ismerete szükséges. Ennek két tétele van:

The task of social sciences is fundamentally the same as that of the natural sciences - to make predictions, and, more especially, historical predictions, that is to say, predictions about the social and political development of mankind.

Once these predictions are available, the task of politics can be determined.

Azaz, ha vannak társadalomtudományi általános törvények, akkor adott hogy mit kell tennünk. Vitának helye nincs, hiszen a társadalmi törvényszerűségek egyben kijelölik a szükséges cselekvéseket is. Csakhogy Popper szerint a társadalomtudományok nem egészen úgy működnek, mint a természettudományok.

 

A természettudományokban a predikció mindennapos. Ennek vannak feltételes esetei, pl. ha nem tartom a kezemben a könyvemet, akkor az leesik. Vannak feltétel nélküli predikciók is, melyeket általános törvényeknek is nevezhetünk. Pl. abból, hogy minden tárgy leesik ha megszűnik az alátámasztása, levezethető a gravitáció. Popper szerint azonban a társadalomtudományokban nincsenek ilyen általános törvények vagy feltétel nélküli predikciók. A természettudományokban azért lehetséges általános törvényszerűségeket találni, mert

long term prophecies can be derived from scientific conditional predictions only if they apply to systems which can be described as well isolated, stationary and recurrent.

 Ennek tükrében a társadalomtudományok fő feladata 

 It is to trace the unintended social repercussions of intentional human actions.

Hasznuk a politikacsinálásban pedig

They do not allow us to make historical prophecies, but they may give us an idea of what can, and what cannot be done in the political field.

Látható, Popper egyáltalán nem tagadja a társadalomtudományok képességét arra, hogy előrejelzést tegyenek. Egyedül azt tagadja, hogy a természettudományokhoz hasonlóan általános törvényekkel állhatnak elő.

Reflexivitás

Soros György, még mielőtt a pénzügyek felé fordult volna, Popper diákja volt. Hiába lett belőle befektetési guru, fektette meg az angol fontot és csinált hihetetlen vagyont, filozófus énjét nem tudta kiiktatni. Saját bevallása szerint Soros pénzügyi stratégiáját Popper falszifikációs elméletére alapozta, amit megannyi kötetben osztott meg már, ezek közül a magyarul is hozzáférhető A nyílt társadalom avagy a globális kapitalizmus megreformálásból szemezgetünk, hogy jobban megértsük miben különbözik az emberi társas világ a fizikai objektumok valóságától.

soros.jpg

Soros filozófiájának központi eleme a reflexivitás.  Popper nem szándékos következményeknek (repercussions of intentional human actions) nevezi azt a tényt, hogy cselekedeteinknek nem tudjuk az összes következményét belátni, ergo minden szándékos cselekedetnek vannak szándékolatlan következményei is. Soros ezt a gondolatot viszi tovább a reflexivitással; ha elindítunk egy szándékos cselekvést, akkor szembesülnünk kell azzal, hogy az nem várt módon visszahathat ránk, ami módosíthatja eredeti elképzeléseinket. A történelmi folyamatokkal kapcsolatban erről így ír Soros:

A különböző résztvevők előítéletei is különböznek, ám sok esetben - és ez különösen igaz a pénzpiacokra - "uralkodó" előítéletekről beszélhetünk. Kezdetben az események kimenetele még alátámasztja az uralkodó nézetet, ám azok egyre túlzottabbá válnak, és ezzel párhuzamosan egyre kevésbé képesek az események sodrára hatni. Következésképpen a megerősítés is elmarad. Az eredmények és az elvárás közötti szakadék mélyülésével egyre nehezebbé válik az uralkodó előítéletek fenntartása. Amikor pedig a résztvevők megkérdőjelezik, sőt megtagadják előítéletüket, egy ellentétes irányú, önerősítő folyamat lendül mozgásba. Minél inkább függ egy uralkodó előítélet az önigazolástól, annál nagyobb a valószínűsége annak, hogy ez az ellentétes folyamat megindul. 

Ennek szellemében minden ágens (vagy nevezzük nyugodtan embernek) gyarló, azaz nem rendelkezik biztos, elmélettel arról hogyan is működik a társas világ, hanem folyamatosan teszteli elméleteit és a történések függvényében alakítja azokat. Ez nem sima gyarlóság, hanem radikális gyarlóság, ami a reflexivitással párosulva

olyan visszafordíthatatlan történelmi folyamatokat tesz lehetővé, amelyek kizárják az időtállóan érvényes általánosításokat. Pontosabban: a reflexív eseményekből általánosított következtetéseket nem vizsgálhatjuk meg újra és újra, hiszen a kezdeti és végső feltételeket nem ismételhetjük meg.

Akkor előre lehet jelezni bármit?

Természetesen igen - de számolnunk kell azzal, hogy nagyon behatároltak a lehetőségeink, amikor emberekről beszélünk. Popper és Soros arra hívja fel a figyelmet, hogy amikor emberekről beszélünk, akkor nem tudunk univerzális törvényeket alkotni, csak az adott kontextusban, az adott társadalmi körülmények között, az adott időben mondhatunk ki szabályszerűségeket. De gondoljunk csak bele, a középkorban, vagy az ősközösségi társadalmakban alkalmazhatjuk a modern közgazdaságtan elméleteit? Tudhatunk arról valami, hogy a mostani szegénységellenes programok működhettek-e volna a múltszázadban, vagy működni fognak-e harminc év múlva is? 

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Miért menj szoftverfejlesztőnek? - Tanácsok pályaválasztóknak

2015.02.27. 09:55 Szerző: kereso Címkék: szoftverfejlesztés Precognox

 

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Kapcsolódjunk össze! Linked data a közös BOK és NLP meetupon február 18-án

2015.02.09. 08:39 Szerző: zoltanvarju Címkék: meetup linked data NLP meetup open knowledge BOK meetup WordNet

Az évad első meetupján a BOK meetuppal közösen jövünk össze 2015. február 18-án 19:00-tól, rendhagyó módon ezúttal a SZTAKI-ban (Budapest, XI. Kende u. 13-17). Témánk a linked data, mi a fene is az, mire használják és mivel NLP meetup is egyben az esemény, a magyar WordNetről is hallhatunk majd, mint tipikus linked data adathalmazról. A részvétel ingyenes, de arra kérünk mindenkit, részvételi szándékát jelezze vagy a BOK, vagy az NLP meetup oldalán.

logo9_final.jpg

Szász Barnabás: Linked Data - van-e adathalmazoknak hálózati hatása?

 

A World Wide Web egy olyan globális infrastruktúrát hozott létre, amely lehetőséget nyújt összekapcsolt dokumentumok hálózatának a publikálására és elérésére. A Linked (Open) Data ennek mintájára - és a Web eredményeire és technológiáira építve - ad hasonló módon összekapcsolt adathalmazok publikálására és fogyasztására eszközöket. Az előadás egy bevezetőt ad a LOD világába, kitérve röviden a szemantika fogalmára, a Szemantikus Webes technológiákra és a LOD néhány gyakorlati alkalmazására, köztük az Apache Stanbol projekt rövid ismertetésével példát ad arra, hogy a LOD hogyan tudja akár az NLP-t támogatni.

 


Szász Barnabás több mint egy évtizede foglalkozik webes fejlesztéssel, nagyvállalati tartalomkezelő, metaadat kezelő és keresőrendszerek implementálásával és 2005 óta a Szemantikus Web kutatásával, jelenleg a Linked Data alkalmazásait és a szemantikus keresés lehetőségeit vizsgálja. A munkán túl újdonsült családapa, amatőr fotós és hobby-tengerész.

 

 

 

Horváth Ádám: Könyvtári és múzeumi adatok automatikus publikálása a szemantikus weben -   az ALIADA projekt ismertetése

 

A könyvtárak és a múzeumok az adataik publikálásával vehetnek részt a szemantikus web építésében. Az ALIADA projekt ezt a folyamatot szeretné felgyorsítani azzal, hogy egy olyan nyílt forráskódú szoftvert hoz létre, melynek segítségével a könyvtárak és a múzeumok automatikusan publikálhatják az adataikat a szemantikus weben. Az előadásomban az ALIADA projektet szeretném ismertetni. Az előadásban ki szeretnék térni a Linked Open Data egyik felhasználási területére a Library of Congress új katalogizálási szabványára a BIBFRAME-re, mely teljes egészében a kapcsolt adatokon nyugszik. 

 

Horváth Ádám informatikus könyvtáros az Országos Széchényi Könyvtár informatikai vezetője volt 10 évig. A könyvtárinformatika teljes spektrumában (integrált rendszerek, karakterkészletek, hálózati protokollok, visszakereső rendszerek, digitális könyvtár, stb.) elmélyült ismeretekre tett szert. Vezetése alatt a könyvtár a teljes állományát, valamint a tezauruszt és a név besorolási adatait publikálta a szemantikus weben, még 2010-ben. Később a Szépművészeti Múzeum dolgozójaként megismerkedett a múzeumi gyűjteménykezelő rendszerekkel is. Jelenleg a Magyar Nemzeti Múzeum Központi Könyvtárában dolgozik. Szabadidejében amatőr természetfotós és lelkes tanulója a kanadai és freestyle kenuzásnak. 

 

Héder Mihály arról tart előadást, hogy hogyan kapcsolódik a Linked Data és az NLP a DBpedia Spotlight eszközön keresztül. Hogyan segít a Linked Data előállításában a human-in-the-loop gépi tanulás? Milyen mashup-ok épülnek a DBpedia adathalmazára? Hogyan hat ki mindez az ember-gép interfészek jövőjére?

Héder Mihály 2004-ben kezdett gyakornokként az MTA SZTAKI-ban. Okleveles mérnök informatikus diplomáját 2009-ben védte meg, 2014-ben filozófia PhD fokozatot szerzett. Szakterülete a mesterséges intelligencia filozófiája, szemantikus annotációk, szoftver integráció.

 

Miháltz Márton: Magyar WordNet a LOD felhőben

Ebben az előadásban egy konkrét erőforrást, a Magyar WordNetet szeretnénk bemutatni, az előadással kb. egy időben LOD felhőbe kerülésének apropójából. A Magyar WordNet (HuWN) egy természetesnyelvi ontológia, amely a Princeton WordNet elveit követve a nyelvi fogalmakat szinonimahalmazokkal (synsetekkel) reprezentálja és közöttük szemantikai viszonyokat definiálva (pl. hipernima (is-a), meronima (rész-egész), antonima stb.) hoz létre egy lexikális fogalmi hálózatot. Noha a wordnetekben a nyelvi fogalmak közötti taxonómia nem felel meg egy szigorú formális ontológia követelményeinek, az NLP különböző alkalmazásaiban mégis gyakran használják őket világismereti reprezentáció forrásaként. A Magyar WordNet 42 ezer synsetet tartalmaz, és össze van kapcsolva az angol (Princeton) WordNet 2.0-ás és 3.0-s verzióival, ami átjárást biztosít több mint 20 egyéb nyelv wordnetjeihez, illetve az angol wordnethez illeszkedő egyéb adatbázisokhoz (Yago, DBPedia, BabelNet stb.) A HuWN szabadon hozzáférhető, az előadással egy időben tervezzük RDF formátumú megosztását a LOD felhőben is.

Miháltz Márton az MTA Nyelvtudományi Intézet Nyelvtechnológia Kutatócsoportjának és a PPKE ITK Magyar Nyelvtechnológiai Kutatócsoportjának tudományos munkatársa. Korábban nyelvtechnológiai területen dolgozott az iparban (MorphoLogic, in4, GeoX). PhD fokozatát nyelvtechnológia témában 2010-ben szerezte a PPKE ITK-n. Kutatási területei az információkinyerés, véleményelemzés, jelentésegyértelműsítés, koreferenciafeloldás.

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Életképek kaposvári irodánkból

2015.02.07. 08:47 Szerző: zoltanvarju Címkék: Precognox

A Kereső Világ a precognox_logo_190.jpg Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre