HTML

Kereső Világ: keresés, szövegbányászat, big data

A keresők lelkivilága, szöveges keresés, szövegbányászat és big data.
2001 óta foglalkozunk keresőfejlesztéssel a Precognox kereteiben. A blog írói: Jóföldi Endre és Varjú Zoltán. A Goldenblog versenyen IT kategóriában a legjobb 3 blog közé választott minket a szakmai zsűri 2011-ben és 2012-ben is. 2013-ban a Biznisz blogok között hetedik helyen végeztünk.


Precognox

precognox_logo_190.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati és big data megoldásokat. Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldhatjuk problémáidat, akkor lépj velünk kapcsolatba a céges oldalunkon található űrlapon keresztül.

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Az opendata.hu oldalt a Magyar OpenData Alapítvány/Egyesület hivatalos megalakulásáig - lelkes önkéntesek segítségével a
K-Monitor Közhasznú Egyesület (K-Monitor) működteti, az üzemeltetést a Precognox végzi.



Meetup ajánló

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Főbb témák

adatok (12) adatújságírás (16) ajánló (4) állás (4) alternatív (6) alternatív keresőfelület (24) analitika (5) beszédtechnológia (11) big data (42) bing (14) blogkereső (5) clustering (6) computational social science (4) data science (8) digitális bölcsészet (4) egészség (7) egészség kereső (7) emócióelemzés (14) facebook (8) Facebook (7) fintech (5) firefox (4) gépi tanulás (5) goldenblog (5) google (57) Google (22) GoogleTrends (5) Google Ngram (4) Hadoop (6) helyi keresés (4) hírelemzés (4) hírkeresés (4) internetes keresés (27) internetes keresők (4) internet hungary (6) iphone (5) johu (4) képkereső (8) keresés (52) kereséselmélet (7) keresés jövője (57) keresés problémái (38) keresők összehasonlítása (9) keresőoptimalizálás (6) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (8) konferencia (11) könyvajánló (10) korpusznyelvészet (5) közösségi keresés (8) közösségi média (6) különleges keresők (7) kutatás (4) linked data (5) live (13) magyar (4) magyar kereső (9) marketing (8) meetup (17) metafora (5) metakereső (4) microsoft (4) miner (4) mobil (31) mobil keresés (15) Neticle (8) NLPmeetup (4) nlp meetup (5) NLP meetup (5) Nuance (8) nyelvészet (10) nyelvtechnológia (56) open data (7) Pennebaker (5) pénzügy (6) politika (4) pollyanna (4) Precognox (16) Precognox Labs (12) R (7) seo (5) smartmobil (4) sna (4) spam (6) statisztika (7) számítógépes nyelvészet (5) szemantikus keresés (15) szemantikus kereső (10) szemantikus web (8) szentimentelemzés (24) szövegbányászat (12) társadalomtudomány (4) tartalomelemzés (20) tartalomipar (5) tartalomjegyzék (6) tematikus kereső (20) twitter (13) Twitter (23) Twitter forradalom (4) valósidejű keresés (4) vertikális kereső (9) vizualizáció (10) wikia (4) Wikipedia (4) wolframalpha (4) yahoo (26) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

25 év Tankcsapda dalainak topik eloszlása

2014.07.21. 15:26 Szerző: zoltanvarju Címkék: tartalomelemzés lda topik modellek topics over time

Az ún topics over time módszer egy egyszerűsített változatával megnéztük hogyan alakul az lda-val kinyert topikok aránya a Tankcsapda elmúlt 25 évben megjelent stúdióalbumainak szövegeiben. Egy kis webes alkalmazásban elérhetővé is tettük eredményeinket itt.

tankcsapda.png

Az egyes topikok eloszlása a dokumentumok között elérhető ebben a táblázatban, a topikokhoz tartozó szavak pedig ebben. Az alkalmazás Eric Rochester Mastering Clojure Data Analysis c. könyvének harmadik fejezete alapján készült, a kód minimális változtatásával. A szövegeket a http://www.zeneszoveg.hu/ oldalról vettük.

2 komment • Kövess Facebookon • Iratkozz fel értesítőre

A politikai blogszféra I.

2014.07.19. 16:30 Szerző: zoltanvarju Címkék: szövegelemzés szövegbányászat hálózatelemzés Precognox Labs

Reméljük olvasóink elnézik nekünk hogy hanyagoltuk a posztolást mostanában. Van mentségünk! A magyar politikai blogokról kiindulva crawlerünk rengeteg oldalt gyűjtött be, mi pedig ezeket elkezdtük elemezgetni. Ebben a posztban csak ízelítőt adunk, az eredményekről hamarosan bővebben is beszámolunk. 

blogszfera_full.png

A linkek struktúráját vizsgálva látszik, erre a világra is érvényes a csokornyakkendő elrendeződés.

tld_cut.png

A wikipedia domainről gyűjtöttük be a legtöbb oldalt, mert oda mutat a legtöbb link - ellenben minden másra jóval kevesebb link mutat. A wikipedia után jön a blog.hu, az hvg és az index, majd a Facebook és a Youtube és pár hazai és külföldi online lap.

lda01.png

A crawler által vizsgált oldalak szövegeit begyűjtöttük, tuti ami fix már egy LDA elemzést is futtattunk rajtuk.

 

Sorozatunkban megpróbáljuk leírni a magyar politikai blogszféra topológiáját, megnézzük mennyire kapcsolódik össze a blogokról induló linkek struktúrája, milyen érzelmi viszonyulással linkelik egymást az oldalak  stb. Hamarosan folyt.köv.!

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Összekuszált szavak, gráfok, no meg a Ludwig

2014.07.07. 19:00 Szerző: zoltanvarju Címkék: pagerank keresés nyelvtechnológia TextRank

Már régóta keresek egy kivonatoló/összegző megoldást és régi restanciám hogy találjak alternatív megoldásokat a kulcsszókinyeréshez is. Szerencsére eddig is meg tudtuk oldani ezen feladatokat, sikerült olyan nem-felügyelt eljárást találnom, ami egyrészt gyönyörű, másrészt van valamennyi nyelvészeti relevanciája is - de természetesen jelenlegi formájában még messze van az ipari bevetéstől. Ellenben egy keresőkkel foglalkozó cégnél nagyon cool, hogy a PageRank algoritmus egy változatáról beszélhetünk!

Legózzunk!

lego.jpg

 

Van a nyelv, annak meg vannak szavai. Felmerül a kérdés, ha valaki megtanulja egy nyelv szótárát, akkor tudja is x nyelvet? Naiv elképzelésnek tűnik, mégis van benne valami, Wittgenstein is Szent Ágostont idézi ezzel kapcsolatban, persze meg is jegyzi rögvest hogy ez nem a legjobb irány:

1.„Ha a felnőttek valamilyen tárgyat megneveztek, és közben felé fordultak, úgy ezt én érzékeltem, és felfogtam,
hogy a hangok, amelyeket kiejtettek, a tárgyat jelölik, minthogy rá akartak utalni.”

5. Ha az 1.§-ban szereplő példát vesszük szemügyre, akkor talán sejthető lesz, hogyan burkolja a szójelentés általános fogalma a nyelv működését olyan ködfelhőbe, amely lehetetlenné teszi, hogy tisztán lássunk

Wittgenstein ehelyett a szavakra úgy tekint, mint szerszámokra:

 

Gondolj a szerszámokra egy szerszámosládában: van benne kalapács, harapófogó, fűrész, csavarhúzó, mérőrúd, enyvesfazék, enyv, s vannak szögek és csavarok. - Amilyen különböző ezeknek a tárgyaknak a funkciója, olyan különböző a szavaké is. (És itt-ott vannak hasonlóságok.) Összezavar persze bennünket a szavak megjelenésének egyformasága, amikor kimondva vagy írásban, illetve nyomtatásban szembekerülünk velük. A használatuk ugyanis nem áll ilyen világosan előttünk. Különösen akkor nem, ha filozofálunk. (Wittgenstein: Filozófiai vizsgálódások, 11.§.)

 

Ha Ludwig ma írná a fenti sorokat, biztos vagyok benne hogy a Lego jutna eszébe! Vannak speciális lego-elemek, amikből keveset kell csak gyártani, vannak általánosan használt elemek, amiket gyakran használunk, de valahogy mind összeilleszthető. A szavakkal is így vagyunk kb.

 

Lego helyett gráfok!

Fauconnier és Turner remek tanulmánya óta a nyelvészetben is lehet olyan szexi szavakat használni mint hálózatok, meg gráfok. A kognitív nyelvészek azért is szeretik ezeket, mert az agy működését is konnekcionista modellekkel szokás leírni, inófsoknak neurális hálók, hipstereknek deep learning néven lehet ez ismerős. Minket most ez csupán annyira érdekel, hogy a szavak más szavakkal járnak, ez pedig remek alkalom arra, hogy felrajzoljunk egy gráfot, melynek csomópontjai maguk a szavak, az élek pedig az egymást követő előfordulásokat reprezentálják (ezeket a gyakorisággal súlyozhatjuk).

 

A TextRank algoritmus a PageRank-hez hasonlóan arra épít, hogy bizonyos szavaknak nagyobb a "népszerűsége", több szóval fordulnak elő együtt és ez alapján rangsorolhatjuk őket. Így egy remek módszer kerül a kezünkbe, mely segítségével egy adott szöveghez kulcsszavakat rendelhetünk, de azt is megnézhetjük, mely mondatok tartalmazzák a leginkább centrális szavakat s ezen mondatok nagy valószínűséggel jól összefoglalják a szöveget. A hivatkozott tanulmány nagy szépen leírja az algoritmust és egy kis guglizással mindenki megtalálhatja implementálását kedvenc nyelvén (ha csak nem valami egzotikus nyelven szeret kódolni), ezért nézzük milyen eredményeket várhatunk a TextRank-től!

 

Amikor a TextRank nem olyan jó

Kedvenc ismeretterjesztő oldalunkról, a nyest.hu-ról a Léghajóról a finnugorok című cikket vizsgáltuk. Ennek szógráfját Gephi-ben is megjelenítettük vizualizációt kedvelő olvasók miatt. Ezt kaptuk:

nyest_graph.PNG

Kulcsszavaink nem a legjobbak:

jegyeinek
Sziktivkar Jakutszk
budapesti finnugor
monstrum
olimpiai
Szamojlovicsot Szamojlovics
interneten
Petrozavodszk
nyugalmazott
lovagrend mamelukot

Ahogy látszik, nem vetettünk be semmilyen nlp-trükköt, nincs szótövezés, normalizálás és egyéb bevett megoldás. Ennek oka naivitásunk; reménykedtünk hogy ezek nélkül is kaphatunk jó eredményt. A cikk összefoglalója már valamivel jobb, de nem az igazi.

 

Tallinn ‒ a Graf Zeppelin és a Niguliste kirik (Miklós-templom) (Forrás: www.netikka.net) A Graf Zeppelin Tallinn és Helsinki fölött Az LZ 127-es 1930 őszén körbejárta a Baltikumot és Skandináviát.A Graf Zeppelin építése Friedrichshafenban (Forrás: www.airships.net) 1928-ban készült el az LZ 127 jelű léghajó, a Graf Zeppelin .A Graf Zeppelin utaskabinjának alaprajza (Forrás: www.airships.net) A Graf Zeppelin Budapesten 1929 őszén az LZ 127-es a Balkánra indult.A Graf Zeppelin 1931 szeptemberében, északi felfedező útja során is átlebegett Tallinn és Helsinki egén.A Parlament fölött (Forrás: www.fortepan.hu) A Graf Zeppelin világkörüli útja 1929 augusztusában az amerikai Lakehurstből indulva az LZ 127-es körbelebegte a világot.

Van remény!

Az index.hu A láthatatlan sejk, akitől retteg a világ című írását a TextRank sokkal jobban elemzi. Kezdjük a szógráffal!

index_graph.png

A kulcsszavak már jobbak, de még nem az igaziak (nem fogjuk megúszni az nlp-magic bevetését...).

mindenki
nyugaton csoportokkal
elfoglalt elfoglalt
muszlimokat
muszlimok
muszlimoknak harcosokat
keresztre amerikaiak
egyiptomi
hadsereg
beduinok

Az összefoglaló is egész tűrhető:

Az al-Kaida vezetője, az egyiptomi származású, eredetileg szemsebész Ajman al-Zavahiri azt várta volna al-Bagdaditól, hogy maradjon ki a szír konfliktusból, és csak Irakban tevékenykedjen, de Bagdadi dacolt állítólagos főnökével, így a szervezetét engedetlensége miatt végül ki is zárták az al-Kaidából februárban.Iszlám Gigaállam: az előző részek tartalmából Az Abu Bakr al-Bagdadi-vezette dzsihádista ISIS (Iraki és Levantei Iszlám Állam, újabban egyszerűen Iszlám Állam) önálló iszlám kalifátus létrehozását jelentette be Irak és Szíria területén, a szíriai Aleppo és az iraki Dijála kormányzóság közötti területen, ami egyébként kétszer akkora, mint Izrael.De még ha össze is omlana az iraki vezetés, esélytelen, hogy az ország síita többsége elfogadja, hogy egy dzsihádista állam kikiáltotta magát az ország északi részén.A kalifátus kikiáltásának egyértelmű az üzenete: al-Bagdadi Mohamed próféta utódjának és ezáltal az iszlám világ egyetemes vezetőjének tartja magát, akit minden muszlimnak kötelessége követni.Ajman al-Zavahiri Bagdadi nem csak kegyetlenségéről és radikalizmusáról ismert: nagyon jó szervezőnek és stratégának tartják, fiatalsága révén is imponál sok fiatal dzsihádistának, akik az óvatos és kevéssé karizmatikus al-Zavahirit túl öregnek tartják, és akár még kamaszok sem voltak a szeptember 11-ei merénylet idején.

 

Ez van!

A TextRank mint nem-felügyelt módszer a kivonatolás során meglepően jól teljesít! Még akkor is elfogadható kivonatokat készít, ha nem vetjük be az nlp fegyvertárat. Ugyanakkor a kulcsszavazás során nagyon rossz eredményeket kaptunk, ezért már az első körben a TextRank paper-t követve szűrtünk főnevekre és melléknevekre - és még ekkor sem muzsikált szépen az eljárás. A a hatékonyságot nagyban növeli a szótövezés bevetése, de használhatósága így is korlátozott marad a kinyert kulcsszavaknak.

 

Érdekes, hogy a TextRank - a pár magyar példán bevetve - is azt mutatja, a szavak és a mondatok önmagukban csak dolgok, egymáshoz való viszonyaikban léteznek. Sajnos úgy viszonyulnak össze-vissza a különböző szintek, hogy csak nehezen tudjuk őket megérteni és algoritmikusan kezelni....

2 komment • Kövess Facebookon • Iratkozz fel értesítőre

Good Math - logika, számításelmélet és matek érdekesen tálalva

2014.07.02. 13:27 Szerző: zoltanvarju Címkék: matek könyvajánló logika számítástudomány

Mik is azok a számok, mi az a Turing-gép, milyen problémákat tudunk számítógépek segítségével eldönteni? Megannyi nehéz kérdés, melyekre egy rövid könyvben találjuk meg a válaszokat. Mielőtt azt hinné valaki, hogy ez bizony nehéz olvasmány lesz, megnyugtatunk mindenkit; józan paraszti észnél több nem kell ahhoz, hogy ezen problémákon elgondolkodjunk a Good Math, A Geek's Guide to the Beauty of Numbers, Logic, and Computation segítségével.

good_math.jpg

Akit szimplán csak érdekel a számítástudomány és a matematika kapcsolata, az nem fog csalódni! Mark Chu-Carrol Good Math, Bad Math blogjának olvasói azonban tudják, a szerző szereti kódokkal is megtámogatni mondandóját, s a kötetben sincs ez másképp. Nincs minden fejezetben kód, sőt, alig-alig akad benne ilyen, de ahol van, ott nagyon jól illeszkedik a tartalomhoz. Persze azok akik nem szeretnek, vagy nem tudnak programozni nyugodtan átugorhatják azt a néhány kódolós részt, nem veszítenek semmit. És ez a legjobb a kötetben! Egyrészt olvasható úgyis, mint egy ismeretterjesztő könyv. Másrészt egy amolyan útmutató a manapság divatos témák között, típuselmélet, lambda kalkulus, Turing-gépek, véges állapotú automaták és a bestiárium összes alakja felsorakozik benne, de egyáltalán nem rémisztő alakban. Az egyes fejezetek alig pár oldalasak, könnyen olvashatóak, azonban mint minden matek/technikai könyv esetében illik időt szánni a felvetett problémák megemésztésére.

 

A funkcionális nyelvek iránt érdeklődőknek ez a könyv kötelező darab, mindenki másnak pedig remek szórakozást jelenthet eltölteni vele pár órát. Egyedül a Kindle verzióval van problémám, ami nem barátja a matematikai képleteknek, kódrészleteknek és a nagyobb ábráknak. Ajánlott az elektronikus verziót közvetlenül a kiadótól megvásárolni, mivel nem kérnek külön pénzt a különböző formátumokért.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

NLP matiné slideok

2014.06.29. 17:31 Szerző: zoltanvarju Címkék: Neticle nyest.hu Precognox Gravity Meltwater PPKE ITK Nyelvtechnológiai Labor Radoop RapidMiner

A héten zártuk a meetup szezont, szeptemberig most elvonulunk pihenni. Addig pedig itt vannak az NLP matiné slideok, tessék szépen átnézni ezeket, sok cégnél akad nyitott pozíció!!!!!

 

Gravity R&D Zrt. 

Meltwater

 

Precognox

 

MTA-PPKE Magyar Nyelvtechnológiai Kutatócsoport 

 

Neticle

 

 Radoop (RapidMiner)

 

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre