HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (8) adatbányászat (11) adatelemzés (9) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (19) alternatív (6) alternatív keresőfelület (28) analitika (6) beszédtechnológia (13) big data (55) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (18) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) Facebook (9) facebook (8) gépi tanulás (18) google (59) Google (33) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) intelligens keresés (6) internetes keresés (35) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (87) kereséselmélet (8) keresési felület (6) keresés jövője (57) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (16) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (8) különleges keresők (7) kutatás (9) LDA (10) lda (10) live (13) machine learning (9) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (19) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP (8) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (32) nyelvtechnológia (76) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (65) Precognox Labs (14) Python (14) R (19) spam (6) statisztika (12) számítógépes nyelvészet (9) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (7) szövegbányászat (22) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (20) topik modellek (6) Twitter (18) twitter (15) vállalati kereső (7) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Hasonlítsd össze a keresőket vaktesztben!

2010.02.03. 15:33 Szerző: Kereso75 Címkék: keresők összehasonlítása

Már korábban írtam arról, hogy a keresők között koránt sincs akkor különbség, mint az a piaci részesedés alapján várnánk. Egy angol nyelvű kísérletben a Google, Yahoo és Bing összehasonlításban 41, 31, 28 százlékban tartották legjobbnak az egyes keresők találati listáit, amikor nem láthatták annak logóját.

Jó hírem van Szabó Gábor vette a fáradtságot és készített egy Facebook alkalmazást, amivel 5 keresési kifejezéssel lehet tesztelni 5 magyarországi kereső találati listáját. Kellő számú kipróbáló után, az eredményeket blogján fogja közzé tenni.

Kérlek segítsetek ti is a tesztben!

 

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

3 komment • Kövess Facebookon • Iratkozz fel értesítőre

Mitől szemantikus egy kereső?

2010.02.03. 13:37 Szerző: siklosib Címkék: keresés problémái szemantikus kereső szemantikus keresés kereséselmélet Precognox

Érdekes és aktuális kérdés ez, ahogy a KeresőVilágban a Szörcs készítőivel készült interjú során is felmerült, majd az erre válaszként készült írás is ezt boncolgatja.

A Seologik I blog szerzői fogalmazásában a szemantika:

A szemantika a természetes nyelvi jelentés vizsgálatával foglalkozó tudományág, a nyelvészet egyik részterülete. A szemantikai elméletek egyik alapelve az, hogy bármely a természetes nyelvi kifejezés jelentése meghatározható az alkotórészeinek jelentéseiből és azok kapcsolódási módjából - ez a kompozicionalitás elve . A jelentés ilyen felfogása kizárja a vizsgálódásból a metaforikus - pl.:az asztal lába -, idiomatikus és egyéb nem-kompozicionális jelenségeket. A szemantika tárgya lehet a mondatok jelentésváltozásainak vizsgálata - klasszikus és egyéb, kiterjesztett predikátumlogikák -, valamint szintén a szemantika tárgykörébe tartozik a szó és morféma tulajdonságok vizsgálata, valamint a lehetséges összetételek elemzése is - ez a lexikai szemantika.

A szemantika kifejezést sokan, sokféleképpen értelmezik és alkalmazzák, még a nyelvészetben is, de az biztos, hogy a jelentése jelentés, tehát természetes nyelvek esetén a szavak, mondatok jelentésére vonatkozik – ami persze újabb nyelvészeti-filozófiai kérdés, hogy minek mi a jelentése.

Informatikai területen a szemantika a „jelentéssel bíró számítások” megfogalmazást kaphatná: a nyelvtechnológia eszközeinek alkalmazása az információ kinyerés, adatelemzés, stb támogatására, melynek során a számszerű és a rendezetlen információ kerül feldolgozásra. Minden bizonnyal ez a terület még nagyon kezdetleges, kialakulóban lévő tudomány, így definiálni sem könnyű.

A keresés és az ebben az értelemben tekintett szemantika már közelebb áll egymáshoz, hiszen mindkettő célja hasonló: az információ megtalálásának és felhasználhatóságának egyszerűsítése.

Seth Grimes a keresés és a szemantika közös megközelítésének 11 módját sorolja fel:

  • kapcsolódó keresések felajánlása, keresett kifejezések javítása
  • definíciók, referenciák megjelenítése egy keresett kifejezésre
  • szemantikailag annotált eredménymegjelenítés, a releváns információk kiemelése
  • hosszabb szöveg alapú keresés
  • szemantikai/szintaktikai annotációval támogatott keresés
  • fogalmi keresés taxonómiák alkalmazásával
  • ontológia alapú keresés
  • szemantikus web technológiáinak kihasználása
  • előre definiált kategóriák szerinti eredménymegjelenítés
  • eredmények klaszterezett, csoportosított megjelenítése
  • természetes nyelvű kereső kérdések megválaszolása

Ezek közül a jellemzők közül természetesen nem mindegyik található meg az ún szemantikus keresőkben. A kapcsolódó keresések, javítások például szinte mindenhol rendelkezésre állnak, míg a szemantikus web technológiák lassú elterjedése miatt ez ritkábban fordul elő. A különböző nyelvi feldolgozások szinte minden esetben szükségesek, ezeket a Precognox keresési megoldásai is alkalmazzák.

Kétségtelen, hogy mindezen jellemzők segítenek abban, hogy a keresés a nyelvi értelmezéshez, emberi „jelentésfeldolgozáshoz” mindinkább közelebb kerüljön még akkor is, ha ezek együttes érvényesülése sem tenne eleget a nyelvészetben értelmezett szemantika kritériumainak.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

1 komment • Kövess Facebookon • Iratkozz fel értesítőre

Keresőbarát honlapok: Használj UTF-8 kódolást a lapodhoz!

2010.01.29. 08:16 Szerző: Kereso75 Címkék: magyar keresés problémái indexelés

A hivatalos Google blog tegnapi bejegyzésében ír arról a pozitív folyamatról, hogy szépen növekszik az Unicode (UTF-8) kódolású oldalak száma az indexükben a többi rovására. Ez mindenképpen pozitív fejlemény, hiszen nagyon sok kellemetlen meglepetéstől megkímélhetjük mind magunkat, mind a keresők készítőit, ha ezt használjuk.

Használj UTF-8 kódolást a lapodhoz! Mindenkinek jobb lesz.

Hogyan  lehet ezt beállítani. A lap head részében levő helyezd el ezt egy meta tagben, és az oldal mentése során persze állítsd be, hogy UTF-8 kódolással kerüljön mentésre:

http-equiv="Content-Type" content="text/html; charset=utf-8" 

forrás: Google blog

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

2 komment • Kövess Facebookon • Iratkozz fel értesítőre

Hogyan készült? A Szörcs

2010.01.28. 15:52 Szerző: Kereso75

Sajtos Istvánt és Tóth Benedeket, a nemrégiben elindult Szörcs vezető fejlesztőit kérdeztem, olyan témákról amik talán eddig nagyrészt kimaradtak a velük kapcsolatos híradásokból.

A blogotokon írjátok, hogy a szörcs "erősen szemantikus felépítésű". Miben szemantikus?

Sajtos István: Sokat dolgoztunk rajta, hogy felismerje az ismétlődő mintákat és az adott oldalon elvárható elemeket. Automatikusan kategorizáljuk az oldalakat típus szerint. Felismerjük, hogy az adott találat például egy blogposzt, vagy egy linkgyűjtemény. Innen már nekiállhat értékeket keresni: egy cikknél a szerzőt, keletkezés idejét, címét, kapcsolódó képeket, egy webáruháznál az árat, a termék nevét, ha a termék könyv, akkor az ISBN azonosítót is elmenti.

Rengeteg ilyen lehetőség van és nagyon jól működik a találati lista pontosításánál és szeretnénk, ha a jövőben ezek az információk a találatok megjelenítésénél is szerepet kapnának.

Milyen magyar nyelvi eszközöket alkalmaztok? Milyen sajátos nyelvi jelenségek kezelésére vagytok képesek?

SI: A szótövezésben jó a Szörcs, de ez ma már alapfeltétele egy jól működő keresőnek.
Amire büszkék vagyunk, hogy gépileg tudunk mondatot elemezni. Tudjuk egy szóról, hogy milyen szerepet lát el, egy nagyon összetett mondatban is. Alany, tárgy, állítmány és társaik. Ha ezeket vegyítjük kiterjedt értelmező, szinonima és asszociációs szótárakkal, akkor meglepően pontos szövegelemzést tudunk csinálni, ami nagyszerűen felhasználható a találatok rangsorolásánál.

Szintén a blogon olvastam, hogy a keresések során nem csak a magyar oldalakat tekinti eredménynek, hanem azokat a külföldi oldalakat is, amelyeken magyar tartalom van. Ez egyelőre nem igazán működik jól, illetve a fordított irány működik kevésbé. Ha angol szóra keresek, sok külföldi oldal jelenik meg angol tartalommal...

Tóth Benedek: Igen, ez olyan téma, ahol igazából nem a nyelv felismerése a probléma, hanem hogy eldöntsük, hogy mikor érdemes külföldi tartalmat megjeleníteni.

Alapszabály, hogy a magyar tartalmakat preferáljuk. De egy olyan keresésnél például, hogy "twitter" vagy "ford" messze nem annyira egyértelmű, hogy az angol nyelvű hivatalos oldal hova kerüljön. Ez ugyancsak változatos oldaltípusoknál. Egy videónál nem szükséges a youtube oldalt hátrasorolni például csak azért mert nem magyar. De a CNN hátrébb kerül mindenképpen.


Hogy tudjátok megtalálni a nem magyar domainen levő magyar tartalmakat? pl blogok a blogspoton

TB: Sokat keresgélve :) Első sorban a magyar oldalakról linkelt tartalmat követjük. Ha egy oldalt nagyon gyakran linkelnek itthonról, akkor vesszünk a fáradtságot, és az összes oldalt felindexeljünk ami ahhoz a domainhez tartozik. Nagyon kevés magyar oldalra nem lehet így eljutni.

Tetszik a trendek funkció használata során az eredmények előtt megjelenő címke sor. Ezek az eredményekből automatikusan generálódnak? Az általános keresésnél nem kaphatnánk egy ilyet?

SI: Maguk a címkék és az egész trend oldal automatikusan generálódik, de ha az algoritmus nem biztos a dolgában, akkor szól a szerkesztőségnek, aki jóvá hagyja a trend kipublikálását.

Az általános keresésnél az ajánló is hasonlóan működik mint a trend címkesor, csak kicsit más szempontokat veszünk figyelembe, mert inkább a keresés pontosítása és szűkítése a cél. Gondolkozunk rajta, hogy hogyan segíthetnénk címkézéssel a hasonló és szomszédos tartalmak keresését, és eddig egy ilyen asszociációs gráf tűnik a megfelelő fejlesztési iránynak. Lesznek ilyen fejlesztéseink és kísérleteink, mindig is érdekes és megoldandó kihívásként tekintettünk a gépi asszociációt.

Mik voltak technikai oldalról a legnagyobb nehézségeitek a fejlesztésben?

SI: Egyrészt eleinte nagyon sok hardveres problémánk volt, igazából nem voltak meg a megfelelő feltételek ezen a téren és eléggé trükköznünk kellett.

A másik jelentős probléma pedig természetesen az óriási adatmennyiségből fakad. Van néhány művelet, amit ennyi adaton egyszerűen nem lehet megoldani. Nem is maga a keresés okoz problémát, de ha változtatni kell valamit az adatbázisban sokszor rutin dolgok is óriási problémát jelentenek.

Érdekes háttértörténet, hogy egy új paramétert szerettünk volna kiszámoltatni, amely sokat segített később a relevancia megállapításában. De körülbelül 2-3 hét alatt futott volna le az akkor rendelkezésre álló hardveren a számítás. Ekkor az egyik kollégánknak az az ötlete támadt, hogy segítsenek be a laptopjaink és otthoni számítógépeink. Megírtuk a programot, ami futtatta a számítást, és elküldtünk egy tucat ismerősnek is. 13 napot sikerült spórolni ezzel az ötlettel.

Hogyan tovább?

TB: Sok-sok meglepetéssel készülünk, de elsősorban a keresési találatok minőségén szeretnénk nagyon sokat javítani és vannak kissebb hiányosságok, hibák amiket szeretnénk megoldani.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

3 komment • Kövess Facebookon • Iratkozz fel értesítőre

Nem hivatalos vélemények. Miért érdemes fórumkeresőt használni?

2010.01.20. 08:19 Szerző: Kereso75 Címkék: fórumkereső vertikális kereső johu

Téli Sándort a Fórumkereső egyik fejlesztőjét kérdeztem abból az alkalomból, hogy a Fórumkereső elérhetővé vált az általunk fejlesztett Johu keresőben is.

Miért érdemes egy fórumkeresőn keresni, szemben egy általános keresővel?

Elsősorban azért, mert az általános keresők nem tudják a fórumokat kereshetővé tenni (még megközelítőleg elfogadható mértékig sem). Erre a feladatra specializált crawler-ekre van szükség. Minden egyes fórumra speciálisan készítjük el ezeket. Másodsorban pedig az általános keresők még azt a kevés kis tartalmat sem tudják megfelelően megjeleníteni, amit sikerül kigyűjteniük a fórumokból. Pl.: Nem ismerik a „hozzászólás” fogalmát sem. Ha egy találatra rákattintunk, egy komplett oldalnyi hozzászólás jelenik meg és nem görget oda a böngésző az általunk keresettre, legtöbb esetben pedig olyan találati oldalt jelenít meg, amin már egyáltalán nem szerepel a kérdéses hozzászólás. A forumkereso.hu pedig hozzászólásokat és témákat (topikokat) is ismer, valamint ezekre kattintva mindig pontosan az jelenik meg, amire kerestünk (akár egy több tízezer hozzászólásból álló oldalon is odagörget, ahol az adott hozzászólást találjuk). Ez a technikai/kényelmi oldala.

Milyen jellegűek azok a témák, ahol többet ad egy fórum, mint egy másik weboldal?

Ez talán a legfontosabb kérdés. Nem is igazán többet ad, hanem sokkal őszintébbet és életszerűbbet. Ha pl. rákeresel kétféle típusra ugyanabból a termékcsaládból, akkor egy általános keresővel biztos, hogy több oldalnyi marketing anyagot és webshop-ot találsz, ami azt ecseteli, hogy mindkét termék mennyire tökéletes.

A fórumkeresőn viszont azt fogod olvasni, hogy az egyikkel rengeteg probléma van, a másikkal pedig sokkal kevesebb. Ennek oka egyszerűen az, hogy a fórumokat olyan magánemberek írják, akik már előtted jártak ugyanabban a cipőben, amiben most te jársz. A web pedig tele van marketinggel, ami sok mindent elfed.

Persze nem csak termékekre igaz ez. Társadalmi kérdésekben, egészséggel kapcsolatos kérdésekben és gyakorlatilag minden témában nagyon hasznos magánemberek véleményei között keresgélni. Az adatok mennyisége pedig óriási. Bőven túlvagyunk már a 100millió kereshető hozzászóláson.

Jobban keresitek magukat a fórumokat is, vagy csak egyszerűen szűkebb az oldalak köre és azért pontosabb? 

Ahogy az előzőekben említettem, speciális crawler-t készítünk minden egyes fórumhoz, ami komoly munka. Még emberi erővel is, külön tesztelgetve/kódolva. Ahhoz, hogy egy általános kereső akár csak hasonló pontossággal tudjon téma (topic) és hozzászólás (post) szinten kigyűjteni tetszőlegesen kiválasztott fórumból, ahhoz nagyon komoly algoritmus kellene, amit még egyetlen keresőben sem láthatunk.

Mely fórumokban keres egyébként? Lehet hozzáadni új fórumot is, ha valaki szeretne?

Jelenleg a következő fórumokban keres a fórumkereső: Index, HWSW, Nők Lapja Café, PC WORLD, Terminal, AVX, SG.hu, Párom.hu, HardwareOC, Prohardver.

A fórumok hozzáadása komoly munka. Mivel minden fórumhoz speciális crawler-t készítnünk, ezért a legnépszerűbb fórumokra kell koncentrálnunk. Szeretnénk a jövőben kisebb fórumokat is indexelni (mert a speciális tartalmak nagyon értékesek), de ennek menetét nem könnyű kidolgozni. Ez még előttünk álló feladat. Akárcsak a mostani trendek szerint egyre fontosabbá váló realtime keresés irányába alakítani a Fórumkeresőt is, hiszen a Twitter és a blogok mellett a szélesebb internet felhasználói réteg vélemény nyilvánítása többnyire még mindig a fórumokban zajlik. Célunk, hogy a  jelenlegi napi egyszeri frissítés helyett a Fórumkereső is realtime indexelje a fórumokat.

Mennyire tud a kereső magyarul?

Jelenleg pontosan arra keres, amit beírtunk, de támogatja a * (csillag) jel használatát, amivel a gyakorlatban nagyon jól el lehet boldogulni a speciális nyelvi támogatás hiánya ellenére is. (pl. macska*)

Persze elegáns lenne bevezetni nyelvi támogatást is, ami elképzelhető, hogy a jövőben meg fog történni.

Miért éri meg ez nektek? Kik csináljátok az oldalt? Mivel foglalkoztok egyébként?

Téli SándorAnyagilag nem éri meg. Éppen fenntartja magát az oldal. Azok a tapasztalatok azonban nagyon értékesek, melyeket a forumkereso.hu eddigi 4-5 éve alatt szereztünk (fejlesztés, üzemeltetés, kapcsolatok). Valamint szakmai sikerként éltük meg, hogy a régió legnagyobb fóruma, az Index.hu fórumok beválasztott minket beépített keresőnek szolgáltatásunk minősége és sebessége miatt. 2007 óta minden oldalukon megjelenik a fórumkereső doboz.Juhász Attila

A szolgáltatást ketten csináljuk: Juhász Attila kollégám (elsősorban a sokat emlegetett speciális crawler-eket készíti és az üzemeltetést látja el) és jómagam (Téli Sándor; elsősorban az indexelő-keresőt és a weboldalt készítettem). Persze egy ilyen szolgáltatás sok minden más apróbb dologból is áll, amiket szintén mi készítünk/látunk el ketten.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

11 komment • Kövess Facebookon • Iratkozz fel értesítőre

süti beállítások módosítása