HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (8) adatbányászat (11) adatelemzés (9) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (19) alternatív (6) alternatív keresőfelület (28) analitika (6) beszédtechnológia (13) big data (55) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (18) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) Facebook (9) facebook (8) gépi tanulás (18) google (59) Google (33) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) intelligens keresés (6) internetes keresés (35) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (87) kereséselmélet (8) keresési felület (6) keresés jövője (57) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (16) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (8) különleges keresők (7) kutatás (9) LDA (10) lda (10) live (13) machine learning (9) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (19) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP (8) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (32) nyelvtechnológia (76) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (65) Precognox Labs (14) Python (14) R (19) spam (6) statisztika (12) számítógépes nyelvészet (9) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (7) szövegbányászat (22) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (20) topik modellek (6) twitter (15) Twitter (18) vállalati kereső (7) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Blekko, a hű vadászkutya

2010.11.02. 10:21 Szerző: Vajda Gábor (Gabor_V) Címkék: tag blekko slashtag vertikális keresés

Napjainkban az Internetes keresés egyik legnagyobb rákfenéje a spamek megnövekedett száma. Szinte kategóriától függetlenül vezethetik a keresőszoftverek a gyanútlanabb felhasználókat olyan oldalakra, melyek valójában csak csaliként használják a keresett terminusokat, hogy saját magukat reklámozzák, még akkor is ha egyébként semmi közük a keresés céljához, pusztán előfordul a kifejezés az adott oldalon.

A Blekko nevezetű, 24 millió dollárnyi tőke bevonásával készülő, egyelőre még béta állapotban létező kereső ezt próbálja kiszűrni az ún. "slashtag"-elés segítségével. A slashtag olyan egyszerű tag, amit leginkább Twitter-bejegyzésekhez szoktak csatolni a szerzők, melyek megjelenhetnek egy "/" vagy egy "#" karakter-előtaggal, mint pl. "#vorosiszap", így az visszakeresésre alkalmas lesz, de legfőként a téma szempontjából releváns, hiszen maga az alkotó teszi azzá, úgy, hogy a hozzászólás témája esetleg konkrétan nem is jelenik meg a szövegben, pl. "Takarítják az utcákat. #vorosiszap". Egy "#vorosiszap" slashtagre való keresés pedig az összes, így megjelölt találatot kiadja.

A Blekko újítása mindebben az, hogy ugyanezt az elvet weboldalakra alkalmazza, és a legnagyobb keresési kategóriákhoz már automatikusan ragaszt slashtageket - úgy, mint: egészségügy, főiskolák, autók, személyes pénzügyek, dalszövegek, receptek és hotelek -, így a spameket már sikerrel ki tudja szűrni a találati listában.

Az eddig megszokott horizontális keresési metódushoz így hozzátesz egy vertikális dimenziót. A szimpla horizontális keresés útján pusztán a szavakra koncentrálunk, annak használatától, szövegkörnyezetétől függetlenül. Olyan ez, mintha elmennénk viharos időben vadászni, és mindenre lőnénk ami mozog. A Blekko az új dimenzió, a slashtagek hozzáadásával olyan, mintha vadászkutyát is vinnénk magunkkal. Megtalálja a vadra / találati oldalra jellemző nyomokat / slashtageket, így vadászatunk / keresésünk lényegesen hatékonyabb lesz.

A fejlesztők és a bétatesztelők jelenleg slashtagek létrehozásával terjesztik ki a kereső hatékonyságát, a rendszer sikerét pedig jól mutatja, hogy a felhasználók 11%-a heti rendszerességgel visszatér.

Használata rendkívül egyszerű, a legnépszerűbb slashtageket külön oszlopba gyűjti, így azokra csak rá kell kattintani, ha hozzá akarjuk tenni keresett kifejezésünkhöz, de fel is kínálja a begépeléskor a tag-hozzáadásokat. A legnagyobb ketagóriákban egész hatékonyan működik, nem sikerült belefutni reklámokba, a slashtagek kiterjesztésével egészen személyre szabott kereséseket lehet majd végrehajtani.

Felhasznált források:

Mashable

Search Engine Lab

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Kereső tanfolyam - 3 .Különféle keresők (2.)

2010.10.25. 14:00 Szerző: siklosib Címkék: internetes keresés keresők összehasonlítása kereső tanfolyam

Collecta

Ez egy viszonylag új, még béta-állapotú szolgáltatás, amely a real-time (vagyis: valósidejű) keresők közé tartozik. A közvetlen üzenetváltásra kidolgozott XMPP protokollt használja arra, hogy gyorsan változó, frissülő tartalmakat gyűjtsön össze különböző blog, mikroblog, kép- és videomegosztó, valamint közösségi szerverekről. A Collecta gyakorlatilag másodperceken belül kereshetővé teszi az ezeken megjelenő újdonságokat, és nem relevancia szerint, hanem időrendben adja a találatokat, egy folyamatosan frissülő listában. Egészen más módon működik tehát, mint a hagyományos keresők: nem arra szolgál, hogy megtaláljunk valamilyen információt/témát, hanem hogy figyelemmel kísérjük, hogy egy adott témával/eseménnyel kapcsolatban éppen most mi történik a világban.

A kezdőlapon az aktuálisan legnépszerűbb témák közül válogathatunk, vagy beírhatjuk a keresőkérdésünket. (A korábbi kérdéseink megmaradnak a keresősor alatt, így később is előhívhatók.) A keresés elindítása után a bal oldali panelen kapcsolhatjuk ki és be, hogy milyen típusú forrásokra vagyunk kíváncsiak, a középső oszlopban pedig elkezdenek sorjázni a találatok. Ha túl gyorsan jönnek, akkor a pause gombbal megállíthatók, majd újraindíthatók és visszagörgetésre is van lehetőség az Older Results gombbal. A jobb szélső hasábban pedig magát az üzenetet, blogbejegyzést, vagy képet láthatjuk, amennyiben rákattintunk valamelyik találatra. Ezt azután egy-két kattintással meg is oszthatjuk másokkal a legnépszerűbb közösségi site-okon (pl. Facebook, Delicious).

A Collecta egy widget-et is biztosít, így egy folyamatosan működő "hírügynökséget" építhetünk be a weblapjainkba, mely az általunk megadott témában percrekész információkat szállít.

Europeana

Az "Európai Digitális Könyvtár" néven is emlegetett szolgáltatás 2008. november 20-án nyílt meg, azzal a céllal, hogy egy helyen tegye elérhetővé az európai uniós országok kulturális és tudományos jellegű digitális dokumentumainak minél nagyobb részét.

A Europeana az OAI protokollt használja arra, hogy összegyűjtse a különböző digitális gyűjtemények (rendszerint Dublin Core alapú) metaadatait - tehát magukat a dokumentumokat nem gyűjti be és nem indexeli le, mint a szokásos webkeresők, hanem csak azok leíró adatait, majd pedig linkekkel kapcsolja hozzájuk a dokumentumokat az őket szolgáltató eredeti szerverekről.

Mivel jelenleg csak a partnerként csatlakozott közgyűjtemények - rendszerint gondosan elkészített - rekordjait "aratja le", ezért nagyon jó találatokat ad - igaz jóval kisebb halmazból mint az általános webes keresők. 2010 elején a katalógus kb. 6 millió dokumentum adatait tartalmazta, ezt még ebben az évben 10 millióra tervezik növelni. A kínálat a könyvtárak, levéltárak, múzeumok és audio-vizuális archívumok gyűjtőkörét tükrözi, nagyrészt már nem jogvédett, régi anyagok közt lehet itt válogatni.

A keresőfelület 26 nyelven áll rendelkezésre, köztük magyarul is. A kezdőlapról elérhető gyorskereső valamennyi adatmezőben keres, így meglehetősen "zajos" találatokat ad. Az Advanced search űrlap már több lehetőséget kínál: mezőszűkítés, logikai műveletek, kifejezések keresése idézőjelek közt (joker-karakterek nem használhatók sajnos). A találati listánál nyelv, ország, dátum, szolgáltató és dokumentumtípus (szöveg, kép, videó, hang) szerint lehet tovább szűkíteni a halmazt.

Ha regisztráljuk magunkat, akkor a My Europeana menüpont alatt belépve lehetőségünk van elmenteni kereséseket, illetve a számunkra fontos tételeket könyvjelzővel vagy címkékkel ellátni. A ThoughtLab feliratra kattintva egy fejlesztés alatt levő szemantikus keresőt is kipróbálhatunk, melynek adatbázisa jelenleg három múzeum mintegy 140 ezer képét tartalmazza, és a találati eredményeket képes klaszterezett formában megjeleníteni, továbbá a GoogleMaps térképére vetíteni, illetve diagramokat készíteni az eredményhalmaz adataiból. Van továbbá egy Timeline nevű keresőfelület is, amely időskála mentén mutatja a találatok képeit.

Internet Archive

Az 1996-ban San Francisco-ban alapított non-profit szervezet a weblapok tartalmának indexelése vagy a digitális dokumentumok metaadatainak összeszedése helyett a weboldalak és dokumentumok tényleges begyűjtését és archiválását választotta céljának, hogy egy "Internet Library"-t építsen belőlük. A web aratását az Alexa cég végzi számukra, onnan veszik át és jelentetik meg a Wayback machine nevű szolgáltatásukban, legalább 6 hónapos késéssel.

Emellett más szervezetekkel - köztük tömeges digitalizálást végző könyvtárakkal - is együttműködnek, valamint magánszemélyek feltöltéseit is elfogadják, így a jelenleg mintegy 150 milliárd lapot tartalmazó web-archívum mellett egy 2,5 milliós szöveggyűjteményt, egy 400 ezer tételes filmarchívumot, valamint kb. 710 ezer hangfelvételt és élő koncertfelvételt, és több mint 33 ezer féle szoftvert is szolgáltatnak. A web-archívum már 2 petabyte méretű és havonta 20 terabyte-tal növekszik. Segítségével olyan tartalmakhoz is hozzáférhetünk, amelyek már régóta eltűntek az "élő" webről.

Sajnos csak URL cím szerinti keresés van, magukban a weblapok tartalmában nem tudunk keresni - bár ezt a lehetőséget évek óta ígérik az IA működtetői. Az URL-kereső lehetőségeit az Advanced Search oldalon ismertetik (érdekes funkció például ugyanazon weboldal két különböző állapotú mentésének összehasonlítása). Mivel a központi archive.org szerver rendszerint leterhelt és lassú válaszidőket produkál, ezért érdemesebb lehet az International School of Information Science gépén levő másolatot használni, amely az 1996-2007 közötti mentéseket tartalmazza.

Könyvtári szempontból különösen érdekes az IA digitális könyvgyűjteménye, amely a legnagyobb digitalizáló projektek (pl. a Google, a Microsoft, vagy a Yahoo által szponzorált programok, illetve a Universal Library Project/Million Books Project vagy a Project Gutenberg) anyagát teszi együtt kereshetővé és letölthetővé (köztük sok magyar vagy magyar vonatkozású könyvet is). Az egysoros gyorskereső mellett itt is van egy Advanced Search űrlap, amivel bármilyen metaadatra rákereshetünk (teljes szövegű keresés itt sincs). Viszont mivel a könyvek sokféle forrásból származnak, ezért számításba kell venni, hogy a metaadatok is nagyon vegyesek: eltérő mezőket használnak az egyes gyűjtemények, ill. eltérő teljességgel és módon töltik ki ezeket. Emellett a betűhibák is gyakoriak, pl. a magyar karaktereknél, ezért érdemes többféle módon is próbálkozni és kihasználni az Apache Lucene keresőnyelv lehetőségeit.

A találati listákat többféle módon szűrhetjük és csoportosíthatjuk, és néhány további opció is megjelenik a képernyő jobb szélén (célszerű például a Turn off thumbnails-re kattintva kikapcsolni a kis animált képek megjelenítését, mert ezek eléggé lelassítják a nagyobb listák böngészését). Ha kiválasztunk egy tételt, akkor megnyithatjuk (Read Online menüpont) vagy letölthetjük azt, a részletes leíró adataitól balra eső sávban felsorolt formátumokban: rendszerint PDF és DjVu, valamint különféle e-book formátumok, illetve egyszerű OCR-es text (ez utóbbit a Google le szokta indexelni, úgyhogy a site:www.archive.org/stream opcióval lehet azért a teljes szövegben is keresni, ha nem is olyan kényelmesen, mint a Google Books-nál). A képoldalakat tartalmazó PDF és DjVu verziókban is van általában OCR-es szövegréteg, így ezeken belül is lehet keresni. Az All Files: HTTP feliratra kattintva még további fájlokhoz is hozzáférünk: pl. eredeti masterképek JPEG2000 (JP2) formátumban, ill. MARC és XML formátumú metaadatok.

Összeállította: Drótos László, Magyar Elektronikus Könyvtár

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

1 komment • Kövess Facebookon • Iratkozz fel értesítőre

Infografika: A keresés története

2010.10.22. 16:24 Szerző: Kereso75 Címkék: keresők története kereső tanfolyam

Nemrégiben jelenet meg Drótos László cikke a blogon a Keresőtanfolyam keretében a keresők történetéről. A témának egy még könnyebben emészthető formáját az Infographic Labs készítette el, persze angol nyelven.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Kereső tanfolyam-3.Különféle keresők(1.)

2010.10.11. 14:00 Szerző: siklosib Címkék: google kereső tanfolyam yippy picsearch

Google

A legnépszerűbb általános kereső a 2006-os adatok szerint 25 milliárd weboldalt, és 1,3 milliárd képet gyűjtött be és indexelt le. A jelenlegi mérete már közel járhat a 100 milliárdhoz, és 2008 közepén jelentették be a fejlesztők blogjában, hogy a link-index mérete elérte az 1 billiót, ami 1012, de ezek persze nem mind vezetnek egyedi weboldalakhoz. (A kereső a nevét egyébként a googol szóról kapta 1998 szeptemberében, ami a 10 századik hatványát jelenti a matematikai szakzsargonban.)

Ekkora adatbázisban való kereséshez már nagyon kifinomult keresőnyelv és felület kell, de tekintve hogy a felhasználók többsége nem képzett információkereső, ezeket - amennyire lehet - elrejti előlük a Google és sok mindent automatikusan, a keresett szavakat "értelmezve" és a keresőkérdést átszerkesztve végez el a háttérben. Az egysoros keresőmező a Google sikerének egyik fontos eleme volt, és a szolgáltatás ismertetője szerint még a gyakorlott használói is csak az esetek 5%-ban veszik igénybe az Advanced Search űrlap által kínált plusz funkciókat. A keresőfelület kevésbé ismert lehetőségeiről ugyanitt az Advanced Search Tips alatt tájékozódhatunk, de egy jó összefoglaló van az angol Wikipédiában is.

Érdemes magát a Google felületet is magyarról angolra váltani a Keresési beállítások alatt, mert az eredeti google.com oldalon általában több lehetőség áll rendelkezésre, mint az egyes nyelvi változatoknál, és sokszor csak itt jelennek meg a kísérleti fázisban levő fejlesztések. Például nagyon hasznos az angol űrlapnál, hogy miközben beírjuk az egyes sorokba a szavakat és beállítjuk a megfelelő menüpontokat, a felső sorban azonnal megjelennek az ezeknek megfelelő operátorok és prefixek, így könnyen megtanulhatjuk őket. Két operátor viszont nem látszik ezen az űrlapon sem: a + jel, amivel kényszeríthetjük a Google keresőjét, hogy az utána írt szó mindenképpen és pontosan a beírt formában szerepeljen a találatként visszaadott oldalakon (így olyan stopword-ökre is tudunk keresni, amiket amúgy figyelmen kívül hagyna, valamint megakadályozhatjuk a hasonló szóalakok automatikus kereséséből adódó érdektelen találatokat: pl. "koros emberek", "+kóros emberek", "+koros emberek"); valamint a * karakter, amellyel szavakat helyettesíthetünk (pl. az allintitle:Google * keresésnél elsőként a Google különböző szolgáltatásai jelennek meg).

Ezek egy része a kereséshez kapcsolódik, így érdemes megismerni őket: a Google Suggest a mások által beírt keresőkérdések és (amennyiben be vagyunk jelentkezve és a Web History funkciót engedélyeztük) a saját korábbi kereséseink alapján ajánl fel javaslatokat az egysoros keresőmező vagy a toolbar használatakor, így egyrészt gyorsíthatjuk a kérdés bevitelét, mert elég csak néhány karaktert begépelni, majd választani a listából, másrészt időnként hasznos alternatívákat fedezhetünk így fel. Persze a "gépi intelligencia" mulatságos javaslatokat is produkál néha, például az élet nagy kérdéseire.

A találati listát személyre szabhatjuk a SearchWiki és a Subscribed Links segítségével (ezt a Search settings alatt állíthatjuk be), amennyiben van Google fiókunk és be vagyunk rá éppen jelentkezve. Előbbivel a nekünk fontos találatokat csillagokkal jelölhetjük meg (korábban akár át is rendezhettük a találati listát), utóbbival pedig egyes nagyobb referenszforrásokat emelhetünk a találati listánkba (ezek a 4. helyen jelennek meg, amennyiben van onnan találat). A GoogleAlert szolgáltatással automatikus "témafigyelést" kérhetünk: a beírt keresőkérdésnek megfelelő új hírek, blogbejegyzések, weblapok, videók címeit a rendszer naponta vagy hetente elküldi az e-mail címünkre.

A Google találati listája már alapesetben is sok lehetőséget kínál (pl. automatikus fordítás, gyorsnézet vagy HTML nézet, tárolt változat (cache), hasonló oldalak), de további beállításokat is kérhetünk (Show options...), és itt a szűrők (típus, dátum, megnézett/még nem látott oldalak) mellett a lista megjelenését is módosíthatjuk (Timeline, Page previews) és egyéb segítségek is megjelennek (Related searches, Translated search). A találati lista tetején megjelenő About ... results szám egy nagyon közelítő érték (a gyorsabb válasz kedvéért a keresőszavak indexbeli gyakorisága alapján becsli meg a rendszer, vagyis nem azt számolja meg, hogy ténylegesen hány weblapon fordulnak elő), és valójában csak a legjobbnak ítélt 1000 tételt keresi ki, majd ezekből a nagyon hasonlókat törli, továbbá egy site-ról csak néhány találatot ad vissza, így a végső, végiglapozható eredménylista mindig ezer alatt van.

A központi kereső mellett a Google-t "honosíthatjuk" is: a Google Custom Search oldalon egy olyan keresődobozt állíthatunk be, amely csak az általunk megadott site-okon keres, a Google Desktop programot telepítve pedig a saját gépünkön is ugyanúgy - és csaknem olyan gyorsan - tudunk megtalálni bármit, mint a weben. Érdemes még a Google Toolbar-t is kipróbálni, mert egyéb kényelmi szolgáltatások mellett olyan keresést segítő funkciókat is tartalmaz, mint a Sidewiki vagy a Custom Buttons.

Yippy Search és Polymeta

Az eredetileg pittsburgh-i székhelyű és Clusty névre hallgató metakereső 2004-ben indult a Vivísimo cég technológiájára alapozva; majd a szolgáltatást 2010 májusában felvásárolta a floridai Yippy Inc. vállalat. A Yippy Search több webes keresőgépet (pl. Bing) és információforrást (pl. New York Times) kérdez le és az eredményeket - a duplumok kiszűrése után - összefésüli és csoportosítja, vagyis klaszterezi. Ezek a csoportok azután további alcsoportokra oszlanak (a kék + gombokra kattintva) és ezekből válogatva a felhasználó egyre relevánsabb eredményeket kap. Egyszerre csak néhány száz tételt mutat meg a rendszer, vagyis megkíméli a felhasználót a tízezres vagy milliós találati listák által okozott frusztrációtól - aki amúgy sem szokott 2-3 találati oldalnál többet megnézni. Hogy az éppen kiválasztott klaszter mely forrásokból és mennyi találatot tartalmaz, azt a details feliratra illetve a sources fülre kattintva tudjuk megnézni; a sites fül alatt pedig domain nevek szerint böngészhetjük az eredményhalmazt.

Minden találat mellett három szürke ikon van: az első új ablakban/fülön nyitja meg az adott weblapot; a második (kis nagyító képe) ugyanezt a találati listán belül teszi meg, egyfajta "gyorsnézetet" nyújtva így; a harmadikkal pedig megnézhetjük, hogy az adott találat mely klaszter(ek)ben fordul elő - ezeket ugyanis átszínezi a bal oldali hasábban.

A Yippy-vel nemcsak weblapokat, hanem híreket, képeket, blogokat, állásajánlatokat, termékeket stb. is kereshetünk, erre külön szűrők szolgálnak az oldal tetején - sőt a preferences alatt magunk is összeállíthatunk továbbiakat (természetesen csak a rendszer által lekérdezett forrásokból). A Google-szerű, mindent egyben láttató találati listákhoz képest a klaszter-technológia lényegesen hatékonyabb olyankor, amikor nem egy konkrét információt keresünk, hanem egy témában szeretnénk elmélyedni és megtalálni az azzal kapcsolatos néhány tucat igazán fontos forrást.

A Yippy keresője eszköztárként is beépíthető a böngészőnkbe, néhány ügyes funkcióval (pl. mini-módban a Google mellett másodlagos keresőként használhatjuk). Érdekes még a kísérleti állapotú fejlesztések közt a Yippy Cloud Creator, mellyel címkefelhőt készíthetünk egy általunk megadott keresőkérdés klasztereiből, és bemásolhatjuk azt a weboldalunkba vagy blogunkba. Így "előregyártott" kereséseket kínálhatunk fel különféle felhasználói csoportoknak, akik az őket érdeklő címkére kattintva megkapják a klaszterbe tartozó találatok aktuális listáját a Yippy-től.

Hasonlóan működik a magyar WebLib által fejlesztett polymeta.com kereső is. Az eredmények itt is dinamikusan létrejövő klaszterekben jelennek meg, melyek által az eredmények tövább szűkíthetők, illetve megjelenik a különböző eredmények csoportosított találati listája is (képek, hírek, stb). A polymeta.hu pedig kifejezetten magyar nyelvi feldolgozásra és magyar nyelvű találatok megjelenítésére optimalizált.

Picsearch

A 2000-ben alapított svéd vállalkozás a világ egyik legnagyobb képkeresőjét működteti az interneten. Jelenleg már több mint 3 milliárd kép adatait gyűjtötték be a webről és tették visszakereshetővé. Ebben számban a nagy képmegosztó (pl. Flickr) és más közösségi oldalak (pl. Facebook) képanyaga nincs is benne, mert a Picsearch ezeket nem indexeli le.

Ugyan maga a felület nem sok opciót kínál és a keresőnyelv szintaxisa is kimerül a + (kötelező szó) és a - (kizárandó szó) jelek használatában, de az alkalmazott - és titokban tartott - technológiának köszönhetően a találatok többnyire relevánsak, mert szigorúbban szűr a Google képkeresőjénél. A bélyegképek gyorsan megjelennek, és ha valamelyikre rákattintunk, akkor egy osztott képernyőn egyszerre látjuk a kép adatait és az eredeti weblapot, ahonnan származik. Az Advanced Search menüpont alatt néhány szűrővel tovább szűkíthetjük a találati halmazt (állóképek vagy animációk, színes vagy fekete-fehér képek, álló/fekvő téglalap- vagy négyzet-alakúak, illetve különféle méretűek). A találatokat tartalmazó táblázat tetején további kifejezéseket is ajánl a rendszer a keresés pontosításához, sőt azt is lehetővé teszi, hogy a keresőkérdésünket a leindexelt weblapok szövegében is lefuttassuk. Hasznos, bár az oldal alján eléggé eldugott, az Image Directory, ahol több ezer témakörből válogathatunk. A Picsearch keresőjét is beépíthetjük eszköztárként a böngészőnkbe.

Összeállította: Drótos László, Magyar Elektronikus Könyvtár

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

1 komment • Kövess Facebookon • Iratkozz fel értesítőre

A jövőt keressük

2010.10.05. 09:34 Szerző: siklosib Címkék: internetes keresés keresés jövője kereső szándéka

Az internetes kereséseink sokat elárulnak rólunk, arról, hogy mit szeretünk, mi érdekel minket. Ha például sokszor keresünk kínai éttermekre, akkor már csak egy lépés, hogy ebédidőben az utcán menve a telefonunk jelezze, hogy a közelben van egy nagyon jó kínai étterem, ami esetleg tetszésünkre lehet. Ez nem is volna rossz - gondolhatnánk - de vajon mennyi problémát okozna a tudat, hogy folyamatos megfigyelés alatt állunk, van "valami", ami mindent tud rólunk... A példára akár legyinthetnénk is, hogy butaság, ha nem éppen Eric Schmidt a Google vezérigazgatója mondta volna nemrégiben egy konferencián.

Talán ez még odébb van, de a kereséseink és a jövőbeli események meghatározása közötti összefüggés már a valóság. A Yahoo Labs kutatói elvégeztek egy felmérést, megvizsgálva, hogy bizonyos filmek, videójátékok vagy zenei együttesek várható népszerűsége milyen összefüggésben van az internetes felhasználók által végzett keresésekkel. Az eredmény meglepően valós volt, hiszen a hagyományos felmérésekkel egybecsengő eredmények születtek, sőt azokat akár felül is múlhatja ennek a módszernek a gyorsasága, illetve a kevésbé felmérhető helyzetekben való alkalmazhatósága. (További cikkek a felmérésről: Technology Review, ARS Technica, Reuters, BBC )

Így már csak a fantázia szabhat határt annak, hogy mire használhatóak fel a keresések során valóban tömeges mértékben megjelenő valós információk. Ha például egy film rendezője előzetesen felméri, hogy mi érdekli az embereket, akkor már eleve ahhoz igazítja a filmet és így tovább, a kör folytatódik...

Ne lepődjünk meg ezek után, ha az almás sütemény receptekről való internetes tájékozódásunk után sorban állnak az emberek az ajtónkban kóstolóért.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

1 komment • Kövess Facebookon • Iratkozz fel értesítőre

süti beállítások módosítása