HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (8) adatbányászat (11) adatelemzés (9) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (19) alternatív (6) alternatív keresőfelület (28) analitika (6) beszédtechnológia (13) big data (55) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (18) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) facebook (8) Facebook (9) gépi tanulás (18) Google (33) google (59) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) intelligens keresés (6) internetes keresés (35) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (87) kereséselmélet (8) keresési felület (6) keresés jövője (57) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (16) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (8) különleges keresők (7) kutatás (9) LDA (10) lda (10) live (13) machine learning (9) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (19) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP (8) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (32) nyelvtechnológia (76) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (65) Precognox Labs (14) Python (14) R (19) spam (6) statisztika (12) számítógépes nyelvészet (9) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (7) szövegbányászat (22) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (20) topik modellek (6) twitter (15) Twitter (18) vállalati kereső (7) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Kereső tanfolyam-3.Különféle keresők(1.)

2010.10.11. 14:00 Szerző: siklosib Címkék: google kereső tanfolyam yippy picsearch

Google

A legnépszerűbb általános kereső a 2006-os adatok szerint 25 milliárd weboldalt, és 1,3 milliárd képet gyűjtött be és indexelt le. A jelenlegi mérete már közel járhat a 100 milliárdhoz, és 2008 közepén jelentették be a fejlesztők blogjában, hogy a link-index mérete elérte az 1 billiót, ami 1012, de ezek persze nem mind vezetnek egyedi weboldalakhoz. (A kereső a nevét egyébként a googol szóról kapta 1998 szeptemberében, ami a 10 századik hatványát jelenti a matematikai szakzsargonban.)

Ekkora adatbázisban való kereséshez már nagyon kifinomult keresőnyelv és felület kell, de tekintve hogy a felhasználók többsége nem képzett információkereső, ezeket - amennyire lehet - elrejti előlük a Google és sok mindent automatikusan, a keresett szavakat "értelmezve" és a keresőkérdést átszerkesztve végez el a háttérben. Az egysoros keresőmező a Google sikerének egyik fontos eleme volt, és a szolgáltatás ismertetője szerint még a gyakorlott használói is csak az esetek 5%-ban veszik igénybe az Advanced Search űrlap által kínált plusz funkciókat. A keresőfelület kevésbé ismert lehetőségeiről ugyanitt az Advanced Search Tips alatt tájékozódhatunk, de egy jó összefoglaló van az angol Wikipédiában is.

Érdemes magát a Google felületet is magyarról angolra váltani a Keresési beállítások alatt, mert az eredeti google.com oldalon általában több lehetőség áll rendelkezésre, mint az egyes nyelvi változatoknál, és sokszor csak itt jelennek meg a kísérleti fázisban levő fejlesztések. Például nagyon hasznos az angol űrlapnál, hogy miközben beírjuk az egyes sorokba a szavakat és beállítjuk a megfelelő menüpontokat, a felső sorban azonnal megjelennek az ezeknek megfelelő operátorok és prefixek, így könnyen megtanulhatjuk őket. Két operátor viszont nem látszik ezen az űrlapon sem: a + jel, amivel kényszeríthetjük a Google keresőjét, hogy az utána írt szó mindenképpen és pontosan a beírt formában szerepeljen a találatként visszaadott oldalakon (így olyan stopword-ökre is tudunk keresni, amiket amúgy figyelmen kívül hagyna, valamint megakadályozhatjuk a hasonló szóalakok automatikus kereséséből adódó érdektelen találatokat: pl. "koros emberek", "+kóros emberek", "+koros emberek"); valamint a * karakter, amellyel szavakat helyettesíthetünk (pl. az allintitle:Google * keresésnél elsőként a Google különböző szolgáltatásai jelennek meg).

Ezek egy része a kereséshez kapcsolódik, így érdemes megismerni őket: a Google Suggest a mások által beírt keresőkérdések és (amennyiben be vagyunk jelentkezve és a Web History funkciót engedélyeztük) a saját korábbi kereséseink alapján ajánl fel javaslatokat az egysoros keresőmező vagy a toolbar használatakor, így egyrészt gyorsíthatjuk a kérdés bevitelét, mert elég csak néhány karaktert begépelni, majd választani a listából, másrészt időnként hasznos alternatívákat fedezhetünk így fel. Persze a "gépi intelligencia" mulatságos javaslatokat is produkál néha, például az élet nagy kérdéseire.

A találati listát személyre szabhatjuk a SearchWiki és a Subscribed Links segítségével (ezt a Search settings alatt állíthatjuk be), amennyiben van Google fiókunk és be vagyunk rá éppen jelentkezve. Előbbivel a nekünk fontos találatokat csillagokkal jelölhetjük meg (korábban akár át is rendezhettük a találati listát), utóbbival pedig egyes nagyobb referenszforrásokat emelhetünk a találati listánkba (ezek a 4. helyen jelennek meg, amennyiben van onnan találat). A GoogleAlert szolgáltatással automatikus "témafigyelést" kérhetünk: a beírt keresőkérdésnek megfelelő új hírek, blogbejegyzések, weblapok, videók címeit a rendszer naponta vagy hetente elküldi az e-mail címünkre.

A Google találati listája már alapesetben is sok lehetőséget kínál (pl. automatikus fordítás, gyorsnézet vagy HTML nézet, tárolt változat (cache), hasonló oldalak), de további beállításokat is kérhetünk (Show options...), és itt a szűrők (típus, dátum, megnézett/még nem látott oldalak) mellett a lista megjelenését is módosíthatjuk (Timeline, Page previews) és egyéb segítségek is megjelennek (Related searches, Translated search). A találati lista tetején megjelenő About ... results szám egy nagyon közelítő érték (a gyorsabb válasz kedvéért a keresőszavak indexbeli gyakorisága alapján becsli meg a rendszer, vagyis nem azt számolja meg, hogy ténylegesen hány weblapon fordulnak elő), és valójában csak a legjobbnak ítélt 1000 tételt keresi ki, majd ezekből a nagyon hasonlókat törli, továbbá egy site-ról csak néhány találatot ad vissza, így a végső, végiglapozható eredménylista mindig ezer alatt van.

A központi kereső mellett a Google-t "honosíthatjuk" is: a Google Custom Search oldalon egy olyan keresődobozt állíthatunk be, amely csak az általunk megadott site-okon keres, a Google Desktop programot telepítve pedig a saját gépünkön is ugyanúgy - és csaknem olyan gyorsan - tudunk megtalálni bármit, mint a weben. Érdemes még a Google Toolbar-t is kipróbálni, mert egyéb kényelmi szolgáltatások mellett olyan keresést segítő funkciókat is tartalmaz, mint a Sidewiki vagy a Custom Buttons.

Yippy Search és Polymeta

Az eredetileg pittsburgh-i székhelyű és Clusty névre hallgató metakereső 2004-ben indult a Vivísimo cég technológiájára alapozva; majd a szolgáltatást 2010 májusában felvásárolta a floridai Yippy Inc. vállalat. A Yippy Search több webes keresőgépet (pl. Bing) és információforrást (pl. New York Times) kérdez le és az eredményeket - a duplumok kiszűrése után - összefésüli és csoportosítja, vagyis klaszterezi. Ezek a csoportok azután további alcsoportokra oszlanak (a kék + gombokra kattintva) és ezekből válogatva a felhasználó egyre relevánsabb eredményeket kap. Egyszerre csak néhány száz tételt mutat meg a rendszer, vagyis megkíméli a felhasználót a tízezres vagy milliós találati listák által okozott frusztrációtól - aki amúgy sem szokott 2-3 találati oldalnál többet megnézni. Hogy az éppen kiválasztott klaszter mely forrásokból és mennyi találatot tartalmaz, azt a details feliratra illetve a sources fülre kattintva tudjuk megnézni; a sites fül alatt pedig domain nevek szerint böngészhetjük az eredményhalmazt.

Minden találat mellett három szürke ikon van: az első új ablakban/fülön nyitja meg az adott weblapot; a második (kis nagyító képe) ugyanezt a találati listán belül teszi meg, egyfajta "gyorsnézetet" nyújtva így; a harmadikkal pedig megnézhetjük, hogy az adott találat mely klaszter(ek)ben fordul elő - ezeket ugyanis átszínezi a bal oldali hasábban.

A Yippy-vel nemcsak weblapokat, hanem híreket, képeket, blogokat, állásajánlatokat, termékeket stb. is kereshetünk, erre külön szűrők szolgálnak az oldal tetején - sőt a preferences alatt magunk is összeállíthatunk továbbiakat (természetesen csak a rendszer által lekérdezett forrásokból). A Google-szerű, mindent egyben láttató találati listákhoz képest a klaszter-technológia lényegesen hatékonyabb olyankor, amikor nem egy konkrét információt keresünk, hanem egy témában szeretnénk elmélyedni és megtalálni az azzal kapcsolatos néhány tucat igazán fontos forrást.

A Yippy keresője eszköztárként is beépíthető a böngészőnkbe, néhány ügyes funkcióval (pl. mini-módban a Google mellett másodlagos keresőként használhatjuk). Érdekes még a kísérleti állapotú fejlesztések közt a Yippy Cloud Creator, mellyel címkefelhőt készíthetünk egy általunk megadott keresőkérdés klasztereiből, és bemásolhatjuk azt a weboldalunkba vagy blogunkba. Így "előregyártott" kereséseket kínálhatunk fel különféle felhasználói csoportoknak, akik az őket érdeklő címkére kattintva megkapják a klaszterbe tartozó találatok aktuális listáját a Yippy-től.

Hasonlóan működik a magyar WebLib által fejlesztett polymeta.com kereső is. Az eredmények itt is dinamikusan létrejövő klaszterekben jelennek meg, melyek által az eredmények tövább szűkíthetők, illetve megjelenik a különböző eredmények csoportosított találati listája is (képek, hírek, stb). A polymeta.hu pedig kifejezetten magyar nyelvi feldolgozásra és magyar nyelvű találatok megjelenítésére optimalizált.

Picsearch

A 2000-ben alapított svéd vállalkozás a világ egyik legnagyobb képkeresőjét működteti az interneten. Jelenleg már több mint 3 milliárd kép adatait gyűjtötték be a webről és tették visszakereshetővé. Ebben számban a nagy képmegosztó (pl. Flickr) és más közösségi oldalak (pl. Facebook) képanyaga nincs is benne, mert a Picsearch ezeket nem indexeli le.

Ugyan maga a felület nem sok opciót kínál és a keresőnyelv szintaxisa is kimerül a + (kötelező szó) és a - (kizárandó szó) jelek használatában, de az alkalmazott - és titokban tartott - technológiának köszönhetően a találatok többnyire relevánsak, mert szigorúbban szűr a Google képkeresőjénél. A bélyegképek gyorsan megjelennek, és ha valamelyikre rákattintunk, akkor egy osztott képernyőn egyszerre látjuk a kép adatait és az eredeti weblapot, ahonnan származik. Az Advanced Search menüpont alatt néhány szűrővel tovább szűkíthetjük a találati halmazt (állóképek vagy animációk, színes vagy fekete-fehér képek, álló/fekvő téglalap- vagy négyzet-alakúak, illetve különféle méretűek). A találatokat tartalmazó táblázat tetején további kifejezéseket is ajánl a rendszer a keresés pontosításához, sőt azt is lehetővé teszi, hogy a keresőkérdésünket a leindexelt weblapok szövegében is lefuttassuk. Hasznos, bár az oldal alján eléggé eldugott, az Image Directory, ahol több ezer témakörből válogathatunk. A Picsearch keresőjét is beépíthetjük eszköztárként a böngészőnkbe.

Összeállította: Drótos László, Magyar Elektronikus Könyvtár

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

1 komment • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

https://kereses.blog.hu/api/trackback/id/tr332362200

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Woodymerlo 2010.10.12. 13:57:42

jó kis áttekintő anyag lett:)
süti beállítások módosítása