HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás megoldásokat.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldhatjuk problémáidat, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Főbb témák

adatbányászat (6) adatok (12) adatújságírás (16) adatvizualizáció (17) AI (14) alternatív (6) alternatív keresőfelület (24) beszédtechnológia (13) big data (48) bing (14) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (8) deep learning (15) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) facebook (8) Facebook (9) gépi tanulás (15) Google (23) google (57) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) internetes keresés (26) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (57) kereséselmélet (7) keresés jövője (54) keresés problémái (38) keresők összehasonlítása (9) keresőoptimalizálás (6) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (24) korpusznyelvészet (14) közösségi keresés (8) közösségi média (6) különleges keresők (7) kutatás (6) lda (10) LDA (10) live (13) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (12) metafora (7) mobil (37) mobil keresés (17) Neticle (8) NLP meetup (17) Nuance (9) nyelv (6) nyelvészet (28) nyelvtechnológia (73) open data (11) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (47) Precognox Labs (14) Python (13) R (19) spam (6) statisztika (11) számítógépes nyelvészet (8) szemantikus keresés (18) szemantikus kereső (9) szentimentelemzés (34) szövegbányászat (15) társadalomtudomány (7) tartalomelemzés (54) tartalomjegyzék (6) tematikus kereső (19) topik modellek (6) Twitter (18) twitter (15) vertikális kereső (9) vizualizáció (12) yahoo (26) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Google: Nem beszélni magyar...

2007.10.12. 21:56 Szerző: kereso Címkék: google magyar

Nem fogtok hinni a szemeteknek, de ha valaki az ágy szóra keres a Google-ben, akkor az első 10 találat között 5 olyan van, ahol ágyról szó sincsen, csak agyról. Meg lehet próbálni még a vér szót is, amikor 3 rossz találatot látunk az első oldalon. Minek is bajlódni olyasmikkel, mint azok a kis vesszők egyes betűk felett...

A hirdetők megnyugtatására hadd közöljem, hogy az AdSense hirdetések viszont teljesen rendben vannak: ott nincsen agy, csak ágy, ami kell. Van tehát olyan keresés, amikor jobb minőségűek a hirdetések, mint a találatok? Ez is megeshet.

Elnézést a nagy képért, de meg kellett örökítsem, ha esetleg javításra kerülne a későbbiekben:

 

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

13 komment • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

https://kereses.blog.hu/api/trackback/id/tr98194813

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

ern0 · http://linkbroker.hu/ 2007.10.13. 00:39:16

Valószínűleg az "agy"-biznisz nem virágzik annyira, mint az "ágy"-biznisz, ezért nincs adsense-es hirdetés rá.

De ha már magyar nyelv, barátkozz meg az igekötők írásmódjával, idézek tőled: "meglehet mondani"; illetve az idegen szavak ragozásával, ismét a helytelen forma tőled: "AdSenses".

Kár ilyesmikkel rontani a blogod minőségén.

Bőszin Gyula · http://kutat.hu 2007.10.13. 15:26:40

Ezek ismert napi problémák, egy könyvet megtölthetnénk velük (a napokban gondolkodtam egy blog indításán, mely kizárólag a Google hibáira hívná fel a figyelmet).
Vannak ennél rosszabb arányok is: pl. a haza szóra történő keresés első 10 találatában 2(!) db releváns oldal van, az összes többi vagy az oldalakban szereplő háza szó eredménye, vagy két olyan találat is van, melyeken a Jövő Háza oldalára mutató link (jovohaza) szerepel.
Ezen hibák nagy része két okból nem derül ki:
1. ritkán használunk egyszavas, egyszótagú keresést
2. fenti példánál maradva, aki az agy szóra keres rá, annak figyelmét elkerülik az irreleváns találatok (mert csak azokra koncentrál)

kereso · http://kereses.blog.hu 2007.10.13. 21:43:50

Köszönöm ern0 a helyesírási észrevételeidet! Lehet, hogy én sem beszélni magyar? :o)

charlie 2007.10.14. 17:47:41

vag keres rá arra, hogy szlovén, és szlovákot ad.
néha jo, hogy hasonlo (mármint szerinte hasnolo) szavakra keres, neha viszont nem.

Bőszin Gyula · http://kutat.hu 2007.10.16. 12:01:50

Az elmúlt 5 napban az agy szóra sokat javult a helyzet, de a haza szó eredményei változatlanok.
Szerintetek ez mitől függ? A Nagy Testvér figyel ránk?

kereso · http://kereses.blog.hu 2007.10.16. 15:09:57

Ne az agyat keresd, hanem az ágyat... Nem változott a helyzet.

Bodó István 2007.10.17. 09:07:17

Próbáld meg így: "ágy" és a találatok relevánsak lesznek. Tudom, a usereket erre nem lehet, és nem is kellene megtanítani, de azért a "szakemberek" tudhatnák, hogy hogyan kell keresni. Ellenben az "agy" kifejezésre az AdSense ágy-ra is ad találatot, persze lehet, hogy a hirdető így állította be.
Szerintem a Google "hibák" nagy része hozzá nem értésből ered. Csak -legalább a szakembereknek- meg kellene tanulni, hogy mit és hogyan lehet elérni a keresőknél, mielőtt kritizálják, vagy netán tanítják.

kereso · http://kereses.blog.hu 2007.10.17. 22:10:26

Ismertem a megoldást a zárójeles keresésre, de szerintem ez nem válasz erre a kérdésre, ugyanis akkor pl. biztosan nem jöhet az ágyak kifejezés. Én erre nem tudok más jó megoldást mondani mint, hogy a keresésnél igenis figyelembe kellene venni egy adott nyelv szabályait.

Bodó István 2007.10.18. 13:20:37

Egy adott nyelv szabályait figyelembe vették (angol - mint világnyelv), de minden nyelvét lehetetlen megoldani.
Amúgy egy példa, melye(ke)t nyelvi szabályaink szerint nem is fognak egy ideig megoldani.
Ez a Magyar képzett szavainak keresése. Pl:
hó -> havas. De a ló -> lovas alakjára sem lenne találat, ha nyelvünk ékezeteit figyelembe vennék a szabadszavas keresők.
Ezért dönthettek (és döntenék én is) úgy, hogy az ékezeteket nem veszik figyelembe, de megadták a megoldást a pontos szóalak(ok) keresésére. Pl: "ágy"&"ágyak".

A föld 6,4 milliárd emberéből a 10 millió magyar ékezeteket használó a kerekítési pontosság 1/10-e. Amikor külföldön vagyok, és egy kinti irodából vagy kávézóból használom a keresőket, akkor bizony jól jönnek az ékezet néküli találatok. (Egyszerűen azért, mert nincs magyar bilentyűzet kiosztás a kinti gépeken, és 1-1 keresésért nem is fogja senki telepíteni!) Tovább sorolhatnám az indokokat, ezért ne várjunk a csodákra!

Persze várhatjuk, hogy a keresők majd megoldják a nyelvi sajátosságaink miatti inreleváns találatokat, de véleményem szerint nekünk kell úgy optimalizálni a lapokat, hogy a kulcsszavak többesszámára, képzett és ékezet nélküli alakjaira, stb. is találatokat kapjunk.

Tehát NE NEVEZZÜK HIBÁNAK a racionális döntéseken alapuló -igen nehezen, ill. nem megoldható- dokumntált hiányosságot! Használjuk azokat a keresési lehetőségeket, amiket ezen hiányosságok miatt fejlesztettek a releváns tartalmi találatok érdekében.

Tanuljunk meg optimalizálni és keresni!

kereso · http://kereses.blog.hu 2007.10.18. 13:29:13

Igazad van, teljesen racionális a döntés a Google részéről. Csak akkor miért is ez a legjobb kereső magyarul? Mindenki ezt hajtogatja, mint valami betanult szöveget, pedig komoly hiányosságai is vannak, ezekre szeretném egy kicsit felhívni a figyelmet. Persze igaza van Dobó Mátyásnak, aki az IH 2007-en beszélt erről, hogy sajnos ez a hajó nagyrészt már elment. De kár lenne, ha tovább uralkodna a szemlélet, hogy itt van a tökéletes Google, és mi buta piciként labdába se tudunk rúgni mellette.

Bodó István 2007.10.18. 14:24:40

Azért a legjobb, mert a legtöbb magyarnyelvű oldal tartalmát indexálva tartalmazza, a leggyorsabban járják a botjai a netet, a legnagyobb gép- és adatparkkal rendelkezik, hihetetlenül sok kiegészítő szolgáltatást ad ingyen (sokat már magyarul is), stb; és mert valóban figyelembe veszi a magyar nyelv sajátosságainak nagy részét!

A Magyar nyelvi keresőfelülete szorulna némi fejlesztésre, de erre biztosan sor kerül előbb-utóbb. Jobbat meg nem ismerek.

Egy követendő irány lehet számukra a kutat.hu ahol ügyes kiegészítő megoldással használják ki a keresőben lévő lehetőségeket. Persze itt meg sokminden más hiányzik, de szerintem, ha egy kicsit több anyagi forrás állna rendelkezésükre még akármi is lehetne belőle. Vagy el kellene adni a kiegészítést a Google.hu-nak.

(Vigyázat! Ha összejön, jutalékot kérek! :)) ).

Egyébként itt felhasználóbarátabb megoldás van az előző hozzászólásomban említett ló -> lovas keresésre is, de előtte ott is megtanítják a felhasználót keresni és mégis csak a Google motorja!

Az előző hozzászólásban elírtam egy példát, ami helyesen: "ágy"|"ágyak".

Bőszin Gyula · http://kutat.hu 2007.10.19. 08:32:32

Kedves István!
A kutat.hu nevében örömmel várok minden ötletet javaslatot (a jutalékot megbeszéljük).
Addig is, ha időd engedi próbáld ki a béta változatban lévő kutat.hu/index2.html címen elérhatő "beajánló"-t (google suggest klón magyar szavakhoz).
Előre is köszönöm!

Hofi · http://www.tempo-cs.net/tarsashaz 2007.11.06. 07:47:10

Hát igen ez elég érdekes szituáció ,de ugye angolság miatt nem beszélni magyar google:D