HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás megoldásokat.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldhatjuk problémáidat, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Facebook oldaldoboz

Meetup ajánló

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Az opendata.hu oldalt a Magyar OpenData Alapítvány/Egyesület hivatalos megalakulásáig - lelkes önkéntesek segítségével a
K-Monitor Közhasznú Egyesület (K-Monitor) működteti, az üzemeltetést a Precognox végzi.

Főbb témák

adatbányászat (6) adatok (12) adatújságírás (16) adatvizualizáció (17) AI (14) alternatív (6) alternatív keresőfelület (24) beszédtechnológia (13) big data (48) bing (14) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (8) deep learning (15) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) facebook (8) Facebook (9) gépi tanulás (15) google (57) Google (23) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) internetes keresés (26) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (57) kereséselmélet (7) keresés jövője (55) keresés problémái (38) keresők összehasonlítása (9) keresőoptimalizálás (6) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (24) korpusznyelvészet (14) közösségi keresés (8) közösségi média (6) különleges keresők (7) kutatás (6) LDA (10) lda (10) live (13) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (11) metafora (7) mobil (37) mobil keresés (17) Neticle (8) NLP meetup (17) Nuance (9) nyelv (6) nyelvészet (28) nyelvtechnológia (73) open data (11) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (46) Precognox Labs (14) Python (13) R (19) spam (6) statisztika (11) számítógépes nyelvészet (8) szemantikus keresés (18) szemantikus kereső (9) szentimentelemzés (34) szövegbányászat (15) társadalomtudomány (7) tartalomelemzés (54) tartalomjegyzék (6) tematikus kereső (19) topik modellek (6) twitter (15) Twitter (18) vertikális kereső (9) vizualizáció (12) yahoo (26) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Google Hummingbird

2013.09.30. 08:00 Szerző: zoltanvarju Címkék: keresés szemantikus keresés Google Hummingbird Knowledge Graph Freebase lda topik modellek látens dirichlet allokáció

A napokban jelentette be a Google, hogy a keresőmotor jelentős átalakuláson megy (és már ment) keresztül. Az új motor a Hummingbird kódnevet kapta és a bejelentés szerint sokkal jobban ki tudja szolgálni a manapság egyre népszerűbb beszédvezérelt válaszkeresést. A Guardian érthetően és röviden összefoglalta a lényeget, a Webisztán pedig rámutatott arra, hogy ezzel egyben lassan el is köszönhetünk a kulcsszavaktól, mi pedig megvilágítjuk miért válnak egyre lényegtelenebbé a kulcsszavak, miért kell jobban koncentrálni a tartalomra és mi köze van ennek a Knowledge Graph-hoz.

google_hummingbird-580x334.jpg

Bye-bye keywords, hello topics!

Már 2010-ben sokan gyanakodtak arra, hogy a Google valamilyen formában használja a látens dirichlet allokáció (latent dirichlet allocation, vagy röviden LDA) módszerét a találatok rangsorolására. Egy gyors keresés a Google Research oldalon megerősít minket abban, hogy az eljárás nagyon foglalkoztatja a keresőóriás kutatóit. 

MLSS-2012-Blei-Probabilistic-Topic-Models_020.png

Az LDA módszert tekinthetjük egy klasszifikációs eljárásnak, abból a szempontból, hogy az egyes dokumentumokhoz ún. topikszavakat rendel. Vegyünk egy konkrét példát, amiben az alábbi mondatokhoz hasonló rövid szövegek szerepelnek:

  1. Szeretek banánt és almát enni.
  2. Répát és körtét eszek minden este vacsorára.
  3. A kutyák és a macskák aranyos háziállatok.
  4. A testvérem tegnap örökbefogadott egy macskát a menhelyről.
  5. Nézd azt a nyuszit, milyen aranyosan majszolja az almát!

Az LDA elemzés során két topikot keresünk. 1) és 2) mondatokat egy topikhoz, nevezzük A-nak, sorolná az algoritmus. 3) és 4) szintén egy topikhoz tartozik, legyen ez most B. 5) esetében azt mondhatjuk, 50%-ban A, 50%-ban pedig B topikhoz tartozik. A többi mondathoz A és B arányát 0 és 100% között adja meg, végül listázza az A (pl. banán, alma, répa, körte, dinnye, uborka, zsemle, kenyér, vaj, reggeli, ebéd, vacsora stb.) és B (kutya, macska, aranyhal, nyuszi, egér, hörcsög stb.) topikszavakat.

Általánosságban az LDA algoritmusnak megadjuk hány topikot szeretnénk azonosítani. Ezután az egyes dokumentumokban szereplő szavak eloszlása alapján kapjuk meg a topikszavakat. Hogy miért jó ez nekünk? Hagyományosan az információkinyerő és kereső alkalmazások a dokumentumhalmazban előforduló szavak gyakoriságán alapuló eljárásokat alkalmaznak klasszifikációra és az egyes dokumentumok közötti hasonlósági metrikák megállapítására. Habár ezek sok feladatra kiválóan megfelelnek, az LDA eredményei konzisztensek és természetesek (ez alatt azt értjük, hogy ha "nevet adunk" egy-egy topik listának, az általában megfelel egy humán erőforrásokkal azonosított topiknak, továbbá gyakran olyan szavakat is tartalmaz, amire az ember nem is gondolná, hogy jó megkülönböztető jegye lehet egy topiknak):

ntopic.png

Az nTopic a webes tartalmak elemzése révén állapítja meg, hogy milyen topikszavak tartoznak egy adott tartalomhoz, s ez alapján tesz ajánlásokat a SEO szakembereknek a megfelelő kulcsszavak kiválasztásához. Érdemes ugyanakkor megjegyezni, hogy egy topikszavakból álló lista eltér a hagyományos keresési kulcsszavaktól, hiszen ez tkp. egy ajánlás arra nézve, hogy tartalmunkban milyen terminológiát alkalmazzunk.

Minden gráf!

A híres PageRank algoritmus a honlapok közötti linkek alapján felépített gráf struktúrán keresi és rangsorolja egy adott keresés találatait. 

pagerank.jpg

Egy mondat szintaktikai elemzése is egy fát eredményez.

tree why_graphs002.png

És az emberi tudást reprezentáló szimbolikus rendszerek is szeretik a gráfokat. Porfüriosz fája egy Arisztotelész kategóriái nyomán készült egyszerű "döntésfa", ami segít rendszerezni minden élő és élettelen létezőt.

Porphyrian_Tree1.png

A linked data is az arisztotelészi hagyományt viszi tovább. A Freebase, melyet a Google által felvásárolt Metaweb alkotott meg 2006-ban, is egy linkelt adathalmaz, amit a felhasználók szerkesztenek.

freebase.jpg

A Google Knowledge Graph a Freebase adataira épül, de kiegészítették automatikusan generálható tudáselemekkel (a Wikipedia és egyéb wikik ilyen felhasználása ma már bevett gyakorlat) és szabadon felhasználható linked data adatokkal.

knowledge-graph.png

Szemantikus keresés és SEO

Minden hipochonder álma egy orvos ismerős, de ha jogi gondunk akad szeretnénk gyorsan találni egy ismerős ügyvédet és kedvenc hentesünk véleményét kérjük ki, hogy jó steaknek való húst szerezzünk be. A szakértők sajátos szótárat használnak és ismerik a szakszavak közötti hierarchiát. A keresőtől egyre inkább azt várjuk el, hogy ilyen szakértő tanácsadó legyen. A topikokat megfeleltethetjük a szakzsargonnak, a topikszavak közötti hierarchiát pedig a Knowledge Graph-nak. A legegyszerűbb keresőoptimalizálási trükk ebben a paradigmában az, ha minőségi tartalmat készít számunkra egy szakértő, vagy keresünk valakit, aki képes rövid időn belül otthonosan mozogni egy területen és jó tartalmat készíteni (ezt nevezzük újságírónak). Jól jöhet még egy nTopic-hoz hasonló eszköz a terminológia megválasztásához, ennek hiányában érdemes szövegergonómiai szakértőhöz fordulni.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

https://kereses.blog.hu/api/trackback/id/tr865539614

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.