HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (8) adatbányászat (11) adatelemzés (9) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (19) alternatív (6) alternatív keresőfelület (28) analitika (6) beszédtechnológia (13) big data (55) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (18) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) Facebook (9) facebook (8) gépi tanulás (18) Google (33) google (59) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) intelligens keresés (6) internetes keresés (35) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (87) kereséselmélet (8) keresési felület (6) keresés jövője (57) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (16) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (8) különleges keresők (7) kutatás (9) LDA (10) lda (10) live (13) machine learning (9) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (19) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP (8) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (32) nyelvtechnológia (76) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (65) Precognox Labs (14) Python (14) R (19) spam (6) statisztika (12) számítógépes nyelvészet (9) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (7) szövegbányászat (22) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (20) topik modellek (6) twitter (15) Twitter (18) vállalati kereső (7) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Természetes nyelvfeldolgozás: miért hallunk róla egyre többet?

2021.06.25. 09:03 Szerző: Hódi Péter Címkék: keresés nyelvészet nyelvtechnológia NLP számítógépes nyelvészet


Egyre gyakrabban hallunk a természetes nyelvfeldolgozásról. De vajon mi is ez a terület és miért örvend egyre nagyobb népszerűségnek?

Mi a természetes nyelvfeldolgozás?

A természetes nyelvfeldolgozás (NLP) a nyelvészet, a számítástechnika és a mesterséges intelligencia egyik részterülete, amely a számítógépek és az emberi nyelv közötti kölcsönhatásokkal foglalkozik, különösen azzal, hogy hogyan lehet a számítógépeket nagy mennyiségű természetes nyelvi adat feldolgozására és elemzésére programozni.*

Keveredés az NLP rövidítés körül

Az NLP rövidítés cikkünk esetében a Natural Language Processing kifejezést takarja, de ugyanezt a mozaikszót alkalmazzák a Neuro Linguistic Programming fogalom használatakor is. A neuro-lingvisztikus programozás azonban a pszichológiai területén használatos kifejezés, módszer.

Miért fejlődik rohamosan a természetes nyelvfeldolgozás?

Az NLP (natural language processing) területén megjelenő számos új információ, kutatás és fejlesztés jelzi, hogy egyre fontosabb szerepet játszik a természetes nyelvfeldolgozás a mindennapi életünk során. Mi indokolja ezt? Ennek számos oka van, vegyük ezeket sorra!

A múlt információinak feldolgozása

Az emberiség egyetemleges tudása, illetve a megőrzendő információk rögzítése korábban csak kézzel írott, nyomtatott (könyvnyomtatás), később pedig gépelt formában volt lehetséges. Ezen dokumentumok feldolgozása rendkívül fontos, ám nagyon időigényes folyamat. Köszönhetően a természetes nyelvfeldolgozás területéhez szervesen kapcsolódó eljárásoknak, mint például a digitalizálás és az OCR (optikai karakterfelismerés) mára már lehetséges a papír alapú dokumentumok tömeges feldolgozása.

tekercs.jpg

Növekvő adatmennyiség

Mai világunkban az előállított adatmennyiség (szöveges tartalmak) exponenciálisan nő. Gondoljunk csak a vállalati közegben keletkező dokumentumokra, a kutatási anyagokra, a megannyi blog, közösségi média tartalmaira vagy éppen a szöveges üzenetekre. Ezek is mind-mind alapjául szolgálnak a természetes nyelvfeldolgozásnak és a további szöveganalitikai megoldásoknak.

Keresési igények megnövekedése

Nap mint nap számos keresést hajtunk végre információk után kutatva a keresőmotorok segítségével. Legyen szó akár személyes érdeklődés kielégítéséről vagy üzleti, kutatási célú felhasználásról, egyre nagyobb az igényünk az információk egyszerű és könnyű megtalálására. A releváns információk megtalálásában is komoly segítséget jelentenek a nyelvfeldolgozás vívmányai.

nlp_kereses.png

Speciális szolgáltatások

Számtalan olyan szolgáltatási területen is előretörést tapasztalhatunk, amelyek néhány évvel ezelőtt még vagy nem is léteztek, vagy csak gyerekcipőben járt a hozzájuk kapcsolódó technológia. Gondolhatunk itt az automatizált digitális tartalmakra (kérdőívek, bejelentkezési és regisztrációs form-ok, adatigénylési- és szolgáltatási dokumentumok), de az egyik legeklatánsabb példa a chatbotok megjelenése és fejlődése.

chatbot.png

Kapcsolódó területek fejlődése

A természetes nyelvfeldolgozás számtalan területhez kapcsolódik, így a szoftverfejlesztéshez, szöveganalitikához (adatgyűjtés-és címkézés, szentimentelemzés, intelligens keresés, névazonosítás, nyelvfelismerés), adatvizualizációhoz, nyelvészethez, robotkommunikációhoz vagy például a gépi fordításhoz. Ezen területek rohamos fejlődése is nagyban hozzájárul ahhoz, hogy a természetes nyelvfeldolgozás még hosszú ideig meghatározó szerepet fog játszani az emberiség jövőjében.

A fent felsoroltak mellett még számos oka lehet annak, hogy egyre többet hallunk a természetes nyelvfeldolgozásról, amelynek hasznossága a mai kor számára megkérdőjelezhetetlen. Az is kijelenthető, hogy a területben még rengeteg potenciál rejlik, melynek kiaknázásával a jövőben sokkal kényelmesebbé és egyszerűbbé válik a szöveges tartalmakhoz kapcsolódó folyamatok megvalósítása.

 

Szeretne többet megtudni a természetes nyelvfeldolgozásról? Csatlakozzon az NLP Meetup közösséghez!

 

* Fordítás az angol Wikipédia-ról

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

13+1 módszer, amely segít hogy magasabbra kerülj a rangsorban, avagy YouTube SEO 2021-ben

2021.06.09. 09:05 Szerző: Hódi Péter Címkék: keresőoptimalizálás video keresés felirat címkézés közösségi média videokereső Google SEO YouTube

A YouTube-ra feltöltött videók célja a legtöbb esetben az, hogy népszerűsítsenek egy márkát, egy terméket vagy szolgáltatást, illetve, hogy hírnevet szerezzenek a videó feltöltőjének. A népszerűség (magas számú videó megtekintés) eléréséhez szinte elengedhetetlen, hogy az ajánlási lista élére kerüljünk. Leegyszerűsítve: szükséges, hogy kedvelje videós tartalmunkat a YouTube. Erről szól a YouTube SEO, azaz a keresőoptimalizálás. 

seo.png

Most 13 módszert mutatunk be, ami segíthet célunk elérésében, azaz, hogy kitűnjünk a többi tartalom közül, amely nem kevés, hiszen naponta elképesztő mennyiségű (567 000 órányi) videót töltenek fel a YouTube-ra.

1. Legyen fókusz kulcsszavunk

Mindenképpen legyen kulcsszavunk, amely köré a tartalmunk felépül. Ehhez segítségünkre lehetnek a különböző kulcsszókutató eszközök, mint például az Ahrefs, a SEMrush, a Keywords Everywhere vagy a KeywordTool.io.

2. Optimalizáljuk a videónk címét

A tartalmunk címe legyen figyelemfelkeltő, de ugyanakkor informatív is. Gondoljuk át, hogyan keresnének a felhasználók tartalmunkra. Célszerű, hogy a fókusz kulcsszavunk szerepeljen a címben is. Továbbra is népszerűek a Hogyan…?, a 10 legnagyobb… kezdetű címek, de arra figyeljünk oda. hogy a kattintásvadász cím mögött releváns legyen a videónk tartalma, máskülönben a kattintók csak rövid időt fognak a tartalom megtekintésével tölteni, illetve nem is fogják azt másokkal megosztani, amennyiben csak egy “átverés” az egész.

3. Készítsünk megfelelő leírást

A YouTube a videók leírásának első 125 karakterét jeleníti meg, de érdemes ennek minimum a dupláját használni, mégpedig úgy, hogy a releváns dolgokat a szövegünk elejére helyezzük el. Ez lehet egy, a kulcsszavunkat tartalmazó tömör leírás, a céljainknak megfelelő továbbkattintási link, vagy valamilyen motiváló, cselekvésre buzdító felhívás.

subscribe.png
Egy jól optimalizált leírás lehetővé teszi a YouTube számára, hogy megértse, miről is szól a videónk, és ezáltal azt a releváns nézőknek (célcsoportunk) fogja megjeleníteni. Emellett fontos, hogy a leírásunk egyedi legyen és ne használjunk másolt (kopizott) tartalmat!

4. Használjunk megfelelő címkéket

A címkék (tag-ek) kizárólag a YouTube számára készülnek, így azokat a nézők nem fogják látni. Adjunk tartalmunkhoz hozzá annyi variációt a kulcsszavakból és keresőkifejezésekből, amennyi csak az eszünkbe jut. Arra azonban figyeljünk, hogy ezek mind releváns címkék legyenek. A megfelelően hatékony címkék kiválasztásához számos eszköz is rendelkezésre áll, mint például a Tube Buddy vagy a VidIQ.

5. Készítsünk egy vonzó forgatókönyvet

Minden videó elkészítése előtt érdemes egy jól átgondolt forgatókönyvet készíteni, még egy rövidebb tartalomhoz is. Ennek az egyik legfontosabb eleme a bevezető, amely megragadja a néző figyelmét. Ne feledjük, csak pár másodpercünk van erre! Természetesen arról megoszlanak a vélemények, hogy ez a szám pontosan mennyi, egyes kutatások 3, mások 7, megint mások pedig akár 20-30 másodpercet is állítanak. Legegyszerűbb, ha magunkból kiindulva (én mennyi idő alatt döntöm el, hogy továbbnézek-e egy tartalmat?) határozzuk ezt meg.

6. Készítsünk hosszabb videókat

A közhiedelemmel ellentétben a hosszabb videók valójában jobban teljesítenek a YouTube-on, mint a rövidebbek. Írjunk be bármilyen kulcsszót vagy kifejezést a YouTube-ra, és látni fogjuk, hogy általában a legjobban rangsorolt videók elég hosszúak.
A YouTube valójában a teljes megtekintési időtartamot használja rangsorolási tényezőként. Ennek van értelme, hiszen jobban belegondolva - minél tovább nézünk egy videót, annál jobban leköt, így annál valószínűbb, hogy több videót nézünk meg, és annál valószínűbb, hogy megnézzük a reklámokat is, értsd: a YouTube sem jótékonysági intézmény!!! Nem véletlen hogy a YouTube a hosszabb videókat részesíti előnyben, amelyeket hosszabb ideig lehet nézni. Leegyszerűsítve: minél hosszabb a videónk, annál tovább nézhetik, így annál magasabb lesz a rangsorolásunk.
Mindez természetesen nem jelenti azt, hogy opus-okat kell készíteni, csak azt, hogy ne helyezzünk magunkra nyomást, hogy mindent beletuszkoljunk egy korlátozott idősávba. Ha a videóink hosszúak és átfogóak, de mégis elég vonzóak ahhoz, hogy a nézők tovább nézzék őket, a YouTube minden bizonnyal felfigyel majd rájuk, és ezáltal magasabb rangsorolási helyezést érhetünk el. Azért a műfaji kereteknek való megfelelés célszerű, hiszen egy céget bemutató spot-ot senki sem fog / szeretne 15-20 percig nézni.

7. Őrizzük meg a nézők figyelmét

A megtekintési időtartam hossza rendkívül fontos a YouTube SEO szempontjából, ezért a nézők megtartása kulcsfontosságú. Ehhez el kell érnünk, hogy az emberek hosszabban nézzék videóinkat, tehát gondoskodnunk kell arról, hogy azok vizuálisan szórakoztatóak legyenek.
Érdemes a videó elején azonnal a lényegre térni és megragadni a figyelmet, illetve a videót látványos animációkkal feldobni. Amennyiben már rendelkezünk csatornánkon több videóval, akkor érdemes lehet azt is megnéznünk, hogy azok mekkora megtekintéssel rendelkeznek, így leszűrhetjük, hogy mit tartanak a nézők vonzónak és ez alapján állíthatjuk össze a következő mozgóképes anyagunkat.

8. Ösztönözzük az elkötelezettséget

Szinte minden YouTube-videó így végződik: "Ha tetszett ez a videó, kattints a lenti tetszik gombra, és ne felejts el feliratkozni a további tartalmakért...".
Ez nem véletlen, hiszen a nézői elkötelezettség befolyásolja a SEO-t. Amikor valaki kedveli a videónkat, kommentel vagy feliratkozik a csatornánkra, azzal egy jelzést küld a YouTube felé, így az az adott felhasználónak további videóinkat fogja mutatni.

video-comments.png

a fenti grafikon jól mutatja, az egyértelmű összefüggést a kommentek száma és a YouTube-rangsorolás között

9. Hozzunk létre érdekes és vonzó thumbnail-t

A thumbnail az az index- vagy más néven nézőkép, amelyet a felhasználó lát a videónkról. A YouTube automatikusan hozzárendelhet egy indexképet a feltöltött tartalmunkhoz, de ez csak egy véletlenszerű felvétel lesz a videónkból. Ahhoz, hogy kitűnjünk a tömegből, egyedi, figyelemfelkeltő képet kell használnunk, amely kattintásra ösztönzi az embereket, mivel a néző csak két dolgot lát mielőtt úgy dönt, hogy rákattint egy videóra: a videó címét és annak indexképét. Mivel a vizuális információk feldolgozása 60 000-szer gyorsabb, mint a szövegé, ezért a megfelelő indexkép alkalmazása rendkívüli fontossággal bír.
Érdemes megnézni, hogy a magas megtekintési aránnyal rendelkező videók milyen indexképpel rendelkeznek és ez alapján elkészíteni saját thumbnail-ünket.

macskaszem.jpg

egy figyelemfelkeltő kép megragadja a tekintetünket

10. Hozzunk létre lejátszási listákat

A lejátszási lista létrehozása kiváló módja annak, hogy növeljük csatornánk teljes nézési idejét, mivel a listába tartozó videók a felhasználóknak automatikusan lejátszódnak. Így ahelyett, hogy csak egy videót nézne meg, a néző akár ötöt vagy hatot is megtekinthet!
A lejátszási lista létrehozásához csoportosítanunk kell néhány hasonló témájú videót. Amennyiben nem rendelkezünk egy témakörben több videóval, akkor felvehetjük a kapcsolatot olyan emberekkel, akik a témakörben hasonló tartalmakat készítenek, mint mi (de nem a versenytársaink) és megkérhetjük őket, hogy vegyék fel a videónkat a lejátszási listájukba. Minél több lejátszási listán szerepelnek a videóink, annál jobb! Cserébe felajánlhatjuk, hogy mi is felvesszük az ő általa megosztott tartalmat saját lejátszási listánkba.

11. Építsünk linkeket

A linképítés fontos rangsorolási tényező minden tartalom, így a videóink esetében is. Amennyiben ismerjük az írott tartalmak, például egy blog vagy egy weboldal Google általi optimalizálását, akkor tudjuk, hogy a Google számolja a felénk irányuló linkek számát annak érdekében, hogy megállapíthassa, mennyire értékes a tartalmunk. Mivel a Google tulajdonában van a YouTube, nem meglepő, hogy az is így működik.
A tartalmunkra mutató linkek számának növeléséhez mindenképpen tegyük (tetessük) közzé a videónkat minél több helyen, például a weboldalakon és a blogokon. Megkérhetünk akár másokat is, például a videónk témájához kapcsolódó webhelyek tulajdonosát is, hogy tegyék fel a videónkat az oldalukra, vagy akár írhatunk nekik olyan vendégposztokat, amelyek tartalmazzák a videónkat. Minél több tartalmunkra mutató link van, annál jobb lesz a YouTube SEO-nk, és ezzel a Google SEO-nk is.
A magas helyezéssel ráadásul a videónk a Google keresési eredmények első oldalán is megjelenhet adott keresési kulcsszavakra, amely értelemszerűen kimagasló láthatóságot jelent YouTube-csatornánk számára.

12. Használjuk a közösségi médiát

Az egyik leghatékonyabb módja a YouTube-on való jobb helyezés elérésének, ha minél több helyen publikáljuk videónkat. Ossszuk meg tehát az összes közösségi platformunkon, és bátorítsuk erre az ismerőseinket és követőinket is!
Posztoljunk például a Facebookon és a Twitteren, de közzétehetjük videónkat többek között a témánkhoz kapcsolódó fórumokon is.

social_media.jpg

13. Adjunk videónkhoz feliratot

A YouTube-videók támogatják a feliratozást, amely különösen fontos lehet a hallássérültek számára, vagy azoknak, akik csendben néznék meg tartalmunkat. A feliratozás további előnye, hogy a YouTube és a Google is feltérképezi őket, így javíthatjuk SEO-nkat!
A YouTube képes automatikusan is feliratozni a videónkat, de ez általában tele van hibákkal. Ahhoz, hogy videónk felirata indexelve és SEO-barát legyen, a YouTube által biztosított feliratot szerkeszthetjük, vagy saját feliratot tölthetünk fel. Ezt mindenképpen érdemes megtennünk a jobb eredmény elérése érdekében

13+1. Legyünk versenyben SEO-val

A YouTube mára már valóságos videó-versenypálya lett, hiszen rengeteg tartalom csap össze egymással a nézők kegyeiért. Bár ez a versengés ijesztő lehet, de ne feledjük, számos lehetőség van a kezünkben, hogy javítsuk YouTube SEO-nkat és ezzel jobb eredményeket érjünk el. Ennek érdekében alkalmazzuk tehát a fenti módszereket és kövessük a legújabb trendeket!


Amennyiben többet szeretne a témáról megtudni, kérjük olvassa el a Wyzowl oldalán megjelent angol nyelvű cikket, amely jelen blogbejegyzésünk alapjául szolgált.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A hír érték

2021.05.27. 09:26 Szerző: Hódi Péter Címkék: rss hírek keresés hír news hírkereső hírkeresés szövegbányászat hírolvasó Precognox hírelemzés

news.jpg

Új hírünk van a vállalkozás üzleti sikeréhez

A hírekről senki sem szeret lemaradni. Ahogyan a mondás is tartja: az információ hatalom. Ez pedig különösképpen fontos a vállalati közegben, hiszen az információk által komoly üzleti előnyre lehet szert tenni. Információkhoz pedig legkönnyebben a hírek segítségével juthatunk. Feldolgozásuk azonban rendkívül összetett és időigényes folyamat. Gondoljunk csak bele, hogy egy-egy online újság, blog, szakmai oldal tartalmainak napi szintű nyomon követése mennyi időt emészt fel! Az online források számának folyamatos bővülésével pedig ez már szinte megvalósíthatatlan feladat.

Kijelenthető tehát, hogy a releváns tartalmak (hírek) gyűjtése, keresése és feldolgozása mindenképpen olyan tevékenységek, amelyeknél szükség van az automatizációra és egy speciálisan erre a célra kifejlesztett megoldásra. Jó hírünk van: már létezik is ilyen szoftver, a megoldás neve: TAS News Reader.

A Precognox által fejlesztett szöveganalitikai megoldás segítségével egy kezelőfelületen oldható meg a hírek gyűjtése, keresése és feldolgozása. A TAS News Readerben azon híroldalak tartalma dolgozható fel, amelyek rendelkeznek RSS Feed-del.

tas_news_reader_keresofelulet.png

a hírek feldolgozására szolgáló felület az összetett keresővel

Mi az az RSS Feed?

Az RSS mozaikszó, amely a Really Simple Syndication kifejezést takarja, melynek tükörfordítása a Valóban Egyszerű Hírszolgáltatás. Bizonyos híroldalak RSS feed-et, ún. hírfolyamot használnak, amelyekre az olvasó egy RSS hírolvasóval iratkozhat fel. A megoldás lényege, hogy nem szükséges minden egyes ilyen oldalt egyesével végiglapozni, hanem elég a hírolvasót megnyitni és így az oda becsatornázott oldalak tartalmai egy helyen áttekinthetőek.

Hogyan működik a megoldás?

A TAS News Reader kezelőfelületén projektek hozhatóak létre, amelyekhez egyszerűen társíthatóak a különböző hírforrások. Ezen hírforrások RSS Feed-jének megadásával automatikusan letöltődnek a tartalmak.

tas_news_reader_source_adding.png RSS Feed megadása a TAS News Reader felületén

A tartalmak a keresőfelület segítségével szűrhetőek, az eredeti hírek, cikkek megkattinthatóak, a kezelőfelületen pedig kezelhetőek aszerint, hogy az adott tartalom releváns-e, illetve annak feldolgozása már megtörtént-e. Természetesen a szerepeknek megfelelően a felhasználói jogosultságok beállíthatóak.
A letisztult kezelőfelületnek köszönhetően rendkívül hatékonyan kezelhetőek az egyes projektek, így a hírek feldolgozása valóban gyorsan megoldható.

Kinek lehet hasznos a megoldás?

A TAS News Reader felhasználási területe igen széles lehet, hiszen a hírek ismerete és az információk megszerzése szinte minden szegmens számára különösen fontos, azonban bizonyos feladatok esetében különösen nagy segítség lehet, ezek:

  • sajtófigyelés (médiamonitoring)
  • hírgyűjtés
  • gyűjtőoldalak (hírportálok) létrehozása
  • social listening (internetfigyelés), további feldolgozáshoz, például későbbi szentimentelemzéshez
  • kockázati hírfigyelés (pl.: pénzpiaci információk)
  • biztonsági médiafigyelés (pl.: OSINT – Open Source Intelligence)

Természetesen a fenti folyamatok megvalósítása mellett a hírek feldolgozása és a bennük rejlő üzleti potenciál hatékony kiaknázása minden vállalkozás számára jelentős piaci előnyt jelenthet, hiszen sosem tudhatjuk, hogy éppen melyik új hír vezet majd el a vállalkozás sikeréhez. Ki tudja, akár ezen blogbejegyzésünk is rendelkezhet nagy hírértékkel.

Amennyiben többet szeretne megtudni a megoldásról, akkor bővebben olvashat róla a Precognox TAS News Reader termékoldalán.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Honnan tudja a Google, hogy mit keresünk?

2021.04.26. 15:44 Szerző: Hódi Péter Címkék: keresés internetes keresés algoritmus keresés problémái elgépelés keresőmotor lekérdezés Google

google_kereses_kereses.png


Közel húsz évvel a Google kereső első helyesírás-ellenőrző rendszerének bevezetése után továbbra is hatalmas kihívás a Cég számára a keresőfelületen begépelt kifejezések (gyakran teljes mondatok) értelmezése.

Problémák a kereséseknél

Mielőtt a Google kereső elkezdhetné keresni a releváns találatokat, először tudnia kell, hogy valójában milyen információ után kutat a felhasználó. Ehhez meg kell állapítani a keresési kifejezések helyesen írott formáját. Ez azonban nem kis feladat, hiszen ezt számos körülmény nehezíti, így többek között az alábbiak:

  • a keresések 10%-a hibásan gépelve kerül a keresőablakba
  • gyakran több kifejezés együttesével keres a felhasználó
  • szinte naponta jelennek meg újabbnál újabb kifejezések
  • időről-időre módosulnak a helyesírási szabályok.

Helyesírási hibák

Helyesírási hibáink általában két fő kategóriába sorolhatók: konceptuális és elgépelési hibák. Konceptuális (fogalmi) hibákat akkor követünk el, ha nem vagyunk biztosak abban, hogyan kell az adott kifejezést helyesen leírni, így megpróbáljuk a legjobb "tippünket" használni a keresés során. Az elgépelési hiba pedig természetesen a a számítógépes klaviatúra (billentyűzet) hibás használatából ered. Ilyenkor a "félregépelt" keresési kifejezéssel indítjuk meg a lekérdezést. Az okostelefonok térhódításával egyre gyakoribbá váltak az utóbbi hibák, köszönhetően annak, hogy a számítógépes billentyűzettel összehasonlítva jóval nehézkesebb a gépelés a kisebb "digitális billentyűkkel". A Google többek között ezért is tapasztalt több mint 10 000 különböző téves lekérdezést a YouTube-ra történő kereséseknél. Ezek közül néhány példa: „ytoube”, „7outub”, „yoitubd” és „tourube”.

billentyuzet.jpg

Jobb modellekkel a sikeres keresésért

Annak ellenére, hogy mennyire gyakoriak a helyesírási hibák a keresés során, sok hibás lekérdezés csak egyszer fordul elő, ezek pedig komoly kihívást jelentenek. Függetlenül attól, hogy milyen helyesírási hibát követett el a felhasználó, a Google keresője rendszerint megtalálja a módját, hogy azt megértse.
Korábban ezeknek a soha nem látott elírások megoldásakor a Google a billentyűzetkiosztást vette figyelembe. Például, ha a felhasználó megpróbálta beírni az „u” betűt, de hibát követett el, akkor nagyobb valószínűséggel írta be az „z” betűt, mint a „v”-t, hiszen az "u" és a "z" szomszédos billentyűk a klaviatúrán. A Google korábbi modellje azt az általános koncepciót alkalmazta, hogy a keresési kifejezésen betűnként haladva számos verziót is vizsgált, tekintetbe véve a lehetséges elgépeléseket. mindezt addig folytatva, amíg be nem azonosította a legvalószínűbb (helyettesítő) kifejezést. Bár ez a megközelítés az elgépelési hibák kiküszöbölését célozta, mégis hatékonyan kezelte a konceptuális hibákat is.

Megoldás az elgépelés problémájára vállalati keresés esetén

Az olyan keresőrendszerek, mint például a Precognox által kifejlesztett TAS Vállalati kereső, rendelkeznek loganalízáló modullal, amelyekkel nyomonkövethetőek az elvégzett lekérdezések, így többek között a találat nélküli keresések. Amennyiben ezek között találunk nyilvánvalóan elgépelt kifejezéseket, akkor ezeket összeköthetjük a helyesen leírt formájukkal, így ha a felhasználó ismét a helytelenül gépelt formátummal keresne, akkor is képes a keresőmotor megjeleníteni a helyes lekérdezésnek megfelelő találatokat.

 elgepeles_hozzaadasa_a_tas_thesaurus_managerben.jpg

Elgépelés felvétele a TAS Thesaurus Managerben

 

A gépi mélytanulás terén elért haladásnak köszönhetően ma már hatékonyabb módszert alkalmaz a Google az indított keresések megértésére. A tavalyi év végén került bejelentésre az az új algoritmus, amely mély neurális hálót használ, jobban modellez és ritkán előforduló, illetve egyedi helyesírási hibákból (is) tanul. Ez az előrelépés lehetővé tette a Vállalat számára, hogy több mint 680 millió paramétert tartalmazó modellt legyenek képesek lefuttatni két milliszekundum alatt, így nyújtva zavartalan keresési élményt a felhasználóknak.

És honnan tudják a Google rendszerei, hogy mit keres valaki, még akkor is, ha korábban soha nem látott elírással találkozik a rendszer?

A fenti kérdés megválaszolásakor jön képbe maga a lekérdezés mögött meghúzódó kontextus. A Google természetes nyelvmegértési (NLU - Natural Language Understanding) modelljei összefüggéseiben vizsgálják meg az adott keresést, így például a lekérdezésben szereplő szavak és betűk egymáshoz való viszonyát. Rendszereik azzal kezdenek, hogy először megfejtik vagy megpróbálják megérteni a teljes lekérdezést. Ez alapján generálják a legjobb helyettesítő opciókat a lekérdezésben elgépelt szavakra.

A lekérdezés javítási opciói

A Google Kereső használatakor a rendszer már a keresési kifejezés begépelésekor is ajánlásokkal segít, azonban a felhasználók számos esetben nem élnek ezzel a lehetőséggel. Ilyenkor nagyobb a hibázási lehetőség és szükségessé válhat a lekérdezés javítása, módosítása.
A lekérdezések lehetséges javítási formái különböző módokon jelennek meg a Google Keresőben. Amikor eléggé biztos az algoritmus abban, hogy mit keres a felhasználó, és szinte nyilvánvaló, hogy elgépelés történt, akkor udvariasan megkérdezi: "Erre gondolt?", és egyúttal megmutatja azt az alternatívát, amelyet szerinte keresni szerettünk volna. Amikor teljesen biztos a rendszer abban, hogy helyesen azonosította az elírási hibát, automatikusan megjeleníti a találatokat annak alapján, amit az összeállított lekérdezés kontextusba helyezése után az algoritmus helyesnek ítélt meg. Ebben az esetben a lekérdezés korrigálásáról azonban mindig tájékoztatja a felhasználót, és módot kínál arra, hogy visszatérjen az eredetileg begépelt (összeállított) kereséshez és azt futtassa.

Tehát a Google a fent leírt módszerek segítségével “tudja”, hogy valójában mit keres a felhasználó. Természetesen a tanúsított felhasználói viselkedés és a futtatott keresések alapján a Google folyamatosan fejleszti keresőrendszerét a felhasználói élmény és a hatékonyság érdekében. Éppen ennek a folyamatosan fejlődésnek köszönhetően érezzük egyre gyakrabban azt, hogy a Google valójában tudja, mit is keresünk.

 

Amennyiben többet szeretne a témáról megtudni, kérjük olvassa el a Pandu Nayak tollából származó cikket, amely a Google Blog oldalán jelent meg, és amely jelen blogbejegyzésünk alapjául szolgált.

 

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Hogyan valósítható meg a szöveges tartalmak érzelmi tartalom szerinti szűrése?

2021.04.08. 07:55 Szerző: Hódi Péter Címkék: szűrő keresőmotor szentiment szentimentelemzés hangulatelemzés érzelmi tartalom

hangulatelemzes.jpg
Mi is az a szentiment?

Valójában a szaknyelvben a szentimentet a szöveges tartalmak hangulatának kifejezésére alkalmazzuk. Általában a szentiment skála a nagyon pozitívtól a nagyon negatívig terjed, a szentimentelemzéssel kapott pontszámok osztályozásával több kategóriába sorolva.

Többnyire 3 vagy 5 kategória kerül definiálásra, ezek a következők:

  • nagyon pozitív
  • pozitív
  • semleges
  • negatív
  • nagyon negatív.

hangulatelemzes2.jpg

Miért van szükség szentimentelemzésre?

A szentimentelemzés segítségével a számunkra releváns szöveges tartalmakhoz hangulati értékeket társíthatunk. Ez fontos lehet például akkor, amikor egy közösségi médiás posztunknál megjelenő hozzászólásokról szeretnénk megtudni, hogy azok negatívak, vagy éppenséggel pozitívak. Ugyanez igaz lehet akár egy publikációhoz írt megjegyzések esetében is.

Ezeket a tartalmakat - lehetnek ezek többek között dokumentumok, cikkek, email-ek - a hangulati “pontszámok” alapján kategorizálhatjuk, így megtudhatjuk, hogy ezeknek milyen a kicsengése.

Hogyan válnak a tartalmak szűrhetővé szentiment kategória alapján?

A szentimentelemzéssel kapott értékeket kategóriákba sorolhatjuk, az elemzett tartalmak mindegyike pedig valamelyik ilyen előre definiált kategóriába fog tartozni. Ezek a hangulati kategóriák innentől kezdve szűrőként funkcionálhatnak a keresőmotor felületén így lehetővé téve, hogy egy keresési kifejezésre kapott találatok számát tovább szűkítsük.

A szűrő mellett megjelenő találati számok már előre jelzik, hogy az adott hangulati kategória kiválasztásával hány találatunk lesz. (Ezek a számok már önmagukban is felhasználhatóak az adott keresési kifejezéssel kapcsolatos tartalmak elemzésére, hiszen a találatok mennyisége megmutatja, hogyan oszlanak meg a találatok az egyes hangulati kategóriák szerint.)

hangulati_szurok_a_tas_vallalati_keresoben.png


Válasszuk ki egyszerűen, hogy milyen hangulati kategóriába tartozó tartalmakra vagyunk kíváncsiak, ezzel szűkítve le találati listánkat! Innentől kezdve kizárólag a kiválasztott hangulati kategóriáknak megfelelő találatok lesznek láthatóak.

A módszer kiválóan alkalmas abban az esetben, ha csak pozitív tartalmakra vagyunk kíváncsiak, de akkor is hasznos, amennyiben csak a negatív kicsengésű szövegek relevánsak számunkra, például egy személlyel kapcsolatos vélemények, értékelések esetén.

A bejegyzésünkben található képernyőképek a Precognox által fejlesztett TAS Vállalati keresőjében megvalósított szentiment szerinti szűrést mutatják be, az integrált szentimentelemzés a Neticle megoldása.

Tudjon meg többet korábbi bejegyzésünkből arról, hogy mire jó a szentimentelemzés.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

süti beállítások módosítása