HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás megoldásokat.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldhatjuk problémáidat, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Főbb témák

adatbányászat (6) adatok (12) adatújságírás (16) adatvizualizáció (17) AI (14) alternatív (6) alternatív keresőfelület (24) beszédtechnológia (13) big data (48) bing (14) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (8) deep learning (15) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) Facebook (9) facebook (8) gépi tanulás (15) google (57) Google (23) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) internetes keresés (26) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (57) kereséselmélet (7) keresés jövője (54) keresés problémái (38) keresők összehasonlítása (9) keresőoptimalizálás (6) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (24) korpusznyelvészet (14) közösségi keresés (8) közösségi média (6) különleges keresők (7) kutatás (6) LDA (10) lda (10) live (13) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (12) metafora (7) mobil (37) mobil keresés (17) Neticle (8) NLP meetup (17) Nuance (9) nyelv (6) nyelvészet (28) nyelvtechnológia (73) open data (11) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (47) Precognox Labs (14) Python (13) R (19) spam (6) statisztika (11) számítógépes nyelvészet (8) szemantikus keresés (18) szemantikus kereső (9) szentimentelemzés (34) szövegbányászat (15) társadalomtudomány (7) tartalomelemzés (54) tartalomjegyzék (6) tematikus kereső (19) topik modellek (6) Twitter (18) twitter (15) vertikális kereső (9) vizualizáció (12) yahoo (26) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Bölcs keresők

2011.11.08. 12:00 Szerző: zoltanvarju Címkék: keresés jövője tematikus kereső alternatív keresőfelület digitális bölcsészet

Sokak fejében élő sztereotípia a tarisznyás bölcsész, aki a könyvtárban (és/vagy a büfében) tölti élete nagy részét, világmegváltó dolgokról elmélkedve, de üres zsebbel, az információ technológia világától távol érthetetlen (haszontalan) dolgokkal foglalkozva. Viszont a közhiedelemmel ellentétben a bölcsészettudományok művelőit sem kerülte el az IT forradalom, mégpedig annyira nem hogy mára kialakult az ún. digitális bölcsészet irányzat, amit angol neve (digital humanities) után gyakran csak DH-nak hívunk. Ez a terület a források digitalizálásával és kereshetővé tételével foglalkozik.

 

A tavaly elindult Google Ngram Viewer talán a legismertebb DH projekt. A Google könyvdigitalizálási projektjének “melléktermékeként” egy olyan többnyelvű szöveghalmaz (más néven korpusz) jött létre ami lehetővé teszi hogy bizonyos trendeket nyomon kövessünk. Maga az adathalmaz úgynevezett bag of words modellen alapul, azaz nem a konkrét műveket hanem a bennük előforduló szavakat (gyakoriságukkal együtt) tartalmazza, így megkerülve a szerzői jog kérdéseit is. Hogy mennyire lehet releváns következtetéseket levonni egy ilyen eszközre alapozva az kérdéses (az eszköz köré szerveződött Culturomics kutatócsoport szerint sok dologra releváns választ kaphatunk), annyi azonban biztos hogy bizonyos trendeket nagyon jól ki lehet venni. Pl. ábránkon jól látható hogy az “austria” és “hungary” szavak gyakorisága a szabadságharc idején nagyon eltérő tendenciát mutat, ahogy a kiegyezés, úgy az első világháború körüli időben is többször említik hazánkat. A két világháború közötti időben ismét összetartanak a trendek, majd az ötvenes években megint hatalmas ugrás következik. Érdekes hogy a rendszerváltás és az azt követő időszak során tulajdonképpen hasonló gyakorisággal fordul elő a két ország neve.

 

googlengram.png

 

A Stanford University The Human Experience – Digital Humanities projektje sok, izgalmas kezdeményezést fog össze a DH területén. A legizgalmasabb a “Mapping the Republic of Letters” kezdeményezés, ami a felvilágosodás korának kiterjedt levelezését mutatja be vizuálisan. Habár eddig is tudtuk hogy ebben a korban kiterjedt levelezést folytattak a tudós elmék, térképre vetítve a közöttük fennálló kapcsolatokat megdöbbentő hogy mennyire nyüzsgő és milyen sok kapcsolatból álló hálók rajzolódnak ki.


 Screenshot.png

 

 

Ahhoz hogy ilyen szép vizualizációkat jelenítsünk meg, szükségünk van a levelek digitalizált változataira és az automatikus feldolgozására (pl. a szerző és a címzett kinyerésére, a keletkezési hely és a dátum megtalálása stb.) amihez elengedhetetlen a modern szövegbányászati és keresési eszközök használata. Ezek az eszközök sokkal inkább szemléltetik azt amit eddig is tudtunk, ez önmagában is eredmény, de mit tud nyújtani a keresés az elmélyültebb kutatói munkának?

 

Aditi Muralidharan a Berkeley PhD hallgatója egy olyan alkalmazást álmodott meg ami lehetővé teszi hogy a szövegekben különböző, a szavak között fennálló viszonyokra kereshessünk. Ez önmagában még nem nagy újdonság, a korpusznyelvészetben régóta bevett dolog, azonban a WordSeer felülete nem igényel különösebb előképzettséget, és az eredmények is rögtön értelmezhetőek. Kérjünk le pl. egy véletlenszerűen kiválasztott mondatot a “Slave Narratives” korpuszból.

wsrandom.png

A bal oldalon a menüből választhatjuk ki hogyan elemezze a rendszer a mondatot, a “done by”, “described as” “neg” stb. opciókra kattintva a megfelelő nyelvi konstrukciók kiemelve jelennek meg. Ha látni akarjuk hogy milyen más szavakkal fordulnak elő az adott viszonyban az egyes szavak, vagy hogy milyen viszonyba állhat egymással két vagy több szó, akkor erre is rákereshetünk.

wsrjandom02.png

A “God” szóra keresve megkapjuk milyen viszonyokban fordul elő, és az ehhez tartozó mondatokat is láthatjuk. Ha szűkítünk pl. a “described as” viszonyra, láthatjuk miképp írják le Istent ezekben az elbeszélésekben.

 

wsgodany.png

A WordSeer nagy figyelmet kapott, hiszen nem csak a kvantitatív (számszerűsíthető, mérhető) munkákhoz használható remekül, hanem a bölcsészettudományokban sokkal gyakoribb és elfogadottabb kvalitatív (értelmező) vizsgálódásokhoz nyújt hasznos adatokat. A rendszer nyílt forráskódú, bárki kipróbáljhatja, módosíthatja és nem csak irodalmi/történelmi szövegekkel működik.

 

 

Ahogy egyre több adatot digitalizálunk kitágul a látóterünk, azonban egyre nehezebb is a megszokott módszerekkel feldolgozni a forrásokat. A keresés ezeken a területeken is segíti a felhasználókat. Kultúránk, múltunk és jelenünk megismerése fontos jövőnk szempontjából, a technológia gazdagítja ezt a folyamatot, de tanulhatunk is a felmerülő problémákból. Szerencsére már hazánkban is művelik a DH-t: Kalcsó Gyula Digitális bölcsészet blogját ajánljuk minden érdeklődő figyelmébe.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

https://kereses.blog.hu/api/trackback/id/tr143360972

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.