Csak a szöveg

2013.06.21. 08:00 Szerző: Zoltán Varjú Címkék: szoftverfejlesztés mesterséges nyelvek nyelvtechnológia SendToKindle Safari Feedly boilerpipe nyelvelmélet Montague természetes nyelvek

A webes tartalmak elszánt fogyasztói körében egyre elterjedtebbek az olyan böngészőkiegészítők, melyek eltüntetnek minden felesleges körítést és a szöveget nyomtatott oldalhoz hasonlóan jelenítik meg. Ebben az írásban röviden áttekintjük a legnépszerűbb ilyen alkalmazásokat, majd megvizsgáljuk ennek technikai hátterét és végül kitérünk arra, hogy ez egy komoly nyelvelméleti problémával is kapcsolatban van.

A gyakorlat: Legyen olyan mint a print!

Egyre elterjedtebbek a mobil eszközök, de ezek kijelzői általában sokkal kisebbek egy asztali gép vagy notebook képernyőjénél. A legtöbb táblagép böngészője alapbeállításként tartalmaz valamilyen olvasást könnyítő megoldást. Jelen esetben az iPad Safari böngészőjén mutatjuk ezt a funkciót.

safari01.png.png

A nyíllal jeleztük a címmezőben megjelenő "Reader" gombot, melyet megnyomva sokkal olvashatóbb formában jelenik meg a megnyitott oldal.

safari02.png.png

A népszerű Feedly hírolvasó mobil alkalmazásában is elérhető hasonló funkció. Alapesetben a hírolvasó az egész cikket le tudja tölteni és egy egyszerű oldalon jeleníti meg nekünk a tartalmat. Sok oldal azonban csak a leader szöveg átvételét engedi az olvasóknak. Ilyenkor a Feedly-ben így jelenik meg a hír.

feedly01.png_1.png

Ha ellátogatunk a hír forrására, akkor az appon belül maradva láthatunk egy hagyományos oldalt. A Feedly "Remove clutter"-nek nevezi a fölösleg eltávolítását, nyíllal jeleztük hol is található ez.

feedly02.png_1.png

A tisztítás eredménye egy sokkal olvashatóbb lap.

feedly03.png.png

A hosszabb írások képernyő előtti fogyasztása nagyon fárasztja a szemet, ezért sokan inkább e-könyv olvasón olvassák ezeket. Az Amazon Kindle olvasójához minden nagyobb böngészőre és Android készülékekre is elérhető a SendToKindle alkalmazás. Chrome böngészőt használva telepítés után a címsor mellett találhatjuk a bővítmény ikonját (szintén nyíllal jeleztük).

sendtokindle01.png.png

Az ikonra kattintva láthatjuk mit tudott "kibányászni" az SendToKindle.

A "Send" gombra kattintva az Amazon elvégzi a többit és olvasónkon pillanatokon belül meg is jelenik a tartalom. Amennyiben a SendToKindle nem tudja magától eltávolítani a nem kívánt részeket, jelzi a problémát. Ilyenkor egyszerűen ki kell jelölni egérrel a szöveget, majd kattinthatunk az alkalmazás ikonjára s a fenti képhez hasonlóan megjelenik a kijelölt tartalom. Ha egy oldalon kétszer-háromszor találkozunk hasonló problémával és elvégezzük ezt a műveletet, akkor a SendToKindle "megtanulja" hol található a törzsszöveg és a továbbiakban magától is képes azt felismerni.

A technológia: gépi tanulás

A webes tartalmak HTML oldalak. A HTML a HyperText Markup Language azaz hyper-text jelölő nyelv rövidítése. A HTML dolga a tartalom strukturálása, a megjelenítésért a CSS (Cascading Style Sheets) felelős. Bonyolítja a helyzetet, hogy az interneten szeretünk könnyen navigálni, amihez menük kellenek. Továbbá adatlapokat töltünk ki, szeretjük a vizualizációkat és úgy általában elvárunk bizonyos fokú interaktivitást egy szájttól manapság. Ezért pedig a JavaScript felelős. De még itt sincs vége a dolognak, a honlap egy felület az interneten szörfölők felé, a szerveren sokkal bonyolultabb dolgok történnek, amit általában egy vagy több programozási nyelven írnak meg. A tartalmat és formázást leíró parancsok mellett így sok más is bekerül egy honlap forráskódjába ún. tagek, azaz a böngésző számára fontos, de számunkra nem megjelenített parancsok formájában. Elvben természetesen ezek a nyelvek formálisak, nem engednek kivételeket és nagyon szigorú szabályok szerint íródnak. Így egyszerű írni egy olyan programot, ami beolvassa a HTML-t és képes elkülöníteni a tartalmat annak formázásától és minden egyéb információtól (ez a parsing, vagyis szintaktikai elemzés). A gyakorlat azonban azt mutatja, hogy nem mindenki követi a szabványokat és a legjobb eljárásokat. Így sokszor kell egy adott oldalra szabni a tartalmat kinyerő alkalmazásokat. Ez rendkívül időigényes és aprólékos munkát kíván.

Napjainkban a fent ismertetett okok miatt kezdenek elterjedni a gépi tanulásra alapozott tisztítási eljárások. Ha egy kellően nagy korpuszon meg tudjuk jelölni a törzsszöveget, akkor rálátással rendelkezünk arra, hogy milyen tagekkel asszociálhatjuk a lényeget és mivel a felesleges dolgokat.

Dr. Christian Kohlschütter fejlesztette ki a boilerpipe nevű Java könyvtárat, ami a fent leírt módon nagy hatékonysággal ismeri fel a lényeges tartalmakat. Saját tapasztalatunk szerint a könyvtár angol és német honlapok felhasználásával készített modellje nagy hatékonysággal alkalmazható magyar oldalak tartalmának kinyerésére is. Tartalomelemzésre kiváló eszköz, mivel a parsing nem minden esetben ad kielégítő eredményt. Megfelelő tréningkorpusz használatával nagyon jó eredményeket lehet elérni, akár a tartalom, akár kommentek vagy más fontos információk kinyerése terén is a boilerpipe használatával.

Elmélet: komplexitás és szabályok

A múlt század ötvenes-hatvanas éveiben jelent meg a generatív grammatika, mely a nyelv formális, matematikai leírására törekedett. Ez a ma is aktív irányzat nagyon szofisztikált modellekkel képes leírni sok nyelvi jelenséget. Richard Montague alkotta meg a szintaktikai elemzéssel párhuzamosan felépülő szemantikát. Montague mondása, mely szerint formális és természetes nyelvek között nincs különbség szállóigévé vált és egészen a kilencvenes évekig nem nagyon kérdőjelezték meg. A formális modellek hiába adnak remek eredményeket lokális problémákra, ha nagy adathalmazon próbáljuk őket alkalmazni, akkor nem működnek olyan jól. A statisztikai elemzés ellenben pont akkor remekel, amikor sok adattal tudunk dolgozni. A kilencvenes években a kutatók elkezdtek az ilyen módszerek felé fordulni.

A mesterséges nyelvek szabályai viszonylag egyszerűek és a természetes nyelvekkel ellentétben előre dokumentáltak. Az "internet nyelve", a HTML jó példa arra, hogy a formális nyelvek esetében is rendkívüli mértékben megnövekedhet a komplexitás, melyet a generáló szabályok visszafejtésével nem egyszerű kezelni. A boilerpipe nagyon jó példa arra, hogy lokálisan nagyon jók a precíz szabályok, de bizonyos adatmennyiség felett megjelennek a hibák és hihetetlen mértékben megnő a komplexitás.

Hasonló folyamat zajlik napjainkban a szoftverfejlesztés terén is. Az ún. empirikus szoftverfejlesztés (empirical software engineering) kutatási irányzat célja, hogy empirikus vizsgálatokon keresztül rendszerezze a szoftverfejlesztés során használt jó és rossz gyakorlatokat. Ennek egyik bevett eszköze a forráskód-bázison (repository) alkalmazott szövegbányászat (l. pl. Mining Source Code Repositories at Massive Scale using Language Modeling).

Montague mondása úgy tűnik másképp igaz, mint ahogy anno gondolták. Úgy tűnik mikro- és makroszinten másképp viselkedik a nyelv, ami meglepő hasonlóságot mutat a fizika világával és a társadalomtudományokkal is.

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Az amerikai gyűlöletbeszéd geográfiája

2013.06.20. 08:00 Szerző: Zoltán Varjú Címkék: gyűlöletbeszéd nyelvtechnológia floating sheep

A floating sheep csoportot öt geográfus alkotja, akik 2012-ben megpróbálták térképre vetíteni Barack Obama újraválasztása kapcsán a közösségi médiában megjelent gyűlöletbeszédet. Az ötletet sokan kedvelték, de a kollektíva sajnos sok hibát követett el - de hát földrajztudósok és nem számítógépes nyelvészek. A nem tökéletes kezdés szerencsére nem vette el a kedvüket és idén a Twitteren jelenlévő gyűlöletbeszéd geográfiai jellemzőit próbálták meg elemezni, ennek eredménye a Hate Map webalkalmazás.

A csoport a Knight News Challange-re fejlesztette ki a DOLLY nevű szoftvert, ami képes geoinformációval együtt rendszerezni és könnyen kezelhetővé tenni a tweeteket. A 2012 júniusa és 2013 áprilisa között az Egyesült Államok területén keletkezett csiripek közül azokat gyűjtötték be, melyek tartalmaztak gyűlöletbeszédre utaló szavakat (a metodológiáról a project FAQ-ban tudhat meg többet az olvasó). A begyűjtött tweeteket (csak a 'nigger' kifejezés esetében 41306, a 'homo' esetében pedig 95123) a Humbolt State University geográfus diákjai manuálisan sorolták pozitív, negatív ill. semleges osztályokba. Erre azért volt szükség, mert bizonyos esetekben a gyűlöletbeszédre utaló szavak lehetnek semlegesek (pl. "Hey, nigger brother!") vagy éppen pozitívak ("My beloved homo hairdresser"). Hogy mit árulnak el az így kapott adatok? Általában nem sokat, mivel a népsűrűségi térképekhez hasonló képet mutatnak, ahogy a fenti ábrán is látszik. Ez akár jó hír is lehet, hiszen amennyiben az országon belül nincsenek nagy eltérések, a sűrűbben lakott területeken magasabb lesz a gyűlöletbeszéd száma (mivel egy területen több beszélőt találunk, a gyűlöletbeszéd frekvenciája magasabb, de aránya, pl. ezer lakosra vetítve kb. ugyanakkora mindenhol).

Akadnak azonban érdekes kivételek. Az amerikai angolban használatos "wetback" kifejezést a Mexikó felől érkező spanyol ajkú, gyakran illegálisan az Államokban tartózkodó bevándorlókra használják. A jelek szerint Texasban, egyik népszerű útvonaluk mentén keletkeznek velük kapcsolatban a legnegatívabb csiripek.

Ahogy a Hatebase kapcsán is megjegyeztük, a gyűlöletbeszéd monitorozása nem egyszerű feladat és talán nem is a fejlett demokráciákban égető kérdés. A floating sheep csapat projektje azonban egy figyelemre méltó lépés a területen. Reméljük hamarosan lesz elég adat és kellő szakértelem az intoleranciával jobban sújtott vidékek monitorozására is.

(A poszt a Foreign Policy magazin War of Ideas blogjának Mapping American hate speech című írása alapján született.)

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Journalism Plus Plus - európai adatújságírók hálózata

2013.06.19. 08:00 Szerző: Zoltán Varjú Címkék: adatújságírás Journalism Plus Plus

Habár 2011-ben indult el a Journalism Plus Plus, csak idén sikerült kinőnie magát igazi nemzetközi hálózattá. Az alapítók elkötelezték magukat a nyílt forráskódú szoftverek, a nyílt adatok és az adatvezérelt újságírás mellett. A tagok között szabadúszó újságírók, szoftverfejlesztők és szerkesztőségek egyaránt akadnak.

A Journalism Plus Plus a ProPublica Pair Programming Project mintájára indította el Embedded News Nerds önkéntes programját, mely keretében újságírók és fejlesztők töltenek el pár hetet egy közös fejlesztésen.

A Journalism++ minden fejlesztését elérhetővé teszi a GitHub-on. Habár manifesztójuk szerint minden sztorit angolul is megjelentetnek, ez még nem vált valóra. Többnyire francia, német és svéd írásokat találhatunk a hálózat honlapján, de szerencsére akad pár angol írás is.

Reméljük többen hamarosan több országból - és köztük hazánkból - is csatlakoznak a Journalism Plus Plus hálózatához.

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Szentimentelemzés és kontextus

2013.06.18. 08:00 Szerző: Zoltán Varjú Címkék: Luminoso szentimentelemzés CrimsonHexagon Lexalytics Clarabridge

A Mashable cikke kapcsán bontakozott ki egy igazi cicaharc a Luminoso és a Lexalytics között, amit azóta is nyomon lehet követni a közösségi médiában. A vitát az váltotta ki, hogy a Luminoso állítja, jelenleg egyedül ő képes a szentiment kapcsán azonosítani a szóban forgó entitásokat és a közöttük lévő kapcsolatokat.

A cikk négy nagy szereplőt emel ki; Luminoso, Lexalytics, Clarabridge és CrimsonHexagon. Annyi bizonyos, hogy az egyszerű szentimentelemzés ma már nem olyan nagy szám, no nem technikai vagy tudományos értelemben. Sokkal inkább arról van szó, hogy ma már nem jelent versenyelőnyt, hiszen mindenki használja (ne a hazai viszonyokból induljunk ki és a mindenki alatt értsük a korai adaptálók és lelkes követőik táborát). A piacvezetők megpróbálják az aggregált szentimentértékeket kiegészíteni további elemzésekkel, melyek akár predikcióra is alkalmasak lehetnek. A CrimsonHexagon, ahogy korábbi írásunkban bemutattuk, nagyon nagy hangsúlyt fektet az adatok megfelelő kezelésére és nem hisz abban, hogy teljesen automatizált megoldást tud nyújtani mindenkinek. Mivel alapvető módszereit tudományos publikációkból megismerheti bárki, nem is szokott kritikát kapni.

A Luminoso az MIT Common Sense Reasoning kutatócsoport által megálmodott ConceptNet-re alapozva képes a szentimenthez kapcsolódó entitások és szavak hálózatát feltárni. A szabadon elérhető ConceptNet-et azonban kiegészítik más adatbázisokkal is. A Lexalytics saját állítása szerint a Wikipedia segítségével csinál valami hasonlót. De amíg a Luminoso működésének elveiről lehet némi fogalmunk a ConceptNet kapcsán megjelent publikációk alapján, addig a Lexalytics-ről semmit sem tudunk. Annyi bizonyos, hogy a Wikipedia részhalmaza a ConceptNet5-nek, így a Luminoso adatbázisa bizonyára nagyobb.

Szerintünk egyszerűen nem szép dolog nyilvánosan szidni a konkurenciát, még akkor sem, ha az MIT kutatói alkotják cégünk keménymagját. A Lexalytics is a piacon él és az hogy ügyfelei vannak jelzi, valamit csak tudnak ők is. A poszt szerzője is úgy gondolja, hogy a Luminoso-ban rengeteg lehetőség rejlik, de tisztában van azzal is, hány nagyszerű kutatási program bicsaklott meg amikor termékesíteni szerette volna eredményeit. A cicaharc egyszerűen méltatlan az üzlethez és a tudományhoz is.

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Mire jó a szentimentelemzés?

2013.06.17. 08:00 Szerző: Zoltán Varjú Címkék: Bloomberg Luminoso szentimentelemzés Sentiment Symposium SmogFarm BrandVectors

Ha már nem lehettünk ott a Sentiment Analysis Symposium-on, kerítettünk egy kis időt a konferencia Vimeo csatornájának bámulására. Elégedetten konstatáltuk, hogy immáron vége a hurrá optimizmusnak és lassan, de biztosan megtalálja helyét a szentimentelemzés a piacon. A posztban négy előadást emelünk ki, mivel úgy gondoljuk nagyon fontos dolgokra mutatnak rá.

Customer Affinity Meets Brand Vectors: Sentiment That Matters (Augie Ray) from Seth Grimes on Vimeo.

Ezt az előadást nyugodtan megnézheti az is, aki nem tudja mit is jelent a szentimentelemzés. Marketingeseknek kifejezetten ajánljuk, hiszen gyakorlati példákon keresztül (pl. United Breaks Guitars, #NBCFail) világít rá arra, hogy egy negatív szentiment hullám nem árt feltétlenül egy márkának. Ugyanakkor a pozitív szentiment kialakítása során fontos szem előtt tartani, hogy az a márkánkra, vagy a közösségi oldalakon posztolt tartalmakra vonatkozik. Az egészben a legszebb, hogy viccesnek tűnő előadás során teszi rendbe a szentimentelemzéssel kapcsolatos tudnivalókat Augie Ray.

Big Data, Linguistics, and the Science of Crowd Psychology (Erin Olivo, SmogFarm) from Seth Grimes on Vimeo.

Korábbi posztjainkban már bemutattunk kísérleteket (l. A tweet a lélek tükre(?) és Gazdasági előrejelzés szentimentelemzéssel című írásainkat) arra, hogy a "hagyományos" szentimentelemzést felváltsák ún. emócióelemzéssel. A SmogFarm is ebbe a vonalba illeszkedik és avval büszkélkedhet, hogy ő a terület első startupja. A szentiment kategóriák helyett, amik általában három (pozitív, semleges, negatív) vagy öt (nagyon pozitív, pozitív, semleges, negatív, nagyon negatív) kategóriába sorolnak be egy szöveget, a SmogFarm egy sokkal szofisztikáltabb megoldást használ. James W. Pennebaker lassan negyven éve kutatja, hogyan fejeződnek ki érzelmeink az általunk kreált beszédben és szövegekben és most mint tanácsadó segíti a startupot. A kialakított eljárás remekül előrejelzi pl. a Gallup Daily Mood Poll-t. Az online tartalmak monitorozása viszont sokkal olcsóbb, mint a telefonos vagy személyes kérdőívezés, továbbá lehetővé teszi, hogy ne csak napi, hanem akár óránkénti bontásban is elkészítsék az indexet. A SmogFarm itt nem állna meg, céljuk a pénzügyi előrejelzés. A következő videóból azonban kiderül, hogy ez nem olyan könnyű.

News Analytics in Finance (Gary Kazantsev, Bloomberg) from Seth Grimes on Vimeo.

Érdekes, hogy miközben sokan gondolják úgy, a szentimentelemzés jó prediktor lehet gazdasági előrejelzésre, a Bloomberg-nél arra jutottak, hogy nem ez a helyzet. Gary Kazantsev szerint az ún. szózsák modellek alkalmatlanok arra, hogy kezelni tudják a nyelv komplexitását (pl. metafora, szarkazmus) és egy adott dokumentumot értelmetlen egy szentimentértékkel leírni (legalábbis pénzügyi hírek esetében). Ezért átálltak inkább a hatásvizsgálatra, ami egy hír hatását (impact) és újdonságát (novelty) próbálja meg azonosítani. Arra jutottak, hogy egy hír általában három napig él a médiában, ami nagyon sok zajt generál. Tovább bonyolítja a helyzetet, hogy globális gazdaságban több nyelven terjednek az információk. Első lépésben egy olyan tréningkorpuszt készítettek, mely a múltbeli gazdasági változásokhoz rendelt híreket, melyeket aztán annotátorok láttak el metaadatokkal. Így a Bloomberg nem szentimentet keres a médiamonitirozás közben, hanem olyan jeleket, melyek relevánsak a gazdasági döntéshozók számára. A többnyelvűség problémáját gépi fordítással oldották meg, ami saját bevallásuk szerint sem tökéletes még, de helyzeti előnyt jelent, mivel gyors reagálást tesz lehetővé. Egyszerűen lenyűgöző, hogy házon belül milyen szofisztikált rendszert fejlesztettek ki ezek a szakik!

Multi and Cross-lingual, Concept-based Sentiment Analysis (Catherine Havasi, Luminso) from Seth Grimes on Vimeo.

A Luminoso-t korábban már bemutattuk blogunkon. Érdemes kiemelni, hogy a cég a többnyelvűségre és a szentiment kontextusára helyezi a hangsúlyt. A ConcepNet-re alapozott lexikai gráfjuk lehetővé teszi, hogy ne csupán szentimentet azonosítsanak, hanem az adott szentimenttel kapcsolatos fogalmi hálót is. Ez pedig visszavezet minket Augie Ray előadásához.

A Sentiment Analysis Symposium előadásainak megtekintése során úgy éreztük, hogy a terület immár felnőtt korba lépett. Nem úgy tekintenek a szentimentelemzésre, mint mindent gyógyító csodaszerre, hanem mint egy hasznos eszközre. További érdekesség volt az emócióelemzés egyre hangsúlyosabb megjelenése, amit viszont még körül leng a misztikum. A legpragmatikusabb és józanabb Gary Kazantsev és Augie Ray volt szerintünk, ők egyszerre mutatták be a technológiában rejlő lehetőségeket és éreztették annak határait.

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

HTML

Precognox

Precognox Blogkereső

opendata.hu

Facebook oldaldoboz

Blog figyelése (RSS)

Érdekes oldalak

Star Wars text mining

Főbb témák

Archívum

Belépés

A blog tartalmai CC licenc alá tartoznak

Big Data - Keresés - Számítógépes nyelvészet - Szövegbányászat - Gépi tanulás - NLP Meetup - Precognox

Csak a szöveg

2013.06.21. 08:00 Szerző: Zoltán Varjú Címkék: szoftverfejlesztés mesterséges nyelvek nyelvtechnológia SendToKindle Safari Feedly boilerpipe nyelvelmélet Montague természetes nyelvek

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Az amerikai gyűlöletbeszéd geográfiája

2013.06.20. 08:00 Szerző: Zoltán Varjú Címkék: gyűlöletbeszéd nyelvtechnológia floating sheep

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Journalism Plus Plus - európai adatújságírók hálózata

2013.06.19. 08:00 Szerző: Zoltán Varjú Címkék: adatújságírás Journalism Plus Plus

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Szentimentelemzés és kontextus

2013.06.18. 08:00 Szerző: Zoltán Varjú Címkék: Luminoso szentimentelemzés CrimsonHexagon Lexalytics Clarabridge

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

Mire jó a szentimentelemzés?

2013.06.17. 08:00 Szerző: Zoltán Varjú Címkék: Bloomberg Luminoso szentimentelemzés Sentiment Symposium SmogFarm BrandVectors

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre