HTML

Precognox

 precognox-logo-cmyk-620.jpg

A blog készítői a Precognox Kft. keretein belül fejlesztenek intelligens, nyelvészeti alapokra épülő keresési, szövegbányászati, big data és gépi tanulás alapú megoldásokat.

Az alábbi keresődoboz segítségével a Precognox által kezelt blogok tartalmában tudsz keresni. A kifejezés megadása után a Keresés gombra kattintva megjelenik vállalati keresőmegoldásunk, ahol további összetett keresések indíthatóak. A találatokra kattintva pedig elérhetőek az eredeti blogbejegyzések.

Ha a blogon olvasható tartalmak kapcsán, vagy témáink alapján úgy gondolod megoldással tudunk szolgálni szöveganalitikai problémádra, lépj velünk kapcsolatba a keresovilag@precognox.com címen.

Precognox Blogkereső

Document

opendata.hu

opendatahu45.jpg

Az opendata.hu egy ingyenes és nyilvános magyar adatkatalógus. Az oldalt önkéntesek és civil szervezetek hozták létre azzal a céllal, hogy megteremtsék az első magyar nyílt adatokat, adatbázisokat gyűjtő weblapot. Az oldalra szabadon feltölthetőek, rendszerezhetőek szerzői jogvédelem alatt nem álló, nyilvános, illetve közérdekű adatok.

Facebook oldaldoboz

Blog figyelése (RSS)

 Add hozzá az RSS olvasódhoz

Ha levélben szeretnél értesülni az új cikkekről:

Star Wars text mining

visualizing_star_wars_movie_scripts_precognox.jpgA long time ago, in a galaxy far, far away data analysts were talking about the upcoming new Star Wars movie. One of them has never seen any eposide of the two trilogies before, so they decided to make the movie more accessible to this poor fellow. See more...

Főbb témák

adat (8) adatbányászat (11) adatelemzés (9) adatok (13) adatújságírás (16) adatvizualizáció (19) AI (19) alternatív (6) alternatív keresőfelület (28) analitika (6) beszédtechnológia (13) big data (55) bing (14) blogkereső (6) CEU (6) clustering (6) conTEXT (8) dashboard (6) data science (9) deep learning (18) egészség (7) egészség kereső (7) előadás (7) emócióelemzés (35) Facebook (9) facebook (8) gépi tanulás (18) Google (33) google (59) gyűlöletbeszéd (7) hackathon (10) hálózatelemzés (14) intelligens keresés (6) internetes keresés (35) internet hungary (6) képfeldolgozás (8) képkereső (8) keresés (87) kereséselmélet (8) keresési felület (6) keresés jövője (57) keresés problémái (41) keresők összehasonlítása (9) keresőmotor (16) keresőoptimalizálás (8) kereső szándéka (11) kereső tanfolyam (9) kereső teszt (15) kognitív nyelvészet (12) konferencia (46) könyvajánló (25) korpusznyelvészet (14) közösségi keresés (8) közösségi média (8) különleges keresők (7) kutatás (9) LDA (10) lda (10) live (13) machine learning (9) magyar kereső (9) marketing (8) meetup (41) mesterséges intelligencia (19) metafora (7) mobil (37) mobil keresés (17) Neticle (9) NLP (8) NLP meetup (17) Nuance (9) nyelv (7) nyelvészet (32) nyelvtechnológia (76) open data (12) open knowledge (7) orosz (6) Pennebaker (6) politikai blogok (22) Precognox (65) Precognox Labs (14) Python (14) R (19) spam (6) statisztika (12) számítógépes nyelvészet (9) szemantikus keresés (19) szemantikus kereső (9) szentimentelemzés (37) szöveganalitika (7) szövegbányászat (22) társadalomtudomány (7) tartalomelemzés (56) tartalomjegyzék (6) tematikus kereső (20) topik modellek (6) twitter (15) Twitter (18) vállalati kereső (7) vertikális kereső (9) vizualizáció (13) yahoo (27) Címkefelhő

A blog tartalmai CC licenc alá tartoznak

Creative Commons License
Kereső Világ by Precognox Kft. is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.
Based on a work at http://kereses.blog.hu/.
Permissions beyond the scope of this license may be available at http://precognox.com/.

A Kereső Világ blogon közölt tartalmak a Precognox Kft. tulajdonát képezik. A tartalom újraközléséhez, amennyiben nem kereskedelmi céllal történik, külön engedély nem szükséges, ha linkeled az eredeti tartalmat és feltünteted a tulajdonos nevét is (valahogy így: Ez az írás a Precognox Kft. Kereső Világ blogján jelent meg). Minden más esetben fordulj hozzánk, a zoltan.varju(kukac)precognox.com címre írt levéllel.

Creative Commons License

Nevezd meg! - Ne add el! - Ne változtasd!

 

Csak a szöveg

2013.06.21. 08:00 Szerző: Zoltán Varjú Címkék: szoftverfejlesztés mesterséges nyelvek nyelvtechnológia SendToKindle Safari Feedly boilerpipe nyelvelmélet Montague természetes nyelvek

A webes tartalmak elszánt fogyasztói körében egyre elterjedtebbek az olyan böngészőkiegészítők, melyek eltüntetnek minden felesleges körítést és a szöveget nyomtatott oldalhoz hasonlóan jelenítik meg. Ebben az írásban röviden áttekintjük a legnépszerűbb ilyen alkalmazásokat, majd megvizsgáljuk ennek technikai hátterét és végül kitérünk arra, hogy ez egy komoly nyelvelméleti problémával is kapcsolatban van.

A gyakorlat: Legyen olyan mint a print!

Egyre elterjedtebbek a mobil eszközök, de ezek kijelzői általában sokkal kisebbek egy asztali gép vagy notebook képernyőjénél. A legtöbb táblagép böngészője alapbeállításként tartalmaz valamilyen olvasást könnyítő megoldást. Jelen esetben az iPad Safari böngészőjén mutatjuk ezt a funkciót.

safari01.png.png

A nyíllal jeleztük a címmezőben megjelenő "Reader" gombot, melyet megnyomva sokkal olvashatóbb formában jelenik meg a megnyitott oldal.

safari02.png.png

A népszerű Feedly hírolvasó mobil alkalmazásában is elérhető hasonló funkció. Alapesetben a hírolvasó az egész cikket le tudja tölteni és egy egyszerű oldalon jeleníti meg nekünk a tartalmat. Sok oldal azonban csak a leader szöveg átvételét engedi az olvasóknak. Ilyenkor a Feedly-ben így jelenik meg a hír.

feedly01.png_1.png

Ha ellátogatunk a hír forrására, akkor az appon belül maradva láthatunk egy hagyományos oldalt. A Feedly "Remove clutter"-nek nevezi a fölösleg eltávolítását, nyíllal jeleztük hol is található ez.

feedly02.png_1.png

A tisztítás eredménye egy sokkal olvashatóbb lap.

feedly03.png.png

A hosszabb írások képernyő előtti fogyasztása nagyon fárasztja a szemet, ezért sokan inkább e-könyv olvasón olvassák ezeket. Az Amazon Kindle olvasójához minden nagyobb böngészőre és Android készülékekre is elérhető a SendToKindle alkalmazás. Chrome böngészőt használva telepítés után a címsor mellett találhatjuk a bővítmény ikonját (szintén nyíllal jeleztük).

sendtokindle01.png.png

Az ikonra kattintva láthatjuk mit tudott "kibányászni" az SendToKindle.

sentokindle02.PNG

A "Send" gombra kattintva az Amazon elvégzi a többit és olvasónkon pillanatokon belül meg is jelenik a tartalom. Amennyiben a SendToKindle nem tudja magától eltávolítani a nem kívánt részeket, jelzi a problémát. Ilyenkor egyszerűen ki kell jelölni egérrel a szöveget, majd kattinthatunk az alkalmazás ikonjára s a fenti képhez hasonlóan megjelenik a kijelölt tartalom. Ha egy oldalon kétszer-háromszor találkozunk hasonló problémával és elvégezzük ezt a műveletet, akkor a SendToKindle "megtanulja" hol található a törzsszöveg és a továbbiakban magától is képes azt felismerni.

A technológia: gépi tanulás

A webes tartalmak HTML oldalak. A HTML a HyperText Markup Language azaz hyper-text jelölő nyelv rövidítése. A HTML dolga a tartalom strukturálása, a megjelenítésért a CSS (Cascading Style Sheets) felelős. Bonyolítja a helyzetet, hogy az interneten szeretünk könnyen navigálni, amihez menük kellenek. Továbbá adatlapokat töltünk ki, szeretjük a vizualizációkat és úgy általában elvárunk bizonyos fokú interaktivitást egy szájttól manapság. Ezért pedig a JavaScript felelős. De még itt sincs vége a dolognak, a honlap egy felület az interneten szörfölők felé, a szerveren sokkal bonyolultabb dolgok történnek, amit általában egy vagy több programozási nyelven írnak meg. A tartalmat és formázást leíró parancsok mellett így sok más is bekerül egy honlap forráskódjába ún. tagek, azaz a böngésző számára fontos, de számunkra nem megjelenített parancsok formájában. Elvben természetesen ezek a nyelvek formálisak, nem engednek kivételeket és nagyon szigorú szabályok szerint íródnak. Így egyszerű írni egy olyan programot, ami beolvassa a HTML-t és képes elkülöníteni a tartalmat annak formázásától és minden egyéb információtól (ez a parsing, vagyis szintaktikai elemzés). A gyakorlat azonban azt mutatja, hogy nem mindenki követi a szabványokat és a legjobb eljárásokat. Így sokszor kell egy adott oldalra szabni a tartalmat kinyerő alkalmazásokat. Ez rendkívül időigényes és aprólékos munkát kíván.

html.jpg

Napjainkban a fent ismertetett okok miatt kezdenek elterjedni a gépi tanulásra alapozott tisztítási eljárások. Ha egy kellően nagy korpuszon meg tudjuk jelölni a törzsszöveget, akkor rálátással rendelkezünk arra, hogy milyen tagekkel asszociálhatjuk a lényeget és mivel a felesleges dolgokat.

Dr. Christian Kohlschütter fejlesztette ki a boilerpipe nevű Java könyvtárat, ami a fent leírt módon nagy hatékonysággal ismeri fel a lényeges tartalmakat. Saját tapasztalatunk szerint a könyvtár angol és német honlapok felhasználásával készített modellje nagy hatékonysággal alkalmazható magyar oldalak tartalmának kinyerésére is. Tartalomelemzésre kiváló eszköz, mivel a parsing nem minden esetben ad kielégítő eredményt. Megfelelő tréningkorpusz használatával nagyon jó eredményeket lehet elérni, akár a tartalom, akár kommentek vagy más fontos információk kinyerése terén is a boilerpipe használatával.

Elmélet: komplexitás és szabályok

montague.jpgA múlt század ötvenes-hatvanas éveiben jelent meg a generatív grammatika, mely a nyelv formális, matematikai leírására törekedett. Ez a ma is aktív irányzat nagyon szofisztikált modellekkel képes leírni sok nyelvi jelenséget. Richard Montague alkotta meg a szintaktikai elemzéssel párhuzamosan felépülő szemantikát. Montague mondása, mely szerint formális és természetes nyelvek között nincs különbség szállóigévé vált és egészen a kilencvenes évekig nem nagyon kérdőjelezték meg. A formális modellek hiába adnak remek eredményeket lokális problémákra, ha nagy adathalmazon próbáljuk őket alkalmazni, akkor nem működnek olyan jól. A statisztikai elemzés ellenben pont akkor remekel, amikor sok adattal tudunk dolgozni. A kilencvenes években a kutatók elkezdtek az ilyen módszerek felé fordulni.

A mesterséges nyelvek szabályai viszonylag egyszerűek és a természetes nyelvekkel ellentétben előre dokumentáltak. Az "internet nyelve", a HTML jó példa arra, hogy a formális nyelvek esetében is rendkívüli mértékben megnövekedhet a komplexitás, melyet a generáló szabályok visszafejtésével nem egyszerű kezelni. A boilerpipe nagyon jó példa arra, hogy lokálisan nagyon jók a precíz szabályok, de bizonyos adatmennyiség felett megjelennek a hibák és hihetetlen mértékben megnő a komplexitás.

Hasonló folyamat zajlik napjainkban a szoftverfejlesztés terén is. Az ún. empirikus szoftverfejlesztés (empirical software engineering) kutatási irányzat célja, hogy empirikus vizsgálatokon keresztül rendszerezze a szoftverfejlesztés során használt jó és rossz gyakorlatokat. Ennek egyik bevett eszköze a forráskód-bázison (repository) alkalmazott szövegbányászat (l. pl. Mining Source Code Repositories at Massive Scale using Language Modeling).

Montague mondása úgy tűnik másképp igaz, mint ahogy anno gondolták. Úgy tűnik mikro- és makroszinten másképp viselkedik a nyelv, ami meglepő hasonlóságot mutat a fizika világával és a társadalomtudományokkal is.

A Kereső Világ a Precognox Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Szólj hozzá! • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

https://kereses.blog.hu/api/trackback/id/tr245364172

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.
süti beállítások módosítása