Egy korábbi posztunkban megemlékeztünk arról, mennyire nehéz csupán a tartalmilag releváns szövegeket kiszedni egy weblapból. Kulcsár Ádám gyakornokunk a hivatkozott bejegyzés nyomán készítette el Text Extractor alkalmazásunkat, ami egy megadott url alapján képes kinyerni a tartalomelemzés számára releváns szöveges tartalmat egy adott honlapról.
A demo alkalmazás kezelőfelülete nagyon egyszerű, a beviteli mezőbe meg kell adnunk egy url-t.
Az eredmény pedig a szövegelemzés szempontjából releváns tartalom.
Habár elvileg nagyon egyszerű dolog lenne szintaktikai elemzéssel felismerni egy html oldalban a releváns részeket, a gyakorlat azt mutatja, hogy a webfejlesztőket nem igazán érdeklik a szabványok. A Text Extractor ezért nem a hagyományos parsing megközelítést használja, hanem gépi tanuláson alapuló modell alapján választja ki a szöveget.
Az alkalmazás nem érhető el szabadon, de igény esetén nagyon szívesen megmutatjuk!
Ha jövő nyáron te is szívesen lennél gyakornok a Precognoxnál, jelentkezz már most! Maximum három személyt tudunk fogadni.