Szerencsére a nyelvtechnológia és a keresés iránt érdeklődők számára ma már klasszikusnak mondható könyvek érhetők el, mint pl. a túlárazott Manning & Schütze, Jurafsky & Martin és az ingyenesen is letölthető Manning, Raghavan & Schütze. Azonban a gyakorlatiasabb megközelítés, érthető okokból, ezen kötetekből hiányzik. A Python kedvelők elméleti olvasmányaikat a szabad hozzáférésű NLTK könyvvel egészíthetik ki, illetve az NLTK Cookbook segítségével mélyíthetik el tudásukat, sajnos azonban a keresésről ezen forrásokból csak keveset tudhat meg az olvasó. Grant S. Ingersoll, Thomas S. Morton és Andrew L. Farris Taming Text című könyve unikális több tekintetben is, mivel a keresés és a nyelvtechnológia problémáit együttesen tárgyalja és nyílt forráskódú Java eszközökön keresztül, gyakorlati példákkal illusztrálja hogyan lehet ma szoftveres megoldást találni rájuk.
Habár a Manning marketingesei szeretnék, ha mindenki, aki ismeri a Java alapjait megvenné a könyvet, nem árt tudni, hogy az Apache Solr, az OpenNLP és az Apache Mahout könyvtárakat használják a szerzők példáikban és nem igazán szöszölnek azzal, hogy mélyebben bemutassák ezen eszközöket. Persze egy kellőképpen motivált olvasót ez nem rettent vissza, de nem árt egy kicsit megismerkedni a tárgyalt eszközökkel, a keresés és a nyelvtechnológia alapjaival mielőtt valaki beruház a könyv megvásárlásába!
Az első három fejezet tkp. bevezetés, úgy általában a kötet témáiba, a nyelvfeldolgozásba és a keresésbe. A negyedik fejezettől a nyolcadikig a fuzzy string matching, a named entity extraction, a klaszterezés és a klasszifikáció kérdéseit járják körül a szerzők. A nyolcadik fejezetben egy konkrét question answering alkalmazás elkészítésén keresztül láthatja az olvasó, miképp függnek össze az egyes területek. Az utolsó fejezet pedig ízelítőt ad a nyelvtechnológia további alkalmazási területeiből. Mindehhez pedig nagyon jó példakódok tartoznak, már azzal sokat lehet tanulni, ha az ember veszi a fáradtságot és egy kicsit jobban megismerkedik a példákkal.
Összegezve; a Taming Text az általunk ismert könyvek közül a legátfogóbb és leggyakorlatiasabb. Nem váltja meg a világot, hiszen kb. az industry standard megoldásokat tárgyalja, de azokat alaposan.