A karakterkĂłdolĂˇs problematikája és a Unicode

2014.05.21. 08:00 Szerző: annapetra Címkék: karakterkódolás nyelvtechnológia ASCII Unicode

Karakterkódolási rendszer egy olyan módszer az informatikában, amely a számok, betűk és más hasonló adatok megjelenítésével foglalkozik, aminek az alapja az, hogy minden karakterhez egy-egy egyedi szám van hozzárendelve. Hasonlóan a Morzekódhoz, ahol a távbillentyű hosszú vagy rövid lenyomásának kombinációi határoztak meg egy karaktert.

Ez a fajta kódrendszer a latin ábécé betűit és az arab számokat tartalmazta. Az 1963-as fejlesztésű ASCII 7 bites rendszerrel rendelkezett, ám ezek egy idő után beteltek és nem tudtak az új szimbólumokhoz egyedi számsorozatot rendelni, ez pedig szükséges lett volna a kelet-ázsiai nyelvek írásszimbólumainak implementálásához. Tehát jól látszik, hogy egy-egy ilyen kódrendszer hibája lehet az, hogy a sokféle szimbólumoknak (például: cirill, héber, kínai, japán, koreai írásjelek) csak egy csoportját képes reprezentálni. Ehhez közel álló probléma a latin ábécé betűivel író, de írásban az 'ss' hangjának leírásához használatos ligatúrát, a scharfes s-t (ß) használó német nyelv esete, ahol ezt a szimbólumot csak a Unicode nevű karakterkódolás tudja kezelni.

Néhány kínai és indiai nyelv írásbeli sajátosságai szintén problémát jelentenek a karakterkódolással foglalkozó informatikusok számára. Jelölhet hangsúlyt vagy magasabb illetve mélyebb hangon való kiejtést is, egy adott betű mellékjele. De hasonló problémát jelent a csak konszonánsokat (mássalhangzókat) író arab és héber nyelvek is, ahol magánhangzókat, ezzel együtt az adott szó jelentését is, a kontextus határozza meg, így egy szimbólumsornak akár egymástól eltérő jelentései és kiejtései is lehetnek más-más kontextusokban, amit jelölhetnek mellékjelekkel is akár. Mellékjelből pedig millió fajta lehetséges, ráadásul a karaktereket a mellékjeleikkel együtt teljesen felesleges új számsorral ellátni. A következő problémát a szótagíró nyelvek jelentik, ahol szintén a mellékjelezés az, ami döntő lehet a jelentéssel kapcsolatban, ráadásul ezek a mellékjelek bárhol megjelenhetnek az alapkarakter körül. Az igazi nehézséget mégis a kínai jelenti, hiszen egy karakterben egyszerre reprezentálódik a jelentése és a kiejtése is. A koreai írás pedig egyszerre ötvözi a betű és szótagírást is, azaz egyfajta hibrid az írásfajták közül.

Unicode, a szabványosítás

Visszatérve az ASCII-hez, ezeket a sokrétű szimbólumrendszereket már nem tudta befogdani. Ezek után több fajta karakterkódolást is írtak, de ezek is csak egy-egy rendszert tudtak reprezentálni. Az ISO-8859-7 a görög betűkhöz, az ISO-8859-8 pedig a héberhez volt megfelelő. Ezek hátránya az volt, hogy sokszor használtak ugyanahoz a karakterhez több számsort vagy éppen fordítva. A Unicode ezt a problémát küszöbölte ki. Közel 109 ezer karaktert képes reprezentálni, azaz egy nemzetközi szabványt állított fel az egységes karakterkódolással. A szabvány 16 biten tárolt síkokra osztja ezt a közel 109 ezer karaktert, így a legtöbbet használt karaktereink már az első 64 ezres síkban megtalálhatóak, akkora kapacitással rendelkezik.

A Kereső Világ a Precognox szakmai blogja A Precognox intelligens, nyelvészeti alapokra építő keresési, szövegbányászati és big data megoldások fejlesztője.

Facebook Tweet

2 komment • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

https://kereses.blog.hu/api/trackback/id/tr96173279

Kommentek:

A hozzászólások a vonatkozó jogszabályok értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Tyson925 · http://economy.blog.hu/ 2014.05.21. 12:31:59

"ahol ezt a szimbólumot csak a Unicode nevű karakterkódolás tudja kezelni."

Petra, ebben a csakban mennyire vagy biztos? :-)

Amúgy a fő probléma talán nem lett megemlítve: automatikusan megállapítani egy adott fileról, hogy milyen kódolással van írva benne a szöveg, sajnos egy elég nehéz feladat.

Válasz erre

gulyasmate 2014.05.25. 11:37:27

Nem kukacoskodás céljával, de van néhány pontatlanság.
Az Unicode nem karakterkódolás, hanem szabvány. Unicode rendszerben kódpontok vannak, amit többféle képpen kódolhatsz. Unicode kódolás az UTF-8, UTF-16, UCS-2, UCS-3, UTF-7, etc...
ASCII 7 bitnyi szimbólum volt definiálva, de 8 bites volt gyakorlatban, mert ekkora volt a legtöbb gépben akkoriban a szóhossz. 7 bitet használtak az angol ékezet nélküli karakterek, plusz a harminc valahány kontrol szimbólum, ezért maradt meg a 128 feletti rész. Ezt használták ki, ide kerültek a régió/ország specifikus karakterek. Ezek később szabványosítással tovább éltek.
Tökk jó cikk, gratulálok! :)

Válasz erre

HTML

Precognox

Precognox Blogkereső

opendata.hu

Facebook oldaldoboz

Blog figyelése (RSS)

Érdekes oldalak

Star Wars text mining

Főbb témák

Archívum

Belépés

A blog tartalmai CC licenc alá tartoznak

Big Data - Keresés - Számítógépes nyelvészet - Szövegbányászat - Gépi tanulás - NLP Meetup - Precognox

A karakterkĂłdolĂˇs problematikája és a Unicode

2014.05.21. 08:00 Szerző: annapetra Címkék: karakterkódolás nyelvtechnológia ASCII Unicode

2 komment • Kövess Facebookon • Iratkozz fel értesítőre

A bejegyzés trackback címe:

Kommentek:

Tyson925 · http://economy.blog.hu/ 2014.05.21. 12:31:59

gulyasmate 2014.05.25. 11:37:27

HTML

Precognox

Precognox Blogkereső

opendata.hu

Facebook oldaldoboz

Blog figyelése (RSS)

Érdekes oldalak

Star Wars text mining

Főbb témák

Archívum

Belépés

A blog tartalmai CC licenc alá tartoznak

Big Data - Keresés - Számítógépes nyelvészet - Szövegbányászat - Gépi tanulás - NLP Meetup - Precognox

A karakterkĂłdolĂˇs problematikája és a Unicode

2014.05.21. 08:00 Szerző: annapetra Címkék: karakterkódolás nyelvtechnológia ASCII Unicode

2 komment • Kövess Facebookon • Iratkozz fel értesítőre

Ajánlott bejegyzések:

A bejegyzés trackback címe:

Kommentek:

Tyson925 · http://economy.blog.hu/ 2014.05.21. 12:31:59

gulyasmate 2014.05.25. 11:37:27