Google Groups no longer supports new Usenet posts or subscriptions. Historical content remains viewable.
Dismiss

Encoding, objasnjenje

31 views
Skip to first unread message

Dakky

unread,
Nov 21, 2011, 12:28:50 PM11/21/11
to
Ako mi netko moze zdravo seljackim rijecima objasniti kako se encoding
"encodira" u tekstualnu datoteku, odnosno koja je razlika da li je UTF8 ili
ISO-8859-2 ili pak Greek DOS-737

E sad, mene zanima "gdje" se zapisuju te vrijednosti koji je encoding,
odnosno zar nisu slova i slova ista stvar u svim kodiranjima?

Uzmimo za primjer obicno slovo "d", koje se binarno pise 01100100, e pa sad
mi nije jasno zasto bi se to drugacije pisalo u drugom encodingu, odnosno
kako program koji otvara datoteku zna da se radi o slovu "d" ili se radi o
nekom drugom slovu?

Hvala!


Dakky

unread,
Nov 21, 2011, 12:30:45 PM11/21/11
to
"Dakky" <da...@hi.t-com.hr> wrote in message
news:jae1p2$lbe$1...@ss408.t-com.hr...
Mislim, jasno da se ovdje radio ASCII to BIN converteru, pretpostavljam da
je ASCII isto tip encodinga, pa mi je recimo jasno da je UTF8 potpuno druga
stvar, ali i dalje mi nije jasno kako program prilikom snimanja drugacije
zapisuje bitove kad se u svim programima jednako pokazuju ista slova na
istom mjestu...

Esox

unread,
Nov 22, 2011, 3:58:30 PM11/22/11
to
On Nov 21, 6:30 pm, "Dakky" <da...@hi.t-com.hr> wrote:
> "Dakky" <da...@hi.t-com.hr> wrote in message

> > E sad, mene zanima "gdje" se zapisuju te vrijednosti koji je encoding,
> > odnosno zar nisu slova i slova ista stvar u svim kodiranjima?

Nisu. Jer slova zapravo ne postoje.

Ono što vidiš na ekranu je kombinacija nekoliko međusobno neovisnih
stvari.

Naprimjer:
1. Binarni kod - ASCII ima različite kodne stranice od po 256
karaktera od kojih su prvih 128 karaktera isti u svim kodnim
stranicama. Različite kodne stranice postoje zato da bi se zadovoljila
specifikacija: 1 karakter = 1 bajt.
UTF napušta tu doktrinu i 1 karakter može sadržavati više bajtova.

2. Interpretacija - veza između binarnog koda i slova prikazanog na
ekranu. Razne kodne stranice sadrže iste znakove/slova, ali se nalaze
na različitim pozicijama.

3. Font - slika koju vidiš na ekranu kad otipkaš nešto na tastaturi.
npr. WINGDINGS font 'nema' slova.



>>Mislim, jasno da se ovdje radio ASCII to BIN converteru, pretpostavljam da
>>je ASCII isto tip encodinga, pa mi je recimo jasno da je UTF8 potpuno druga
>>stvar, ali i dalje mi nije jasno kako program prilikom snimanja drugacije
>>zapisuje bitove kad se u svim programima jednako pokazuju ista slova na
>>istom mjestu...

To uglavnom vrijedi samo za slova koja postoje u engleskoj abecedi jer
su zajednička svim kodnim stranicama. Karakteri koji su specifični za
druge regije ovise o odabranoj kodnoj stranici.
Ako radiš na Windowsima i imaš definiranu regiju HR onda ti izgleda da
sve štima kad tipkaš naše znakove jer Winsi pokušavaju prikazati sve u
HR kodnoj stranici.
0 new messages