Grupy dyskusyjne Google nie obsługują już nowych postów ani subskrypcji z Usenetu. Treści historyczne nadal będą dostępne.

strona po japońsku

5 wyświetleń
Przejdź do pierwszej nieodczytanej wiadomości

crazy bejbi

nieprzeczytany,
6 maj 2011, 03:16:066.05.2011
do
Witam,

Tworzymy stronę firmową w wielu językach, ale klient dodatkowo dodał
opcję że chciałby wersję japońską ...

Mieliście z tym do czynienia ? Jakieś specjalne trudności ?

Wojtek

--
polecam stronę: www.nartyrowery.pl
największy sklep ze sprzętem narciarskim i snowboardowym

Mateusz

nieprzeczytany,
6 maj 2011, 04:49:046.05.2011
do
Użytkownik crazy bejbi napisał:

> Witam,
>
> Tworzymy stronę firmową w wielu językach, ale klient dodatkowo dodał
> opcję że chciałby wersję japońską ...
>
> Mieliście z tym do czynienia ? Jakieś specjalne trudności ?

Problem ze wstawieniem kontentu we wlasciwie miejsce
i anchorami linków ;)

the_foe

nieprzeczytany,
8 maj 2011, 17:48:158.05.2011
do
W dniu 2011-05-06 09:16, crazy bejbi pisze:

> Witam,
>
> Tworzymy stronę firmową w wielu językach, ale klient dodatkowo dodał
> opcję że chciałby wersję japońską ...
>
> Mieliście z tym do czynienia ? Jakieś specjalne trudności ?
>
> Wojtek
>

http://www.sony.jp/

jak widac sami Japończycy widzac problemy duzo rzeczy laduje ze swoimi
"krzaczkami" w obrazki

--
the_foe

Jarek

nieprzeczytany,
8 maj 2011, 22:48:568.05.2011
do
Dnia Sun, 08 May 2011 23:48:15 +0200, the_foe napisał(a):

> http://www.sony.jp/
>
> jak widac sami Japończycy widzac problemy duzo rzeczy laduje ze swoimi
> "krzaczkami" w obrazki

Fajny czarset "Shift_JIS", pewnie wszystko piszą z wciśniętym shiftem :D

--
Maly troll

Piotr Siudak

nieprzeczytany,
9 maj 2011, 03:22:149.05.2011
do
W dniu 08.05.2011 23:48, the_foe pisze:

>
> http://www.sony.jp/
>
> jak widac sami Japończycy widzac problemy duzo rzeczy laduje ze swoimi
> "krzaczkami" w obrazki

dla porównania na amerykańskiej stronie jest całkowicie inaczej


--
Piotr Siudak
siu...@xz.pl

Marcin Miczek

nieprzeczytany,
10 maj 2011, 07:16:3410.05.2011
do
W dniu 2011-05-06 09:16, crazy bejbi pisze:
> Tworzymy stronę firmową w wielu językach, ale klient dodatkowo dodał
> opcję że chciałby wersję japońską ...
> Mieliście z tym do czynienia ? Jakieś specjalne trudności ?
Jak się ma tłumacza, to nie :-) Zobacz http://hokkaido.com.pl/ - jest w
wersji polskiej i japońskiej. Kodowanie UTF-8 w obu wersjach.

Pozdrawiam
--
Marcin Miczek

beherit

nieprzeczytany,
10 maj 2011, 09:44:2110.05.2011
do
W dniu 2011-05-06 09:16, crazy bejbi pisze:
> Witam,
>
> Tworzymy stronę firmową w wielu językach, ale klient dodatkowo dodał
> opcję że chciałby wersję japońską ...
>

A to się podepnę z pytaniem, może ktoś ma pewność: do chińskiego
tradycyjnego UTF-8 też starczy czy jakieś inne wymysły? Albo może inne
kodowanie bardziej optymalne jest?

Pozdr,b

Marcin Miczek

nieprzeczytany,
11 maj 2011, 04:55:5711.05.2011
do
W dniu 2011-05-10 15:44, beherit pisze:

> A to się podepnę z pytaniem, może ktoś ma pewność: do chińskiego
> tradycyjnego UTF-8 też starczy czy jakieś inne wymysły? Albo może inne
> kodowanie bardziej optymalne jest?
Znaki chińskie i japońskie to prawie to samo. Dla stron mieszanych UTF-8
wydaje się dobry, ale jeśli będzie przewaga chińskiego, to
oszczędniejszy będzie UTF-16 - Zobacz http://pl.wikipedia.org/wiki/UTF-8

Pozdrawiam
--
Marcin Miczek

beherit

nieprzeczytany,
11 maj 2011, 05:43:1911.05.2011
do
W dniu 2011-05-11 10:55, Marcin Miczek pisze:

Właśnie pod tym kątem pytałem. :). W sumie będzie docelowo max. 200 tyś
rekordów średnio po 1000 - 3000 znaków z czego wydaje się min. 30-40% to
angielski, a reszta chiński tradycyjny.

Dzięki i pozdrawiam,
p.

Zbigniew Malec

nieprzeczytany,
11 maj 2011, 15:14:3511.05.2011
do
On Wed, 11 May 2011 11:43:19 +0200, beherit wrote:

> Właśnie pod tym kątem pytałem. :). W sumie będzie docelowo max. 200 tyś
> rekordów średnio po 1000 - 3000 znaków z czego wydaje się min. 30-40% to
> angielski, a reszta chiński tradycyjny.

Czyli masz jakieś 2,5GB danych o ile dobrze liczę. Zmieścisz na pendrive w
czymkolwiek byś nie zakodował.

--
Pozdrawiam
Zbyszek Malec

porneL

nieprzeczytany,
11 maj 2011, 19:12:1611.05.2011
do
On Wed, 11 May 2011 09:55:57 +0100, Marcin Miczek
<mar...@no-spam.miczek.pl> wrote:

>> A to się podepnę z pytaniem, może ktoś ma pewność: do chińskiego
>> tradycyjnego UTF-8 też starczy czy jakieś inne wymysły? Albo może inne
>> kodowanie bardziej optymalne jest?
> Znaki chińskie i japońskie to prawie to samo. Dla stron mieszanych UTF-8
> wydaje się dobry, ale jeśli będzie przewaga chińskiego, to
> oszczędniejszy będzie UTF-16 - Zobacz http://pl.wikipedia.org/wiki/UTF-8

W HTML UTF-16 nie będzie oszczędniejszy, bo koszt kodu i URLi jest
podwojony.

--
regards, porneL

beherit

nieprzeczytany,
13 maj 2011, 03:23:1113.05.2011
do
W dniu 2011-05-12 01:12, porneL pisze:

> On Wed, 11 May 2011 09:55:57 +0100, Marcin Miczek

> W HTML UTF-16 nie będzie oszczędniejszy, bo koszt kodu i URLi jest
> podwojony.
>

O słuszna uwaga. Szzczególnie, że ilość kodu HTML będzie podobna do
ilości treści.

Dzięki za słuszną uwagę, p.

Andrzej P. Wozniak

nieprzeczytany,
13 maj 2011, 07:30:3413.05.2011
do
Osoba podpisana jako porneL <niu...@pornel.net> w artykule
<news:op.vvcaq...@aimac.local> pisze:

> On Wed, 11 May 2011 09:55:57 +0100, Marcin Miczek
> <mar...@no-spam.miczek.pl> wrote:
>
>>> A to się podepnę z pytaniem, może ktoś ma pewność: do chińskiego
>>> tradycyjnego UTF-8 też starczy czy jakieś inne wymysły? Albo może inne
>>> kodowanie bardziej optymalne jest?
>> Znaki chińskie i japońskie to prawie to samo. Dla stron mieszanych UTF-8
>> wydaje się dobry, ale jeśli będzie przewaga chińskiego, to
>> oszczędniejszy będzie UTF-16 - Zobacz http://pl.wikipedia.org/wiki/UTF-8

Tu nie ma mowy o UTF-16, sami zobaczcie:
/----
Znaki CJK zajmują po 3 bajty zamiast 2 w kodowaniach narodowych.
\----

> W HTML UTF-16 nie będzie oszczędniejszy, bo koszt kodu i URLi jest
> podwojony.

UFT-16 jako text/html to w ogóle nie będzie, bo nie znam standardu, który by
na to zezwalał. Jeśli sądzicie inaczej, wskażcie RFC, które dopuszcza w
Internecie niezakodowany tekst zawierający bajty 0x00.

--
Andrzej P. Woźniak us...@pochta.onet.pl (zamień miejscami z<->h w adresie)
Słuchaj, ty zacznij czytać też, a nie tylko pisać ...
-- RamOl na pl.comp.os.ms-windows.win9x

Marcin Miczek

nieprzeczytany,
13 maj 2011, 08:19:3613.05.2011
do
W dniu 2011-05-13 13:30, Andrzej P. Wozniak pisze:

> Osoba podpisana jako porneL <niu...@pornel.net> w artykule
> <news:op.vvcaq...@aimac.local> pisze:
>> On Wed, 11 May 2011 09:55:57 +0100, Marcin Miczek
>> <mar...@no-spam.miczek.pl> wrote:
>>>> A to się podepnę z pytaniem, może ktoś ma pewność: do
>>>> chińskiego tradycyjnego UTF-8 też starczy czy jakieś inne
>>>> wymysły? Albo może inne kodowanie bardziej optymalne jest?
>>> Znaki chińskie i japońskie to prawie to samo. Dla stron
>>> mieszanych UTF-8 wydaje się dobry, ale jeśli będzie przewaga
>>> chińskiego, to oszczędniejszy będzie UTF-16 - Zobacz
>>> http://pl.wikipedia.org/wiki/UTF-8
> Tu nie ma mowy o UTF-16, sami zobaczcie:
Link odnosi się do całego zdania - również do UTF-8, a w szczególności
do znaków CJK, o których jest mowa.

> UFT-16 jako text/html to w ogóle nie będzie, bo nie znam standardu,
> który by na to zezwalał. Jeśli sądzicie inaczej, wskażcie RFC, które
> dopuszcza w Internecie niezakodowany tekst zawierający bajty 0x00.

Nie wiem, czy jest na to RFC, ale W3C wspomina o UTF-16 [
http://www.w3.org/TR/html4/charset.html#encodings ], a Firefox i Chrome
mają UTF-16 w swoich menu.

Pozdrawiam
--
Marcin Miczek

porneL

nieprzeczytany,
13 maj 2011, 18:17:1613.05.2011
do
On Fri, 13 May 2011 12:30:34 +0100, Andrzej P. Wozniak
<us...@poczta.onet.pl.invalid> wrote:

> UFT-16 jako text/html to w ogóle nie będzie, bo nie znam standardu,
> który by
> na to zezwalał. Jeśli sądzicie inaczej, wskażcie RFC, które dopuszcza w
> Internecie niezakodowany tekst zawierający bajty 0x00.

HTML4 http://www.w3.org/TR/html4/charset.html#h-5.2
zezwala na wszystko z tej listy:
http://www.iana.org/assignments/character-sets
i tam jest pełno kodowań z \0.

XML wręcz wymaga obsługi UTF-16: http://www.w3.org/TR/xml/#charsets
(to dla mnie jeden z powodów, dla których "parsery XML są łatwe do
napisania" jest bujdą).

HTML5 zezwala na UTF-16:
http://www.whatwg.org/specs/web-apps/current-work/multipage/parsing.html#character-encodings-0

Oczywiście dozwolone nie oznacza, że to dobry pomysł.

--
regards, porneL

Piotr Siudak

nieprzeczytany,
14 maj 2011, 04:44:3714.05.2011
do
W dniu 14.05.2011 00:17, porneL pisze:

>
> Oczywiście dozwolone nie oznacza, że to dobry pomysł.
>

mozesz rozwinąć?

--
Piotr Siudak
siu...@xz.pl

Marcin Miczek

nieprzeczytany,
14 maj 2011, 04:52:2714.05.2011
do
W dniu 2011-05-12 01:12, porneL pisze:
> W HTML UTF-16 nie będzie oszczędniejszy, bo koszt kodu i URLi jest
> podwojony.
Masz rację. Dla testów spróbowałem zakodować w UTF-16 jedną stronę,
gdzie tekstu japońskiego jest dość dużo w stosunku do kodu HTML. Mimo to
UTF-8 jest oszczędniejszy.

Można zobaczyć zestawienie na stronie http://test.miczek.pl/utf/

Ponadto, jeśli chce się bez problemów wczytać style, a HTML jest w
UTF-16, to plik CSS też powinien być w UTF-16 (może jest obejście - nie
szukałem). A to już jest wyraźna strata miejsca.

Pozdrawiam
--
Marcin Miczek

Piotr Siudak

nieprzeczytany,
14 maj 2011, 05:01:3114.05.2011
do
W dniu 14.05.2011 10:52, Marcin Miczek pisze:

> Ponadto, jeśli chce się bez problemów wczytać style, a HTML jest w
> UTF-16, to plik CSS też powinien być w UTF-16 (może jest obejście - nie
> szukałem). A to już jest wyraźna strata miejsca.

30%? "wyraźna strata" to jest zmiana o rząd wielkości róznica miedzy 15k
a 20k fachowo klasyfikuje sie jako "zasadniczo pomijalna"

--
Piotr Siudak
siu...@xz.pl

Marcin Miczek

nieprzeczytany,
14 maj 2011, 06:52:1514.05.2011
do
W dniu 2011-05-14 11:01, Piotr Siudak pisze:
Jeśli chodzi o CSS (bez japońskich znaków), plik kodowany w UTF-16 (2
bajty na znak) jest dwukrotnie większy niż w UTF-8 (1 bajt na znak),
więc nie 30% a 100%.

Nie wiem, czy to jest "zasadniczo pomijalne". Na dysku być może, jeśli
chodzi o transfer - już mniej. Oczywiście wszystko zależy od rozmiaru
serwisu, liczby odwiedzających, buforowania, kompresji itd. Wydaje mi
się jednak, że obecnie lepiej użyć UTF-8 niż UTF-16.

Pozdrawiam
--
Marcin Miczek

Piotr Siudak

nieprzeczytany,
14 maj 2011, 11:03:2114.05.2011
do
W dniu 14.05.2011 12:52, Marcin Miczek pisze:

> Jeśli chodzi o CSS (bez japońskich znaków),

Moze zacznij od objaśnienia sensu kodowania w utf16 dokumentu skoro
mozna go zakodowac w ASCII. Tak, wiem że napisałeś że to dlatego ze
chcesz "bez problemów". Objaśnij.


> plik kodowany w UTF-16 (2 bajty na znak) jest dwukrotnie większy niż w UTF-8 (1 bajt na znak),
> więc nie 30% a 100%.


Dla kogoś, kto serwuje wyłącznie CSS to rzeczywiście moze byc róznica. W
zaproponowanym *przez_Ciebie* przykladzie byla to jednakowoż strona z
arkuszem CSS wydzielonym do osobnego pliku. Zakodowana w UTF-8 zajeła
16079 bajtów a w UTF-16 w 21422 bajtów co stanowi wzrost o 33,22%. Kup
se kalkulator czy coś.

Pomijając juz zupełnie fakt że żeby odnieść to choć troche do
rzeczywistości trzeba by sprawdzic jaką część pasma stanowi serwowanie
szablonów CSS. I jak bardzo jest to pomijalna wartość.

> Oczywiście wszystko zależy od rozmiaru
> serwisu, liczby odwiedzających, buforowania, kompresji itd.

Skoro zależy od czynników które wymienileś to żeby odpowiedzieć jak jest
lepiej trzeba prze analizowac te czynniki.


> Wydaje mi się jednak, że obecnie lepiej użyć UTF-8 niż UTF-16.


Mozna też pojechać z "wydaje mi sie". Fakt.


--
Piotr Siudak
siu...@xz.pl

porneL

nieprzeczytany,
14 maj 2011, 15:10:2314.05.2011
do
On Sat, 14 May 2011 10:44:37 +0200, Piotr Siudak <siu...@xz.pl> wrote:

>> Oczywiście dozwolone nie oznacza, że to dobry pomysł.
>
> mozesz rozwinąć?

Oszczędność miejsca w UTF-16 jest w najlepszym przypadku minimalna, a
bardzo często — nawet dla CJK — UTF-16 jest marnotrawny.

Nawet w idealnym dla UTF-16 przypadku 100% znaków spoza ASCII UTF-8 może
być tylko 1/3 większy i różnica robi się mniejsza po gzip.

W praktyce nie serwujesz 100% text/plain z krzaczkami. Masz HTML, URL-e,
łacińskie nazwy, czasem interpunkcję z ASCII. Wszystkie te rzeczy puchną
dwukrotnie w UTF-16, przez co na typowej stronie, nawet pełnej tekstu,
UTF-16 traci przewagę.

Poza wydajnością na tekście bez ASCII UTF-16 nie ma żadnych zalet. UCS-2
przynajmniej miał gwarantowane 2 bajty na codepoint, a UTF-16 ma 2 i
4-bajtowe sekwencje.

Musisz męczyć się z BOM (jak gdzieś zapomnisz, to masz takie fajne jazdy:
http://en.wikipedia.org/wiki/Bush_hid_the_facts).

Musisz męczyć się z niekompatybilnością z ASCII i binarnością plików.
Oprogramowanie ze skopaną obsługą kodowań (w tym 99% shellowych narzędzi)
zazwyczaj da radę przynajmniej nie zepsuć UTF-8, ale z UTF-16 już nie ma
szans.

UTF-8 daje ci maksymalną kompatybilność, na typowych stronach minimalną
wielkość, a w najgorszym przypadku niezbyt dużą stratę na plikach bez
kompresji.


Jak masz ochotę się męczyć z innym kodowaniem, niż UTF-8, to już lepiej
użyć odpowiedniego nie-Unicode, żeby nie drażnić chińskich i japońskich
tradycjonalistów:
http://en.wikipedia.org/wiki/Han_unification (ale ZTCW, to w praktyce
wystarczy wybrać odpowiedni chiński/japoński font).

--
regards, porneL

Marcin Miczek

nieprzeczytany,
16 maj 2011, 03:54:1416.05.2011
do
W dniu 2011-05-14 17:03, Piotr Siudak pisze:

> W dniu 14.05.2011 12:52, Marcin Miczek pisze:
>> Jeśli chodzi o CSS (bez japońskich znaków),
> Moze zacznij od objaśnienia sensu kodowania w utf16 dokumentu skoro
> mozna go zakodowac w ASCII. Tak, wiem że napisałeś że to dlatego ze
> chcesz "bez problemów". Objaśnij.
Domyślnie jeśli plik HTML jest kodowany w UTF-16, pliki CSS, JavaScript
itp. dołączane z niego będą uznane za kodowane również w UTF-16. Jeśli
plik CSS będzie naprawdę zakodowany w UTF-8, to wyjdzie z tego
(dosłownie) chińszczyzna i style nie zostaną poprawnie zastosowane,
podobnie skrypty.

Można to obejść definiując jawnie charset w znacznikach
<link>, <script> itp., ale moim zdaniem kodowanie plików w jednym
serwisie w UTF-8 i UTF-16 to proszenie się o problemy. Programista lub
redaktor zapomni, wstawi się jakąś nową bibliotekę JS i serwis się wysypie.

>> plik kodowany w UTF-16 (2 bajty na znak) jest dwukrotnie większy
>> niż w UTF-8 (1 bajt na znak), więc nie 30% a 100%.
> Dla kogoś, kto serwuje wyłącznie CSS to rzeczywiście moze byc
> róznica. W zaproponowanym *przez_Ciebie* przykladzie byla to
> jednakowoż strona z arkuszem CSS wydzielonym do osobnego pliku.
> Zakodowana w UTF-8 zajeła 16079 bajtów a w UTF-16 w 21422 bajtów co
> stanowi wzrost o 33,22%. Kup se kalkulator czy coś.

Kalkulator mam dobry, więc nie muszę kupować, natomiast nie widzę sensu
Twoich obliczeń z dokładnością do 4 cyfr znaczących, gdyż tabelka, którą
zamieściłem na stronie, nie obejmuje wszystkich plików (ani nawet
wszystkich plików tekstowych). Obliczony tak zysk/strata nie ma zatem
wiele wspólnego ani z zajętością dysku ani z transferem.

>> Oczywiście wszystko zależy od rozmiaru serwisu, liczby
>> odwiedzających, buforowania, kompresji itd.
> Skoro zależy od czynników które wymienileś to żeby odpowiedzieć jak
> jest lepiej trzeba prze analizowac te czynniki.

Jeśli ma się czas lub ludzi do tego, to można analizować, ale przy tak
wielu zmiennych jest to gra niewarta świeczki, skoro zyski na UTF-16
będą minimalne albo nie będzie ich wcale, a po drodze pojawi się sporo
problemów.

Lepiej i bardziej technicznie opisał to już porneL.


Pozdrawiam
--
Marcin Miczek

Piotr Siudak

nieprzeczytany,
16 maj 2011, 06:22:2516.05.2011
do
W dniu 16.05.2011 09:54, Marcin Miczek pisze:

> nie widzę sensu
> Twoich obliczeń z dokładnością do 4 cyfr znaczących, gdyż tabelka, którą
> zamieściłem na stronie, nie obejmuje wszystkich plików (ani nawet
> wszystkich plików tekstowych).

No to moze pretensje o to ze tabelka jest do dupy skieruj tego gościa
który zamiescił ta tabelkę na stronie i uzył jako argumentu w dyskusji.
Gosć nazywa sie Marcin Miczek.


> Obliczony tak zysk/strata nie ma zatem
> wiele wspólnego ani z zajętością dysku ani z transferem.

Bo w rzeczywistosci róznica jest jeszcze mniejsza? Ojej, pozwól ze
wyjaśnie: to moja teza, nie musisz mnie do niej przekonywać.

> Lepiej i bardziej technicznie opisał to już porneL.

Różnica w tym żę porneL napisał co wie na temat, a ty co ci się wydaje.

--
Piotr Siudak
siu...@xz.pl

Nowe wiadomości: 0