Google Groups no longer supports new Usenet posts or subscriptions. Historical content remains viewable.
Dismiss

IE3.01 MojiBake

2 views
Skip to first unread message

Isao Yasuda

unread,
Apr 11, 1997, 3:00:00 AM4/11/97
to

安田@リムネット(名古屋)です。

Saito HiroAKI wrote:

> Windows95でインターネットエクスプローラ3.01を
> 使用していますが、原因不明の文字化けが頻発します。
>
> 半角カナではなく、普通の全角文字の部分で発生します。

わざわざ、1 Byte カナではないとおっしゃっているところで、
疑うのは失礼だとは思うのですが、

> 特に、"「"や、"」"などの記号周辺が多くなっています。

この "「 " や "」" などの記号が 1 Byte カナになっていませんか?

Windows95 だと、これらの記号の 1 Byte 版と 2 Byte 版の
違いがわかりにくいことが多いです。

> 再読込をすると正しく表示されることもあります。

ただ、これがよくわからないんですよねぇ…。

--
---+---+-|-+---+---|---+---+-|-+---+---|---+---+-|-+---+---|---+---+-|
安田 廷勳( Isao Yasuda ) #! There's more than one way to do it.
Private | @リムネット(名古屋)
| E-Mail <mailto:i_ya...@na.rim.or.jp>
| URL <URL:http://www.na.rim.or.jp/‾i_yasuda/>
Business | @プリ・テック株式会社 TEL(0563)55-0707 FAX(0563)55-0202
| E-Mail <mailto:pri...@gol.com>
| URL <URL:http://www.sphere.ad.jp/pritech/>
                                  Π

Saito HiroAKI

unread,
Apr 11, 1997, 3:00:00 AM4/11/97
to

元記事を投稿した、
東海大学の斉藤といいます

1997-04-11(Fri) 09:22'31" i_ya...@na.rim.or.jp wrote in
[Re: IE3.01 MojiBake]

>> > Windows95でインターネットエクスプローラ3.01を
>> > 使用していますが、原因不明の文字化けが頻発します。
>> > 半角カナではなく、普通の全角文字の部分で発生します。

>> > 特に、"「"や、"」"などの記号周辺が多くなっています。

>> この "「 " や "」" などの記号が 1 Byte カナになっていませんか?
>> Windows95 だと、これらの記号の 1 Byte 版と 2 Byte 版の
>> 違いがわかりにくいことが多いです。

これはないと思います。HTMLソースファイルは
telnetでUNIX端末にログイン後、Emacsで文章を編集していますので、
すべての半角カナは入力した瞬間に文字化けを起こします
(この機能(?)を半角カナ自動検出に使っています)。

やっぱり原因不明でしょうか・・・。

東海大学 文学部 広報学科情報社会課程
 齋藤 宏明         E-Mail:60ls...@keyaki.cc.u-tokai.ac.jp
スタートレックのページ-> http://bosei.cc.u-tokai.ac.jp/~60ls1116/

Isao Yasuda

unread,
Apr 11, 1997, 3:00:00 AM4/11/97
to

安田@リムネット(名古屋)です。

Saito HiroAKI wrote:
>
> 元記事を投稿した、
> 東海大学の斉藤といいます
>
> 1997-04-11(Fri) 09:22'31" i_ya...@na.rim.or.jp wrote in
> [Re: IE3.01 MojiBake]
>
> >> > Windows95でインターネットエクスプローラ3.01を
> >> > 使用していますが、原因不明の文字化けが頻発します。
> >> > 半角カナではなく、普通の全角文字の部分で発生します。
> >> > 特に、"「"や、"」"などの記号周辺が多くなっています。
>
> >> この "「 " や "」" などの記号が 1 Byte カナになっていませんか?
> >> Windows95 だと、これらの記号の 1 Byte 版と 2 Byte 版の
> >> 違いがわかりにくいことが多いです。
>
> これはないと思います。HTMLソースファイルは
> telnetでUNIX端末にログイン後、Emacsで文章を編集していますので、
> すべての半角カナは入力した瞬間に文字化けを起こします
> (この機能(?)を半角カナ自動検出に使っています)。

むうぅ。

そうですか…。

それでは、私にはちょっと見当がつかないです。

お役に立てず、申し訳ない。

kiw...@alles.or.jp

unread,
Apr 11, 1997, 3:00:00 AM4/11/97
to

岩田と申します。

In article <5iigtt$8...@bosei.cc.u-tokai.ac.jp> 60ls...@bosei.cc.u-tokai.ac.jp (Saito HiroAKI) writes:

> Windows95でインターネットエクスプローラ3.01を
> 使用していますが、原因不明の文字化けが頻発します。
>
> 半角カナではなく、普通の全角文字の部分で発生します。
> 特に、"「"や、"」"などの記号周辺が多くなっています。

> 再読込をすると正しく表示されることもあります。
> HTMLソースファイルの漢字コードを、
> JIS、SーJIS、EUCのどれに設定しても起こります。
>
> これらの不具合を解消するにはどうしたら良いのでしょうか。
>

私も同じです。(netscapeですが)

特にwww.yahoo.co.jpがかなりの確率で化けます。
そんな時はback - forwardすると直ります。
でもLinuxのnetscapeはまず化けることはないです。

こうゆうもんだとかってに理解してますが、理由がわかれば私も知りたいです。
--
岩田功一 kiw...@alles.or.jp

Saito HiroAKI

unread,
Apr 12, 1997, 3:00:00 AM4/12/97
to

元記事を投稿した、東海大学の斉藤といいます
複数の記事にフォローしています

1997-04-11(Fri) 19:04'58" oka...@mach.kokusaidenki.co.jp wrote in
[Re: IE3.01 MojiBake]

>> もしかして、ISO-2022-JP で書いてありませんか?
>> Netscape Navigater なんかだと正しく見えたりしませんか?
>> IE の日本語処理は腐っているようで、
>> ShiftJIS で書いたファイル以外は、しばしば化けてます。

あ、確かにISO-2022-JPで記述しています。
また、Netscape Navigaterだとこのような文字化けは一切発生しません。

ということは、
これはインターネットエクスプローラが悪いのでしょうか・・・。

サーチエンジン「千里眼」には、
「日本語のHTMLファイルはISO-2022-JPで記述するべき」
とあったので、それにならったのですが、間違いだったのでしょうか。


1997-04-11(Fri) 19:00'22" s...@tt.rim.or.jp wrote in
[Re: IE3.01 MojiBake]

>> 日本語コード自動判別の失敗ということはありませんか。
>> ブラウザの文字コードを「自動判別」以外にしたらうまくいきませんか?
>> もしうまくいけば、漢字を含むコメントをHTMLの先頭に置いてみるとか、
>> 文字セットを指定するMETAタグを置いてみるとか。

自動識別をどれに設定しても、文字化けが発生することがあります。

ところで、「文字セットを指定するMETAタグ」というのは、
どう記述すればよいのでしょうか。
<META NAME="keywords" CONTENT="startrek">などのように
キーワードをいれる事しかわかりません。

Masayasu Ishikawa

unread,
Apr 12, 1997, 3:00:00 AM4/12/97
to

石川@草葉の陰です。

#ちょっとだけ復活モード。

私の記憶が確かならば、JST時間1997年04月12日(土) 10時51分40秒頃、
fj.net.infosystems.www.browsersの<5imprc$q...@bosei.cc.u-tokai.ac.jp>の
記事において60ls...@bosei.cc.u-tokai.ac.jp (Saito HiroAKI)さんは書きました。

>サーチエンジン「千里眼」には、
>「日本語のHTMLファイルはISO-2022-JPで記述するべき」
>とあったので、それにならったのですが、間違いだったのでしょうか。

ISO-2022-JP でなければならない、というわけでもないでしょうが、
私もこれが一番無難なんじゃないかと思います。なにしろ RFC 2070
(Internationalization of the Hypertext Markup Language) でも、
encoding の例として挙げられてるくらいですし。

日本語だけ扱えればいい、他の言語なんか知ったことか、ということなら、
まあシフト JIS でも日本語 EUC でもいいかもしれませんが、encoding に
関する情報がなければ、これらは BIG 5 とか EUC-KR とかと区別するのは
難しいので、Web ページに使うのはあんまりお薦めできません。

ISO-2022-JP なら、例えば ESC 2/4 4/2 というエスケープシーケンスが
出てくれば、文字集合として JIS X 0208 を指示しているのが
encoding 自体から明らかなので、まともに実装してあれば、
判別し損なって文字化けするようなことはないはずです。もしこれを
正しく処理できないのであれば、やはり IE が腐ってるのではないかと…。

#もっとも、RFC 2070 を書いた F. Yergeau 氏は、どうやら encoding と
#しては UTF-8 がお気に入りのようですが…。

>ところで、「文字セットを指定するMETAタグ」というのは、
>どう記述すればよいのでしょうか。

文字セットは SGML 宣言で決まってるので変えられませんが(^^;、
文字符号化方式 (character encoding scheme) を指定する方法であれば、
RFC 2070 の ``6. External character encoding issues'' によると…

> In any document, it is possible to include an indication of the
> encoding scheme like the following, as early as possible within the
> HEAD of the document:
>
> <META HTTP-EQUIV="Content-Type"
> CONTENT="text/html; charset=ISO-2022-JP">

ということになってます。こう書いておくと、HTTP サーバが

Content-Type: text/html; charset=ISO-2022-JP

というヘッダを付けたのと同じような役割を果たしてくれる*場合もある*
でしょう。現状ではどの user agent でも認識してくれるわけでは
ないようですが、少なくとも Mozilla あたりは、こう書かれていれば
たとえブラウザの Document Encoding の指定が Latin-1 になっていたと
しても、ちゃんと日本語を表示してくれます。逆に、欧文のみの
ドキュメントでも、

<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=US-ASCII">

とか

<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=ISO-8859-1">

のように書いておくと、同じく Mozilla を例に挙げれば、
Document Encoding の指定が日本語とか中国語になっていたとしても、
ちゃんと欧文フォントで綺麗に表示してくれます。&copy; のような
entity reference がいわゆる半角カナに文字化けして表示されて
しまうようなダサいこともありません。

国際化時代の Web ページには符号化方式の情報は必須と言っても
過言ではありませんから、違いのわかる Web ページ作者は、
必ずこの記述を入れておくべきだと思います。

#某 HTML チェッカの次のリリース (あるのか!?) には、
#これのチェックを入れよう…

どうしてもシフト JIS や日本語 EUC で書きたい場合は、それぞれ

<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=Shift_JIS">
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=EUC-JP">

とか書いておくべきでしょう。`x-sjis' とか `x-euc-jp' とかいうのは
<URL:ftp://ftp.isi.edu/in-notes/iana/assignments/character-sets> に
登録された正しい名称ではないので、使うべきではないと思います。
上記の例のように、``preferred MIME name'' とされている名称を
使うべきでしょう。`x-sjis' とか `x-euc-jp' でないと認識しない
user agent があるとしたら、それはおかしな実装だと思いますので、
ぜひ文句をつけて直してもらいましょう。

#余談ですが、EUC-JP という Alias が登録されたおかげで、
#charset=Extended_UNIX_Code_Packed_Format_for_Japanese
#とか書かずに済んでよかったですね :-)

--
石川 雅康

YOSHIFUJI, Hideaki

unread,
Apr 13, 1997, 3:00:00 AM4/13/97
to

吉藤英明@東北大学電情系です。

Saito HiroAKI wrote:
> サーチエンジン「千里眼」には、
> 「日本語のHTMLファイルはISO-2022-JPで記述するべき」
> とあったので、それにならったのですが、間違いだったのでしょうか。

間違っていないと思います。少なくとも、いわゆる Shift JIS で書くよりは
よっぽどましでしょう。
#もし、経路が8ビットクリーンであることが保証されるなら、EUC の方が
#いいのかもしれませんけど。

> ところで、「文字セットを指定するMETAタグ」というのは、
> どう記述すればよいのでしょうか。
> <META NAME="keywords" CONTENT="startrek">などのように
> キーワードをいれる事しかわかりません。

<META HTTP-EQUIV="Content-Type" CONTENT="text/html;
charset=iso-2022-jp">

いわゆる Shift JIS なら charset=x-sjis 日本語EUC なら x-euc-jp となりま
す。

<URL:http://w3.lab.kdd.co.jp/technotes/WWW/HTML/international.html> を
ご参照下さい。

但し、(今のバージョンは知りませんが)昔の IE は対応していないようです。

--
吉藤英明 (YOSHIFUJI, Hideaki)
Faculty of Engineering, Tohoku University, JAPAN

<URL:http://www.ecei.tohoku.ac.jp/‾yoshfuji/>

Yuichi FUJIKAWA

unread,
Apr 14, 1997, 3:00:00 AM4/14/97
to

藤川優一と申します。

石川さんには、


> #某 HTML チェッカの次のリリース (あるのか!?) には、

お世話になっております。


http://mitsuko.jaist.ac.jp/fj/ で見つけた <E8JD3...@vega.aichi-u.ac.jp> にて、
石川さん曰く、


> どうしてもシフト JIS や日本語 EUC で書きたい場合は、それぞれ
>
> <META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=Shift_JIS">
> <META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=EUC-JP">
>
> とか書いておくべきでしょう。`x-sjis' とか `x-euc-jp' とかいうのは
> <URL:ftp://ftp.isi.edu/in-notes/iana/assignments/character-sets> に
> 登録された正しい名称ではないので、使うべきではないと思います。
> 上記の例のように、``preferred MIME name'' とされている名称を
> 使うべきでしょう。`x-sjis' とか `x-euc-jp' でないと認識しない
> user agent があるとしたら、それはおかしな実装だと思いますので、
> ぜひ文句をつけて直してもらいましょう。

おかしな実装の例としては、(私の場合、全て MS-Windows95 での話ですが、)
Netscape Navigator の Version 2 が、そうなっていました。
x-sjis は解釈できるが、Shift_JIS では文字化けしました。
Version 3/4 では、Shift_JIS を正しく解釈します。


但し、Version 4.0 Preview Release 2 には、Navigator の Encoding と、
META タグで指定された charset とが一致していない場合に、
<H3>Transfer Interruped !</H3>
(もう記憶があいまいですが、確かこうだった)
というものを、その時受けていたページの中に埋め込んでしまいます。
埋め込んだまま、cache に記録してしまうので、reload しても消えません。

私のページの場合、それがちょうど、表 <TABLE> - </TABLE> の中に入ってしまって、
表の表示がメチャクチャになってしまいました。

Version 4.0 Preview Release 3 では、そういうバグはありません。


それから、MS-IE 3.0/3.01 では、
META タグで charset を指定すると、かえって文字化けしやすくなる様です。
MS-IE 3.02/4.0では試していません。


さらに、Win32 版 Lynx の先月のバージョンでは、
META タグで charset を指定すると、必ず文字化けします。
もっともこれは、私が Lynx の設定をちゃんとしていないからかもしれません。


別の問題としては、文字コードの変換を行う proxy を間に挟んでいる場合、
その proxy は、META タグの charset 指定も変換してくれるの?
というのが、過去の fj であったように記憶していますが、どうでしょう。


--
藤川優一 Yuichi FUJIKAWA
mailto:ecl...@pisces.bekkoame.or.jp
http://www.bekkoame.or.jp/~eclipse/
mailto:ecl...@dir.co.jp


Tokio Kikuchi

unread,
Apr 15, 1997, 3:00:00 AM4/15/97
to

菊地@高知大です。

> >ところで、「文字セットを指定するMETAタグ」というのは、
> >どう記述すればよいのでしょうか。
>

> > <META HTTP-EQUIV="Content-Type"


> > CONTENT="text/html; charset=ISO-2022-JP">
>
> ということになってます。こう書いておくと、HTTP サーバが
>
> Content-Type: text/html; charset=ISO-2022-JP
>
> というヘッダを付けたのと同じような役割を果たしてくれる*場合もある*

> どうしてもシフト JIS や日本語 EUC で書きたい場合は、それぞれ


>
> <META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=Shift_JIS">
> <META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=EUC-JP">
>
> とか書いておくべきでしょう。`x-sjis' とか `x-euc-jp' とかいうのは
> <URL:ftp://ftp.isi.edu/in-notes/iana/assignments/character-sets> に

話の筋からははずれるような気がするのですが、
EUC-JP にも Shift_JIS にも 「半角カナ」が入って
いますよね。ということは、(いまや)一部のUNIX
環境で「半角カナ」が表示できないというのを
無視してしまえば(という言い方は問題かな)
META を書いておけば「半角カナ」を使っても構わない
ということでしょうか。

#ALT を書かない画像ばかりのページよりはマシということ。

それから、ついでにおお外れですが、丸に数字やローマ数字
などは JIS に入っていなかったと思うのですが、これらの
「標準」での扱いはどうなっているのでしょうか。

--
---------------------------------------------------
<a href="http://www.is.kochi-u.ac.jp/‾tkikuchi/">
菊地時夫 tkik...@is.kochi-u.ac.jp
高知大学理学部情報科学科 Tel:0888-44-8336(direct)
780 高知市曙町2-5-1 Fax:0888-44-8361 </a>
---------------------------------------------------

KOJIMA Hajime

unread,
Apr 16, 1997, 3:00:00 AM4/16/97
to

 小島です。fj.kanji にも振って Followup-To: fj.kanji

<335301...@is.kochi-u.ac.jp> の記事において
Tokio Kikuchi <tkik...@is.kochi-u.ac.jp> さんは書きました:

|| どうしてもシフト JIS や日本語 EUC で書きたい場合は、それぞれ
||
|| <META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=Shift_JIS">
|| <META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=EUC-JP">
||
|| とか書いておくべきでしょう。`x-sjis' とか `x-euc-jp' とかいうのは
|| <URL:ftp://ftp.isi.edu/in-notes/iana/assignments/character-sets> に

| 話の筋からははずれるような気がするのですが、
| EUC-JP にも Shift_JIS にも 「半角カナ」が入って
| いますよね。ということは、(いまや)一部のUNIX
| 環境で「半角カナ」が表示できないというのを
| 無視してしまえば(という言い方は問題かな)
| META を書いておけば「半角カナ」を使っても構わない
| ということでしょうか。

まだ JIS X 0208-1997 を入手できていないのですが、「シフト JIS の (いわ
ゆる) 半角カナ領域は削除予定」は明記されているのでしょうか。

もしされているのだったら、やっぱり「半角カナ」はやめておいたほうがいい
と考えます。「あとでとても困る」でしょうから。

| それから、ついでにおお外れですが、丸に数字やローマ数字
| などは JIS に入っていなかったと思うのですが、これらの
| 「標準」での扱いはどうなっているのでしょうか。

あたらしい漢字規格をつくって、そっちに入れるという話を聞きました。

----
// 木下是雄「理科系の作文技術」中公新書 624 を読もう!!

小島 肇 - KOJIMA Hajime
[Office] k...@rins.ryukoku.ac.jp, http://tethys.st.ryukoku.ac.jp/~kjm/
Phone: 0775-43-7414 Fax: 0775-43-0706
[Home] sgl0...@niftyserve.or.jp
wr9h...@asahi-net.or.jp (home page 準備中、しかしメド立たず ^^;)

Jun-ichiro ITOH

unread,
Apr 18, 1997, 3:00:00 AM4/18/97
to

In article <E8GxC...@kegate.mach.kokusaidenki.co.jp>
oka...@mach.kokusaidenki.co.jp writes:

> > これはないと思います。HTMLソースファイルは
> > telnetでUNIX端末にログイン後、Emacsで文章を編集していますので、
> > すべての半角カナは入力した瞬間に文字化けを起こします
> > (この機能(?)を半角カナ自動検出に使っています)。

> もしかして、ISO-2022-JP で書いてありませんか?
> Netscape Navigater なんかだと正しく見えたりしませんか?
> IE の日本語処理は腐っているようで、
> ShiftJIS で書いたファイル以外は、しばしば化けてます。

正当にencodingを宣言する方が望ましいのはもちろんなのですが、
quick workaroundということで。
# もちろんこれは逃げなので、正しい方法がdeployすることを望んでいます。

netscape navigatorのdocument encodingを"Japanese auto-detect"に
設定している場合、HTMLファイルの先頭にほど近い部分のテキストだけを
見てencodingが判別されるようです。
ということなので、なるべく長い日本語のコメントをHTMLテキストの
先頭部分に詰めると化ける率が減ります。

Jun-ichiro itojun Itoh

---例題
<HTML>
<HEAD> .... </HEAD>
<BODY>
<!-- これはネットスケープナビゲーターの日本語エンコーディング判別を -->
<!-- 助けるための日本語文字列です。他に意味はないです。はい。 -->
--
ito...@csl.sony.co.jp(Jun-ichiro ITOH)

Yuichi FUJIKAWA

unread,
Apr 21, 1997, 3:00:00 AM4/21/97
to

藤川優一と申します。

In article <5it7f2$2...@fu.bekkoame.or.jp>,
ecl...@pisces.bekkoame.or.jp says...


>
>http://mitsuko.jaist.ac.jp/fj/ で見つけた <E8JD3...@vega.aichi-u.ac.jp> にて

>石川さん曰く、

>> どうしてもシフト JIS や日本語 EUC で書きたい場合は、それぞれ
>>
>> <META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=Shift_JIS">
>> <META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=EUC-JP">
>>
>> とか書いておくべきでしょう。`x-sjis' とか `x-euc-jp' とかいうのは
>> <URL:ftp://ftp.isi.edu/in-notes/iana/assignments/character-sets> に

>> 登録された正しい名称ではないので、使うべきではないと思います。


>
>    Win32 版 Lynx の先月のバージョンでは、
>META タグで charset を指定すると、必ず文字化けします。
>もっともこれは、私が Lynx の設定をちゃんとしていないからかもしれません。

Win32 Lynx の名誉のために自分でフォローしときます。

META指定無し


<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=Shift_JIS">

<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=iso-2022-jp">
では、文字化けしません。

<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=x-sjis">
だと、文字化けします。

なお、LYNX.EXE の作成日時は、97/03/14 18.19 です。
--
藤川優一 Yuichi FUJIKAWA
mailto:ecl...@dir.co.jp
mailto:ecl...@pisces.bekkoame.or.jp
http://www.bekkoame.or.jp/~eclipse/


Masayasu Ishikawa

unread,
Apr 21, 1997, 3:00:00 AM4/21/97
to

完全復活の日はまだまだ遠そうな石川です。

私の記憶が確かならば、JST時間1997年04月14日(月) 21時20分50秒頃、
fj.net.infosystems.www.browsersの<5it7f2$2...@fu.bekkoame.or.jp>の記事において
ecl...@pisces.bekkoame.or.jp (Yuichi FUJIKAWA)さんは書きました。

>石川さんには、
>> #某 HTML チェッカの次のリリース (あるのか!?) には、
>お世話になっております。

そういえば、某 HTML チェッカのバグレポート等を送ってくださった方々、
お返事できてなくて大変申し訳ありませんm(_ _)m。最近時間とテストできる
環境が不足してまして…。なんとかヒマを見つけてお返事しますので、どうか
気長に待ってやって下さいませ。

…という話はさておき、

>> どうしてもシフト JIS や日本語 EUC で書きたい場合は、それぞれ
>>
>> <META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=Shift_JIS">
>> <META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=EUC-JP">
>>
>> とか書いておくべきでしょう。`x-sjis' とか `x-euc-jp' とかいうのは
>> <URL:ftp://ftp.isi.edu/in-notes/iana/assignments/character-sets> に
>> 登録された正しい名称ではないので、使うべきではないと思います。

>> 上記の例のように、``preferred MIME name'' とされている名称を
>> 使うべきでしょう。`x-sjis' とか `x-euc-jp' でないと認識しない
>> user agent があるとしたら、それはおかしな実装だと思いますので、
>> ぜひ文句をつけて直してもらいましょう。
>
>おかしな実装の例としては、(私の場合、全て MS-Windows95 での話ですが、)
>Netscape Navigator の Version 2 が、そうなっていました。
>x-sjis は解釈できるが、Shift_JIS では文字化けしました。
>Version 3/4 では、Shift_JIS を正しく解釈します。

そのようですね。x-sjis とか x-euc-jp といった変な charset 指定が
出てきたのは、Mozilla が使い出してからだったように思います。
いずれにしろおかしなことには変わりありませんから、いまさらそんな
変な user agent に合わせる必要もないでしょう。Version 3/4 で
直ってるのであればなおさらです。

>但し、Version 4.0 Preview Release 2 には、Navigator の Encoding と、
>META タグで指定された charset とが一致していない場合に、
> <H3>Transfer Interruped !</H3>
>(もう記憶があいまいですが、確かこうだった)
>というものを、その時受けていたページの中に埋め込んでしまいます。
>埋め込んだまま、cache に記録してしまうので、reload しても消えません。

これはまた、キョーレツな仕様ですね…。まあ所詮まだ Preview Release、
ということでしょうか。いずれにしろ、見る側で encoding を判断する
なんてのは筋違いだと思っているので、サーバがきちんと charset
パラメータを付加するなり、ドキュメント中で記述しておくなり、
情報提供者の側で対処すべき問題だろうと思います。user agent はそれを
きちんと処理すべし、ということで…。RFC 2070 の "1.2.2. User agents"
では、"user agents MUST correctly interpret the charset parameter
accompanying an HTML document received from the network." ということに
なってますから。

>それから、MS-IE 3.0/3.01 では、
>META タグで charset を指定すると、かえって文字化けしやすくなる様です。

ナゾの IE 拡張を使って、<META CHARSET="Windows-1251"> とか書いたら
ちゃんと処理できたりして…(偏見200%)。まあ、charset パラメータを
正しく処理できない情けない user agent があるからといって、charset を
指定しないのは本末転倒だと思いますので、ここは IE がちゃんと
処理するよう Microsoft にお願いするのが筋じゃないでしょうか。

# これは Microsoft じゃなくてマイクロソフトの方の仕事かな…

>別の問題としては、文字コードの変換を行う proxy を間に挟んでいる場合、
>その proxy は、META タグの charset 指定も変換してくれるの?
>というのが、過去の fj であったように記憶していますが、どうでしょう。

この問題は確かにあるんですが…コード変換をしてくれる proxy は
確かに便利ですし、その功績を否定するわけでは決してないのですが、
単なる地域化ではなく国際化を考えたとき、特定の言語、例えば日本語に
特化したコード変換はかえってアダになると思っています。

例えば他のコードをシフト JIS に変換してくれる proxy があったとして、
ISO-2022-JP-2 で書かれた日本語/中国語/韓国語/ギリシャ語等が混在した
文書をどう変換するのでしょうか。ISO-8859-8 で書かれたヘブライ語の
文書はどうなるのでしょう。UTF-8 でタイ語とかタミル語とかラオ語の
文書が送られてきたら? …こう考えていくと、proxy のコード変換に
頼るのはそろそろ無理が出てきているように思います。

RFC 2070 では文書文字集合は UCS-4 ということになってますが、
"external character encoding" としては一応 ISO-2022-JP なども
使っても良いことになっています。それらを内部的に UCS-4 に
変換するのは、user agent がやるべき仕事だろうと思います。
詳しくは RFC 2070 の "2.1. Reference processing model" あたりを
ご覧ください。

--
石川 雅康
E-mail: mim...@aichi-u.ac.jp

Satoshi KUSUNOKI

unread,
Apr 22, 1997, 3:00:00 AM4/22/97
to

In <E8zu3...@vega.aichi-u.ac.jp>,
Masayasu Ishikawa wrote:
|最初に断わっておきますが、以下の話はあくまで「HTML の国際化 (RFC 2070)」
|という文脈に限った話です。

全然別の文脈ですが、

<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=ISO-2022-JP">

を付けると、MS IEで文章がところどころ文字化けしますね。遅まきなが
ら先日ようやっと気付いて急遽自分のページに付けるのを止めるようにし
た。

楠 哲士 Satoshi KUSUNOKI

0 new messages