Saito HiroAKI wrote:
> Windows95でインターネットエクスプローラ3.01を
> 使用していますが、原因不明の文字化けが頻発します。
>
> 半角カナではなく、普通の全角文字の部分で発生します。
わざわざ、1 Byte カナではないとおっしゃっているところで、
疑うのは失礼だとは思うのですが、
> 特に、"「"や、"」"などの記号周辺が多くなっています。
この "「 " や "」" などの記号が 1 Byte カナになっていませんか?
Windows95 だと、これらの記号の 1 Byte 版と 2 Byte 版の
違いがわかりにくいことが多いです。
> 再読込をすると正しく表示されることもあります。
ただ、これがよくわからないんですよねぇ…。
--
---+---+-|-+---+---|---+---+-|-+---+---|---+---+-|-+---+---|---+---+-|
安田 廷勳( Isao Yasuda ) #! There's more than one way to do it.
Private | @リムネット(名古屋)
| E-Mail <mailto:i_ya...@na.rim.or.jp>
| URL <URL:http://www.na.rim.or.jp/‾i_yasuda/>
Business | @プリ・テック株式会社 TEL(0563)55-0707 FAX(0563)55-0202
| E-Mail <mailto:pri...@gol.com>
| URL <URL:http://www.sphere.ad.jp/pritech/>
Π
1997-04-11(Fri) 09:22'31" i_ya...@na.rim.or.jp wrote in
[Re: IE3.01 MojiBake]
>> > Windows95でインターネットエクスプローラ3.01を
>> > 使用していますが、原因不明の文字化けが頻発します。
>> > 半角カナではなく、普通の全角文字の部分で発生します。
>> > 特に、"「"や、"」"などの記号周辺が多くなっています。
>> この "「 " や "」" などの記号が 1 Byte カナになっていませんか?
>> Windows95 だと、これらの記号の 1 Byte 版と 2 Byte 版の
>> 違いがわかりにくいことが多いです。
これはないと思います。HTMLソースファイルは
telnetでUNIX端末にログイン後、Emacsで文章を編集していますので、
すべての半角カナは入力した瞬間に文字化けを起こします
(この機能(?)を半角カナ自動検出に使っています)。
やっぱり原因不明でしょうか・・・。
東海大学 文学部 広報学科情報社会課程
齋藤 宏明 E-Mail:60ls...@keyaki.cc.u-tokai.ac.jp
スタートレックのページ-> http://bosei.cc.u-tokai.ac.jp/~60ls1116/
Saito HiroAKI wrote:
>
> 元記事を投稿した、
> 東海大学の斉藤といいます
>
> 1997-04-11(Fri) 09:22'31" i_ya...@na.rim.or.jp wrote in
> [Re: IE3.01 MojiBake]
>
> >> > Windows95でインターネットエクスプローラ3.01を
> >> > 使用していますが、原因不明の文字化けが頻発します。
> >> > 半角カナではなく、普通の全角文字の部分で発生します。
> >> > 特に、"「"や、"」"などの記号周辺が多くなっています。
>
> >> この "「 " や "」" などの記号が 1 Byte カナになっていませんか?
> >> Windows95 だと、これらの記号の 1 Byte 版と 2 Byte 版の
> >> 違いがわかりにくいことが多いです。
>
> これはないと思います。HTMLソースファイルは
> telnetでUNIX端末にログイン後、Emacsで文章を編集していますので、
> すべての半角カナは入力した瞬間に文字化けを起こします
> (この機能(?)を半角カナ自動検出に使っています)。
むうぅ。
そうですか…。
それでは、私にはちょっと見当がつかないです。
お役に立てず、申し訳ない。
In article <5iigtt$8...@bosei.cc.u-tokai.ac.jp> 60ls...@bosei.cc.u-tokai.ac.jp (Saito HiroAKI) writes:
> Windows95でインターネットエクスプローラ3.01を
> 使用していますが、原因不明の文字化けが頻発します。
>
> 半角カナではなく、普通の全角文字の部分で発生します。
> 特に、"「"や、"」"などの記号周辺が多くなっています。
> 再読込をすると正しく表示されることもあります。
> HTMLソースファイルの漢字コードを、
> JIS、SーJIS、EUCのどれに設定しても起こります。
>
> これらの不具合を解消するにはどうしたら良いのでしょうか。
>
私も同じです。(netscapeですが)
特にwww.yahoo.co.jpがかなりの確率で化けます。
そんな時はback - forwardすると直ります。
でもLinuxのnetscapeはまず化けることはないです。
こうゆうもんだとかってに理解してますが、理由がわかれば私も知りたいです。
--
岩田功一 kiw...@alles.or.jp
1997-04-11(Fri) 19:04'58" oka...@mach.kokusaidenki.co.jp wrote in
[Re: IE3.01 MojiBake]
>> もしかして、ISO-2022-JP で書いてありませんか?
>> Netscape Navigater なんかだと正しく見えたりしませんか?
>> IE の日本語処理は腐っているようで、
>> ShiftJIS で書いたファイル以外は、しばしば化けてます。
あ、確かにISO-2022-JPで記述しています。
また、Netscape Navigaterだとこのような文字化けは一切発生しません。
ということは、
これはインターネットエクスプローラが悪いのでしょうか・・・。
サーチエンジン「千里眼」には、
「日本語のHTMLファイルはISO-2022-JPで記述するべき」
とあったので、それにならったのですが、間違いだったのでしょうか。
1997-04-11(Fri) 19:00'22" s...@tt.rim.or.jp wrote in
[Re: IE3.01 MojiBake]
>> 日本語コード自動判別の失敗ということはありませんか。
>> ブラウザの文字コードを「自動判別」以外にしたらうまくいきませんか?
>> もしうまくいけば、漢字を含むコメントをHTMLの先頭に置いてみるとか、
>> 文字セットを指定するMETAタグを置いてみるとか。
自動識別をどれに設定しても、文字化けが発生することがあります。
ところで、「文字セットを指定するMETAタグ」というのは、
どう記述すればよいのでしょうか。
<META NAME="keywords" CONTENT="startrek">などのように
キーワードをいれる事しかわかりません。
#ちょっとだけ復活モード。
私の記憶が確かならば、JST時間1997年04月12日(土) 10時51分40秒頃、
fj.net.infosystems.www.browsersの<5imprc$q...@bosei.cc.u-tokai.ac.jp>の
記事において60ls...@bosei.cc.u-tokai.ac.jp (Saito HiroAKI)さんは書きました。
>サーチエンジン「千里眼」には、
>「日本語のHTMLファイルはISO-2022-JPで記述するべき」
>とあったので、それにならったのですが、間違いだったのでしょうか。
ISO-2022-JP でなければならない、というわけでもないでしょうが、
私もこれが一番無難なんじゃないかと思います。なにしろ RFC 2070
(Internationalization of the Hypertext Markup Language) でも、
encoding の例として挙げられてるくらいですし。
日本語だけ扱えればいい、他の言語なんか知ったことか、ということなら、
まあシフト JIS でも日本語 EUC でもいいかもしれませんが、encoding に
関する情報がなければ、これらは BIG 5 とか EUC-KR とかと区別するのは
難しいので、Web ページに使うのはあんまりお薦めできません。
ISO-2022-JP なら、例えば ESC 2/4 4/2 というエスケープシーケンスが
出てくれば、文字集合として JIS X 0208 を指示しているのが
encoding 自体から明らかなので、まともに実装してあれば、
判別し損なって文字化けするようなことはないはずです。もしこれを
正しく処理できないのであれば、やはり IE が腐ってるのではないかと…。
#もっとも、RFC 2070 を書いた F. Yergeau 氏は、どうやら encoding と
#しては UTF-8 がお気に入りのようですが…。
>ところで、「文字セットを指定するMETAタグ」というのは、
>どう記述すればよいのでしょうか。
文字セットは SGML 宣言で決まってるので変えられませんが(^^;、
文字符号化方式 (character encoding scheme) を指定する方法であれば、
RFC 2070 の ``6. External character encoding issues'' によると…
> In any document, it is possible to include an indication of the
> encoding scheme like the following, as early as possible within the
> HEAD of the document:
>
> <META HTTP-EQUIV="Content-Type"
> CONTENT="text/html; charset=ISO-2022-JP">
ということになってます。こう書いておくと、HTTP サーバが
Content-Type: text/html; charset=ISO-2022-JP
というヘッダを付けたのと同じような役割を果たしてくれる*場合もある*
でしょう。現状ではどの user agent でも認識してくれるわけでは
ないようですが、少なくとも Mozilla あたりは、こう書かれていれば
たとえブラウザの Document Encoding の指定が Latin-1 になっていたと
しても、ちゃんと日本語を表示してくれます。逆に、欧文のみの
ドキュメントでも、
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=US-ASCII">
とか
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=ISO-8859-1">
のように書いておくと、同じく Mozilla を例に挙げれば、
Document Encoding の指定が日本語とか中国語になっていたとしても、
ちゃんと欧文フォントで綺麗に表示してくれます。© のような
entity reference がいわゆる半角カナに文字化けして表示されて
しまうようなダサいこともありません。
国際化時代の Web ページには符号化方式の情報は必須と言っても
過言ではありませんから、違いのわかる Web ページ作者は、
必ずこの記述を入れておくべきだと思います。
#某 HTML チェッカの次のリリース (あるのか!?) には、
#これのチェックを入れよう…
どうしてもシフト JIS や日本語 EUC で書きたい場合は、それぞれ
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=Shift_JIS">
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=EUC-JP">
とか書いておくべきでしょう。`x-sjis' とか `x-euc-jp' とかいうのは
<URL:ftp://ftp.isi.edu/in-notes/iana/assignments/character-sets> に
登録された正しい名称ではないので、使うべきではないと思います。
上記の例のように、``preferred MIME name'' とされている名称を
使うべきでしょう。`x-sjis' とか `x-euc-jp' でないと認識しない
user agent があるとしたら、それはおかしな実装だと思いますので、
ぜひ文句をつけて直してもらいましょう。
#余談ですが、EUC-JP という Alias が登録されたおかげで、
#charset=Extended_UNIX_Code_Packed_Format_for_Japanese
#とか書かずに済んでよかったですね :-)
--
石川 雅康
Saito HiroAKI wrote:
> サーチエンジン「千里眼」には、
> 「日本語のHTMLファイルはISO-2022-JPで記述するべき」
> とあったので、それにならったのですが、間違いだったのでしょうか。
間違っていないと思います。少なくとも、いわゆる Shift JIS で書くよりは
よっぽどましでしょう。
#もし、経路が8ビットクリーンであることが保証されるなら、EUC の方が
#いいのかもしれませんけど。
> ところで、「文字セットを指定するMETAタグ」というのは、
> どう記述すればよいのでしょうか。
> <META NAME="keywords" CONTENT="startrek">などのように
> キーワードをいれる事しかわかりません。
<META HTTP-EQUIV="Content-Type" CONTENT="text/html;
charset=iso-2022-jp">
いわゆる Shift JIS なら charset=x-sjis 日本語EUC なら x-euc-jp となりま
す。
<URL:http://w3.lab.kdd.co.jp/technotes/WWW/HTML/international.html> を
ご参照下さい。
但し、(今のバージョンは知りませんが)昔の IE は対応していないようです。
--
吉藤英明 (YOSHIFUJI, Hideaki)
Faculty of Engineering, Tohoku University, JAPAN
<URL:http://www.ecei.tohoku.ac.jp/‾yoshfuji/>
石川さんには、
> #某 HTML チェッカの次のリリース (あるのか!?) には、
お世話になっております。
http://mitsuko.jaist.ac.jp/fj/ で見つけた <E8JD3...@vega.aichi-u.ac.jp> にて、
石川さん曰く、
> どうしてもシフト JIS や日本語 EUC で書きたい場合は、それぞれ
>
> <META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=Shift_JIS">
> <META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=EUC-JP">
>
> とか書いておくべきでしょう。`x-sjis' とか `x-euc-jp' とかいうのは
> <URL:ftp://ftp.isi.edu/in-notes/iana/assignments/character-sets> に
> 登録された正しい名称ではないので、使うべきではないと思います。
> 上記の例のように、``preferred MIME name'' とされている名称を
> 使うべきでしょう。`x-sjis' とか `x-euc-jp' でないと認識しない
> user agent があるとしたら、それはおかしな実装だと思いますので、
> ぜひ文句をつけて直してもらいましょう。
おかしな実装の例としては、(私の場合、全て MS-Windows95 での話ですが、)
Netscape Navigator の Version 2 が、そうなっていました。
x-sjis は解釈できるが、Shift_JIS では文字化けしました。
Version 3/4 では、Shift_JIS を正しく解釈します。
但し、Version 4.0 Preview Release 2 には、Navigator の Encoding と、
META タグで指定された charset とが一致していない場合に、
<H3>Transfer Interruped !</H3>
(もう記憶があいまいですが、確かこうだった)
というものを、その時受けていたページの中に埋め込んでしまいます。
埋め込んだまま、cache に記録してしまうので、reload しても消えません。
私のページの場合、それがちょうど、表 <TABLE> - </TABLE> の中に入ってしまって、
表の表示がメチャクチャになってしまいました。
Version 4.0 Preview Release 3 では、そういうバグはありません。
それから、MS-IE 3.0/3.01 では、
META タグで charset を指定すると、かえって文字化けしやすくなる様です。
MS-IE 3.02/4.0では試していません。
さらに、Win32 版 Lynx の先月のバージョンでは、
META タグで charset を指定すると、必ず文字化けします。
もっともこれは、私が Lynx の設定をちゃんとしていないからかもしれません。
別の問題としては、文字コードの変換を行う proxy を間に挟んでいる場合、
その proxy は、META タグの charset 指定も変換してくれるの?
というのが、過去の fj であったように記憶していますが、どうでしょう。
--
藤川優一 Yuichi FUJIKAWA
mailto:ecl...@pisces.bekkoame.or.jp
http://www.bekkoame.or.jp/~eclipse/
mailto:ecl...@dir.co.jp
> >ところで、「文字セットを指定するMETAタグ」というのは、
> >どう記述すればよいのでしょうか。
>
> > <META HTTP-EQUIV="Content-Type"
> > CONTENT="text/html; charset=ISO-2022-JP">
>
> ということになってます。こう書いておくと、HTTP サーバが
>
> Content-Type: text/html; charset=ISO-2022-JP
>
> というヘッダを付けたのと同じような役割を果たしてくれる*場合もある*
> どうしてもシフト JIS や日本語 EUC で書きたい場合は、それぞれ
>
> <META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=Shift_JIS">
> <META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=EUC-JP">
>
> とか書いておくべきでしょう。`x-sjis' とか `x-euc-jp' とかいうのは
> <URL:ftp://ftp.isi.edu/in-notes/iana/assignments/character-sets> に
話の筋からははずれるような気がするのですが、
EUC-JP にも Shift_JIS にも 「半角カナ」が入って
いますよね。ということは、(いまや)一部のUNIX
環境で「半角カナ」が表示できないというのを
無視してしまえば(という言い方は問題かな)
META を書いておけば「半角カナ」を使っても構わない
ということでしょうか。
#ALT を書かない画像ばかりのページよりはマシということ。
それから、ついでにおお外れですが、丸に数字やローマ数字
などは JIS に入っていなかったと思うのですが、これらの
「標準」での扱いはどうなっているのでしょうか。
--
---------------------------------------------------
<a href="http://www.is.kochi-u.ac.jp/‾tkikuchi/">
菊地時夫 tkik...@is.kochi-u.ac.jp
高知大学理学部情報科学科 Tel:0888-44-8336(direct)
780 高知市曙町2-5-1 Fax:0888-44-8361 </a>
---------------------------------------------------
<335301...@is.kochi-u.ac.jp> の記事において
Tokio Kikuchi <tkik...@is.kochi-u.ac.jp> さんは書きました:
|| どうしてもシフト JIS や日本語 EUC で書きたい場合は、それぞれ
||
|| <META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=Shift_JIS">
|| <META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=EUC-JP">
||
|| とか書いておくべきでしょう。`x-sjis' とか `x-euc-jp' とかいうのは
|| <URL:ftp://ftp.isi.edu/in-notes/iana/assignments/character-sets> に
| 話の筋からははずれるような気がするのですが、
| EUC-JP にも Shift_JIS にも 「半角カナ」が入って
| いますよね。ということは、(いまや)一部のUNIX
| 環境で「半角カナ」が表示できないというのを
| 無視してしまえば(という言い方は問題かな)
| META を書いておけば「半角カナ」を使っても構わない
| ということでしょうか。
まだ JIS X 0208-1997 を入手できていないのですが、「シフト JIS の (いわ
ゆる) 半角カナ領域は削除予定」は明記されているのでしょうか。
もしされているのだったら、やっぱり「半角カナ」はやめておいたほうがいい
と考えます。「あとでとても困る」でしょうから。
| それから、ついでにおお外れですが、丸に数字やローマ数字
| などは JIS に入っていなかったと思うのですが、これらの
| 「標準」での扱いはどうなっているのでしょうか。
あたらしい漢字規格をつくって、そっちに入れるという話を聞きました。
----
// 木下是雄「理科系の作文技術」中公新書 624 を読もう!!
小島 肇 - KOJIMA Hajime
[Office] k...@rins.ryukoku.ac.jp, http://tethys.st.ryukoku.ac.jp/~kjm/
Phone: 0775-43-7414 Fax: 0775-43-0706
[Home] sgl0...@niftyserve.or.jp
wr9h...@asahi-net.or.jp (home page 準備中、しかしメド立たず ^^;)
> > これはないと思います。HTMLソースファイルは
> > telnetでUNIX端末にログイン後、Emacsで文章を編集していますので、
> > すべての半角カナは入力した瞬間に文字化けを起こします
> > (この機能(?)を半角カナ自動検出に使っています)。
> もしかして、ISO-2022-JP で書いてありませんか?
> Netscape Navigater なんかだと正しく見えたりしませんか?
> IE の日本語処理は腐っているようで、
> ShiftJIS で書いたファイル以外は、しばしば化けてます。
正当にencodingを宣言する方が望ましいのはもちろんなのですが、
quick workaroundということで。
# もちろんこれは逃げなので、正しい方法がdeployすることを望んでいます。
netscape navigatorのdocument encodingを"Japanese auto-detect"に
設定している場合、HTMLファイルの先頭にほど近い部分のテキストだけを
見てencodingが判別されるようです。
ということなので、なるべく長い日本語のコメントをHTMLテキストの
先頭部分に詰めると化ける率が減ります。
Jun-ichiro itojun Itoh
---例題
<HTML>
<HEAD> .... </HEAD>
<BODY>
<!-- これはネットスケープナビゲーターの日本語エンコーディング判別を -->
<!-- 助けるための日本語文字列です。他に意味はないです。はい。 -->
--
ito...@csl.sony.co.jp(Jun-ichiro ITOH)
In article <5it7f2$2...@fu.bekkoame.or.jp>,
ecl...@pisces.bekkoame.or.jp says...
>
>http://mitsuko.jaist.ac.jp/fj/ で見つけた <E8JD3...@vega.aichi-u.ac.jp> にて
、
>石川さん曰く、
>> どうしてもシフト JIS や日本語 EUC で書きたい場合は、それぞれ
>>
>> <META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=Shift_JIS">
>> <META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=EUC-JP">
>>
>> とか書いておくべきでしょう。`x-sjis' とか `x-euc-jp' とかいうのは
>> <URL:ftp://ftp.isi.edu/in-notes/iana/assignments/character-sets> に
>> 登録された正しい名称ではないので、使うべきではないと思います。
>
> Win32 版 Lynx の先月のバージョンでは、
>META タグで charset を指定すると、必ず文字化けします。
>もっともこれは、私が Lynx の設定をちゃんとしていないからかもしれません。
Win32 Lynx の名誉のために自分でフォローしときます。
META指定無し
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=Shift_JIS">
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=iso-2022-jp">
では、文字化けしません。
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=x-sjis">
だと、文字化けします。
なお、LYNX.EXE の作成日時は、97/03/14 18.19 です。
--
藤川優一 Yuichi FUJIKAWA
mailto:ecl...@dir.co.jp
mailto:ecl...@pisces.bekkoame.or.jp
http://www.bekkoame.or.jp/~eclipse/
私の記憶が確かならば、JST時間1997年04月14日(月) 21時20分50秒頃、
fj.net.infosystems.www.browsersの<5it7f2$2...@fu.bekkoame.or.jp>の記事において
ecl...@pisces.bekkoame.or.jp (Yuichi FUJIKAWA)さんは書きました。
>石川さんには、
>> #某 HTML チェッカの次のリリース (あるのか!?) には、
>お世話になっております。
そういえば、某 HTML チェッカのバグレポート等を送ってくださった方々、
お返事できてなくて大変申し訳ありませんm(_ _)m。最近時間とテストできる
環境が不足してまして…。なんとかヒマを見つけてお返事しますので、どうか
気長に待ってやって下さいませ。
…という話はさておき、
>> どうしてもシフト JIS や日本語 EUC で書きたい場合は、それぞれ
>>
>> <META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=Shift_JIS">
>> <META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=EUC-JP">
>>
>> とか書いておくべきでしょう。`x-sjis' とか `x-euc-jp' とかいうのは
>> <URL:ftp://ftp.isi.edu/in-notes/iana/assignments/character-sets> に
>> 登録された正しい名称ではないので、使うべきではないと思います。
>> 上記の例のように、``preferred MIME name'' とされている名称を
>> 使うべきでしょう。`x-sjis' とか `x-euc-jp' でないと認識しない
>> user agent があるとしたら、それはおかしな実装だと思いますので、
>> ぜひ文句をつけて直してもらいましょう。
>
>おかしな実装の例としては、(私の場合、全て MS-Windows95 での話ですが、)
>Netscape Navigator の Version 2 が、そうなっていました。
>x-sjis は解釈できるが、Shift_JIS では文字化けしました。
>Version 3/4 では、Shift_JIS を正しく解釈します。
そのようですね。x-sjis とか x-euc-jp といった変な charset 指定が
出てきたのは、Mozilla が使い出してからだったように思います。
いずれにしろおかしなことには変わりありませんから、いまさらそんな
変な user agent に合わせる必要もないでしょう。Version 3/4 で
直ってるのであればなおさらです。
>但し、Version 4.0 Preview Release 2 には、Navigator の Encoding と、
>META タグで指定された charset とが一致していない場合に、
> <H3>Transfer Interruped !</H3>
>(もう記憶があいまいですが、確かこうだった)
>というものを、その時受けていたページの中に埋め込んでしまいます。
>埋め込んだまま、cache に記録してしまうので、reload しても消えません。
これはまた、キョーレツな仕様ですね…。まあ所詮まだ Preview Release、
ということでしょうか。いずれにしろ、見る側で encoding を判断する
なんてのは筋違いだと思っているので、サーバがきちんと charset
パラメータを付加するなり、ドキュメント中で記述しておくなり、
情報提供者の側で対処すべき問題だろうと思います。user agent はそれを
きちんと処理すべし、ということで…。RFC 2070 の "1.2.2. User agents"
では、"user agents MUST correctly interpret the charset parameter
accompanying an HTML document received from the network." ということに
なってますから。
>それから、MS-IE 3.0/3.01 では、
>META タグで charset を指定すると、かえって文字化けしやすくなる様です。
ナゾの IE 拡張を使って、<META CHARSET="Windows-1251"> とか書いたら
ちゃんと処理できたりして…(偏見200%)。まあ、charset パラメータを
正しく処理できない情けない user agent があるからといって、charset を
指定しないのは本末転倒だと思いますので、ここは IE がちゃんと
処理するよう Microsoft にお願いするのが筋じゃないでしょうか。
# これは Microsoft じゃなくてマイクロソフトの方の仕事かな…
>別の問題としては、文字コードの変換を行う proxy を間に挟んでいる場合、
>その proxy は、META タグの charset 指定も変換してくれるの?
>というのが、過去の fj であったように記憶していますが、どうでしょう。
この問題は確かにあるんですが…コード変換をしてくれる proxy は
確かに便利ですし、その功績を否定するわけでは決してないのですが、
単なる地域化ではなく国際化を考えたとき、特定の言語、例えば日本語に
特化したコード変換はかえってアダになると思っています。
例えば他のコードをシフト JIS に変換してくれる proxy があったとして、
ISO-2022-JP-2 で書かれた日本語/中国語/韓国語/ギリシャ語等が混在した
文書をどう変換するのでしょうか。ISO-8859-8 で書かれたヘブライ語の
文書はどうなるのでしょう。UTF-8 でタイ語とかタミル語とかラオ語の
文書が送られてきたら? …こう考えていくと、proxy のコード変換に
頼るのはそろそろ無理が出てきているように思います。
RFC 2070 では文書文字集合は UCS-4 ということになってますが、
"external character encoding" としては一応 ISO-2022-JP なども
使っても良いことになっています。それらを内部的に UCS-4 に
変換するのは、user agent がやるべき仕事だろうと思います。
詳しくは RFC 2070 の "2.1. Reference processing model" あたりを
ご覧ください。
--
石川 雅康
E-mail: mim...@aichi-u.ac.jp
全然別の文脈ですが、
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=ISO-2022-JP">
を付けると、MS IEで文章がところどころ文字化けしますね。遅まきなが
ら先日ようやっと気付いて急遽自分のページに付けるのを止めるようにし
た。
楠 哲士 Satoshi KUSUNOKI