文字集合範囲外の文字とパーセントエンコード

Question

先日，以下の記事を読みました。 http://shimax.cocolog-nifty.com/search/2007/12/phphtmlspecialc_26bb.html で，以下のように書かれています。 >その際、サイト訪問者がEUCの補助漢字の大御所？「森?外」を入力したとします。すると、「?」の字は、「%26%2340407%3B」にURLエンコードされますから、それをデコードすれば、「鷗」になります。これを当方環境で再現させることができないのです。試しに， SpecialChar TestCase 1

ほげ

と書いたXHTMLのファイル(EUC-JP)とというファイル(UTF-8，だがBOMなしなのであまり関係ない)を作成し， XHTML側でhogeに対し?を入力し，送信したところ hoge:%E9%B7%97 となりました。検証においては Windows XP SP3 RC1(v3264) Apache 2.2.6 PHP 6(200712250730) Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9b3pre) Gecko/2007122905 Minefield/3.0b3pre IE 7.0.5730.11 でいずれも同じ結果になりました。 URI自体を決めるのはブラウザ側だと思うのでPHPであることは全く関係がない気もしますが，何が違うんでしょう？ #ブラウザの挙動がおかしいのであれば PHPを責めるべきではないと思う。個人的にはこのほうがうれしい挙動ですが，気になっています。 #直接ブログにコメントしないのは， >どなたか、「&」を「&」に変換する意味を、実例を挙げて、しっかりと説明できる人おられますでしょうか？もし、おられたら、コメントをやさしいトーンでお願いします。との内容からかけ離れているから聞きづらくて(汗 #accept-charset外したらMinefieldとIEに挙動の差が見られたが， #数値文字参照などにはなっていない

taloo · Accepted Answer

Firefox2.0 Opera9.0、IE7にて参照サイトの通りに再現しました。
XHTML1.0Trainsitional、euc-jp、UTF-8
出力はeuc-jpおよびutf-8、言語はPerlとPHPを使用。

euc-jpの場合はPerl、PHPともに%2340407から&#40407;に変換され、文字化けとなりました。
utf-8では日本語は%nn%nn%nnの3バイト分で表現される為、文字化けはありませんでした。
これは、Perlやほかの言語でも問題になりますね
（何も考えずに、慣例的に&を&に変換してましたが、、、orz）

なお、UTF-8にすることで、%E9%B7%97の出力も確認しています。


accept-charset属性にあわせてUTF-8で送信しているのもありますが、
php.iniなどで、入力文字コードをUTF-8に変換する設定とか、してませんか？
PHPの出力はiso-8859-1でも十分表現できる範囲だと思いますし、
文字コードの指定を可能な限り外してみるとか、
euc-jpで統一させるとかにしてみてはいかがでしょうか。


&を&に変換するのは、
Ｑ ＆ Ａ と入力した時に、Ｑ ＆ａｍｐ； Ａ に変換しないと、"HTMLとしてダメ"なだけですね。（念のため全角文字にて）
htmlspecialcharsという名前の通り、HTMLの文法に合わせる為であって、
セキュリティーの為じゃないと思います。

> %B2%AA
鴎 ですね。BBS投稿時に文字が消えないか心配ですが。
> 参照サイト
> （「IE7と補助漢字（「森鴎外」と「森鷗外」）」）
１つ目の例の「おう」の文字です。
表示可能な文字に変換してから送信しているような感じですね。

taloo · Answer

> エラー出されることなく「#PCDATA」の部分と「CDATA」の部分が混ざっているとあー、、、これは、「これ１つあれば完璧」な方法はないのではないでしょうか。

どこに出力（表示）するデータなのかで改行や&などの文字の扱いも違いますし、それに合わせて１つ１つ判断、変換していかないとダメだと思います。（めんどくさいですが）問題になるのは、「鷗」という文字列を鷗に変換するのか、「おう」の文字を表示するのか、とくにNGワードを考慮しての判断方法でしょうね。 > accept-charsetの「しなければならない（must）／してもよい（may）」一番問題になるのは、今でこそOSレベルで多言語に対応していますが、そのブラウザやOSにて、その文字コードを扱えない場合でしょう。 CGI（サーバー側）が決めうちにしてしまうと、投稿文が文字化けするの必至ではないでしょうか。（表示そのものは翻訳サイトを通じるなど、何らかの手段を講じれば可能ですし。）ひらがなの伸ばし記号（波線の「ー」）が〜に変換されるのも、これと同じ理屈なんだろうなぁ。

sakusaker7 · Answer

お知らせメールが飛び飛びにしか来てなくて、気がついたときは解決済み。
いやまあそれで問題ないんですけど。

今回の件ではこちらも勉強になりました。
質問者(himajin100000)さんとtalooさんに感謝します。

でまあ特に追加していうこともないのですが、ひとつだけ。
htmlspecialchars なんですが、これは「表示して問題ないHTMLドキュメント」にするためのものじゃなかったかと。
ちと微妙な表現ですが、これはセキュリティ云々ということではなくて、
'<', '>', '&' といったものはHTMLの見た目(など)を制御するタグに用いられる
文字なので、表示できる形として変換するためということです。
XSS等に対処するための「サニタイズ」するためのものではないと。

一次資料が見つからないので妄想入ってるかもしれませんが(^^;

taloo · Answer

> ・・・ってことはIEでのみ発生する現象であり，悪いのはそんな形式で送ってくるIEってことかな？

> (であれば，一つのブラウザのバグのためにわざわざPHP側が歩み寄る義務はなく
HTMLにおいては、どの文字コードで送信しなければならない、と言う規定はなかったと思いますよ。
つまり、UTF-8のフォームから、Shift_JISやeuc-jpで送信しようが、"UTF-7"で送信しようが、HTML/XHTMLとしては規格通りな訳で．．．

もしそう言う規定があったとして、
私は、ブラウザ（やスパム投稿プログラム）が、規定通りでない方法で送ってきても、可能な限り、PHP（CGIアプリケーション）でなんとかすべきだと思います。
私は「可能な限りどんなブラウザでも」を意識してますが、
その辺は考え方がちがうので、、、IEを除外、でもいいんじゃないでしょうか。
osCommerceやwikiの派生版（らしいもの）でも、文字コードを考えていなさそうなのを見かけます。
（英語圏ではいわゆる半角文字しか使わないので、UTF-8だろうがiso-8859-1だろうが、関係ないと言うのもありますけどね。）

蛇足ですが、
-moz-opacityや_marginなどのスタイルシートでもそうですが、
W3Cの規格に合致しない実装（ブラウザ独自仕様）をバグと言うつもりはないです。

> http://shimax.cocolog-nifty.com/search/2007/12/p …
> 12月31日追記部分

サニタイジングするときは、全てを非許可とした上で、許可しても良い物のみリストアップしなければなりません。（IPAだったかatmark itにも書かれています）
HTMLタグで考えた場合、特定のタグのみ非許可とした場合、
作者が知らないブラウザ独自タグや新しく定義されたタグが、セキュリティー上問題であっても許可となってしまうことがあります。

htmlspecialcharsが全てのエンティティーを変換するのは、このような理由に基づくと、
www.php.netだったかに書いてありました。
また、wordpressはあえてhtmlspecialcharsを使用して、許可文字のみ再変換しています。

実態参照や数値参照のみ有効にするのであれば、
&xxx;と&#nnn;（nは数字）という並びの&のみ再変換しておけば良いのではないでしょうか？
（参照サイトにもありますが、NGワードがあれば、数値参照でのNGワードのリストアップも必要になると思います）

ただし、投稿者が、「<」という文字列を送信し、
&lt; に変換されることを期待しているのか、変換されずに < が表示されることを期待しているのか、
プログラマーはそれを判断することはできないと思います。
特にHTML関係のBBSでは、タグを説明する時に、実態参照を「そのまま」表示することを期待することが多いです。

> ANo.4お礼
$str=str_replace("￥n", "￥￥n", $str);
$str=str_replace("￥"", "￥￥"", $str);
$str=str_replace("'", "￥￥'", $str);
$str=str_replace("￥￥", "￥￥￥￥", $str);
echo "var txt='$str';";

ですかね。
HTMLでは、HTMLとしてそのままでは使えない文字をエンコードしますし、
JavaScriptやECMAScriptで文字列の中にそのままでは入れられない文字、
改行コード、クォーテーションマーク、エスケープコードだけだと思いますが、
それをエスケープさせておけばいいと思います。（￥r￥n、￥r、￥nはあらかじめ統一済み）

> CGI側でBase64やパーセントエンコードした文字列にして
> Ecmascriptにそのまま渡す。渡された文字列をEcmascript側でデコードする，とかいう手段。どうなんでしょうね？

何でもありなら、XMLHttpRequestを使うとか、MD5とか、、、
MD5はdel.icio.usのJSONPで、JavaScriptからCGIアプリケーションにURLを渡す時に使われています。

長文で、さらになんか元の質問からはなれてきてるような、、、失礼しました。
ご参考まで。

taloo · Answer

あっと、失礼しました。
> ANo.1回答
> hoge:%8F%EC%BF
これを再現させないとダメなんですね。
こっちはまだできていませんが、気になったこととして、
WinXP SP3、Firefox3、Opera9.5を使われてるんですね。
私のところは同SP2、Firefox2、Opera9.0/9.2なんですが、コード体系が違うのかもしれません。
そうなると、私のところでは再現は不可能ですね。

まぁ、送信される文字コードはHTMLでどのように指定していても、結局ブラウザ依存ですから、
何らかの形で必ずUTF-8なりEUC-JPなりに変換してから出力や保存しなければなりませんから．．．
euc-JPmsで%8F%EC%BFが何の文字なのかちょっとわかりませんが(^^;
UTF-8と同様に文字化けせずに表示できていれば、大丈夫じゃないでしょうか。

参考URL：http://ja.wikipedia.org/wiki/EUC-JP

sakusaker7 · Answer

> accept-charset外したら
> Minefield
>hoge:%8F%EC%BF

これは補助漢字を指示している euc-jpですね。
うーん、確かにどうすれば数値参照で出てくるのかわかりませんね。
#自分も再現できません

> IE 7
> hoge:%FAt

これは shiftjis(cp932)ですかね?

> Safari 3.0.5(525.3)
> hoge:%B2%AA

え? これは…なんだろう?

sakusaker7 · Answer

> <form action="20071225-1.php" enctype="x-​www-urlencode"​ method="post" accept-charset="UTF-8">
>header("Content-Type:text/plain;charset=UTF-8");

これだとリンク先の方の試験と状況が変わってしまうのでそれが問題では?
上記のように設定した場合、入力元がなんであれブラウザはUTF-8文字列に
変換して送りつけてきますよね?
UTF-8でなら件の字は問題なく表すことができるので、数値表記にされないんじゃないかと思います。

って読み返してみたら
> #accept-charset外したらMinefieldとIEに挙動の差が見られたが，
> #数値文字参照などにはなっていない
ってありますね。
むう。

ついでに & がhtmlspecialchars関数での変換対象なのは、& が(HTMLで)特別扱いすべき
キャラクタだからとしかいいようがないような。
つまりあのような目的に htmlspcialchars関数を使うのが間違いじゃないかと。

文字集合範囲外の文字とパーセントエンコード

Firefox2.0 Opera9.0、IE7にて参照サイトの通りに再現しました。

この回答への補足

> エラー出されることなく「#PCDATA」の部分と「CDATA」の部分が混ざっていると

この回答への補足

お知らせメールが飛び飛びにしか来てなくて、気がついたときは解決済み。

> ・・・ってことはIEでのみ発生する現象であり，悪いのはそんな形式で送ってくるIEってことかな？

この回答への補足

あっと、失礼しました。

この回答への補足

> accept-charset外したら

この回答への補足

> <form action="20071225-1.php" enctype="x-​www-urlencode"​ method="post" accept-charset="UTF-8">

この回答への補足

似たような質問が見つかりました

関連するカテゴリからQ&Aを探す

デイリーランキングこのカテゴリの人気デイリーQ&Aランキング

マンスリーランキングこのカテゴリの人気マンスリーQ&Aランキング

> <form action="20071225-1.php" enctype="x-www-urlencode" method="post" accept-charset="UTF-8">