Saturday, January 29, 2005

いわゆるひとつのrobots.txt

 robots.txtというファイルがある。これはあるディレクトリ内に置くと、そのディレクトリ以下に置いてあるファイルが、Googleなどの検索エンジンに引っかからなくなる、と言う魔法のおまじないである。正確には、検索エンジンに「ここの内容はあなたの検索範囲に含めないようお願い申し上げます」という意図を伝えるものだ。

 おまじないである、というのは、検索エンジンによってはrobots.txtの設定を全く無視してやってくる、はた迷惑なものが存在するからだ。たとえば、メールアドレスらしきものを片っ端から集めているspam業者の検索エンジンなどである。


 知っている人はとっくに知っているようなことをここにわざわざ書くのは、あるサイトで「このサイトではrobots.txtをこんな風に書いていますよ。よっぽど見られたくなかったんでしょうねえ」というような記述を目にしたからである。ふと気になったことがあったのだ。

 知っている人は知っている、と言う一方で、今ここでそんなものの存在を初めて知った、と言う方も多いだろう。普通はrobots.txtに向けてわざわざリンクを張るようなことをしないし、「私のサイトではこんなrobots.txtを使っています。どうぞごらんになってください。」という風に積極的にアピールしているところも珍しい。

 つまり、robots.txtは「絶対に見えないようには出来ないけど、出来ることなら他人に見られたくない」というファイルの一つである。

 あるサイト内容を一部の人間以外に見られたくない場合は、ユーザー名とパスワードを用いるBASIC認証を使う方法が有名である。だがrobots.txt自体に認証をかけてしまったら、検索エンジンはパスワードを知らないわけだから、検索エンジンがrobots.txtを読むことが出来ない。無意味である。

 従って、あるサイト(ここでたとえばhttp://www.example.com/とする)にrobots.txtが存在するかどうかは、手打ちでディレクトリを示す"/"以下に"robots.txt"を追加して、http://www.example.com/robots.txtとすることによって簡単に確認できる。


 行きつけのサイトで試す前に、以下のニュースを見てほしい。

 ACCS不正アクセス裁判、検察側は元研究者に懲役8カ月を求刑

 今回の事件では、元研究員はCGIフォーム送信用のHTMLソースを改変し、CGIの引数にファイル名を渡すことにより、CGI本体のファイルと個人情報が含まれるログファイルを取得したとされている。この行為そのものについては弁護側・検察側とも事実であるとして同意しており、公判では行為が「不正アクセス行為」に当たるかということが論点となってきた。
参考:slashdot.jp:ACCSがoffice氏に約744万円の賠償を請求

 CGIや引数といった、頭が痛くなるような言葉が出てくるが、問題となっているのは被告(通称office氏)が、サーバー設置者にとって見てほしくないファイルを、あるURLを打ち込むことによって簡単に見ることが出来た、というものである。

 office氏はこの結果、ACCSのサーバーにあった個人情報の一部を学会で報告し、「ACCSのサーバー管理はこんなにずさんなんですよ」と公表してしまった。これ自体は非難されて然るべき行為である。

 しかし、裁判の争点となっているのは、「URLを打ち込むことによって、簡単に見えるようなものを見てしまったからと言って、それは不正アクセス禁止法に触れるのか?」という点である。
 参考:不正アクセス行為の禁止等に関する法律

 もしこれでoffice氏が有罪になるようなことがあれば、たとえば「http://www.example.com/secret/以下のディレクトリは絶対にのぞかないでください」という、鶴の恩返しみたいな告知一つで、そこのURLを興味本位でアドレスバーに入力した人間を訴追することが出来るようになるわけだ。

 当然、あるサイトのrobot.txtを覗くことも、サイト管理者が積極的に許可していない以上違法となるだろう。

 やっぱり、どちらかが間違っているようにしか思えないのである。

--
 昔、大学に入り立ての頃、師匠から「大事なファイルはそもそもネットワーク上に置くな」と言われた。今でも至言であると思っている。

No comments: