WWW川流れ

アクセスログと「ひみつ」

アクセスログは「雄弁」だ。Webサイトを運営する方針を立てるうえで、アクセスログを解析すること以上に参考となるものはない。一方、Webサイトを持っていない方の中には、アクセスログを取得することや、それを解析することを嫌う方が多いようだ。しかしアクセス解析が嫌われる理由は、しばしば知識や情報の不足に起因した「的はずれ」なものである。そして、本当の「危険」には思いのほか無防備だ。

  1. アクセスログで分かること
  2. 「ひみつ」がばれる場合
  3. アクセスログを活用する

アクセスログで分かること

さて、最初は「Webサイトを閲覧しているあなたに関する情報がどこまで分かるのか」というテーマだ。まずはサーバーサイドで取得されたアクセスログ、いわゆる「生ログ」に記録される情報のサンプルを示してみよう。

アクセスログの事例と読み方

例-1
pl244.nas519.sapporo.nttpc.ne.jp - - [27/Nov/2003:13:45:27 +0900] "GET /fl/otobus.html HTTP/1.0" 200 25494 "http://www.google.com/search?q=トルコ+お菓子&num=20&ie=Shift_JIS&oe=UTF-8&hl=ja&lr=lang_ja&btnG=Google+検索" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
例-2
218.141.110.143 - - [27/Nov/2003:12:16:36 +0900] "GET /th_11.html HTTP/1.1" 200 1946 "http://search.yahoo.co.jp/bin/query?p=チェンマイ+旅行&hc=0&hs=0" "Mozilla/4.0 (compatible; MSIE 6.0; Windows 98; Win 9x 4.90)"

このようなデータがファイルにアクセスするたびに記録される。ページ単位(多くの場合HTMLファイル)だけではなく、個々のページに含まれる画像などひとつひとつの「部品」(ファイル)ごとにデータは記録されるから、「何が閲覧されたのか」については非常に詳細な記録が残る。なお、これらはサンプルであり、実際に取得されたログではないことをお断りしておく。

さて、項目を順に見てゆこう。例-1

pl244.nas519.sapporo.nttpc.ne.jp

の箇所は、アクセスしてきたホストの名前だ。通常は接続事業者(プロバイダ)や企業、役所などの団体名が分かる。この例ではアクセスポイントが札幌であることも想像がつく。

例-2ではこの部分が「218.141.110.143」IPアドレスと呼ばれる数字しか分からない。しかし、例えば日本のホストならJapan Network Information Centerのサイトへアクセスしてwhois検索にかければ、例-1のような情報と同様の情報を得ることができる。

いずれにしても分かるのは組織名までである。自宅に設置した独自のサーバーからアクセスしているようなケースでなければ、「アクセスしてきたのが誰なのか」という個人に関する情報は分からない。

[27/Nov/2003:13:45:27 +0900] "GET /fl/otobus.html

[27/Nov/2003:12:16:36 +0900] "GET /th_11.html

の部分は、特に知識がなくても意味が分かる項目だと思う。アクセスしてきた日時、そして閲覧していったファイル名を示している。その後に続く「200 25494」や「200 1946」はファイルの取得方法やファイルサイズを示している。

さて、この次の

http://www.google.com/search?q=トルコ+お菓子&num=20&ie=Shift_JIS&oe=UTF-8&hl=ja&lr=lang_ja&btnG=Google+検索

http://search.yahoo.co.jp/bin/query?p=チェンマイ+旅行&hc=0&hs=0

はサイト制作者にとってもっとも参考になるデータのひとつだ。リンク元はどこなのか、すなわち「どこからリンクを辿ってきたのか」を示すものだ。これらのケースでは例-1がGoogle、例-2がYahoo!のキーワード検索からやってきている。

そして2つの例の場合、検索に使われたキーワードもリンク元のデータから知ることができる。例-1では「トルコ+お菓子」、例-2では「チェンマイ+旅行」といった具合だ。これら検索キーワードも、コンテンツの制作者にとっては極めて参考になるデータだ。

最後の部分

Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)

Mozilla/4.0 (compatible; MSIE 6.0; Windows 98; Win 9x 4.90)

も、じっくり見ているとその意味するところが分かってくるのではないか?表示されているのはブラウザとOSの情報だ。いずれもブラウザは「MSIE 6.0」つまりInternet Explorer6.0である。例-1の場合、OSの項目は「Windows NT 5.1」であり、これはWindows XPを意味する。例-2のOS「Windows 98; Win 9x 4.90」はWindows Meだ。

分かったことは何か

このようなアクセスログから分かったことを整理しておこう。

これらのほか、JavaScriptを利用して画面解像度やウィンドウサイズのデータを取得することも可能である。しかし、単純にWebページを閲覧しただけなら、そのサイトの管理者(およびサーバーの管理者)に個人情報となりうる事項はまったく分からない。基本的には統計的に利用可能なデータ以上の何物でもない。

なお、以上は弊サイトのようにサーバーサイドで取得されたログを解析している場合や、アクセス解析のCGIなどを自前で設置している場合のものである。サービスとして提供されるアクセス解析が利用されている場合には、サービス提供者にもデータが伝わる。この部分には情報が集積されること、情報を知る者が増えれば幾何的に「漏れ」の危険も増えるという考えから、筆者も懸念している。が、サービス提供者の内情を知りうる立場にはないので、言及を控える。

日常生活の中にはアクセスログよりも注意を喚起すべき「危険」は多い。アクセスログを危険とするならば、商品を購入するたびに性別や年齢層などをレジに打ち込んでいるコンビニエンス・ストアでの買い物は極めて危険である。一般の商品ではないサービスを購入した場合は個人情報が漏れる危険もある。また、さまざまな店舗で使われている「ポイントカード」の類は、登録時に個人情報が「筒抜け」になっていることも多い。

ひみつがばれる場合

アクセスログのデータそれ自体から個人情報が漏れる危険性は低い。しかし、閲覧者がなんらかのアクションを起こすことにより、これ以上の情報が伝わる可能性はある。いくつかのパターンについて検討してゆこうと思う。

自分のWebサイトからリンクした

アクセスログには「リンク元」の情報が記録される。従って、自分で作成したWebサイトから他のWebサイトにリンクを作成し、そのリンクを開けば、リンク先Webサイトの運営者にはリンクを作成したページの存在を知られてしまう。「誰にも知らせていないホームページにアクセスがあった!」と大騒ぎする方が時折いるが、多くのケースはこうして他のWebサイトにリンクを作成したのが原因だ(このほか、前に閲覧していたページのURIが伝わってしまうWWWブラウザのバグ、いわゆる「誤爆」の可能性がある)。

「誰にも知らせていないホームページ」では、しばしば個人情報が「丸見え」になっている。実は筆者にも、「見たくもない個人情報」を目にしてしまった経験が幾度かある。 サーバーにアップロードした情報は原則として公開されるもの、という認識が必要だ。

電子メールを送った

実に簡単な原因だ。しかし、忘れている方が思いのほか大勢いる。自分で電子メールの署名に電話番号を記しているにもかかわらず、筆者が「××市へは×年前に行ったことがあります」と返事に書いたところ、個人情報を探られたと言って急に怒り出した方がいた。「回線切って首(以下略)」である。

だが、ここまで「おマヌケ」な事例以外に、電子メールを送った場合にはもう少し情報が伝わってしまう可能性がある。電子メールのヘッダには、送信時のホスト情報が記されていることが多い。この情報とアクセスログに記録された情報を突き合わせると、あなたが電子メールを送ったWebサイトでどのページを閲覧したのかが推測されてしまう可能性もある。

一般の個人サイトならば制作者がログを見ながら「ニヤニヤする」のが関の山であろう。送った電子メールに書いたのでなければ個人情報として伝わるのはメールアドレスだけだから、不都合があれば変更すればよい。

会社からのアクセス

勤務先や学校のアカウントから電子メールを送れば、当然相手にも所属箇所を知られてしまう。これはアクセスログと一切関係のない話なのだが、どういうわけかアクセス解析を恐れる方ほど、この部分にまったく配慮していないケースが目立つようだ。勝手に裸で歩いているのに裸を見られたと言って騒ぐのに等しい。また、会社から電子メールを送信した場合、前述した電子メールのヘッダ情報と突き合わせると、会社のアカウントでなく個人のアカウントを利用した場合にも、所属箇所の情報は伝わる可能性がある。

さて、会社や学校からのアクセスは自宅からアクセスした場合、一般の接続業者(プロバイダ)を利用している場合よりも、かなりの注意が必要だ。一般の接続業者からのケースとは異なり、どの組織(会社や学校)なのかははっきりと分かる。そして一般の接続業者に比べれば、格段に所属人員の少ない組織だ。

アクセスしてきたのが「誰か」は分からないアクセスログのデータだが、どのようにアクセスされたのかは詳細に記録される。ページの巡回方法などを分析すると、どんな用事でWebサイトを閲覧しに来たのかを推測できてしまう。例えば同業他社のWebサイトを閲覧するような場合には、この部分に留意しておく必要がある。

加えて、Webサイトの運営者が入手するログとはやや異なるが、自分の会社のサーバー管理者の手にも、どのようなWebページを閲覧してきたのかが分かってしまう。「あなたが何を見たのか」を知り得る人間は多い。さらに、会社のサーバー管理者は、あなたの個人情報にもアクセス可能なところにいる。

個人情報を知るより確実な方法

実に簡単にあなたを特定する方法がある。それはウィルスやハッキングのように「高級な」手法ではなく、アクセスログとも本来の争点はズレている。その方法は呆れかえるほど原始的だ。例えば...

プレゼントキャンペーン
アンケートにお答えいただいた方の中から抽選で10名様に1万円相当のギフト券を差し上げます。当選者の発表は商品の発送をもってかえさせていただきます。
氏名:
ふりがな:
郵便番号:
住所:
電話番号:
年齢:
職業:

このようなフォームに入力して送信した場合、上述の「あなたが誰なのかを特定することはできない」諸々の情報と、明確な個人情報が一挙に結びつけられる。

さーっと血の気が引いた方もいらっしゃるかもしれない。フォームでなくとも電子メールで住所や氏名の連絡を求めていたりする場合にも同様の可能性がある。情報を取得した相手次第ではあるが、これだけの情報が伝わっているということを知っていて損はないと思う。

アクセスログを活用する

従来の商品販売やサービス提供では顧客の満足度測定に極めて大きなコストがかかった。そして、多大なコストを掛けたところで確度の高いデータを取ることは困難であった。例えば、アンケート方式の調査であれば、そもそも「アンケートに答える」というインセンディブのある者しか回答者として確保できない。アクセスログによりほぼ全員一律にデータを確保できることは、WWWの新しく、革命的な機能でもある。

アクセスログを解析することなしにコンテンツを運用するWebサイトは、商品の売上伝票をつけない商店のようなものだ。売れ筋商品(コンテンツ)の傾向が分かっていなければ、「無駄撃ち」が増えることは避けられない。訪問者の求める商品(コンテンツ)から離れる可能性も高まる。

では、アクセスログをどのように活用してゆくのかという本題に移る。

核となるターゲットの選択

まず、接続業者や会社、学校などの組織名が分かるホストの部分だ。この部分はコンテンツのターゲットを大まかに絞る用途に利用できよう。一般の接続業者を経由したアクセスが多ければ、訪問者の中心は個人客である。

弊サイトでも、このようなデータをもとにコンテンツを調整した経緯がある。トルコのオンラインガイドブック「とるこのととと」は当初、学生の長期旅行をターゲットとして制作していた。しかしアクセスログを精査してみると、製造業を中心とした比較的休暇の長い企業からのアクセスが多いことが分かった。このデータをもとに旅行の日程を10日間~2週間前後に設定し直し、日本からの航空便が到着するイスタンブルよりアクセスしやすい目的地に重点をおく構成とした。

もっとも、インターネットへの接続は一般のプロバイダを利用している企業も多い。以前に比べると参考になる度合いは低くなってきているデータだ。次の日時のデータもターゲット選定の参考になる。平日のアクセスが多い場合と、週末のアクセスが多い場合では、提供するコンテンツの内容を調整する必要がある。

ニーズを探る

検索に使われたキーワードを知ることで、訪問者のニーズを窺い知ることができ、今後どの分野のコンテンツを充実させたらよいのかを決める指針になる。特定のキーワードを利用した訪問者が多ければ、それに関連する分野のコンテンツを充実させる意味は大きい。メニューの配列を変更するなど、デザインの見直しで見せたいページへ誘導する方法が効果を上げるかもしれない。

が、検索に使われるキーワードは思ったよりはるかに多様であり、Webマスターのコンテンツ作成能力を超えていることがむしろ多い。参考になるデータを「ふるい分ける」作業には、それなりの慣れが必要だ。

アクセスされたファイルのデータもキーワードと同等かそれ以上の利用価値をもっている。このデータを集計すれば、Webサイトの中で人気のあるページ、人気のないページを簡単に把握可能である。また、閲覧された時刻のデータを加えて検討すれば、訪問者がサイト内のページをどのように移動したのかも把握できる。

アクセスされた時刻のデータを加えた場合、もうひとつ重要なデータを算出可能になる。複数のファイルのアクセス時刻を比較し、ページ間の移動時間のスパンを割り出すことで、個別のページがどの程度の時間閲覧されたのかという、最も重要なデータを推計できることだ。単純に開かれただけでなく、活用されているのかどうかというデータだ。

閲覧者の環境

OSやブラウザの項目は最近でこそあまり気にしなくて良いものになった。だが、特定のブラウザに生じるバグ対策をどこまで徹底するのかということの指針になりうる。

例えば、通常のサイトならMacユーザはほとんどいなくなってしまったから、Mac用ブラウザの動作確認に力を入れても収穫は少ない。しかし、Macユーザの多い分野であることが分かれば、労力のかけ方はまったく違ってくる。また、弊サイトではNetscape4.xを利用した訪問者が漸次減少してゆくのを確認しながら、このブラウザへの対策を縮小した。

粘着訪問者がやってきた

たちの悪い「粘着訪問者」も、何もしなければサーバーのデータ転送量を増やす以外、実害を与えることはない。彼らが迷惑になる場面は、掲示板に書き込みをする、いたずらメールを送るなど、なにかしらの「アクション」を起こしたときだ。ここで「ひみつがばれる場合」に戻る。

アクセスが相当の件数になっても、作業は割合簡単である。アクセスログで捕捉する対象として「ねらい撃ち」すれば、思ったより手を掛けずに「粘着訪問者」を絞り込むことができる。個人情報に肉薄する「最後の壁」はなかなか破れないが、接続事業者までならたやすく割り出すことができ、アクセス制限などの対策も講じやすくなる。そして深刻な被害にあったケースでは、このようなデータも手続きの手助けになる可能性が出てくる。アクセスログはWWWコンテンツを公開するにあたってのセキュリティ対策としても、見逃せない役割を担っている。

2003/11/11