株式会社KDDI研究所は、有害情報を含むWebページ(有害ページ)をインターネット上から効率的に自動収集する『有害クローラ』を開発したことを発表した。
有害情報フィルタを生成する場合には、「有害」と判定するための有害ページをできるだけ多く収集する必要があるが、膨大なWebページが日々生成されるインターネット上においては、効率的な収集技術が必要となっていることから、今回の開発に至った経緯がある。
今回のプログラムでは、従来のWebクローラに対して、URLから得られるWebページの様々な特性を抽出し、Webページ自体を収集する前に有害ページである可能性を推定する機能が追加されている。
この機能により、Webページを発見した順に収集する従来のWebクローラよりも、収集したWebページ中に有害ページをより多く含めることができ、Webページの検査効率を飛躍的に高めることができる。
なお、収集効率を測る実験では、従来のWebクローラに比べて、約3.5倍の有害ページ収集率向上が確認できたとのこと。
複数の文書(ファイル)から特定の文字列を検索する方式を「全文検索方式」といい、全文検索に用いられるデータベースを作成することが一般的となっている。
Webクローラとは、そのデータベースを作成するために、世界中のさまざまなWebページを回収するプログラムのことで、まだ収録されていないWebページや、更新されたWebページ内容をデータベースに反映させる処理を行っている。
ちなみに、有害情報とは、主に青少年がその情報に接することによって健全な発達・育成を阻害する恐れが有ると考えられているコンテンツの総称。以前は、雑誌等の「有害図書」やテレビの「有害番組」が、それにあたっていたが、情報を伝えるチャネルの増加により、インターネット上のWebページも含まれるようになっている。
ばっさりと押し寄せる雑多な情報を遮断できるなら、それに越したことはないのだろうが、インターネットの本来の目的とは、かい離することになる。こういったものだと理解して、つきあうべきなのかもしれない。
株式会社KDDI研究所リリース