これからは、コレ!旬なIT技術やこれから主流となりつつあるIT技術に関する情報をご紹介します。

2008年09月01日

Web情報のオートメーション化を行うWebスクレイピング

Webスクレイピングとは

Webサイトやホームページ(以降Webページ)には、たくさんの情報が掲載されています。
その情報は人が見て理解しやすいように、様々なレイアウトやフォント、色、写真、動画といった情報と共に提供されています。しかし、本当に必要なのは、例えば今日の株価といった文字(数値)情報だけと言うケースもあるでしょう。
WebスクレイピングはWebページから、利用者が必要としている情報を選択的に収集する技術です。スクレイピング(scraping)とは削ることの意味ですが、先の例で言えば株価を掲載しているWebページからレイアウトや色と言った付随的な情報を削り取り、必要な文字(数値)情報だけを取り出します。

Webスクレイピングの仕組み

Webページはレイアウトを整え、色やフォントの大きさの変更を行うHTMLと呼ばれる言語に表示したいデータを埋めこむことで形づくられています。WebスクレイピングではHTMLの言語部分と欲しい情報を分離するという複雑な作業をプログラム処理で実現します。

Webスクレイピングが必要なとき

定期的にたくさんのWebページを閲覧し情報を集める作業があるような場合、手作業で行なっていては非常に時間がかかり非効率です。一方最近ではWebページの更新情報をRSSで手軽に取得できるWebページが増えてきました。しかしながら、RSSに対応していないWebページも依然としてあります。RSSに対応していなければ定期的にアクセスして更新されているかどうか確認しなければいけません。これらのように大量であったり定期的に手作業でWebページの情報収集が必要な場合にWebスクレイピングを利用し処理を自動化して効率的に情報収集することができます。

Webスクレイピングの応用例

Webスクレイピングは単に情報を取得するだけでなく、自動的にリンクをクリックしたりフォームにデータを入力してWebページとデータのやり取りを行なうこともできます。自分が持っている銀行や証券やクレジットカードの口座から自動的に情報を集めて回り、資産のポートフォリオや残高推移を管理してくれるソフトウエアがあります。また企業内の情報システムもWebスクレイピングを応用することにより既存のプログラムを変更することなく、データを抽出して表計算ソフトに取り込んだり、複数のシステムからデータを集めて加工したり、他システムへあるいは企業間でデータの授受を行うといったことができます。
Webページの情報収集の自動化からシステム間のデータ連携に応用できる、Webスクレイピングの活用を検討されてみてはいかがでしょうか。

2008年9月

ITの可能性が満載のメルマガを、お客様への想いと共にお届けします!

Kobelco Systems Letter を購読