なんとなくわかる「スクレイピング」

スポンサーリンク

スクレイピングとは

スクレイピングとは、ウェブサイトから情報を取得し、その情報を加工して新たな情報(扱いやすいデータ)を生成することです。英単語のscrapingに由来し、Web上から情報を引っ掻いてくることを指します。

スクレイピングはWebスクレイピングとも呼ばれ、スクレイピングを自動化しているプログラムをスクレイパーと呼びます。スクレイパーを使うことでデータの収集にかかる時間や作業を短縮できるため大幅に効率化することができます

情報によってはスクレイピングすることなくAPIを使うことでデータを持ってくることができるので、自分が必要としている情報を提供しているAPIやデータベースがないかを確認しましょう。

HTMLのスクレイピング

Webサイト上の情報をスクレイピングするのはHTMLに対してすることが多いです。

APIなどで情報が提供されていないことがわかったら早速スクレイピングをしていきましょう。

例えば、グーグルの検索上位のタイトルを取得したい場合は

Googleのデベロッパーツール

「スクレイピング」と検索したときの結果のHTMLが上になります。タイトルを取得する場合にはh3タグ内のspanを取り出すようにプログラミングすることでスクレイピングすることができます。

スクレイピングの活用

マーケティング

スクレイピングを行うことでデータを収集し、何が流行っているか何が次に来るのかの分析に活用してマーケティングにもつなげることができます。公式に提供されていない情報もプログラミングによってスクレイピングすることでさらなる高度な分析を行うことができます。

例えば、商品の価格の変化だったり市場の拡大縮小の変化、投資の意思決定の材料などに使われます。

新たなサービスの提供

スクレイピングで有効なデータを収集できた時そのデータを活用して利用者の求める新たなサービスの開発につなげることができます。

ホテルの価格比較であったり、SEOにも活用されます。

スクレイピングは違法にもなる

スクレイピングは場合によっては違反になってしまう場合が存在します。

著作権

自分の作った絵画や作品などオリジナリティがあるものに対して「著作権」は適応され、保護されています。著作権法に保護されているものを著作者の同意なしに自分のパソコンやサーバに保存したりコピーすることは違反になります。しかしスクレイピングはデータ量が膨大であるため、いちいち著作者に同意を求めることが大変なため著作権法には例外が存在しています。その例外とは情報解析を目的にしている場合です。スクレイピングに使うデータを情報の解析にのみ用いて、再配布による金銭の取得などの商業的な目的に使わないことを条件にしています

利用規約

そのデータが利用規約により活用が制限されていることがあります。利用規約を違反することは当たり前ですが民法上の債務不履行不法行為になる可能性があるためスクレイピングをする前にはしっかり利用規約を確認しましょう。

コメント

  1. […] よく使われる分野は事務処理やスクレイピングなどの情報収集といったホワイトワーカーがPCなどを用いて行っている一連の作業を自動化します。 […]

タイトルとURLをコピーしました