
-
2019.5.22システム開発
シニアエンジニア
上松 博志
2021年8月1日「マリンロード」は「インソースマーケティングデザイン」へ社名を変更いたしました
[web開発] スクレイピングとはなにか
システムの上松です。
スクレイピングとは、ウェブサイトから情報を収集して分析することです。
が、具体的に「これがスクレイピングだ!」と断言するのは難しいものです。
今回は、スクレイピング(技術?手法?)について書いてみたいと思います。
さて、スクレイピングとは何でしょうか。
調べてみると、データを収集・加工するツールや作業全般のこと、のようです。
この「データを収集する」「データを加工する」という作業は、どんな手段を使ってもOKです。
手動でサイト巡りをして記事を収集してもいいですし、ツールを使ってデータ収集・加工しても、「スクレイピング」には違いないのです。
では、実際にスクレイピングを行う場合ですが、いくつか注意点があります。
一つ目は、サイトの利用規約をよく確認することです。
ツールでHTMLを取得して解析する場合、異常負荷から攻撃扱いされることがあります。
場合によっては、スクレイピング(ロボットアクセス)を禁止していることもあるため、サイトの利用規約をよく確認する必要があります。
二つ目は、サイトマップやrobots.txtの記述を守ること。
サイトをクローリングする場合は、サイトマップの指定やrobots.txtの設定を守る必要があります。
その他、メタタグの設定やリンク属性の設定も守らないといけません。
こちらは、守らないと業務妨害や動産不法侵入として訴えられることもあるので、かなり注意が必要です。
Amazon、Twitter、Instagramはロボットアクセス禁止だそうで、専用APIの利用を推奨しているようです。
有力なサイトであればあるほど、スクレイピングでデータ分析したくなるわけですから、こういったところは痛し痒しですね。
スクレイピングで検索すると、いろいろ工夫してロボットアクセス扱いにならないように、ウェイトをかけたりユーザーエージェントを設定したりと色々試行錯誤している情報が出てきます。
最低限、法律違反にならないようなスクレイピングの作法を身に着けたいものです。
それでは。
スタッフおすすめの記事
その他の記事
-
2022.6.29HTML/CSS
Webクリエイター
矢口 奈果
【HTML】OGPが反映されない時の落とし穴
-
2022.6.27Webプロモーション
Webコンサルタント
塩月 茉里香
【GA4】Googleアナリティクス4登場!何が変わった?GA4とUAの違いについて
-
2022.6.27システム開発
システムエンジニア
高木 祐玖
[jQuery] 属性の取得について
-
2022.6.24HTML/CSS
Webクリエイター
中山 享祐
リンク切れをチェックできるChrome拡張機能
-
2022.6.21Webプロモーション
取締役
長澤 潤
GA4の目標到達プロセスデータの探索を設定してみた
-
2022.6.13システム開発
システムエンジニア
篠﨑 亮洋
【Windows】バッチファイルでよく見るWebページをまとめて起動
-
2022.6.10Webプロモーション
Webコンサルタント/ディレクター
小山 恭平
【GA4/イベント/やり方/注意】GTMでGA4イベントを設定する際は「カスタム定義」も設定が必要
-
2022.6.8その他
取締役
小林 洋介
メンタルタフネス~能力を発揮するためのセルフコントロール
-
2022.6.7デザイン
Webデザイナー/ディレクター
小島 和剛
【2022年版】企業サイトのSDGsページ掲載パターン
-
2022.6.3Webプロモーション
Webコンサルタント
塩月 茉里香
データポータルでGA4のレポート作成