2019.03.11 システム
[Web]robots.txtを設置しよう!
システムの上松です。
Webサイトを構築する際に、robots.txtを設置するのは一般的ですよね。
調べてみると、最近はホワイトリスト形式で記述を進められることが多いようです。
というわけで、大企業サイトのrobots.txtの設定を調べてみました。
(調べ中…)
いくつかのサイトを見た限り、ホワイトリスト形式のrobots.txtを設置している企業はありませんでした。
ブラックリスト形式の方が、規模の大きい企業の場合は有効なんでしょうね。
それはさておき
robots.txtを作ったら、テストをしないといけませんよね。
それでは、テスト環境(IP制限アリ認証アリ)に設置してテストしてみましょう!
…………それで、これはどうやって確認すればいいんだろう??
こんな疑問を持ったことはありませんか?
クローラー対策のファイルですから、クローリングしてもらわないとテストできませんよね。
こんな時には、Google Search Consoleのrobots.txtテスターを使うことができます。
Googleからの接続チェック用のHTMLかメタタグを設定することで、robots.txtをテストすることができます。これなら、行けそうですね!
ダメでした。\(^o^)/
ええ、わかっていましたとも。
クローラー対策のファイルを、テスト用の閉じたサーバに設置しても、テストにならないのです。
それでは、本番サーバでテストするか?
当然ながら、クローラーが来たらアウトなので、それはできないし、してはいけないですよね。
となると、テスト環境の制限をナシにして、Search Consoleで見てみましょうか。
…あー、これもダメですね。テスト環境がクロールされてしまいます。
ということで、ちょっと調べて出てくる方法を見てわかる通り、robots.txtのテストは難しいのです。
ただ、世の中にはrobots.txtのテストツールがあります。
こういったテストツールサイトをアクセス許可することで、テスト環境でも確認が可能になります。
とりあえず設置してクロールされてから考える、
といった方法ではなく、こういったツールを活用してテストするのも必要ですね。
それでは。