robots.txtのDisallowでもクロールはされている

Disallowはクロールを禁止する場合に用います。しかし、インデックスに登録されないだけで情報の取得は行われているようです。

テスト用のサーバーに/monicaというディレクトリを作り、そこにWebページ一式を置いておきました。robots.txtを設置してDisallow:/monicaとしておきましたので、クローラーにサイトの内容は見られていないだろうと思っていました。

このWebページ一式を本サーバーにアップした後、本サーバーのサイトはクロールして欲しいため、サイトマップをSearch Consoleから送信してサイトの存在を明らかにしました。テストサーバーの/monicaのWebサイトは、本サーバーにWebサイトを立ち上げた後もそのまま残しておきました。

本サーバー運用から数日後、Search Consoleを見ると、プロパティ登録をしていないのにもかかわらず、テストサーバーのサイトが本サーバーと並んでプロパティとして表示されました。

テストサーバーのサイトは削除しましたが、このことからrobots.txtで/Disallowの指定をしていても、インデックスに登録されないだけで内容は見られていると考えられます。