BtoBサイトのクロール最適化！robots.txt、canonicalタグの正しい使い方

1. はじめに
2. なぜクローラー対策が重要なのか？
1. クローラーの役割とは？
2. クローラーが最適に動作しない場合のリスク
3. robots.txtとは？
4. canonicalタグとは？
robots.txtとcanonicalタグの使い分け
クロール最適化の効果測定方法
7. まとめ

1. はじめに

「うちのサイト、せっかく良いコンテンツを作ってるのに、なかなか検索順位が上がらない…」

BtoBサイトの運営者の皆さん、こんな悩みを抱えていませんか？

実は、SEO対策はコンテンツの質だけではありません。クローラーというGoogleのロボットが、あなたのサイトを効率的に巡回し、正しく評価してくれるように設定することも重要なんです。

そこで今回は、BtoBサイトのクロール最適化に欠かせない robots.txt と canonicalタグ について、初心者でも分かりやすく解説します。

クローラー最適化とは？

WebサイトのSEO対策では、良質なコンテンツを作成することが重要ですが、それだけでは検索順位の向上には不十分です。

Googleのクローラー（検索エンジンの巡回ロボット）が適切にサイトを巡回し、ページを正しくインデックスできる環境を整えることも不可欠です。これを「クローラー最適化」と呼びます。

BtoBサイトにおけるSEOの重要性

BtoBサイトでは、特定の業界関係者や企業担当者をターゲットにしたコンテンツが多く、適切なターゲットに情報を届けるためにはSEOが欠かせません。

しかし、技術情報や製品ページが多くなりがちなBtoBサイトでは、重複ページや不要なページが検索エンジンに評価されてしまうことがあり、クローラー最適化が特に重要になります。

本記事で学べること

本記事では、BtoBサイトのSEOを強化するために必要な「robots.txt」と「canonicalタグ」の基本的な使い方や、適切な設定方法を解説します。具体的には、以下のポイントを詳しく説明します。

クローラーの働きとその最適化の重要性
robots.txtの基本と設定方法
canonicalタグの役割と適用方法
クローラー最適化の実践的なテクニック
効果測定の方法

2. なぜクローラー対策が重要なのか？

クローラーの役割とは？

検索エンジンのクローラーは、Web上のページを巡回し、収集したデータをもとに検索結果を生成します。具体的には、以下のようなプロセスで動作します。

Webページを発見する
内部リンクや外部リンク、サイトマップをもとに新しいページを探します。
コンテンツを取得する
ページのHTMLやメタデータを解析し、情報を収集します。
インデックスに登録する
取得した情報を検索エンジンのデータベースに格納します。
検索順位を決定する
ページの品質、関連性、リンクの評価などを基に検索結果の順位を決定します。

クローラーが最適に動作しない場合のリスク

適切にクローラー対策を行わないと、以下のような問題が発生し、SEOの効果を十分に発揮できなくなる可能性があります。

重要なページがインデックスされない

robots.txtの設定ミスで、クローラーが必要なページを巡回できなくなっている
内部リンク構造が悪く、重要なページへ適切に誘導できていない
ページの読み込み速度が遅く、クローラーが十分にコンテンツを取得できない

無駄なページが評価される

サイト内のフィルターページや検索結果ページなど、SEO上不要なページがインデックスされる
パラメータ付きのURLが重複コンテンツとして評価され、SEOの効果が分散する
古いページが検索結果に残り、新しいページが正しく評価されない

サーバー負荷の増大

クローラーが不要なページを頻繁に巡回することで、サーバーに負荷がかかる
サイトの表示速度が遅くなり、ユーザー体験が悪化する
無駄なクロールを防ぐことで、重要なページのクロール頻度を増やすことが可能

このような問題を回避するために、適切な「robots.txt」と「canonicalタグ」の設定が必要です。

次の章では、それぞれのツールの役割と設定方法について詳しく解説します。

3. robots.txtとは？

役割と基本的な使い方

robots.txtは、検索エンジンのクローラーがWebサイト内のどのページをクロール（巡回）できるかを制御するためのテキストファイルです。サイトのルートディレクトリ（例：https://example.com/robots.txt）に設置し、特定のページやディレクトリへのアクセスを制限できます。

robots.txtの主な役割

クローラーの巡回を制御し、不要なページのインデックスを防ぐ
サーバーの負荷を軽減し、重要なページのクロール頻度を高める
セキュリティ対策の補助として、一部のページを非公開にする

設定のポイント

robots.txtを適切に設定することで、SEOの効果を最大化できます。以下の点に注意しましょう。

クローラーごとに指示を出す
- User-agent: * で全てのクローラーに適用可能
- User-agent: Googlebot のように特定のクローラー向けのルールも指定可能
巡回を禁止するディレクトリを明確に指定する
- Disallow: /admin/ で管理画面などの巡回を制限
- Disallow: /search/ で内部検索結果ページのインデックスを防ぐ
クロールを許可するページも指定可能
- Allow: /public/ で特定のディレクトリを許可
サイトマップを明記する
- Sitemap: https://example.com/sitemap.xml でクローラーにサイト構造を伝える

クローリングを制御するルールの書き方

設定	説明
`User-agent: *`	全クローラーに適用
`Disallow: /admin/`	`/admin/`配下のページを巡回禁止
`Allow: /public/`	`/public/`配下のページを巡回許可
`Sitemap: https://example.com/sitemap.xml`	サイトマップのURLを指定

robots.txtの誤設定によるリスク

すべてのページがクロール拒否されるケース

誤って Disallow: / を設定すると、サイト全体がクローラーに巡回されなくなり、検索結果に表示されなくなる可能性があります。

検索エンジンのrobots.txtの解釈の違い

GoogleとBingではrobots.txtの解釈に微妙な違いがあるため、設定前に各検索エンジンのガイドラインを確認しましょう。

robots.txtとmeta robotsタグの違い

robots.txtはクローラーの巡回を制御するのに対し、meta robotsタグはページ単位でインデックスの許可・禁止を設定するものです。それぞれ適切に使い分けることが重要です。

次章では、canonicalタグの正しい使い方について詳しく解説します。

4. canonicalタグとは？

sitemap, pedigree, website hierarchy, transparent background, sitemap, sitemap, sitemap, sitemap, sitemap

canonicalタグの基本概念

canonicalタグとは、WebページのHTMLの<head>内に記述するタグで、検索エンジンに「このページの正規URLはこれです」と伝える役割を果たします。これにより、類似または重複するページの評価が分散するのを防ぎ、適切なページを検索エンジンに認識させることができます。

BtoBサイトでは、製品紹介ページやブログ記事など、URLが異なっても同じまたは類似のコンテンツが複数存在することがよくあります。canonicalタグを適切に設定することで、SEO効果を最大限に活かし、検索順位の向上につなげることができます。

BtoBサイトでの活用シーン

canonicalタグは、さまざまなケースで活用されます。特に以下のようなシーンでは、導入が不可欠です。

URLの正規化

例えば、同じページに以下のような複数のURLが存在する場合、検索エンジンはどのページを「正規」として扱うべきか判断しづらくなります。

https://example.com/product
https://example.com/product/
https://www.example.com/product

このような場合、以下のようにcanonicalタグを設定し、正規のURLを検索エンジンに伝えます。

<link rel="canonical" href="https://example.com/product">

ECサイトやメディアサイトでの重複回避

ECサイトやニュースメディアでは、商品ページや記事ページがURLの違いによって重複することがあります。

例えば、ECサイトで「色違いの商品ページ」がある場合、

https://example.com/product?color=red
https://example.com/product?color=blue

といった形で、パラメータが異なるURLが作成されます。この場合も、canonicalタグを利用することで、検索エンジンに正規のURLを指定できます。

<link rel="canonical" href="https://example.com/product">

パラメータ付きURLの処理

Webサイトでは、トラッキング用パラメータが付与されたURLが存在することがあります。

例

https://example.com/article?id=123
https://example.com/article?id=123&utm_source=twitter

これらのURLは内容が同じですが、パラメータによって異なるURLとして認識される可能性があります。canonicalタグを使って、正規のURLを指定することで、検索エンジンの評価を一本化できます。

<link rel="canonical" href="https://example.com/article?id=123">

具体的な記述方法と設定例

canonicalタグはHTMLの<head>内に記述するだけでなく、サーバー側の設定でも適用できます。

方法	記述例
HTML内に記述	`<link rel="canonical" href="https://example.com/page">`
HTTPヘッダーで設定	`Link: <https://example.com/page>; rel="canonical"`
CMS（WordPressなど）	Yoast SEOなどのプラグインを使用

canonicalタグと301リダイレクトの違い

canonicalタグと301リダイレクト（恒久的なリダイレクト）は混同されがちですが、目的と動作が異なります。

項目	canonicalタグ	301リダイレクト
目的	重複コンテンツの評価統一	ページの転送
ユーザーの挙動	そのまま表示	別のURLにリダイレクト
クローラーの挙動	正規URLを認識	転送先のURLを評価
使いどころ	同じ内容のページが複数ある場合	ページ移転やURL変更時

canonicalタグは、BtoBサイトのSEO対策において非常に重要な要素です。適切に設定することで、クローラーが正しくページを評価し、検索順位の向上に貢献します。

URLの正規化によるSEO最適化
ECサイトやメディアサイトの重複コンテンツ回避
パラメータ付きURLの適切な処理

robots.txtとcanonicalタグの使い分け

BtoBサイトのSEO対策において、「クロール最適化」は検索順位を左右する重要な要素です。その中でも、クローラーの動きを制御する「robots.txt」と、重複コンテンツを整理する「canonicalタグ」は大切なギミックの一つです。

しかし、「どちらを使えばいいのか？」と迷うことも多いのではないでしょうか。次はrobots.txtとcanonicalタグの正しい使い分けを解説し、実践的な活用方法を紹介します。

目的ごとの適切な選択（比較表）

項目	robots.txt	canonicalタグ
役割	クローラーの巡回を制御	ページ評価を統一する
適用対象	URL・ディレクトリ単位	ページ単位
目的	クローラーにクロールさせたくないページを指定	類似・重複ページの評価を統合し、SEO評価を一本化
検索結果への影響	noindexなしでは検索結果から除外されない	検索結果には影響せず、SEO評価を集約
使用例	管理画面や検索結果ページなどをクローラーからブロック	同じコンテンツを持つURLを統一（例：パラメータ付きURL）

実践的な活用事例

robots.txtが適しているケース

robots.txtは「クローラーに巡回させたくないページ」に使います。

活用例

ログインページや管理画面のブロック

User-agent: *
Disallow: /admin/

→ BtoBサイトでは、CMSの管理画面や会員専用ページをクロールさせる必要がないため、robots.txtでブロックします。

検索結果ページのクロール制御

User-agent: *
Disallow: /search/

→ サイト内検索結果のページはSEO上の価値が低いため、クローラーの巡回を制限します。

canonicalタグが適しているケース

canonicalタグは「似たようなページが複数存在するが、特定のページを正規版としたい場合」に使用します。

活用例

ECサイトの商品ページのURL統一

<link rel="canonical" href="https://example.com/product/abc" />

→ 「?color=red」などのパラメータ付きURLが生成される場合、canonicalタグで元のURLに評価を集約します。

wwwあり・なしのURLを統一

<link rel="canonical" href="https://example.com/" />

→ 「www.example.com」と「example.com」の評価が分散しないように、正規URLを明示。

robots.txtとcanonicalタグは、それぞれ異なる目的で使用します。

robots.txtは「クローラーに巡回させたくないページ」の制御
canonicalタグは「重複コンテンツの評価を統合」

クロール最適化の効果測定方法

BtoBサイトにおいて、クロール最適化はSEOの成功に直結する重要な施策ということをお話してきました。

しかし、最適化の効果を正しく測定しなければ、適切な改善ができません。本記事では、Google Search Consoleやログ分析を活用したクロール状況の確認方法を解説します。

Google Search Consoleでのクロール状況確認

Google Search Console（GSC）は、Googleのクローラーがどのようにサイトを巡回しているかを確認できるツールです。特に以下の機能を活用すると、クロールの最適化状況を把握できます。

1. クロール統計情報の確認

GSCの「設定」→「クロールの統計情報」では、過去90日間のクロール状況をグラフで確認できます。

指標	説明
1日のクロールリクエスト数	Googlebotが1日に何回リクエストを送ったか
ダウンロードサイズ	クローラーが取得したデータ量
レスポンス時間	サーバーがリクエストに応答するまでの時間

クロールリクエスト数が急減した場合、robots.txtの設定ミスやサーバーエラーが影響している可能性があります。

2. インデックス登録の問題をチェック

「ページのインデックス登録」レポートを使えば、クロールされたページのうち、どれがインデックスされたかを確認できます。特に「除外」セクションに注目し、不要なページがクロールされていないか確認しましょう。

robots.txtテスターの使い方

robots.txtを適切に設定できているかを確認するには、Google Search Consoleの「robots.txtテスター」を活用します。

1. テスト手順

GSCの「robots.txtテスター」にアクセス
現在のrobots.txtの内容を確認
URLを入力し、「テスト」ボタンを押す
クローラーがブロックされるかどうかを確認

2. よくあるミス

Disallow: / を設定してしまい、サイト全体がクロール拒否される
User-agent: * の指定が抜けている
クローリング許可のつもりが、間違った記述でブロックされている

URL検査ツールを活用する

URL単位でのクロール状況を確認するには、「URL検査ツール」が便利です。

1. URL検査の手順

GSCの「URL検査ツール」にアクセス
チェックしたいURLを入力
「インデックス登録をリクエスト」してGoogleに再クロールを依頼

2. 確認ポイント

ページがGoogleにインデックスされているか
canonicalタグの設定が正しく適用されているか
robots.txtやmeta robotsタグでブロックされていないか

ログ分析でクローラーの動きを把握

サーバーログを分析すると、Googlebotがどのページをどの頻度でクロールしているのかを詳細に把握できます。

1. ログ分析のメリット

クローラーが意図しないページを巡回していないか確認できる
重要なページが適切にクロールされているか把握できる
クロール頻度が適正かどうかを分析できる

2. 具体的な分析手順

サーバーログをダウンロード（Apache、Nginxなど）
Googlebot のリクエストをフィルタリング
クロールされたURLの傾向を分析
不要なページが頻繁にクロールされていれば、robots.txtで制御

クロール最適化の効果を正しく測定することで、SEO施策の改善が可能になります。特に以下のツールを活用し、サイトのクロール状況を定期的にチェックしましょう。

Google Search Consoleでクロール統計やインデックス状況を確認
robots.txtテスターでクロール制御の設定ミスを防ぐ
URL検査ツールでページ単位のインデックス状況を把握
サーバーログ分析でGooglebotの動きを詳細に分析

これらの手法を駆使し、BtoBサイトのクロール最適化を継続的に改善していきましょう。

7. まとめ

BtoBサイトのSEOを強化するためには、クローラーの最適化が欠かせません。本記事で解説した「robots.txt」と「canonicalタグ」の正しい使い方を理解し、適切に設定することで、検索エンジンに正しく評価されるサイトを構築できます。

クロール最適化のポイント整理

robots.txt：クローラーの巡回を制御し、不必要なページをクロールさせない。
canonicalタグ：重複コンテンツを整理し、検索エンジンの評価を統一する。
Google Search Consoleの活用：クロール状況を定期的に確認し、適切な設定を維持する。
ログ分析の実施：クローラーの動きを把握し、不要なクロールを防ぐ。

適切な設定がSEO全体に与える影響

クロールの最適化を行うことで、以下のようなSEOメリットが得られます。

検索エンジンが重要なページを正しく認識し、評価が向上。
不要なページのクロールを制限することで、サーバー負荷を軽減。
重複コンテンツによるSEO評価の分散を防ぎ、検索順位の安定化。

今すぐ見直すべきポイント

まずは以下の点をチェックし、必要に応じて改善を行いましょう。

robots.txtの設定が適切か？
- 重要なページが誤ってクロール拒否されていないか？
- 必要のないページがクロールされていないか？
canonicalタグが適切に設定されているか？
- 重複ページに対して正規URLが指定されているか？
- 301リダイレクトと適切に使い分けられているか？
Google Search Consoleでエラーが出ていないか？
- 「クロールエラー」や「インデックス未登録」のページがないか？