robots.txt

Q: Можно ли закрыть сайт от всех роботов через robots.txt?

Да. Блок User-agent: * / Disallow: / формально запрещает сканирование всего сайта всем роботам. Но это рекомендация, а не техническая блокировка: добросовестные боты (Google, Yandex, Bing) соблюдают её, а недобросовестные — нет. Кроме того, как уже сказано выше, страницы всё равно могут попасть в индекс через внешние ссылки. Для реальной защиты закрытого контента используйте авторизацию или HTTP Basic Auth. robots.txt подходит для управления сканированием, а не для защиты данных.

Q: Как проверить robots.txt своего сайта?

Самый простой способ — открыть URL вида https://ваш-домен.ru/robots.txt в браузере и убедиться, что файл существует и содержит нужные директивы. Для расширенной проверки Google предоставляет инструмент в Search Console: раздел «Сканирование» → «Инспектор robots.txt» — там можно протестировать, как конкретный URL обрабатывается файлом. Яндекс.Вебмастер тоже показывает, видит ли он ваш robots.txt, и предупреждает о синтаксических ошибках. Краулеры Screaming Frog и аналоги парсят robots.txt автоматически при полном обходе сайта.

robots.txt — текстовый файл, который размещается в корне сайта (https://example.com/robots.txt) и сообщает поисковым роботам, какие разделы можно сканировать, а какие — нет. Это один из базовых инструментов технического SEO: без корректного robots.txt краулер Google или Яндекса может уйти в «сервисные» папки и потратить квоту сканирования не на то, что важно.

Определение и стандарт REP

Протокол называется REP — Robots Exclusion Protocol. Он появился в 1994 году, в 2022-м был зафиксирован как интернет-стандарт RFC 9309. Файл всегда находится точно по пути /robots.txt — любой другой путь роботы не проверяют. Размер файла не должен превышать 500 КБ (лимит Google); Яндекс при превышении обрабатывает только первые 32 КБ.

robots.txt управляет сканированием — тем, куда поисковый бот заходит. Это не то же самое, что индексация. Если страница заблокирована в robots.txt, но на неё ведут внешние ссылки, Google всё равно может внести URL в индекс — просто без содержимого. Чтобы исключить страницу именно из индекса, нужен тег meta robots noindex или HTTP-заголовок X-Robots-Tag: noindex. Подробнее о взаимодействии с индексом — в статье про Canonical URL.

Синтаксис и пример

Файл состоит из блоков «User-agent / директивы». Каждый блок начинается с указания робота, для которого он действует. Символ # — комментарий, игнорируется.

# Разрешить всем роботам всё
User-agent: *
Allow: /

# Закрыть от сканирования административную панель
User-agent: *
Disallow: /admin/
Disallow: /api/private/

# Директива Sitemap (можно указать несколько)
Sitemap: https://example.com/sitemap.xml

# Яндекс: чистые параметры фильтрации (не разные страницы)
User-agent: Yandex
Clean-param: sort&page /catalog/

# Задержка между запросами для Яндекса (Google игнорирует)
User-agent: Yandex
Crawl-delay: 2

Ключевые директивы:

User-agent — имя бота. Звёздочка * — все роботы, которым нет отдельного блока.
Disallow — путь, закрытый от сканирования. Пустое значение (Disallow:) — разрешить всё.
Allow — явное разрешение подпути внутри закрытого раздела. Приоритет у более длинного совпадения.
Sitemap — полный URL файла sitemap. Удобно: Google и Яндекс считают его отсюда автоматически.
Crawl-delay — пауза в секундах между запросами. Поддерживает только Яндекс; Google рекомендует настраивать скорость в Search Console.
Clean-param — только Яндекс: параметры URL, которые не создают уникальный контент (сортировка, пагинация). Снижает дублирование без noindex.

Правила robots.txt напрямую влияют на то, насколько быстро поисковик обнаружит sitemap.xml и включит новые страницы в обход. Ссылка на sitemap в robots.txt — обязательная практика для любого сайта.

AI-краулеры 2025: отдельные правила

К 2025 году к традиционным поисковым роботам добавились AI-агенты, собирающие данные для обучения языковых моделей и для ответов в чат-интерфейсах. У каждого — собственный User-agent:

GPTBot — OpenAI, обучение и ChatGPT Browsing.
ChatGPT-User — OpenAI, реальные запросы пользователей ChatGPT.
anthropic-ai, ClaudeBot — Anthropic / Claude.
PerplexityBot — Perplexity AI, поиск с ответами.
Bytespider — ByteDance / TikTok.
Meta-ExternalAgent — Meta (Facebook/Instagram AI).
Google-Extended — Google, отдельный агент для обучения Bard/Gemini (не влияет на обычный поиск).

robots.txt сайта qrkoder.ru разрешает всем ботам, включая перечисленных AI-краулеров, доступ к содержимому (Allow: /) и содержит ссылку на актуальный sitemap. Это обеспечивает присутствие в AI-ответах и ускоряет индексацию. Если нужно, напротив, ограничить сбор данных для обучения — добавьте Disallow: / для конкретных ботов, сохранив Allow: / для Googlebot и YandexBot.

Для SEO-проектов, использующих Schema.org-разметку, важно, чтобы AI-краулеры могли добраться до страниц с микроразметкой — так структурированные данные попадают в ответы AI-поиска.

Частые вопросы

Чем robots.txt отличается от meta robots noindex?

robots.txt управляет сканированием — указывает, куда краулер может заходить, а куда нет. Он не гарантирует, что страница исчезнет из индекса: если на закрытую страницу ведут внешние ссылки, Google увидит URL и может показать его в поиске без описания. Meta robots noindex — это HTTP-ответ самой страницы: бот доходит до неё, читает тег и не вносит страницу в индекс. Если нужно полностью убрать страницу из поиска — используйте noindex. robots.txt нужен для управления квотой сканирования: чтобы краулер не тратил ресурсы на корзину, фильтры, личный кабинет и другие страницы без SEO-ценности.

Как работает директива Crawl-delay?

Crawl-delay задаёт минимальную паузу в секундах между последовательными запросами бота к серверу. Значение Crawl-delay: 2 означает, что Яндекс будет делать не более одного запроса каждые 2 секунды. Это снижает нагрузку на сервер при агрессивном сканировании. Важный нюанс: Google официально не поддерживает Crawl-delay в robots.txt и игнорирует эту директиву. Для управления скоростью Google-краулера используйте Google Search Console — там можно напрямую задать ограничение. Яндекс, напротив, уважает эту директиву и применяет её в своём обходчике.

Можно ли закрыть сайт от всех роботов через robots.txt?

Да. Блок User-agent: * / Disallow: / формально запрещает сканирование всего сайта всем роботам. Но это рекомендация, а не техническая блокировка: добросовестные боты (Google, Yandex, Bing) соблюдают её, а недобросовестные — нет. Кроме того, как уже сказано выше, страницы всё равно могут попасть в индекс через внешние ссылки. Для реальной защиты закрытого контента используйте авторизацию или HTTP Basic Auth. robots.txt подходит для управления сканированием, а не для защиты данных.

Как проверить robots.txt своего сайта?

Самый простой способ — открыть URL вида https://ваш-домен.ru/robots.txt в браузере и убедиться, что файл существует и содержит нужные директивы. Для расширенной проверки Google предоставляет инструмент в Search Console: раздел «Сканирование» → «Инспектор robots.txt» — там можно протестировать, как конкретный URL обрабатывается файлом. Яндекс.Вебмастер тоже показывает, видит ли он ваш robots.txt, и предупреждает о синтаксических ошибках. Краулеры Screaming Frog и аналоги парсят robots.txt автоматически при полном обходе сайта.

Нужен ли robots.txt для QR-лендингов и коротких ссылок?

Да, и в этом есть специфика QR-проектов. Если у вас динамические QR-коды, каждый редирект-URL (/r/abc123) — отдельная страница. Без правильного robots.txt краулер может потратить всю квоту на обход сотен тысяч редиректов, не дойдя до SEO-приоритетных страниц. Закройте папку редиректов: Disallow: /r/, но оставьте открытыми публичные страницы кодов, если они индексируются. Аналогично для API-эндпоинтов: Disallow: /api/ — стандартная практика. Ссылку на sitemap в robots.txt добавляйте всегда: это первое место, откуда поисковик узнаёт об актуальном содержании сайта.

Определение и стандарт REP

Синтаксис и пример

AI-краулеры 2025: отдельные правила

Частые вопросы

Создавайте QR-коды бесплатно