robots.txt
robots.txt — текстовый файл в корне сайта, описывающий правила доступа поисковых роботов к страницам. Стандарт REP (Robots Exclusion Protocol). Управляет сканированием, но не индексацией.
robots.txt — текстовый файл, который размещается в корне сайта (https://example.com/robots.txt) и сообщает поисковым роботам, какие разделы можно сканировать, а какие — нет. Это один из базовых инструментов технического SEO: без корректного robots.txt краулер Google или Яндекса может уйти в «сервисные» папки и потратить квоту сканирования не на то, что важно.
Определение и стандарт REP
Протокол называется REP — Robots Exclusion Protocol. Он появился в 1994 году, в 2022-м был зафиксирован как интернет-стандарт RFC 9309. Файл всегда находится точно по пути /robots.txt — любой другой путь роботы не проверяют. Размер файла не должен превышать 500 КБ (лимит Google); Яндекс при превышении обрабатывает только первые 32 КБ.
robots.txt управляет сканированием — тем, куда поисковый бот заходит. Это не то же самое, что индексация. Если страница заблокирована в robots.txt, но на неё ведут внешние ссылки, Google всё равно может внести URL в индекс — просто без содержимого. Чтобы исключить страницу именно из индекса, нужен тег meta robots noindex или HTTP-заголовок X-Robots-Tag: noindex. Подробнее о взаимодействии с индексом — в статье про Canonical URL.
Синтаксис и пример
Файл состоит из блоков «User-agent / директивы». Каждый блок начинается с указания робота, для которого он действует. Символ # — комментарий, игнорируется.
# Разрешить всем роботам всё
User-agent: *
Allow: /
# Закрыть от сканирования административную панель
User-agent: *
Disallow: /admin/
Disallow: /api/private/
# Директива Sitemap (можно указать несколько)
Sitemap: https://example.com/sitemap.xml
# Яндекс: чистые параметры фильтрации (не разные страницы)
User-agent: Yandex
Clean-param: sort&page /catalog/
# Задержка между запросами для Яндекса (Google игнорирует)
User-agent: Yandex
Crawl-delay: 2
Ключевые директивы:
User-agent— имя бота. Звёздочка*— все роботы, которым нет отдельного блока.Disallow— путь, закрытый от сканирования. Пустое значение (Disallow:) — разрешить всё.Allow— явное разрешение подпути внутри закрытого раздела. Приоритет у более длинного совпадения.Sitemap— полный URL файла sitemap. Удобно: Google и Яндекс считают его отсюда автоматически.Crawl-delay— пауза в секундах между запросами. Поддерживает только Яндекс; Google рекомендует настраивать скорость в Search Console.Clean-param— только Яндекс: параметры URL, которые не создают уникальный контент (сортировка, пагинация). Снижает дублирование без noindex.
Правила robots.txt напрямую влияют на то, насколько быстро поисковик обнаружит sitemap.xml и включит новые страницы в обход. Ссылка на sitemap в robots.txt — обязательная практика для любого сайта.
AI-краулеры 2025: отдельные правила
К 2025 году к традиционным поисковым роботам добавились AI-агенты, собирающие данные для обучения языковых моделей и для ответов в чат-интерфейсах. У каждого — собственный User-agent:
GPTBot— OpenAI, обучение и ChatGPT Browsing.ChatGPT-User— OpenAI, реальные запросы пользователей ChatGPT.anthropic-ai,ClaudeBot— Anthropic / Claude.PerplexityBot— Perplexity AI, поиск с ответами.Bytespider— ByteDance / TikTok.Meta-ExternalAgent— Meta (Facebook/Instagram AI).Google-Extended— Google, отдельный агент для обучения Bard/Gemini (не влияет на обычный поиск).
robots.txt сайта qrkoder.ru разрешает всем ботам, включая перечисленных AI-краулеров, доступ к содержимому (Allow: /) и содержит ссылку на актуальный sitemap. Это обеспечивает присутствие в AI-ответах и ускоряет индексацию. Если нужно, напротив, ограничить сбор данных для обучения — добавьте Disallow: / для конкретных ботов, сохранив Allow: / для Googlebot и YandexBot.
Для SEO-проектов, использующих Schema.org-разметку, важно, чтобы AI-краулеры могли добраться до страниц с микроразметкой — так структурированные данные попадают в ответы AI-поиска.
Частые вопросы
Чем robots.txt отличается от meta robots noindex?
robots.txt управляет сканированием — указывает, куда краулер может заходить, а куда нет. Он не гарантирует, что страница исчезнет из индекса: если на закрытую страницу ведут внешние ссылки, Google увидит URL и может показать его в поиске без описания. Meta robots noindex — это HTTP-ответ самой страницы: бот доходит до неё, читает тег и не вносит страницу в индекс. Если нужно полностью убрать страницу из поиска — используйте noindex. robots.txt нужен для управления квотой сканирования: чтобы краулер не тратил ресурсы на корзину, фильтры, личный кабинет и другие страницы без SEO-ценности.
Как работает директива Crawl-delay?
Crawl-delay задаёт минимальную паузу в секундах между последовательными запросами бота к серверу. Значение Crawl-delay: 2 означает, что Яндекс будет делать не более одного запроса каждые 2 секунды. Это снижает нагрузку на сервер при агрессивном сканировании. Важный нюанс: Google официально не поддерживает Crawl-delay в robots.txt и игнорирует эту директиву. Для управления скоростью Google-краулера используйте Google Search Console — там можно напрямую задать ограничение. Яндекс, напротив, уважает эту директиву и применяет её в своём обходчике.
Можно ли закрыть сайт от всех роботов через robots.txt?
Да. Блок User-agent: * / Disallow: / формально запрещает сканирование всего сайта всем роботам. Но это рекомендация, а не техническая блокировка: добросовестные боты (Google, Yandex, Bing) соблюдают её, а недобросовестные — нет. Кроме того, как уже сказано выше, страницы всё равно могут попасть в индекс через внешние ссылки. Для реальной защиты закрытого контента используйте авторизацию или HTTP Basic Auth. robots.txt подходит для управления сканированием, а не для защиты данных.
Как проверить robots.txt своего сайта?
Самый простой способ — открыть URL вида https://ваш-домен.ru/robots.txt в браузере и убедиться, что файл существует и содержит нужные директивы. Для расширенной проверки Google предоставляет инструмент в Search Console: раздел «Сканирование» → «Инспектор robots.txt» — там можно протестировать, как конкретный URL обрабатывается файлом. Яндекс.Вебмастер тоже показывает, видит ли он ваш robots.txt, и предупреждает о синтаксических ошибках. Краулеры Screaming Frog и аналоги парсят robots.txt автоматически при полном обходе сайта.
Нужен ли robots.txt для QR-лендингов и коротких ссылок?
Да, и в этом есть специфика QR-проектов. Если у вас динамические QR-коды, каждый редирект-URL (/r/abc123) — отдельная страница. Без правильного robots.txt краулер может потратить всю квоту на обход сотен тысяч редиректов, не дойдя до SEO-приоритетных страниц. Закройте папку редиректов: Disallow: /r/, но оставьте открытыми публичные страницы кодов, если они индексируются. Аналогично для API-эндпоинтов: Disallow: /api/ — стандартная практика. Ссылку на sitemap в robots.txt добавляйте всегда: это первое место, откуда поисковик узнаёт об актуальном содержании сайта.