Актуализировано: Январь 2025
Robots.txt: что это такое и зачем он нужен сайту?
🚀 Главное за 30 секунд:
- Суть: Это "фейс-контроль" для поисковых роботов — говорит, куда можно заходить, а куда нет.
- Риски: Без него в поиск попадут админка, личные данные и тестовые страницы.
- Главное правило: Не блокируйте всё подряд. Robots.txt — это баланс между безопасностью и видимостью.
- Инструменты: Проверяйте файл через Google Search Console и Яндекс.Вебмастер.
- Синтаксис:
User-agent(кому),Disallow(нельзя),Allow(можно).
Robots.txt: когда файл размером 100 байт спасает сотни часов работы
Знаете, иногда самые важные вещи в жизни оказываются до смешного простыми. Robots.txt — это простой текстовый файл, который работает как швейцар в элитном бизнес-центре: вроде стоит тихо, но без его разрешения "посторонним вход воспрещен".
Помню случай из начала 2000-х. Мы запустили крутой интернет-магазин: дизайн, код, маркетинг — всё на высоте. А через неделю паника: "Гуглим сайт, а там в выдаче админка, личные кабинеты и тестовый мусор!". Поисковики съели всё, что было открыто. А всё из-за отсутствия одного маленького файлика.
📑 Содержание статьи:
1. Анатомия robots.txt: что внутри и почему это работает
Если посмотреть глубже, это первое, что видит поисковый робот, заходя на ваш сайт. Весь синтаксис держится на четырех "китах".
User-agent: *
"Кому адресовано". Звездочка (*) означает "для всех роботов".
Disallow: /admin/
"Сюда нельзя". Запрещает индексацию конкретной папки или файла.
Allow: /public/
"Сюда можно". Разрешает доступ внутри закрытой папки (исключение).
Sitemap: URL
"Карта сайта". Указывает путь к файлу sitemap.xml.
Как это работает на практике (Кейс)
Ситуация: Интернет-магазин, 100 000 товаров. Сервер постоянно падает.
Причина: В robots.txt была только одна строка User-agent: *.
Результат: Роботы индексировали всё подряд: корзины, фильтры, результаты поиска. Это как оставить все двери в доме открытыми и удивляться толпе гостей.
2. Практические сценарии: когда robots.txt спасает жизнь
За 15 лет я насмотрелся всякого. Вот реальные ситуации, где этот файл незаменим.
Личные данные
Проблема: Google проиндексировал историю заказов клиентов.
Решение:
Disallow: /account/
Disallow: /admin/
Бесконечные фильтры
Проблема: Миллионы страниц вида /catalog/phones/black/expensive/... положили сервер.
Решение:
Disallow: *?sort=
Disallow: *?filter=
3. Философия роботов: 3 подхода к безопасности
Как говорил мой наставник: "Сайт без robots.txt — как дом без дверей. А со слишком строгим — как бункер без окон".
Максималист
Disallow: /
Закрыто всё. Похоже на человека, который никому не открывает дверь из страха.
Минималист
Disallow:
Открыто всё. Вечеринка с распахнутыми дверями — весело, но небезопасно.
Прагматик
Disallow: /admin/
Allow: /
Золотая середина. Общие зоны открыты, приватные — под замком.
4. Практические шаблоны (Copy-Paste)
Знаете, что круто? Для 90% сайтов достаточно всего нескольких простых шаблонов.
🏢 Для корпоративного сайта
Строго, как костюм с галстуком.
User-agent: *
Disallow: /admin/
Disallow: /cgi-bin/
Disallow: /search/
Allow: /
Sitemap: https://site.ru/sitemap.xml
🛒 Для интернет-магазина
Всё для покупателя, служебное — закрыто.
User-agent: *
Disallow: /admin/
Disallow: /cart/
Disallow: /checkout/
Disallow: *?sort=
Allow: */category/*
Allow: */product/*
Sitemap: https://shop.ru/sitemap.xml
5. Инструменты проверки и типичные ошибки
Google Search Console
Встроенный тестер показывает ошибки в реальном времени и симулирует поведение робота Google.
Яндекс.Вебмастер
Анализ файла, история изменений и проверка на ошибки сканирования для Рунета.
Screaming Frog
Мой любимый инструмент. Сканирует сайт как робот и находит несоответствия между robots.txt и реальностью.
⚠️ Топ-3 ошибки новичков:
Опечатки
useragent: * вместо User-agent: *. Робот просто не поймет команду.
Порядок
Сначала запреты (Disallow), потом разрешения (Allow), а не наоборот.
Слеши
Разница между /admin и /admin/ может стоить конфиденциальности.
В завершение: как не наступить на грабли 🧹
Знаете, что самое крутое? Даже спустя 15 лет я продолжаю учиться. Robots.txt — это не про "настроил и забыл".
Три главных правила от эксперта:
Проверяйте
Раз в месяц аудит.
Бэкапьте
Держите копию файла.
Пишите
Комментируйте правки.
Начните с простого аудита своего robots.txt прямо сейчас. Лучше потратить час на настройку, чем неделю на исправление последствий. Удачи! 😉
Автор статьи:
Кирилл Хрусталев
Эксперт по техническому SEO и разработке.