Robots.txt — формат инструкций для поисковых ботов. Размещается в корневой папке сайта, позволяет управлять работой роботов поисковых систем. Наиболее часто используется для того, чтобы запретить им индексировать часть сайта.
Появление robots.txt
С появлением поисковиков в середине девяностых годов прошлого века перед оптимизаторами встала серьезная проблема. Индексируя сайты, боты поисковых систем работали со всеми без исключения страницами. Поэтому в июне 1994 года за стандарт был принят файл robots.txt. Поисковые боты обращались к нему в ходе своей работы и исходя из указанных в нем команд отказывались от индексации определенных страниц.
Поисковая система и robots.txt
Первым делом, при посещении страницы, робот считывает содержание файла robots.txt. Оно выглядит как:
- User-agent: *
- Disallow: /tmp/
- Disallow: /cgi-bin/
Звездочка после User-agent – знак общего доступа к содержанию файла, при необходимости она может заменяться именем конкретного бота. Disallow запрещает поисковикам проводить какие-либо действия в отношении сайта. Слеш после этого слова запрещает индексацию сайта вообще.
- User-agent: *
- Disallow: /
Еще можно запретить индексацию, используя атрибут nofollow и тег noindex, но такой способ плохо воспринимается поисковиками.