Поисковый робот (бот, краулер, паук, webscutter, webrobots) – это программа, которая ищет для поисковой системы страницы различных интернет-ресурсов и вносит их в базу этой системы.
Принцип работы:
Бот является программой браузерного типа. Его работа заключается в постоянном мониторинге сети. Он посещает сайты, которые уже есть в индексе поисковика. Если он находит ссылки на их страницах, то проходит и по ним, находя так новые сайты. В этом случае найденный ресурс также попадает в индекс.
Кроме того, в базу данных попадают и изменения на страницах сайта, а также отмечается частоту их появления. Исходя из этого показателя формируется расписание посещения этого ресурса: если он обновляется раз в неделю, то бот приходит тоже раз в неделю. Новостные сайты боты посещают зачастую несколько раз в час.
В случае, если на новый сайт нет ссылок, ресурс следует внести в специальный реестр наподобие Центра вебмастеров Google или панели вебмастера Яндекс.
Виды поисковых роботов
Яндекс:
- Yandex/1.01.001 I — основной индексирующий бот,
- Yandex/1.01.001 (P) — индексатор изображений,
- Yandex/1.01.001 (H) — поиск зеркал сайта,
- Yandex/1.03.003 (D) — выявляет соответствие страницы параметрам индексации,
- YaDirectBot/1.0 (I) — индексация сайтов рекламной сети Яндекса,
- Yandex/1.02.000 (F) — индексация фавиконов сайтов.
Пауки Google:
- Робот Googlebot — основной бот,
- Googlebot News — индексация новостей,
- Google Mobile — работает с сайтами для мобильных устройств,
- Googlebot Images — работает с изображениями,
- Googlebot Video — индексация видео,
- Google AdsBot — анализ качества целевой страницы,
- Google Mobile AdSense и Google AdSense — индексация сайтов рекламной сети Google.
Боты других поисковых систем функционально схожи с перечисленными выше.