Поисковый робот

Поисковый робот – программа, разработанная поисковой системой, необходимая для сканирования ресурсов в Интернете с последующим их добавлением в базу данных (индекс). Может называться: краулер, паук, бот, automaticindexer, ant, webcrawler, bot, webscutter, webrobots, webspider.

Основные принципы работы

Краулер постоянно осуществляет сканирование интернета и поиск измененных или совершенно новых страниц. Для того, чтобы просканировать сайт или страницу, робот должен на нее попасть. Это возможно по ссылке с другого интернет-ресурса, уже имеющегося в базе данных. Если нет внешних ссылок на искомый сайт, то для его индексации и дальнейшего продвижения нужно добавить его в Центре вебмастеров Гугла и Яндекса. Периодичность изменения информации на сайте имеет прямое влияние на частоту сканирования пауком этого ресурса. Чем чаще меняется страница, тем быстрее она индексируется и попадает в поиск.

Виды поисковых роботов

В Яндексе поисковые роботы подразделяются следующим образом:
  • Yandex/1.01.001 I — главный бот, который осуществляет индексацию
  • Yandex/1.01.001 (P) — занят сканированием картинок
  • Yandex/1.01.001 (H) — ищет зеркала сайтов,
  • Yandex/1.03.003 (D) — занимается определением соответствия веб-страницы, всем параметрам индексирования,
  • YaDirectBot/1.0 (I) — сканирует сайты коммерческой направленности на Яндексе.
  • Yandex/1.02.000 (F) ищет фавиконы онлайн-ресурсов.
Второй популярный поисковик Google имеет следующие поисковые ресурсы:
  • Googlebot — главный бот,
  • Googlebot News —индексация новостей;
  • Google Mobile — выполняет сканирование и индексацию ресурсов для телефонов, планшетов
  • Googlebot Images — занимается индексацией картинок
  • Googlebot Video — сканирует видео-объекты
  • Google AdsBot — занимается проверками главных страниц ресурсов.
  • Google AdSense проверяет онлайн-ресурсы коммерческой направленности (Рекламная сеть Гугла)