Как поисковые системы собирают коллекции
Если у вас в жизни сложилось так, что вам необходимы юридические услуги, то могу порекомендовать очень полезный сайт lawagency.kiev.ua, на котором работают профессиональные юристы.
Перед каждой поисковой системой стоит задача создания своей коллекции документов. Процесс сбора коллекции происходит следующим образом. Робот – специальная программа поисковой системы, её задача проста, прийти на документ выкачать его и отправить в место, где из него сделают обратный индекс.
Процесс посещения сайта роботом?
Робот получает начальный список от поисковой системы, выкачивает документы, находит в этих документах ссылки, по которым может переходить пользователь, и переходит по этим ссылкам точно так же как и пользователь. Поэтому говорят, что поисковые системы индексируют документы прямой видимости, то есть документы, которые может увидеть любой пользователь, зайдя на них или перейдя по ссылке.
Особенности
Любая поисковая система имеет не только обратный индекс, но и прямой (копия проиндексированного документа).
Вторая особенность – ограничения по доменам. Иноземные зоны для Яндекса(100-150т. страниц). Сайты с домена ru, su, ua и рф индексируются в 2 раза быстрее, чем доменные зоны западного интернета.
Третья особенность — с одного сайта, индексируются не более 150т. страниц доменов 2 уровня и до 30т. страниц доменов 3 уровня.
И последняя особенность – это частота индексации. От частоты изменений происходящих на сайте зависит частота посещения сайта поисковым роботом. Если страница не изменяется логично его не посещать.