Zanuda
Главная   Планы   Разное  
Главная »Инфосвалка

Что нового принес Эксперимент?

28 февраля 2009 г.

Началась индексация сайта. Угадайте, кто первым пришел? Конечно же, угадали.

Да, Google, разумеется. Ему просто не с кем было соревноваться, поскольку Рамблер пока не приглашен. Да и если бы был приглашен, Google чаще всего успевает первым. А Рамблер пока остался не оповещенным – посмотрим, как быстро он найдет сайт самостоятельно. Этот вопрос меня давно и живо интересует, до сих пор я ему все сайты просто представлял в AddUrl.

Яндекс-бота тоже недолго придется ждать. После регистрации сайта в обеих ПС я разбросал ссылку в сервисах закладок, там есть достаточно быстро индексируемые ресурсы. Вообще-то сайт достаточно добавить в AddUrl – Я и G придут рано или поздно. Но если подбросить внешних ссылок, это произойдет раньше. Факт проверенный многократно, есть только один нюанс: качество ссылок и ссылающихся ресурсов имеет значение. Ну, вы меня поняли...

Теперь о наблюдении за ботами. Разумеется, в первый визит никаких особых запросов не было, узнать дату последнего изменения страницы робот мог из заголовков, да и не очень-то она ему сейчас нужна – в первый раз для него имеет значение текущее время считывания, его бот запомнит. В следующий раз его будет живо интересовать, изменилась ли страница с этого времени (то есть, стоит ли ее разбирать повторно). Вот тут-то ему и помогут исправленные HTTP-заголовки, параметр Last-Modified в них теперь есть, поэтому робот будет считывать все страницы, а разбирать только те, что уже изменились. Будем наблюдать этот процесс.

А на первый раз бот действовал решительно и оперативно. При добавлении сайта в панель вебмастера он уже считывал главную страницу. Теперь пришел с утра пораньше, снова запросил главную, через полтора часа прошел по обнаруженным на ней ссылкам. Еще через пару часов вернулся и «добрал» страницы, на которые нашел ссылки на вновь считанном. Таким образом, за 5 часов в его распоряжении оказались все 9 страниц, которые на тот момент имелись на сайте.

Примечательно, что в запросе бота параметр Accept: имел значение */*. Принимаются все медиатипы подряд. Как говорится, вываливай все, а там разберемся. Вывод из этого простой: с Google никогда не возникнет такой проблемы, как с Яндексом – когда из-за нестыковок между движком, веб-сервером и прокси боту выдается статус «406 Not Acceptable» и страница остается не проиндексированной. Нет оснований выдавать такой статус, когда запрошены документы в любом формате.

PS: На форумах много жалоб, просто какой-то «плач Ярославны» – роботы не приходят, сайты не индексируются, из индекса выпадают... На мои сайты всегда исправно приходят и индексируют. Из индекса без просьбы удален был только один – и то этот случай совпал с переселением сайта с мертвого хостинга. Наверняка сутки-двое сервер не отвечал совсем, а потом еще какое-то время после переезда обновлялись кэши DNS. Вполне возможно, что бот запрашивал страницы как раз тогда, когда домен временно пребывал в состоянии Not Delegated. И получил ответ, что такого домена вообще нет. Странно было бы, если б сайт не вылетел.
Других случаев не было.
Интересно, что я делаю не так? Может, в консерватории надо что-то подправить?

Инфосвалка

20 февраля 2009 г.
Доработана отправка HTTP-заголовков страницы. «Оптимизированными» они не бывают, хотя это как посмотреть...

15 января 2009 г.
Доработка библиотек генерации ссылок наконец состоялась. Теперь все задуманные форматы в наличии.

11 декабря 2008 г.
Простой и безжалостный тест на выносливость дал просто потрясающий результат. Этот движок способен работать везде.

6 декабря 2008 г.
Движок, созданный для одного сайта – вещь малополезная. Его мощь проявится во многообразии.

28 ноября 2008 г.
Следующая ступенька бесконечной лестницы. Раздача файлов – а вдруг пригодится...

17 ноября 2008 г.
Продолжаем расширять возможности. А как насчет плагинов? Иногда это бывает очень нужно.

26 октября 2008 г.
Новость первая, надоевшая донельзя. Она постоянно с одной и той же датой.