Zanuda
Главная   Планы   Разное  
Главная »Инфосвалка

Что нового принес Эксперимент?

3 марта 2009 г.

Индексация, часть вторая. Следующего робота тоже не пришлось ждать слишком долго.

А вот и Яндекс. Собственно, он пришел в ночь на 2 марта, запросил главную страницу и ушел. Как раз между двумя запросами Google-бота. Теперь, подождав сутки и оценив главную, он пришел и собрал 10 страниц по найденным ссылкам. В отличие от коллеги, все запросил подряд, без пауз – после обработки главной пришел со списком найденного, собрал страницы по списку и ушел. Возвращения пока не было. А Google, как выяснилось, тем временем уже включил в индекс две страницы. Быстро.

Еще отличия – ограничен набор принимаемых медиатипов. Кроме text/html принимаются RTF, Flash-файлы и документы Microsoft Office. Так что к выдаче параметра Content-Type в заголовках для Яндекса нужно относиться со всей серьезностью – любая ошибка в этом параметре или его отсутствие может сказаться на индексировании сайта Яндексом. Кстати, может быть, именно этой проблемой вызван отказ от индексирования сайтов, на который так часто жалуются.

Вдобавок, в отличие от Google, Яндексу не безразличен язык документа. В его запросе есть еще один важный параметр:
Accept-Language: ru, uk;q=0.8, be;q=0.8, en;q=0.7, *;q=0.01

Вторая гипотеза об отказе от индексирования связана именно с этим параметром. Хотя со стороны Яндекса и были заявления, что кодировку и язык документа робот распознает автоматически, все равно возможны сбои и нестыковки. Если неопытный вебмастер-ломастер оставит в конфигурации движка кодировку ISO-8859-1, документы будет выдавать в utf-8, параметр Content-Language будет отсутствовать... а еще хуже, если параметр будет уверять, что сайт на английском языке... а в HTML-шаблоне страницы при этом будет намертво «зашита» кодировка Windows-1251... Думаю, в такой каше роботу недолго и запутаться.

Поскольку эти же горе-мастера традиционно считают, что все хорошее делается только на Западе и весь достойный софт может быть только на английском – вероятность такого печального исхода достаточно высока. Остается только с усмешкой констатировать, что «супер-мега-вебмейстеры» делом доказывают свои убеждения: их сайты, сделанные не на Западе, хотя и на западных CMS, Яндексу не по вкусу. Но не оттого, что made in ex-USSR, а оттого, что сделаны неграмотно.

Что касается моих убеждений, они неизменны. Я считаю, что и профессионал и дилетант – понятия вне национальности. По всей поверхности планеты соотношение грамотных людей и недоучек примерно одинаково. Грамотные, увы, в меньшинстве.

Засим откланиваюсь, поскольку больше новостей на сегодня нет и пока не предвидится. Пойду доделывать «оргвыводы» из всего вышесказанного. Вспомнилось как-то случайно, что параметра Content-Language этот движок не выдает. Я прекрасно понимаю, что в этом конкретном случае необходимо и достаточно выдать Charset, но Эксперимент есть Эксперимент.

Инфосвалка

28 февраля 2009 г.
Началась индексация сайта. Угадайте, кто первым пришел? Конечно же, угадали.

20 февраля 2009 г.
Доработана отправка HTTP-заголовков страницы. «Оптимизированными» они не бывают, хотя это как посмотреть...

15 января 2009 г.
Доработка библиотек генерации ссылок наконец состоялась. Теперь все задуманные форматы в наличии.

11 декабря 2008 г.
Простой и безжалостный тест на выносливость дал просто потрясающий результат. Этот движок способен работать везде.

6 декабря 2008 г.
Движок, созданный для одного сайта – вещь малополезная. Его мощь проявится во многообразии.

28 ноября 2008 г.
Следующая ступенька бесконечной лестницы. Раздача файлов – а вдруг пригодится...

17 ноября 2008 г.
Продолжаем расширять возможности. А как насчет плагинов? Иногда это бывает очень нужно.

26 октября 2008 г.
Новость первая, надоевшая донельзя. Она постоянно с одной и той же датой.