Zanuda
Главная   Планы   Разное  
Главная »Инфосвалка

Что нового принес Эксперимент?

11 марта 2009 г.

Индексация, часть третья. Все пауки в сборе – во всяком случае, те, которых я хотел здесь видеть

Если попросту, вчера пришел StackRambler, которому не высылалось специальное приглашение в Addurl. Не высылалось намеренно: хотелось посмотреть, насколько быстро сам отыщет и не снизил ли он свою активность. Начиная с осени, Рамблер стал быстро терять свою долю трафика и популярность. А жаль, искренне жаль.

Тем не менее, работать он продолжает по-прежнему. Во всяком случае, время самостоятельного обнаружения сайта роботом не изменилось. Заголовков Accept:, Accept-encoding:, Accept-language: не наблюдалось. Но это был только первый заход; посмотрим, что будет дальше.

Что касается Я & G, они оба показывают в индексе по дюжине страниц и наведываются дальше. Выдачи Last-Modified: вполне достаточно, чтобы Яндекс показывал дату индексации всех страниц. Но с параметром Last-Modified: есть некоторые сложности.

Передачу Last-Modified: по здравом размышлении пришлось пока оставить с текущим временем. И вот отчего: по времени редакции файла контента этот параметр выдавать нельзя. На странице может остаться неизмененный текст, но появятся новые ссылки (изменения структуры разделов, добавление новостей). Если отдавать время редакции текста, робот может не взять страницу, где текст старый, а меню изменилось. А если отслеживать в запросах If-Modified-Since: и отдавать 304 вместо страницы, робот может вообще не получить новые ссылки и не обнаружить новый раздел.

Вывод: нужно продумывать систему хранения даты, которая учитывала бы все изменения на страницах, а не только контент. И просчитывать все зависимости. Хоть ты кэширование включай или файлы-семафоры заводи...

В общем случае достаточно добавить одно поле в файле структуры («индексе»). Пусть это будет TimeStamp. При редактировании контента данного раздела (тайтл, ключевые, описание, заголовок, текст) туда для данного раздела запишем время редакции. Но если изменяются данные, относящиеся к меню (название и алиас), это затрагивает все страницы, где в меню есть ссылка на измененный раздел. То же касается разделов, которые были добавлены, удалены или скрыты. Считаем все эти действия «изменением раздела».

Отсюда вытекает принцип модификации даты.
– При изменении раздела верхнего уровня нужно выставить время изменения для всех разделов – ссылка входит в главное меню, которое есть на всех страницах.
– При изменениях разделов второго уровня выставляем время для его «предка» и всех смежных.
– При изменениях в новостях нужно ставить время для раздела с выноской. И как-то нужно продумать установку времени редакции для страниц новостей, которых эти изменения коснутся через выноску...

Да, я понимаю, что это уже перфекционизм и что с таким мало кто будет возиться. Большинство разработчиков вообще не выдают время редакции. Или выдают текущее для любой страницы. Но моя цель – создание движка для идеально индексируемого сайта. Кому неинтересно, может использовать Joomla! или Drupal.

Пока я имею возможность гордо заявить: «Мои сайты из индекса не выпадают». И это правда. Хочется, чтобы это и впредь оставалось правдой. А Яндекс, между тем, уже объявил о чистке своего индекса от дубликатов и прочего бесполезного хлама. Есть у меня подозрение, что в разряд хлама легко могут попасть сайты, не очень удобные для индексирования. Так вот, дорогие товарищи, мои сайты в этом случае под сокращение не попадут. Для того и стараюсь.

Инфосвалка

3 марта 2009 г.
Индексация, часть вторая. Следующего робота тоже не пришлось ждать слишком долго.

28 февраля 2009 г.
Началась индексация сайта. Угадайте, кто первым пришел? Конечно же, угадали.

20 февраля 2009 г.
Доработана отправка HTTP-заголовков страницы. «Оптимизированными» они не бывают, хотя это как посмотреть...

15 января 2009 г.
Доработка библиотек генерации ссылок наконец состоялась. Теперь все задуманные форматы в наличии.

11 декабря 2008 г.
Простой и безжалостный тест на выносливость дал просто потрясающий результат. Этот движок способен работать везде.

6 декабря 2008 г.
Движок, созданный для одного сайта – вещь малополезная. Его мощь проявится во многообразии.

28 ноября 2008 г.
Следующая ступенька бесконечной лестницы. Раздача файлов – а вдруг пригодится...

17 ноября 2008 г.
Продолжаем расширять возможности. А как насчет плагинов? Иногда это бывает очень нужно.

26 октября 2008 г.
Новость первая, надоевшая донельзя. Она постоянно с одной и той же датой.