Promodo
contact@promodo.com
http://www.promodo.com/
Термин "Google Dance" часто используется для описания обновлений индексной базы поисковой системы Google. Всреднем, обновление индексной базы происходит один раз в месяц. Это можно заметить по значительным изменениям в выдаче поисковой системы и особенно, если посмотреть сохраненную страницу в кеше поисковой системы, отображающему статус последнего прохождения робота. Однако апдейт не происходит резкой сменой одной выдачи другой. На самом деле, это длится несколько дней до полного завершения обновлений. За это время новые результаты пересчетов сменяют старые. На начальной стадии обновлений новые результаты видны в отдельных случаях. Но дальше, они видны более часто. Google "танцует".
Технические особенности Google
Поисковая система Google вцелом состоит больше, чем из 10,000 серверов архитектуры PC, работающих под управлением операционной системы Linux. Это разумное решение Google с точки зрения ценовой политики и целесообразности. В качестве Web-сервера "гугловцы" используют Apache-сервер. На самом деле, обновление индексной базы данных не может быть произведено на всех датацентрах одновременно. Они одним за другим обновляют свои данные.
Многие web-мастера думают, что в течении Google-Dance работники Google в какой-то мере могут управлять потоком выдаваемой информации, а именно самостоятельно решать: серверу со старой или серверу с новой индексной базой отвечать на запросы пользователей. Но, с момента переиндексации это было бы очень сложно. И, как мы покажем ниже, в переделах системы это не контролируется. На самом деле, причиной разной выдачи служит система именования доменов (DNS).
Google Dance и DNS
Не только индексная база Google разделена на больше чем 10,000 серверов, но так же и эти серверы размещены в восьми различных дата-центрах. Эти дата-центры в большей своей части размещены в Соединенных Штатах Америки (а именно в Santa Clara, California и Herndon, Virginia). В июне месяце 2002 года компания Google впервые запустила свой дата-центр в Европе, он находится в Швейцарии в городе Цюрих. К счастью, планируется запуск большего числа дата-центров, которые, возможно, будут распостранены по всему миру. Тем не менее, в январе и апреле 2003 года Google стартовала 2 дата-центра подряд, которые опять же находятся на територии Соединенных Штатов.
Соответсвенно, направляя данные ко всем своим дата-центрам, Google мог теоретически делать запись всех запросов централизованно и затем рассылать их по всем своим дата-центрам. Но реальностью является то, что каждый дата-центр имеет свой собственный IP-адрес и способ доступа к этим IP-адресам управляется системой именования имен, т.е. DNS.
По существу, DNS работает следующим образом: в Интернет при передаче данных всегда имеют место промежуточные IP адреса. Информация о том, какому домену принадлежит тот или иной IP адрес управляюется сервером DNS. Когда обычный пользователь вводит имя домена в адресной строке, локальный DNS сервер по запросу выдает ему IP адрес, который принадлежит данному домену, чтобы дальше осуществлять "общение" с тем доменом, который отвечает за определенную зону IP адресов. (структура DNS представляет собой дерево. Все IP адреса разделены по зонам, которыми управляют вышестоящие сервера. Чтобы описать весь процесс понадобится отдельная тема.) DNS сервера способны кешировать IP адреса, поэтому не всегда возникает необходимость вышестоящий по иерархии сервер спрашивать о разрешимости того или иного имени.
Запись для доменного имени и его продолжительность нахождения в кеше того или иного ответсвенного за зону сервера DNS зависит от его настроек. Это время называется "временем жизни" домена (Time To Live). Как только это время истекает, кеширующий DNS сервер доставляет новые данные снова от вышестоящего DNS сервера. Довольно часто "время жизни" домена устанавливается не больше, чем один день. Для сравнения - время жизни домена www.google.com только 5 минут, поэтому DNS сервер может только на 5 минут задержать у себя в кеше только на 5 минут, а потом снова потребуется запрос IP адреса.
Каждый раз, когда идет контакт с DNS сервером Google, сервер отсылает на запрос IP адрес только одного дата-центра. Поэтому, запросы Google всегда направляются к различным дата-центрам с различными записями DNS. С одной стороны записи DNS могут базироваться на данных, взятых с единого дата-центра. В этом случае Google легко производил загрузку, балансируя этим использованием DNS. С другой стороны, географическое место положение кеширующего сервера может повлиять на частоту получения IP адресов отдельных дата-центров. Так расстояние для преедачи данных может быть уменьшено. Чтобы показать DNS записи домена www.google.com, мы показываем их здесь на примере одного кеширующего DNS.
В настоящий момент DNS и Google-Dance связаны - это простой ответ. В течении денса дата-центры не получают новые данные в одно и то же время. На самом деле, новые данные передаются от одного дата-центра к другому. Когда пользователи делают запросы в течении танца, они могут получать данные от дата-центра, котрый имеет "старый индекс" и получить "новый индекс" всего лишь несколько минут спустя. С точки зрения пользователей, обновление индексной базы занимает всего несколько минут. Конечтно же, что процедура обновления индексной базы есть ни что иное, как совершенно обратное, поэтому выдача поисковой системы "скачет" между старыми и новыми показателями.
Google Dance и домены www2 и www3
Начало Google-Dance можно всегда заметить на тестовых доменах www2.google.com и www3.google.com. Эти домены обычно имеют устойчивые DNS записи, которые делают разрешение имени только для одного IP адреса (часто одного и того же). Перед началом танца, по крайней мере один из доменов настроен на получение новых данных из уже обновленной индексной базы.
Построение новой индексной базы поисковой системы раз в месяц может стать причиной ряда проблем. Поисковые роботы проходят миллиарды страниц и затем обрабатывают терра-байты информации. Поэтому тестирование новой индексной базы происходят беспрерывно. Конечно же Google не нуждается в тестировании своих доменов. Главным образом потому, что существует много "примочек", чтобы проверить новую индексную базу изнутри, и для этого не требуется много времени.
Поэтому, необходимость иметь сервера www2 и www3 в том, чтобы для web-мастеров существовала возможность прогнозирования ихнего ранжирования после денса. Много из этих web-мастеров обсуждают обновления после денса на форумах в сети. Эти обсуждения могут быть предметом наблюдения для работников Google. Часто обычные пользователи еще не могут видеть изменений, так как записи DNS для www.google.com не указывают на IP адрес дата-центра, который был изменен в первую очередь, когда началось обновление.
Как только группа тестировщиков, состоящая из участников форума, не находит каких-либо кардинальных отличий в новой выдаче поисковой системы, DNS записи изменяются таким образом, что новая индексная база становится доступной для www.google.com и начинается обновление основной базы. В это время начинается денс. Однако, если обнаруживаются серьездные нарушения в течении этого обновления, существует возможность отменить обновление основной базы поисковой системы. Домен www.google.com не будет получать информацию из "треснувшего" дата-центра, и общая часть пользователей не заметят этого. Поэтому индексная база поисковой системы не может быть восстановлена и сбор информации в сети снова не начинается.
Следовательно, результаты поиска, которые были видны на доменах www2.google.com и www3.google.com всегда будут отображаться на www.google.com чуть позже после обновления основной базы. Однако, может наблюдаться незначительное "качение". С одной стороны, индексные базы разных дата-центров не могут быть абсолютно идентичными друг-другу. Мы можем легко это проверить, посмотрев результаты поиска одного и того же запроса на разных дата-центрах, которые часто различны. Сдругой стороны, в это время идет пересчет PageRank, google запускает механизм пересчета PageRank для сайтов, и Вы так же можете наблюдать эти изменения во время денса.
Полезная утилита для проверки Google-dance.