Эффективность поисковика


Автор сообщения: Не Понял
Дата и время сообщения: 03 December 2006 at 00:46:51:

В ответ на сообщение: Успокойтесь,

Уважаемый Виктор Б.,

поскольку тут над Вами стали иронизировать, то поспешу Вам на помощь. Поясню особенности работы распределённых "клиент-серверных" и Web-ориентиорованных приложений в рамках применения стандартизованной семиуровневой модели сетевых протоколов. Маленькая лекция, так сказать - слушайте и попытайтесь понять. А я буду давать пояснения с указанием ошибок в Ваших рассуждениях.
Видите ли, уважаемый Виктор Б., эффективность работы поисковика зависит только от самого поисковика, то есть, то, как быстро и как эффективно работает поисковик того же Googlе'а зависит от характеристик сервера (вернее, серверов, ещё вернее, серверных кластеров) этого самого Google. В состав серверной группировки поисковика не входит Ваша машина (ни новая, ни старая - никакая). Посиковый сервер работает вне зависимости от того, соединяетесь ли Вы с ним, запрашивая обработку своего вопроса, или нет. Этот сервер работает 24 часа в сутки, 7 дней в неделю, 365 дней в году. Вы спите, едите, ходите в кино, не касаетесь клавиш Вашего компьютера старого или даже мышки Вашего компьютера нового - а он работает, как говорят - "индексирует" слова, которые ему заданы (когда-либо или будут ещё) для поиска, ищет сетевые ресурсы ("Web-серверы"), где такие слова используются хоть с каким-то смыслом и "запоминает" найденные результаты в виде связанных списков.

"Чтобы найти информацию о сотнях миллионах существующих WEB-страниц, поисковая машина применяет специальную программу-робот. Эта программа еще называется спайдер ("spider", паук) и служит для построения списка слов, найденных на странице. Процесс построения такого списка называется web-краулинг (Web crawling). Чтобы далее построить и зафиксировать "полезный" (имеющий значение) список слов, поисковый паук должен "просмотреть" массу других страниц.
Любой паук (spider) свое путешествие по сети начинает обычно со стартовой точки - такими точками являются наиболее крупные мировые серверы и очень популярные web-страницы. Паук начинает свой путь с такого сайта, индексирует все найденные слова и продолжает свое движение далее, по ссылкам на другие сайты. Таким образом, робот-паук начинает охватывать все большие "куски" web-пространства. Google.com начинался с академического поисковика. Сергей Брин и Лауренс Пейдж (основатели и владельцы Google) привели пример, как быстро работают гугловские пауки. Их несколько и обычно поиск начинается с использованием 3-х пауков. Каждый паук поддерживает до 300 одновременно открытых соединений с web-страницами. При пиковой загрузке, с использованием 4-х пауков, система Google способна обработать 100 страниц в секунду, генерируя траффик около 600 килобайт/сек."
Теперь - внимание, уважаемый Виктор Б.! Эта работа - обработка такого чудовищного трафика - выполняется абсолютно ВНЕ Вашей машины, поэтому мощен Ваш личный арифмометр или наоборот - никак не влияет на эффективность, на изменение в какую-либо сторону эффективности этой вот работы. Google будет обрабатывать эти самые "100 страниц в секунду" независимо от того, на "Пентиуме" сваяли наш домашний компьютер или на каком-нибудь замшелом Intel-386. VIA, AMD, PowerPC, TI или каком другом. Ещё раз - Ваш домашний компьютер, с которого Вы произвели запрос на использование ресурсов поисковика, не участвует в работе поисковика, следовательно, не может никак влиять на производительность этой "внутренней" работы самого поисковика. И, следовательно, изменение вычислительной мощности Вашего домашнего компьютера не может никак повлиять на вычислительную мощность сервера-поисковика.
Теперь - о сети. Сеть "работает" для передачи запроса от Вашего домашнего компьютера к серверной группировке того же Google'а, потом - может делать что хочет, но должна ещё раз обслужить соединение "Google-Ваш_компьютер" сразу после получения ответа от поисковика, то есть, по окончании построения списка сайтов по Вашему запросу. Опять же, заметьте - в самом процессе поиска, в построении результата поиска, сетевая связь "Ваша машина - Поисковый Сервер" ну никак не задействована. Ну, разве только в том случае, если (вдруг!) именно на Вашей машине расположен Web-сайт, который попал в выстраиваемый индексируемый список. Но это - очень и очень умозрительный случай, принципиально не рассматриваемый в модели сетевого взаимодействия (раз), в нашем с Вами случае - это места не имеет в принципе (два), да и сложно себе представить, что сетевые характеристики (пропускная способность, скорость работы сегмента сети, где находится Ваш компьютер, нагрузка на систему маршрутизации и т.д.) как-то уж очень сильно (на порядок) меняются от запроса к запросу (три). Итак, фиксируем:
эффективность поиска ("эффективность работы поисковика"), осуществляемого специализированными серверами сети (например, Google, или Rambler, или Yandex, или Yahoo!, или AskJeevs)не зависит никак от характеристик персоналок поскольку эти "персоналки" никак не включены в собственно работы по поиску/индексации.
Также фиксируем: эффективность поиска ("эффективность работы поисковика"), осуществляемого специализированными серверами сети (например, Google, или Rambler, или Yandex, или Yahoo!, или AskJeevs)не зависит никак от характеристик сегментов сети, связывающей "персоналку" (например, любой из Ваших компьютеров) и серверную группировку поисковика, поскольку этот участок сети никак не включен в собственно работы по поиску/индексации.

И уж совсем для уточнения - чтобы обеспечить тех же пауков-spider'ов необходимыми для обработки данными, раньше Google располагал сервером, который занимался только тем, что "подбрасывал" паукам все новые и новые URL. Это означало катастрофическое возрастание нагрузки на сетевые ресурсы, задействуемые по ходу расширения поиска. Чтобы не зависеть от интернет сервис- провайдеров в части серверов доменных имен (DNS), транслирующих URL в IP адрес, Google обзавелся собственным сервером DNS, сведя все временные затраты на индексацию страниц до минимума. То есть, теперь эффективность сетевой обработки поиска-индексации мало зависит и от того, какая сеть между серверами поисковика и серверами Web-ресурсов.

Вывод: Вы больше не рассуждайте о том, от чего зависит эффективность поиска, пока не проконсультируетесь с нами, со специалистами в сетевых технологоях. А то Марина засмеёт. Зато как проконсультируетесь - то да, пожалуйста, рассуждайте. Марина уже не засмеёт, поскольку уж явных "ляпов" Вы, надеюсь, не допустите. Мы же плохому не научим - не новохронологи же, слава богу!

Regards,
Традиционалист Владимир.


2473. Феномен - Виктор Б 20:47 21.11.06 (163)
К списку тем на странице