В Вебе уже триллион страниц

Всемирная сеть уже насчитывает триллион страниц и продолжает прирастать со скоростью несколько миллиардов страниц ежедневно. Об этом компания сообщила в посте на своем блоге. В принципе, Интернет состоит из более чем одного триллиона страниц, которые индексирует Google. Однако следует отметить, что Google не индексирует каждую из этого триллиона страниц. «Мы не индексируем каждую из этого триллиона страниц — многие из них повторяют друг друга или представляют автоматически генерируемый контент». Большинство страниц дублируют URLы — множество страниц в Интернете имеют одно и то же содержание.

Самый первый индекс Google в 1998 году насчитывал 26 миллионов страниц, но уже к 2000 году данный индекс перевалил за отметку в один миллиард. За это время собственные методы Гугла претерпели эволюционные изменения: «Раньше мы делали все пакетами: одна рабочая станция вычисляла граф PageRank из 26 миллионов страниц в течение пары часов и данный набор страниц использовался в индексе Google в определенный фиксированный период времени. Сегодня Google загружает данные из Сети непрерывно, собирая обновленную информацию о страницах и перерабатывая полностью граф веб-линков  несколько раз за день». 

Блог запостил Майкл Аррингтон (Michael Arrington) из TechCrunch, причем с намеком на то, что на следующей неделе может произойти нечто интересное. Цитируя то, что Google гордится, что имеет самый «всеобъемлющий индекс, чем любой другой поисковик», Майкл добавляет: « Это может быть истиной сегодня, но, вероятно, так не будет на следующей неделе». Намек потенциальному соискателю на корону поисковика, если такой соискатель вообще есть.

Techtree.com