Добро пожаловать.

(4212) 24-24-29
г. Хабаровск,
ул. Ким Ю Чена, д. 38,
оф. 203.
studio@khvweb.com
211-028-011
Рады видеть Вас в блоге нашей студии! Здесь мы копим нужную, а иногда просто интересную информацию о создании сайтов. Категории:
Статьи
Новости Интернета
Новости студии
Обзоры
Публикации


Главная » Блог » Новости Интернета

Общедоступный индекс веба (5 миллиардов веб-страниц)



Организация Common Crawl сделала щедрый подарок разработчикам и компаниям, которые работают в области поиска и обработки информации. В открытый доступ на Amazon S3 выложен индекс из 5 миллиардов веб-страниц с метаданными, PageRank и графом гиперссылок.

Если вы видели в логах веб-сервера CCBot/1.0, то это их краулер. Некоммерческая организация Common Crawl выступает за свободу информации и поставила целью сделать общедоступный поисковый индекс, который будет доступен каждому разработчику или стартапу. Предполагается, что это приведёт к созданию целой плеяды инновационных веб-сервисов.

Поисковый кластер Common Crawl работает на Hadoop, данные хранятся в файловой системе HDFS, а обработка осуществляется средствами MapReduce, после чего весь контент сжимается в архивы формата ARC, файлы по 100 МБ (общий объём базы 40-50 ТБ). Файлы можно скачать к себе или напрямую обрабатывать на EC2 с помощью того же MapReduce. Доступ к bucket'у возможен только с флагом Amazon Requester-Pays, то есть для зарегистрированных пользователей EC2 (подробнее о Amazon Requester-Pays здесь). Скачать 40-50 ТБ из внешней сети обойдётся примерно в $130 по текущим расценкам Amazon, обращение через MapReduce внутри EC2 — бесплатно.

Данные доступны практически без ограничений: см. инструкцию по доступу к данным и условия пользования. Запрещено только выкладывать скачанные данные где-то в другом месте, продавать доступ или использовать данные каким-либо незаконным способом.

Добавим, что руководителем Common Crawl Foundation является широко известный в узких кругах Гилад Элбаз (Gilad Elbaz), главный разработчик системы Google AdSense и исполнительный директор стартапа Factual.

Комментарии