Подведем черту. Прототип поисковой системы описан и реализован. Оценим, что
реально мы проделали. Из общей мировой коллекции документов мы "выкусили"
около 100 миллионов документов (по нашим оценкам, это составляет 1-1.5%) и
построили по этой коллекции распределенный поиск. Такую коллекцию документов
и поиск по ней назовем обобщающим термином SET. Что мешает нам повторить
данный опыт 99 раз на оставшихся документах и сделать еще 99 сетов?
Необходимо лишь правильно распределить сферу ответственности каждого сета.
Организуя поиск по всей коллекции документов, необходимо просто объединять данные поиска из каждого сета (мы подразумеваем при этом, что законы вычисления релевантности в каждом сете одинаковые).
Однако не все так просто. Одной из характеристик документа мы считаем PageRank. Эта характеристика документа высчитывалась нами только в пределах одного сета. На практике документы очень часто содержат ссылки на документы, которые входят в другой сет. Это означает, что данные ссылки мы обязаны сохранить где-то в стороне для их последующей обработки и построения результирующей матрицы ссылок документов друг на друга. Очевидно, что с позиции общей мировой коллекции идентификатор документа будет комплексным и будет состоять из идентификатора сета и идентификатора документа внутри сета.
Процесс формирования результатов такого слияния следует спроектировать в будущем. Нам примерно понятно, как это следует реализовать, однако пока такой задачи мы перед собой не ставили.
В данной работе рассмотрены лишь общие принципы современной поисковой системы Web-ресурсов для того, чтобы дать представление о том, насколько она сложна. Чем дальше я размышляю о перспективах совершенствования различных компонент современной поисковой системы и о разработках принципиально новых компонент такой системы, тем отчетливее для меня становится тот факт, что построение подобной системы должно иметь распределенных характер и на уровне владельцев ресурсов поиска. Как бы велики ни были ресурсы отдельно взятой компании, темпы роста количества информации всегда будут опережать возможности такой компании. Осознание этого факта другими участниками сетевой деятельности неизменно должно привести к интеграции усилий в этом направлении. Мы готовы уже сейчас рассматривать новые модели поиска в сети с учетом всех современных разработок. Если сетевой мир признает подобные разработки основополагающими, то за создание и поддержку такого распределенного сервиса оно будет готово платить. Вспомним ситуацию с Domain Name System - теперь никого не удивляет, что регистрация доменов (читай - ресурсов сети) является платной услугой. Будущее - именно за такими распределенными поисковыми системами.