Turtle >> Введение. Поисковая система "Turle".

Краткий обзор (abstract).
В данной работе мы представляем "Turtle" как прототип распределенной, крупной и масштабируемой поисковой системы по интернет-ресурсам гипертекстовых документов. Эта система позволяет с большой эффективностью производить индексирование и поиск по огромным коллекциям документов. Полнотекстовая поисковая система ориентирована на документы, составленные на разных языках. Рабочий вариант поисковой машины представлен на /. В качестве прототипа поисковая система может рассматриваться как стартовая точка для разработки истинно распределенной по множеству участников сети поисковой системы. Конечно, это требует дополнительных исследований.
Ключевые слова.
World Wide Web, Search Engines, поисковые машины, индексирование документов, Turtle.
1. Введение.
Оглядываясь на предшествующие разработки (в том числе и свои собственные) в области поисковых систем, ориентированных на Web в нашей стране и за рубежом, оценивая их сильные и слабые стороны, учитывая разнообразные (по сложности запросов) потребности сетевого сообщества и множество других факторов, мы задумали спроектировать систему, наиболее полно удовлетворяющую эти потребности. Кроме исследовательского интереса к решению проблем, мы также хотели показать сетевому сообществу потенциальные возможности нашей команды разработчиков в построении систем любой сложности. На вопрос "Зачем нужен новый поисковик? Почему вы его делаете?" я отвечаю обычно: "Потому, что он другой".
В своей работе "The Anatomy of a Large-Scale Hypertextual Web Search Engine" Sergey Brin и Lawrence Page раскрыли некоторые аспекты анатомии прототипа поисковой системы Google. Мы также решили не скрывать "внутренностей" прототипа нашей поисковой машины "Turtle" и, кроме "анатомических" данных, приводим здесь описание некоторых "физиологических" аспектов функционирования "Turtle", которые в той или иной степени характеризуют современные Web-поисковики.
Какие основные задачи мы хотим решить в данной разработке?
Во-первых, построение поисковой системы, способной работать с предельно большими объемами информации. Мы не стали ограничиваться уровнем страны или региона. Мы проектировали систему мирового масштаба, способную составить конкуренцию признанным мировым лидерам - таким, как Google, AltaVista и другим. В текущей конфигурации мы ограничили поле деятельности поисковой системы пределами России, включая страны Содружества, однако сама система имеет практически не ограниченную масштабируемость.
Во-вторых, мы желали построить истинно многоязыковую поисковую систему, способную определять исходные языки документов, оперировать с морфологическими формами различных языков в запросах и ответах. Сейчас система умеет оперировать данными 24 языков, включая некоторые экзотические (например, эсперанто или русская транслитерация, см. Multilingual Morphology Module MMM/1.0).
В-третьих, мы желали дать в руки рядовых владельцев сайтов инструмент, с помощью которого можно изготовить свою локальную поисковую систему. Идея заключается в том, что при создании локальной поисковой базы обновление данных синхронно производится как в самой локальной базе, так и в центральной базе поисковой системы "Turtle". Таким образом, актуальность данных в поисковой системе полностью зависит от того, с какой частотой может себе позволить конкретный владелец ресурса или группы ресурсов сканировать эти ресурсы на предмет обновления индекса. Такие обновления в центральной базе будут осуществляться в реальном времени с частотой сканирования ресурса. Если владельцу ресурса не требуется локальная поисковая система, то он может использовать наше программное обеспечение исключительно для обновления информации о состоянии его ресурсов в нашей базе.
Развивая дальше эту идею, мы приходим к выводу, что такой механизм легко позволяет создать региональные, областные, республиканские базы и т.д. Коллекции могут создаваться не только по территориальному принципу, но и по тематическому. При этом центральная база в любой момент имеет знания о принадлежности какого-либо документа к конкретным коллекциям. Это свойство может быть легко использовано в дальнейшем для ограничения тематики поиска.
В-четвертых, учитывая распределенных характер хранения информации в сети, мы пришли к выводу, что и характер обработки этой информации должен иметь распределенную сетевую структуру, и применили этот принцип во всех компонентах поисковой системы "Turtle". Так, например, сканирование производится множеством агентов под руководством центрального диспетчера, индекс для поиска распределен по другим серверам, причем это не является копированием полного индекса на разные сервера. В процессе обработки одного поискового запроса в работу могут быть задействованы десятки серверов различной направленности действия. На многих этапах обработки поискового запроса возможна параллельная работа серверов, этим достигается снижение результирующего времени обработки запроса. Вся работа, производимая в рамках поисковой системы, в основе своей содержит сетевые взаимодействия различных компонент в различных узлах сети системы. Для их успешного взаимодействия в рамках проекта разработан специальный протокол Search System Transfer Protocol (SSTP.1.0). Данные от внешних накопителей данных, установленных в других компаниях для создания собственных поисковых систем, также передаются посредством этого протокола компонентам центральной поисковой системы в компактном компрессированном виде.
В-пятых, мы старались сделать результаты разработки максимально открытыми для вовлечения в процесс совершенствования системы большого количества внешних специалистов. В этом документе мы раскроем основополагающие принципы работы данной поисковой системы. Мы собираемся распространять исходные тексты той части, которая позволяет пользователям строить свои локальные базы, когда этот этап работы будет близок к завершению.
В-шестых, понимая, что количество информации в сети растет со значительным опережением возможностей отдельно взятой компании, как бы велика она ни была, мы надеемся, что данная разработка может являться началом разработки истинно распределенного механизма поиска в сети, в процессе которого смогут принимать участие вычислительные ресурсы многих компаний и организаций.
В-седьмых, в рамках построения поисковой системы мы поставили задачу создания ретроспективной базы данных состояния ресурсов сети в отдельно взятый интервал времени. Это означает, что на практике можно будет увидеть, как выглядел тот или иной ресурс три месяца или год назад. Данная часть проекта могла бы стать, по нашему мнению, частью национальной программы создания библиотеки ресурсов. Бережно сохраненные данные могут использоваться новыми поколениями для своих анализов.
В-восьмых, мы ориентируемся на множество форматов данных документов. Классические поисковые системы чаще всего "умеют" работать только с текстовыми документами. Мы построили систему легкого подключения неограниченного числа фильтров-преобразователей форматов. Например, сейчас "Turtle" умеет индексировать документы форматов Microsoft Word, Excel, RTF, PDF, PostScript, PowerPoint и др. Система легко оперирует компрессированными данными различных форматов. Подключение любого нового преобразователя - не проблема.
В-девятых, мы поставили перед собой задачу создания нового механизма ранжирования результатов поиска, учитывающего в себе все известные на сегодня и включающего разработанные нами оригинальные методы.
Отдельные материалы данной разработки могут использоваться для обучения проектированию различных составляющих поисковой системы. Так, например, при проектировании поиска по распределенной базе данных, находящейся на многих Процессорах Поиска (Search Processors), был разработан специальный программный язык Search System Assembly Language (SSAL). Программы, написанные и оптимизированные на нем внешними приложениями, выполняются на SP, позволяя оптимально взаимодействовать различным компьютерам при выполнении операций поиска.
Большое внимание было уделено безопасности работы поискового комплекса, в результате чего в рамках разработанного сетевого протокола реализована многоуровневая система авторизации и идентификации объектов сетевого взаимодействия.
Все эти, а также другие особенности поисковой системы "Turtle" с различной степенью детализации будут рассмотрены в данной работе.

Содержание | 2. Текущая реализация прототипа >>

Черепаший Ранк. Реклама на Turtle Логотипы Правовая информация Конфиденциальность Контакты