Turtle >> Масштабируемость. Поисковая система "Turle".

4. Масштабируемость.
Описывая строение и функции различных подсистем, мы несколько раз вкратце упоминали о функциях масштабируемости системы. Суммируем эти соображения.
С ростом количества сканируемых документов в рамках системы следует удерживать время полного цикла сканирования на допустимом уровне. Для решения этой проблемы предполагается увеличивать количество накопителей данных CA, которые имеют скромную конфигурацию и достаточно дешевы. Их работу обслуживает и обеспечивает центральный диспетчер. В существующей реализации, полагаю, это является одним из слабых звеньев. Масштабирование количества диспетчеров следует спроектировать в будущем. Пока же экспериментальные данные говорят о том, что один диспетчер способен обеспечить накопление порядка 50 млн. документов в сутки множеством CA. Сейчас эти цифры являются удовлетворительными даже для масштаба всей сети Интернет, однако сеть бурно развивается, и работу над масштабированием этого звена следует проводить уже сейчас. Распределенный принцип работы диспетчеров внесет свои изменения в логику работы некоторых других компонент и подсистем.
Масштабировать скорость создания и обновления индекса можно безболезненным увеличением серверов создания порций индекса IS, каждый из которых будет отвечать за свою группу CA. Есть некоторые проблемы объединения большого объема исходных индексных данных на различных IS, однако они решаемы.
Масштабировать увеличивающийся суммарный объем индекса в пределах одного поискового кластера можно увеличением количества процессоров поиска. В пределе, данные по каждому отдельному поисковому термину могут находиться на собственном поисковом процессоре.
Архивные сервера AS свободно добавляются в систему по мере накопления новых данных, при этом конфигурационно определяется сфера ответственности каждого из них в виде интервалов ID-документов.
Увеличивающиеся во времени поисковые нагрузки можно гасить путем увеличения количества кластеров индекса и, соответственно, количеством QP. В целом, ориентация на недорогие, но надежные аппаратные платформы позволяет создать и поддерживать систему умеренной стоимости.
Масштабируемость по функциональности различных языков легко достигается включением новых морфологических словарей в систему. Инструменты для создания таких словарей разработаны нами в составе Multilingual Morphology Module (MMM/1.0).
Масштабируемость по обработке новых видов данных осуществляется с помощью подключения новых фильтров - преобразователей форматов.

<< 3.13. Результирующая структурная схема | Содержание | 5. Контроль работоспособности и статистика >>

Черепаший Ранк. Реклама на Turtle Логотипы Правовая информация Конфиденциальность Контакты