Добавить Архитектура Запросы сейчас Цифры и факты FAQ Кнопка поиска Сделать стартовой |
1. Почему ваша поисковая система имеет такое название?
2. Какие сайты автоматически попадают в поисковую систему Turtle?
3. Имя моего сайта не располагается в зоне ".ru". Как сделать, чтобы "Черепаха" индексировала и находила мои документы?
4. Как отличить роботов системы Turtle?
5. Как ограничить работу роботов системы Turtle на моем сайте?
6. Как ограничить индексирование части документа?
7. Как добавить новый ресурс в поисковую систему Turtle?
8. Некоторые страницы моего сайта успешно проиндексированы, а некоторые отсутствуют в поисковой системе. Почему?
9. Индексирует ли "Черепаха" динамические страницы?
Мы начали разрабатывать систему в марте 2001 года. Поначалу дела шли весьма медленными темпами. Первые полгода мы занимались чисто исследовательскими проблемами различных компонент архитектуры (см. "Поисковая система Turtle. Физиология и Анатомия"). Можно сказать, что мы продвигались черепашьими шагами, так как до практической реализации дело так и не доходило. Все тестовые программы разрабатывались под этим шутливым именем. Мы не торопились, так как хотели все реализовать правильно, а не получить как можно быстрее хоть какой-то результат. Однако когда была близка к отладке первая составляющая системы накопления и индексации, наши "черепашки" показали весьма обнадеживающие скоростные характеристики. Мы почесали в затылках и решили ничего не менять в названии. Теперь для нас равнозначными являются имена Turtle, Turtilla, "Черепаха". Как говорят, прилипло.
1. Почему ваша поисковая система имеет такое название?
В нашу поисковую систему автоматически попадают сайты, находящиеся в следующих доменах первого уровня:
2. Какие сайты автоматически попадают в поисковую систему Turtle?
RU
SU
UA
BY
KZ
KG
UZ
AM
AZ
GE
MD
А также сайты, которые по географическому принципу относятся к государствам указанных аббревиатур. Географическая принадлежность определяется согласно конфигурации нашего Geo-to-IP сервера. Конечно, мы не обладаем полнейшей информацией о географической принадлежности любого IP-адреса, однако во многих случаях это помогает нам автоматически включать сайты в состав коллекции "Черепахи".
Если на ваш сайт или страницу ссылаются другие документы Рунета и он находится в ведении российских провайдеров, то нет необходимости что-либо предпринимать. "Черепаха" умеет определять географию согласно IP-адресам серверов и обязана проиндексировать ваш сайт. Например, корпоративный сайт нашей компании имеет доменное имя www.stack.net. Список сайтов в зонах ".com", ".org", ".net", которые Turtle признал российскими весьма велик. Если же ваш сайт расположен за пределами российских провайдеров, то следует воспользоваться формой регистрации. При необходимости, вы можете связаться с администратором поисковой системы по адресу add@turtle.ru и убедить его в целесообразности включения вашего ресурса в число сканируемых.
3. Имя моего сайта не располагается в зоне ".ru". Как сделать, чтобы "Черепаха" индексировала и находила мои документы?
Наши роботы при посещении сайтов выставляют заголовок:
4. Как отличить роботов системы Turtle?
User-Agent: TurtleScanner/version_number
Кроме того, роботы устанавливают поле "From:", в которое помещают адрес электронной почты контактного лица. В случае необходимости, можно всегда обратиться по этому адресу с вашей проблемой, связанной с деятельностью роботов Turtle.
Принципы работы наших роботов направлены на то, чтобы равномерно сканировать все доступные сайты и "не терзать" какой-либо сайт в отдельности. Однако если наши роботы сильно досаждают вашему серверу или вы хотите исключить свой сайт, или его какую-либо часть, из числа сканируемых, вы можете осуществить это с помощью стандартного механизма исключения роботов, используя файл robots.txt. Русский перевод стандарта и правил оформления файлов robots.txt расположен на http://www.citforum.ru/internet/search/rbtspec.shtml
5. Как ограничить работу роботов системы Turtle на моем сайте?
Наши роботы распознают директивы для себя с идентификатором "Turtle", написанном в любом регистре. Например, чтобы запретить индексирование всего сайта, следует составить файл robots.txt следующего содержания:
User-Agent: turtle
Disallow: /
Запрет индексирования части документа нашими роботами можно осуществить с помощью HTML-инструкций: <noindex> </noindex>. Запрет индексирования всего документа можно осуществить с помощью HTML-инструкции:
6. Как ограничить индексирование части документа?
<META NAME="ROBOTS" CONTENT="NOINDEX">
Кроме того, можно запретить использование линков с данной страницы с помощью директивы:
<META NAME="ROBOTS" CONTENT="NOFOLLOW">
Однако данный механизм не гарантирует того, что линки с данной страницы не попадут в поисковую систему, т.к. такие линки могут быть найдены и на других страницах, на которых подобного META тэга не будет обнаружено.
Заполните форму по адресу /add.html
7. Как добавить новый ресурс в поисковую систему Turtle?
Не следует заполнять форму несколько раз. Это не изменит порядок индексирования ваших страниц. Форма служит лишь для того, чтобы сообщить "Черепахе" еще не известный адрес ресурса.
Существуют формально описанные фильтры, ограничивающие поле сканирования наших роботов разумными пределами. Фильтры стараются исключить рекламные блоки, счетчики, рейтинги и пр. Возможно, что некоторые страницы вашего сайта содержат в имени такие части, которые фильтруются.
8. Некоторые страницы моего сайта успешно проиндексированы, а некоторые отсутствуют в поисковой системе. Почему?
Да. Однако следует иметь в виду, что существует ряд ограничений. Обычно мы исключаем из числа сканируемых документы, которые генерируют неоправданно большое количество новых ссылок. Кроме того, мы безжалостно "выкусываем" из URL фрагменты, которые поисковая система считает частью, предназначенной для идентификации сессии. Мы не рекомендуем помещать в URL документа такие поля, для этого существует механизм "Cookies".
9. Индексирует ли Черепаха динамические страницы?
Черепаший Ранк. Реклама на Turtle Логотипы Правовая информация Конфиденциальность Контакты |
©ЗАО "Группа компаний Стек". 2003-2007 |