2.4 AltaVista

Индексирование в этой системе осуществляется при помощи робота. При этом робот имеет следующие приоритеты:

·           слова содержащиеся в теге <title> имеют высший приоритет; ключевые фразы в <Meta> тэгах;

·           ключевые фразы, находящиеся в начале странички;

·           ключевые фразы в ALT - ссылках

·           ключевые фразы по количеству вхождений\присутствия слов\фраз;

Если тэгов на странице нет, использует первые 30 слов, которые индексирует и показывает вместо описания (tag description)

Наиболее интересная возможность AltaVista - это расширенный поиск. Здесь стоит сразу оговориться, что, в отличие от многих других систем AltaVista поддерживает одноместный оператор NOT. Кроме этого, имеется еще и оператор NEAR, который реализует возможность контекстного поиска, когда термины должны располагаться рядом в тексте документа. AltaVista разрешает поиск по ключевым фразам, при этом она имеет довольно большой фразеологический словарь. Кроме всего прочего, при поиске в AltaVista можно задать имя поля, где должно встретиться слово: гипертекстовая ссылка, applet, название образа, заголовок и ряд других полей. К сожалению, подробно процедура ранжирования в документации по системе не описана, но видно, что ранжирование применяется как при простом поиске, так и при расширенном запросе. Реально эту систему можно отнести к системе с расширенным булевым поиском.

 


2.5 Yahoo

Данная система появилась в Сети одной из первых, и сегодня Yahoo сотрудничает со многими производителями средств информационного поиска, а на различных ее серверах используется различное программное обеспечение. Язык Yahoo достаточно прост: все слова следует вводить через пробел, они соединяются связкой AND либо OR. При выдаче не указывается степень соответствия документа запросу, а только подчеркиваются слова из запроса, которые встретились в документе. При этом не производится нормализация лексики и не проводится анализ на "общие" слова. Хорошие результаты поиска получаются только тогда, когда пользователь знает, что в базе данных Yahoo информация есть наверняка. Ранжирование производится по числу терминов запроса в документе. Yahoo относится к классу простых традиционных систем с ограниченными возможностями поиска.

2.6 OpenText

Информационная система OpenText представляет собой самый коммерциализированный информационный продукт в Сети. Все описания больше похожи на рекламу, чем на информативное руководство по работе. Система позволяет провести поиск с использованием логических коннекторов, однако размер запроса ограничен тремя терминами или фразами. В данном случае речь идет о расширенном поиске. При выдаче результатов сообщается степень соответствия документа запросу и размер документа. Система позволяет также улучшить результаты поиска в стиле традиционного булевого поиска. OpenText можно было бы отнести к разряду традиционных информационно-поисковых систем, если бы не механизм ранжирования.


2.7 Infoseek.

В этой системе индекс создает робот, но он индексирует не весь сайт, а только указанную страницу. При этом робот имеет такие приоритеты:

·           слова в заголовке <title> имеют наивысший приоритет;

·           слова в теге keywords, description и частота вхождений\повторений в самом тексте;

·           при повторении одинаковых слов рядом выбрасывает из индекса

·           Допускает до 1024 символов для тега keywords, 200 символов для тэга description;

·           Если тэги не использовались, индексирует первые 200 слов на странице и использует как описание;

Система Infoseek обладает довольно развитым информационно-поисковым языком, позволяющим не просто указывать, какие термины должны встречаться в документах, но и своеобразно взвешивать их. Достигается это при помощи специальных знаков "+" - термин обязан быть в документе, и "-" - термин должен отсутствовать в документе. Кроме этого, Infoseek позволяет проводить то, что называется контекстным поиском. Это значит, что используя специальную форму запроса, можно потребовать последовательной совместной встречаемости слов. Также можно указать, что некоторые слова должны совместно встречаться не только в одном документе, а даже в отдельном параграфе или заголовке. Имеется возможность указания ключевых фраз, представляющих собой единое целое, вплоть до порядка слов. Ранжирование при выдаче осуществляется по числу терминов запроса в документе, по числу фраз запроса за вычетом общих слов. Все эти факторы используются как вложенные процедуры. Подводя краткое резюме, можно сказать, что Infoseek относится к традиционным системам с элементом взвешивания терминов при поиске.


3. Поисковые роботы

За последние годы Всемирная паутина стала настолько популярной, что сейчас Интернет является одним из основных средств публикации информации. Когда размер Сети вырос из нескольких серверов и небольшого числа документов до огромных пределов, стало ясно, что ручная навигация по значительной части структуры гипертекстовых ссылок больше не представляется возможной, не говоря уже об эффективном методе исследования ресурсов.

Эта проблема побудила исследователей Интернет на проведение экспериментов с автоматизированной навигацией по Сети, названной "роботами". Веб-робот - это программа, которая перемещается по гипертекстовой структуре Сети, запрашивает документ и рекурсивно возвращает все документы, на которые данный документ ссылается. Эти программы также иногда называют "пауками", " странниками", или " червями" и эти названия, возможно, более привлекательны, однако, могут ввести в заблуждение, поскольку термин "паук" и "странник" cоздает ложное представление, что робот сам перемещается, а термин "червь" мог бы подразумевать, что робот еще и размножается подобно интернетовскому вирусу-червю. В действительности, роботы реализованы как простая программная система, которая запрашивает информацию из удаленных участков Интернет, используя стандартные cетевые протоколы.

 
4. Наиболее популярные русскоязычные справочно-поисковые системы в интернет

 


Информация о работе «Справочно-поисковые системы сети Интернет»
Раздел: Информатика, программирование
Количество знаков с пробелами: 28418
Количество таблиц: 0
Количество изображений: 0

Похожие работы

Скачать
137439
15
0

... в офисе компании ООО «Автопробег» выполняется специалистами отдела интернет- коммуникаций. Компьютеры сотрудников ООО «Автопробег», работающих на дому, устанавливаются и сопровождаются этими сотрудниками самостоятельно. II ПРОЕКТНАЯ ЧАСТЬ   2.1 Разработка проекта интернет - магазина ООО «Автопробег»   2.1.1 Этапы жизненного цикла проекта интернет – магазина Жизненный цикл проекта создания ...

Скачать
27488
0
0

... внесении изменений и дополнения в Указ Президента Республики Беларусь от 30 октября 1998 г. № 524". Президентом Республики Беларусь Национальный правовой Интернет-портал определен как основной государственный информационный ресурс глобальной компьютерной сети Интернет в области права и правовой информатизации. Основу информационного содержания Национального правового Интернет-портала составляет ...

Скачать
143570
7
0

... )ЭКОНОМИЧЕСКИЙ ФАКУЛЬТЕТ Кафедра экономики и управления ОТЗЫВ РУКОВОДИТЕЛЯ ДИПЛОМНОГО ПРОЕКТА На дипломный проект студента Механова Евгения Вячеславовича, выполненный на тему “Анализ эффективности рекламы ПО «ХимСтальКомплект» в сети Интернет”. Дипломный проект полностью выполнен в соответствии с индивидуальным заданием на дипломный проект. Первая глава дипломного проекта является довольно ...

Скачать
84781
2
0

... можете зарегистрировать на себя новый домен и в дальнейшем, при переезде из города в город сохранять за собой эти имена. Будет меняться только организации, которые осуществляют ваш выход в Интернет, регистрируя эти имена в глобальной сети. 6.2. IP адрес Второй параметр, который будет уникально определять ваш компьютер в мире – это IP адрес. IP адрес – это четыре числа, каждое из которых может ...

0 комментариев


Наверх