Информационно-поисковые тезаурусы

15061
знак
0
таблиц
0
изображений

ТЕМА : ИНФОРМАЦИОННО-ПОИСКОВЫЕ ТЕЗАУРУСЫ


1. Информационно-посковый тезаурус

Словари типа тезаурус или идеографические впервые разработаны в лингвистике. Тезаурусы предназначены для облегчения поиска языковых средств выражающих данное понятие (идею). Классическим примером поискового тезауруса является: тезаурус английских слов и выражений первое издание которого было подготовлено Роджестоном 1852 г. подобные тезаурусы созданы и для других естественных языков. Лингвистический тезаурус разработан в связи с автоматизированной подготовкой текста.

Синтагматические связи – это соотношение единицы языка в данном высказывании.

В институте русского языка РАН создан тезаурус семантических (смысловых) и синтагматических связей между словами и словосочетаниями , русский язык как словарно-программное средство. Объём тезауруса 64 000 слов и словосочетаний.

ИПТ предназначен:

1.         обеспечивать перевод с естественного языка на дескрипторный т.е для координатного индексирования документов и запросов.

2.         отражать парадигматические отношения между лексическими единицами ИПТ, которые используются при составлении стратегии поиска.

Парадигматические отношения- это логические и ассоциативные отношения между ЛЕ ИПЯ.

3.         служить терминологическим пособием.

ИПТ – это нормативный словарь дескрипторного ИПЯ с зафиксированными в нём парадигматическими отношениями ЛЕ.

Многоязычный ИПТ – это ИПТ содержащие ЛЕ взятые из нескольких естественных языков и представляющий эквивалентные по смыслу понятия на каждом из этих языков.

Целью создания ИПТ является повышение показателя поиска информации в ИПТ.

Макротезаурус – ИПТ включающий ЛЕ высокой общности и покрывающий широкую область знания.

Микротезаурус – специализированный ИПТ небольшого объёма составленный на основе выборки из более полного ИПТ и дополнительно включающий конкретные русские понятия определённой тематики.

Специализированный ИПТ или синоним монотематического ИПТ – ИПТ построенный для отражения области знания или практической деятельности.

Политематический ИПТ – ИПТ построенный для широкой совокупности областей знания.

Специализированный ИПТ – существует в большинстве науки и техники.

Количество разработанных микротезаурусов исчисляется только в нашей стране в несколько тысяч.

Макротезаурус и политематический ИПТ – предназначены для использования лексико-тематической основы при построении микротезауруса.

Политематический ИПТ включает только основную лексику той или иной отрасли и наиболее очевидные парадигматические отношения.

Микротезаурус включает специфические термины собствен. наимен. и развитую парадигмат.

В состав ИПТ входит вводная часть, основная часть (лексико-семантический указатель) и дополнительные части.

Вводная часть включает титульный лист и текстовые введения.

Введение содержит следующие данные:

1.   цель создания и область применения ИПТ;

2.         ссылки на источники используемые для сбора лексики ИПТ (др. ИПТ, терминологические словари);

3.         описание порядка составления ИПТ;

4.         описание состава и структуры ИПТ;

5.         количественные характеристики ИПТ (общее число статей, число дескрипторов и аскрипторов);

6.         перечень отношений между ЛЕ и методикой основания для их установления.

7.         перечень всех символов и специальных сокращений допустимых для представления ЛЕ.

8.         порядок алфавитного расположения ЛЕ.

9.         описание состава и формы представления дополнительных данных в словарных статьях.

Лексико-семантический указатель – это основная часть ИПТ в которой в едином алфавитном ряду перечислены все дескрипторы и аскрипторы с указанием их парадигматических отношений.

ЛЕ ИПТ – слово, словосочетание, или лексическое значение компонентов сложного слова естественного языка включённое в ИПТ в качестве дескриптора или аскриптора.

Аскриптор (не дескриптор) – ЛЕ ИПТ которая в поисковых образах документов (запросов) подлежит замене на дескриптор при поиске или обработке информации.

В рамках дескрипторной статьи термины располагаются в следующем порядке:

1.         заглавный дескриптор выделен при помощи шрифта. Например заглавными буквами;

2.             дополнительные данные;

3.         лексическое примечание (краткое объяснение уточнение значения дескриптора);

4.         аскрипторы или дескрипторы синонимы (которые следуют за индексом «С»);

5.         вышестоящие дескрипторы следующие за индексом «в»;

6.         нижестоящие дескрипторы следующие за индексом «а»;

7.         дескрипторы связанные другими видами отношений.

Вышестоящий дескриптор, широкий дескриптор- это дескриптор обозначающий либо родовое понятие, либо целое по отношению к данному дескриптору обозначающий часть этого целого.

Нижестоящий дескриптор или узкий дескриптор - дескриптор обозначающий либо видовое понятие, либо часть представляющую вышестоящий дескриптор.

Ассоциативный дескриптор – дескриптор связанный с другими семантической связью характер которой не указан.

Основными типами связи является: причина-следствие, процесс-объект, функциональное сходство, антонимия.

Неоднозначность ЛЕ устраняется релятором или лексическим примечанием.

Релятор является ЛЕ и поясняет её значение относя её к определённой понятийной категории или предметно-тематической области.

Дополнительные части ИПТ:

-           систематический указатель;

-           иерархический и другие указатели и списки специальных категорий ЛЕ.

Дополнительные указатели служат для раскрытия учёта и контроля парадигматических отношений между дескрипторами, что требуется при составлении поисковых предписаний.

Списки указателей являются перечнем дескрипторов сгруппированных согласно принятой в ИПТ рубрикации.

При построении систематического указателя используется следующая общая категория:

1.   название дисциплин и отраслей деятельности;

2.   предметы, материалы;

3.   методы, процессы, операции, явления;

4.   свойства, величины, параметры, характеристики;

5.   отношения структуры, модели, законы, правила, абстрактные понятия.

Каждый дескриптор относится только к одной рубрике. Внутри рубрики дескриптор располагается в алфавитном порядке.

Иерархический – представляет собой перечень списков дескрипторов, причём каждый список начинается с дескриптора не имеющего вышестоящих.

После каждого дескриптора приведены непосредственно нижестоящие дескрипторы с указанием иерархических , путём применения нумерации. Либо графические обозначения уровня.

Основные преимущества дескрипторных ИПЯ:

Меньшая по сравнению с классификационным ИПЯ трудоёмкость разработки;

Возможность осуществить поиск по любому заранее заданному сочетанию характеристик входящих в ИПЯ;

Возможность автоматического процесса индексирования документов.

Недостатки дескрипторных ИПЯ:

В основных отраслях характер дескрипторного ИПЯ затрудняет их использование для обмена информацией между системами с различными ИПЯ;

Неадекватное значение термина выбран в качестве дескриптора в различных дескрипторных ИПС.


2. Анализ информационно-поискового тезауруса

 

2.1 Информационно-поисковый тезаурус по сохранности документов (БАН)

1. Первый отечественный двуязычный тезаурус по сохранности документов, подготовленный в Библиотеке Российской академии наук. тезаурус насчитывает 5 166 терминов.

Издание представляет собой образец смешанного двуязычного (русско-английского) тезауруса. Основным языком выбран английский. Это значит, что в качестве дескрипторов выбраны английские термины, а русские термины приводятся как синонимы.

Настоящий информационно-поисковый тезаурус предназначен для индексирования документов и обработки запросов по обеспечению сохранности (хранению) документов в традиционных и нетрадиционных информационных системах. Тезаурус может использоваться как специальный двуязычный словарь при выполнении переводов с русского на английский и с английского на русский язык, а также как терминологический словарь справочник.

В состав тезауруса входят:

- лексико-семантический указатель;

- иерархический указатель;

- хронологический идентификатор.

2. Дескрипторы часто определяют как классы условной эквивалентности терминов, поскольку имеется поисковая и обычная (общеязыковая) эквивалентность языковых единиц, и эти два вида лексической равнозначности терминов в дескрипторных словарях могут не полностью совпадать. Так, например, у лексических единиц, входящих в дескриптор «DERATISATION c. Дератизация, н. MICE, RATS», содержание понятий «мыши» и «крысы» относятся к семантическим категориям «живые организмы», «биологический фактор», а понятие «дератизация» – к лексической категории «операции». Но поскольку при проведении поиска информации различия в категориальном значении указанных слов являются не очень существенными и более важным является их информационно-поисковая эквивалентность, в тезаурусе по сохранности документов понятия «мыши» и «крысы» являются нижестоящими по отношению к термину «deratisation».

В лексико-семантическом указателе тезауруса расположены дескрипторные и аскрипторные статьи.

В рамках дескрипторной статьи термины располагаются в следующем порядке:

- заглавные дескрипторы выделены заглавными буквами;

- дополнительные данные;

- аскрипторы или дескрипторы синонимы, которые следуют за индексом «с»;

- вышестоящие дискрипторы следующие за индексом «в»;

- нижестоящие дескрипторы следующие за индексом «н».

Пример:

ACCTSS CONTROL

c Visitors control

Контроль и управление доступом

в ORGANIZATION OF SECURITY SISTEMS

н ACCESS CONTROL

3. В дескрипторных статьях тезауруса отсутствуют:

- лексическое примечание;

 - дескрипторы связанные другими видами отношений.

 


2.2 Тезаурус терминов по морскому делу и парусному туризму. (информационно-поисковый тезаурус). Составитель В.Н. Белозеров. Москва 2001

1. Тезаурус содержит около 2200 терминов с определениями и тезаурусными связями.

Настоящий словарь-справочник по морскому делу и парусному туризму является терминологическим словарем, в котором для каждого термина дано его определение, при необходимости — примечания о характере использования, а также семантические связи с другим понятиями.

Наличие явного указания на семантические связи понятий в совокупности с раскрытием их содержания в определениях и комментариях позволяет использовать словарь как "программированный учебник", который ведет читателя от слова к слову, сообщая сведения о понятиях всей сферы интереса.

В состав словаря входит вся специальная терминология, необходимая для изложения материала по организации и проведению туристских плаваний на транспортабельных разборных судах по внутренним водоемам и прибрежным районам морей. Терминология этого вида деятельности дополнена лексикой классического парусного дела, парусного спорта, навигации, гидрографии, организации морских перевозок, что позволяет использовать словарь как справочник по морскому делу в целом.

Словарь состоит из настоящего введения и алфавитного лексико-семантического указателя терминологии. Элементом алфавитного указателя является словарная статья, состоящая из заглавной лексической единицы, определения, примечания и ссылок.

Тематику словаря можно отнести к следующим рубрикам Государственного рубрикатора научно-технической информации:

·           71.37.01 Общие вопросы туристско-экскурсионного обслуживания

·           73.34.01 Общие вопросы водного транспорта

·           77.01.33 Терминология. Справочники, словари, учебная литература по физической культуре и спорту

·           77.29.32 Парусный спорт. Виндсерфинг

·           77.29.33 Спортивный туризм

2. Заглавная лексическая единица возглавляет словарную статью и в дескрипторных статьях выделена заглавными (прописными) буквами. В некоторых случаях в состав заглавной лексической единицы включены факультативные пояснительные слова в круглых скобках. Например: "УЗЕЛ (скорость)" в отличие от "УЗЕЛ (на тросе)".

Определение следует непосредственно после заглавной лексической единицы, отделено от нее тире и набрано шрифтом с уменьшенной высотой букв (в настоящем варианте петит не реализован). В некоторых случаях, когда определение термина очевидно из его внутренней формы, оно не приводится. В тех же случаях, когда термин можно определить с разных сторон и лишь в совокупности соответствующие определения описывают понятие, приводятся два или даже три определения, разделенные точкой с запятой.

Например:

обычное определение:

КЛИВЕР — треугольный косой парус, передняя шкаторина которого крепится к кливер-лееру, соединяющему стеньгу с ноком бушприта или утлегарем.

определение опущено:

ДАЛЬНОСТЬ ВИДИМОСТИ —

два определения (со стороны значения и со стороны формы):

АЗ — флаг ВМСС, обозначающий русскую букву А; красный с косицами и белым квадратом у древка.

Важной частью статьи являются ссылки на другие термины или другие формы того же термина. Они позволяют знакомиться с содержанием тезауруса методом "навигации" по ссылкам и уточняют значение терминов, дополнительно раскрывая его через связи термина (набранного обычным светлым шрифтом). Если в статье приводится два или более ссылочных термина, имеющих одинаковый характер связи с заглавной лексической единицей, обозначение ссылки приводится только один раз в первой из строк.

Все термины, указанные в ссылках, являются заглавными лексическими единицами соответствующих статей, в которых можно получить дополнительную информацию о данном термине. Исключение составляют ссылки на обозначения и аббревиатуры.

В настоящем тезаурусе используются следующие виды ссылок, которые располагаются в указанном ниже порядке:

с — в дескрипторной статье указывает на синонимичный аскриптор;

см — в аскрипторной статье указывает на синонимичный дескриптор;

исп — в аскрипторной статье указывает на несколько дескрипторов, среди которых нужно выбрать один, наиболее точно выражающий интересующее читателя понятие;

об — условное обозначение данного понятия;

вр — вышестоящее родовое понятие;

вц — вышестоящий термин, обозначающий объект, включающий в себя данное понятие в качестве своей составной части;

вм — множество, один из элементов которого обозначается заглавной лексической единицей;

нв — нижестоящее видовое понятие;

нч — нижестоящий термин, обозначающий часть объекта, выраженного заглавной лексической единицей;

нэ — нижестоящий термин, обозначающий один из элементов множества, выраженного заглавной лексической единицей;

асх — ассоциация по сходству объектов или понятий; асм — ассоциация по смежности объектов, процессов или явлений; ант — антоним, т.е. "противоположное" понятие;

ср — ссылка на аскриптор, предлагающий данную заглавную лексическую единицу в качестве одной из альтернатив для выбора точного термина.

Пример:

АЗИМУТ - направление в пространстве, выраженное относительно стран света

вр: направление

нв: азимут светила; истинный азимут; компасный азимут; магнитный азимут;

асх: пеленг; румб

асм: круговая система азимутов; румбовая система азимутов; четвертная система азимутов

3. Настоящий словарь, рассматриваемый как тезаурус, подготовлен в соответствии с ГОСТ 7.25 — 80.


СПИСОК ЛИТЕРАТУРЫ

1. ГОСТ 7.24-90. Тезаурус информационно-поисковый многоязычный.

2. ГОСТ 7.25-2001. Тезаурус информационно-поисковый одноязычный.

3. ГОСТ 7.74-96. Информационно-поисковые языки. Термины и определения.


Информация о работе «Информационно-поисковые тезаурусы»
Раздел: Информатика, программирование
Количество знаков с пробелами: 15061
Количество таблиц: 0
Количество изображений: 0

Похожие работы

Скачать
17826
1
0

... документах, и формируется структура тезауруса. Документы Частота слова в документе 1 2 3 4 5 6 7 D1 D2 D3 D4 Рис.1. Пример матрицы «термин-документ» Автоматические информационно-поисковые тезаурусы являются составным элементом систем автоматического индексирования документов и запросов. В словарной статье автоматического тезауруса, как ...

Скачать
9787
0
0

... энд) системы. Программной частью поисковой системы является поисковая машина (поисковый движок) — комплекс программ, обеспечивающий функциональность поисковой системы и являющийся коммерческой тайной компании-разработчика поисковой системы. 1. Основные методы поиска информации в Интернете Можно выделить следующие основные методы поиска информации в Интернете, которые, в зависимости от целей ...

Скачать
119519
19
1

... плана области знаний, денотатной структуры или наличие информационного запаса позволяет понять текст, извлечь из него новую, потребительски значимую информацию, которая будет служить информационным обеспечением переводчика. Кроме того, понимание зависит (согласно Ю.Н. Караулову, Г.И. Щербицкому, Т.С. Серовой) от наличия у переводчика тезауруса, который играет роль словаря с заданными в нем ...

Скачать
113309
0
0

... . Особо стоит отметить наличие в СЗИ защиты загрузки операционной системы с гибких магнитных дисков и CD-ROM, которая обеспечивает защиту самих средств защиты от "взлома" с использованием специальных технологий. В различных СЗИ существуют программные и аппаратно-программные реализации этой защиты, однако практика показывает, что программная реализация не обеспечивает необходимой стойкости. ...

0 комментариев


Наверх