2.3 Извлечение информации

Извлечение информации (англ. information extraction) - в области обработки естественного языка, это разновидность информационного поиска, при которой из неструктурированного машинно-читаемого текста (то есть электронных документов) выделяется некая структурированная информация, то есть категоризированные, семантически значимые данные по какой-либо проблеме или вопросу. Примером извлечения информации может послужить выискивание случаев деловых визитов - формально это записывается так: Нанесли Визит (Компания-Кто, Компания-Кому, Дата Визита), - из новостных лент, таких как: "Вчера, 1 апреля 2007 года, представители корпорации Пепелац Интернэшнл посетили офис компании Гравицап Продакшнз". Главная цель такого преобразования - возможность анализа изначально "хаотичной" информации с помощью стандартных методов обработки данных. Более узкой целью может служить, например, задача выявить логические закономерности в описанных в тексте событиях.

В современных информационных технологиях роль такой процедуры, как извлечение информации, всё больше возрастает - из-за стремительного увеличения количества неструктурированной (без метаданных) информации, в частности, в Интернете. Эта информация может быть сделана более структурированной посредством преобразования в реляционную форму или добавлением XML разметки. При мониторинге новостных лент с помощью интеллектуальных агентов как раз и потребуются методы извлечения информации и преобразования её в такую форму, с которой будет удобнее работать позже.

·  Типичная задача извлечения информации: просканировать набор документов, написанных на естественном языке, и наполнить базу данных выделенной полезной информацией. Современные подходы извлечения информации используют методы обработки естественного языка, направленные лишь на очень ограниченный набор тем (вопросов, проблем) - часто только на одну тему.

Тексты на естественном языке могут потребовать некоего предварительного упрощения, для создания текста, который будет лучше "пониматься" компьютером.

Типичные подзадачи извлечения информации:

·  Распознавание именованных элементов: распознавание имён людей, названий организаций, мест, временных обозначений и некоторых типов численных выражений.

·  Ссылки: выделение словесных оборотов, ссылающихся на один и тот же объект. Типичный случай таких ссылок - анафора и использование местоимений.

·  Выделение терминологии: нахождение для данного текста ключевых слов.

2.4 Обработка естественного языка

Обработка естественного языка - общее направление искусственного интеллекта и математической лингвистики. Оно изучает проблемы компьютерного анализа и синтеза естественных языков. Применительно к искусственному интеллекту анализ означает понимание языка, а синтез - генерацию грамотного текста. Решение этих проблем будет означать создание более удобной формы взаимодействия компьютера и человека.

Задачи и ограничения.

Теоретически, построение естественно-языкового интерфейса для компьютеров - очень привлекательная цель. Ранние системы, такие как SHRDLU, работая с ограниченным "миром кубиков" и используя ограниченный словарный запас, выглядели чрезвычайно хорошо, вдохновляя этим своих создателей. Однако оптимизм быстро иссяк, когда эти системы столкнулись со сложностью и неоднозначностью реального мира.

Понимание естественного языка иногда считают AI-полной задачей, потому как распознавание живого языка требует огромных знаний системы об окружающем мире и возможности с ним взаимодействовать. Само определение смысла слова "понимать" - одна из главных задач искусственного интеллекта.

Сложности понимания.

Качество понимания зависит от множества факторов: от языка, от национальной культуры, от самого собеседника. Вот некоторые примеры сложностей, с которыми сталкиваются системы понимания текстов.

·  Предложения "Мы отдали бананы обезьянам, потому что они были голодные" и "Мы отдали бананы обезьянам, потому что они были перезрелыми" похожи по синтаксической структуре. В одном из них местоимение они относится к обезьянам, а в другом - к бананам. Правильное понимание зависит от знаний компьютера, какими могут быть бананы и обезьяны. По нормам русского языка второе предложение некорректно, потому что в нем местоимение ссылается не на последнее подходящее слово, однако в живой речи такое предложение очень даже может встретиться.

·  Свободный порядок слов может привести к совершенно иному толкованию фразы: "Бытие определяет сознание" - кто кого определяет?

·  В русском языке свободный порядок компенсируется развитой морфологией, служебными словами и знаками препинания, но в большинстве случаев для компьютера это представляет дополнительную проблему.

·  В речи могут встретиться неологизмы, например, глагол "Пятидесятирублируй" - то есть высылай 50 рублей. Система должна уметь отличать такие случаи от опечаток и правильно их понимать.

·  Правильное понимание омонимов - ещё одна проблема. При распознавании речи, помимо прочих, возникает проблема фонетических омонимов. Во фразе "Серый волк в глухом лесу встретил рыжую лису" выделенные слова слышатся одинаково, и без знания, кто глухой, а кто рыжий, не обойтись (Кроме того, что лиса, может быть, рыжей, а лес - глухим, лес также может быть рыжим (преобладание цвета листвы в лесу), в то время как лиса может быть глухой, что порождает дополнительную проблему, вытекающую из предыдущей).


Глава 3. Программы для компьютерного анализа текста


Информация о работе «Компьютерный анализ текста»
Раздел: Информатика, программирование
Количество знаков с пробелами: 46708
Количество таблиц: 0
Количество изображений: 1

Похожие работы

Скачать
112801
6
1

... помощи или способом манипулирования “значимыми другими”. 3. Исследовательская деятельность проводилась с целью выявления индивидуально-психологических особенностей личности суицидентов, а так же особенности ситуаций, которые могли оказать влияние на состояние индивидов в предсуицидный период. В ходе анализа были выявлены следующие особенности личности суицидента: Сужение когнитивной сферы. - ...

Скачать
139168
3
0

... . Таким образом предлагается рассматривать компьютерную технологию обучения как основную составляющую информационной технологий обучения. 1.2 Дидактические принципы, свойства и особенности использования компьютерных технологий в педагогическом процессе Применение средств КТ в современном образовании основано на дидактических принципах, свойствах и особенностях их использования. Под ...

Скачать
133886
5
11

... распространением на территории России глобальной сети Интернет. Так же необходимо осуществить следующие организационные и правовые меры: - по подбору в подразделения, занимающиеся расследованием преступлений в сфере компьютерной информации только специалистов имеющих исчерпывающие знания в данной области и дальнейшее постоянное и динамичное повышение их квалификации; - закрепить, в рамках ...

Скачать
43415
0
0

... знаний и Интернет-технологии. Каждая из этих технологий лежит в основе конкретных психодиагностических задач, которые и определяют ключевые направления работ в области компьютерной психодиагностики [15]: 1.  Конструирование психодиагностических методик в рамках традиционной психометрической парадигмы на основе технологии анализа данных, в рамках психосемантического подхода на основе субъектной ...

0 комментариев


Наверх