Федеральное государственное автономное образовательное учреждение

высшего профессионального образования

"Уральский федеральный университет

имени первого Президента России Б. Н. Ельцина"

Секция информатизации библиотечного дела

Реферат на тему:

Компьютерный анализ текста

Исполнитель: Жданова Юлия Сергеевна,

студентка группы ИТ-47021

Научный руководитель: Гришина С. М., доцент.

Екатеринбург 2010


Оглавление

Введение

Глава 1. Анализ текста

Глава 2. Компьютерный анализ текста

2.1 Понятие компьютерного анализа. История развития

2.2 Проблемы компьютерного анализа текста

2.3 Извлечение информации

2.4 Обработка естественного языка

Глава 3. Программы для компьютерного анализа текста

3.1 Машинный перевод

3.2 Лингвистическое программное обеспечение

3.3 Программы для компьютерного анализа текста

Заключение

Библиографический список и сайтография

 


Введение

Компьютерный анализ текста на естественном языке активно развивается в последние годы многими коллективами. Доступные сегодня вычислительные мощности позволяют применять для обработки больших массивов документов широкий класс математических методов, способствующих эффективному решению задач поиска, классификации, кластерного анализа, выявления скрытых закономерностей в данных и др.

К сожалению, внедрение математических методов в обработку текста происходит в то время, когда собственно лингвистическая составляющая алгоритмов представлена явно недостаточно, и это не позволяет достичь высокого качества работы прикладных систем. Устойчивый уклон в область статистических методов анализа привел к тому, что компьютерная лингвистика оказалась невостребованной. В самом деле, во всех известных русскоязычных системах подобного класса из лингвистического обеспечения используется лишь морфологический словарь, позволяющий отождествлять различные словоформы, тогда как алгоритмы синтаксического анализа реализованы исключительно в автоматических переводчиках и вызывают множество нареканий в связи с невысокой точностью.

Цель, которую поставила перед собой автор данной работы – это выяснить, что такое компьютерный анализ текста.

При этом необходимо решить следующие задачи:

- ознакомиться с понятием анализ текста;

- рассмотреть, что понимается под компьютерным анализом текста;

- ознакомиться с историей развития компьютерного анализа текста;

- выявить проблемы компьютерного анализа текста;

- привести некоторые программы, используемые при компьютерном анализе текста.


Глава 1. Анализ текста

Анализ (греч. "analysis" – разложение) – метод научного исследования (познания) явлений и процессов, в основе которого лежит изучение составных частей, элементов изучаемой системы.

Аналитические методы широко распространены в социуме, поэтому термин "Анализ" часто воспринимается как синоним исследования вообще и особенно при решении познавательных задач. Анализа является составной частью любого научного исследования, образуя, как правило, его первую стадию, когда исследователь выявляет в описании изучаемого объекта его строение, состав, свойства, признаки и т.п. Он используется как метод получения новых результатов в процессе мыслительной деятельности человека.

Мыслительный анализ совершается с помощью понятий и суждений, выражаемых в естественных или искусственных языках. Такой анализ ориентирован на выявление структуры целого, предполагая фиксацию его частей и установление отношений между ними.

В современном обществе важным средством оформления, фиксации, сохранения, передачи информации и обмена ею являются документы.

Анализ документов – это метод сбора первичных данных, при котором документы используются в качестве главного источника информации; это также совокупность методических приёмов и процедур, применяемых для извлечения информации из документальных источников при изучении процессов и явлений в целях решения определённых задач.

Анализ текста - процесс получения высококачественной информации из текста на естественном языке. Как правило, для этого применяется статистическое обучение на основе шаблонов: входной текст разделяется с помощью шаблонов, затем производится обработка полученных данных.

Анализ текста – это процесс получения на естественном языке высококачественной информации из этого текста. Такой анализ осуществляет практически каждый человек не задумываясь, что он делает именно это. Например, любой читатель книги анализирует содержание, читая её по частям. В общем случае всем, особенно трудоспособному населению, постоянно приходится работать с текстовыми и иными видами документов, явно или неявно анализируя их содержание и другие компоненты, например, качество изготовление, форму, размер и т.д. Таким образом, важной задачей практически любых индивидов является нахождение (получение) нужных им документов, а также анализ их содержания на предмет подготовки различных документов (рефератов, аннотаций, справок, отчётов, учебных работ, производственных заданий и др.). При этом нередко возникают ситуации, когда в течение незначительного периода времени необходимо подготовить некоторый (как правило, аналитический) материал. Анализ текстов на естественном языке (ЕЯ) был актуальным практически с момента их появления. При таком анализе необходимо определить правила, с помощью которых, по мнению специалистов, "формальная система (набор структурных элементов текста) преобразуется в систему содержательную (осмысленное сообщение". Анализ текста использовался и продолжает использоваться для классификации текстов, содержащихся в них слов и словосочетаний (например, для определения частоты встречаемости тех или иных терминов в определённых текстах), аннотирования и реферирования текстов, проведения семантически ориентированного поиска текстов по заданным концептам, определения авторского права претендента на соответствующий текст и др.

Считается, что в реальной жизни правила чтения текстов не формализуются. Человек постигает их годами, активно работая в определённой сфере деятельности и предметной области. Специалисты отмечают, что разные контексты порождают различные правила их прочтения, которые со временем меняются, поэтому трудно научить таким правилам компьютер, а значит автоматически учитывать содержательные аспекты обрабатываемого текста.


Глава 2. Компьютерный анализ текста


Информация о работе «Компьютерный анализ текста»
Раздел: Информатика, программирование
Количество знаков с пробелами: 46708
Количество таблиц: 0
Количество изображений: 1

Похожие работы

Скачать
112801
6
1

... помощи или способом манипулирования “значимыми другими”. 3. Исследовательская деятельность проводилась с целью выявления индивидуально-психологических особенностей личности суицидентов, а так же особенности ситуаций, которые могли оказать влияние на состояние индивидов в предсуицидный период. В ходе анализа были выявлены следующие особенности личности суицидента: Сужение когнитивной сферы. - ...

Скачать
139168
3
0

... . Таким образом предлагается рассматривать компьютерную технологию обучения как основную составляющую информационной технологий обучения. 1.2 Дидактические принципы, свойства и особенности использования компьютерных технологий в педагогическом процессе Применение средств КТ в современном образовании основано на дидактических принципах, свойствах и особенностях их использования. Под ...

Скачать
133886
5
11

... распространением на территории России глобальной сети Интернет. Так же необходимо осуществить следующие организационные и правовые меры: - по подбору в подразделения, занимающиеся расследованием преступлений в сфере компьютерной информации только специалистов имеющих исчерпывающие знания в данной области и дальнейшее постоянное и динамичное повышение их квалификации; - закрепить, в рамках ...

Скачать
43415
0
0

... знаний и Интернет-технологии. Каждая из этих технологий лежит в основе конкретных психодиагностических задач, которые и определяют ключевые направления работ в области компьютерной психодиагностики [15]: 1.  Конструирование психодиагностических методик в рамках традиционной психометрической парадигмы на основе технологии анализа данных, в рамках психосемантического подхода на основе субъектной ...

0 комментариев


Наверх