3. Автоматичне реферування

Одним з класичних завдань комп’ютерної лiнгвiстики є побудова систем автоматичного реферування наукових, технiчних, полiтичних, дiлових текстiв. Актуальнiсть цього завдання значно зростає у зв’язку з появою на iнформацiйному ринку повнотекстових баз даних. Цi бази мiстять у виглядi документiв не реферати, а тексти наукових статей. У свiтлi сказаного в Главi 2 стає очевидною необхiднiсть вияву в кожному з таких текстiв найбiльш iнформативних речень, iнакше якiсть пошуку буде невисокою. Якщо ж iдеться про iншомовнi бази, то треба, очевидно, прагнути до побудови систем, якi iнтегрують 3 основнi функцiї: пошук, переклад i реферування. Розробка системи автоматичного реферування є можливою на основi експериментально-семантичного дослiдження мiжфразової структури тексту, з наступною реалiзацiєю IС, що володiють спроможнiстю гiперсинтаксичного “розумiння” текстiв.

3.1 Теоретичнi аспекти мiжфразового аналiзу

Одне з найважливiших лiнгвiстичних явищ - рiзне значення мовних одиниць в iзольованому станi та в бiльш складному мовному цiлому. Ще А.А.Потебня вiдзначав, що значення будь-якої граматичної форми проявляється по зв’язку з iншими формами в мовi та текстi [Потебня, 1958]. Звiдси можна зробити висновок, що принципову важливiсть має аналiз граматичних i семантичних явищ у контекстi, тобто моделювання їх поводження у текстi. При цьому очевидно, що контекст, взагалi кажучи, може вийти за рамки речення, так що внутрiшньофразовий опис вiдповiдних одиниць буде заздалегiдь помилковим. Мiжфразовi зв’язки реалiзуються в текстi двома засобами: експлiцитно та iмплiцитно. При розробцi систем автоматичної переробки тексту необхiдно враховувати цi розбiжностi у вiдносинах мiж реченнями; зрозумiло, що для їхнього моделювання необхiднi рiзнi апарати. З iншого боку, не треба розглядати вивчення цих зв’язкiв як принципово рiзнi завдання: для вияву в текстi iмплiцитних мiжфразових вiдносин необхiдно спочатку навчитися виявляти експлiцитнi вiдносини. Очевидно, що автоматизована система, що враховує при переробцi тексту тiльки експлицитнi вiдношення мiж реченнями, неминучо минає деякi мiжфразовi вiдносини лише тому, що вони не мають формального вираження. Велика кiлькiсть промислових iнформацiйних систем (наприклад, системи iндексування, перекладу), використовуючи тiльки “поверхнi” мовнi явища, як ми бачили, тим не менше, є досить ефективними. В данiй главi описуються теоретична база та реалiзованi на її основi автоматизованi системи, що аналiзують тексти на мiжфразовому рiвнi. Створення таких систем переслiдувало двi цiлi: практичну та теоретичну. Перша полягає в автоматизацiї процесу реферування текстiв у промислових iнформацiйних системах, друга - у перевiрцi правильностi лiнгвiстичних гiпотез про структуру тексту й розподiл iнформацiї в ньому.

3.2 Мiжфразовi зв’язки

Для того щоб вивчити характеристики тексту як єдиного цiлого, необхiдно, в першу чергу, визначити поняття зв’язностi. На перший погляд, природно розглядати речення як смисловi одиницi i виявляти в текстi їх смисловi зв’язки. У виглядi прикладу такого пiдходу можна навести теорiю семантичної еквiвалентностi Е. Агриколи [Agricola, 1977], який вважає, що основною формою об’єднання речень є семантична еквiвалентнiсть - явнi чи неявнi смисловi вiдносини рiзноманiтного типу мiж словами, якi входять у речення. Рiзновидом такого пiдходу є всiлякi модифiкацiї (явного) лексично-семантичного повтору, прибiчники якого дотримуються погляду, що смисловий зв’язок речень у текстi проявляється в смисловiй близькостi слiв, котрi входять до їх складу, вважаючи, очевидно, що смислова близькiсть слiв гарантує або принаймнi прогнозує смислову близькiсть речень.

Роботи цього напрямку походять вiд вiдомого дослiдження О.В. Падучевої [Падучева, 1965], яка, вивчивши об’єктивнi характеристики тексту, ввела поняття прямої та непрямої домiнацiї, пiзнiше iнтерпретованi як лексичний i семантичний повтор [Рылова, 1969; Бэлза, 1971; Гиндин, 1971; Бондаренко, 1975]. Розумiючи, що явища прямої i непрямої домiнацiї становлять одну з характерних особливостей тексту, цi дослiдники пiшли, на наш погляд, “шляхом найменшого опору”, вважаючи саме повтор механiзмом зв’язностi. Це, в свою чергу, дозволяло поставити питання про достатнiсть використання семантичних словникiв [Гиндин, 1972] для вияву зв’язкiв мiж реченнями тексту, правда, без наступної iнженерно-лiнгвiстичної перевiрки цiєї гiпотези. Iнакше кажучи, при такому пiдходi практично вiдпадає необхiднiсть утворення особливої граматики мiжфразового рiвня мови, тому що вся iнформацiя, необхiдна для опису мiжфразових вiдносин, може бути апрiорно зафiксована в словнику. Проте, незвжаючи на спокусливу простоту, при бiльш глибокому розглядi цей пiдхiд починає викликати заперечення. З одного боку, методологiчно невиправданим було б розглядати текст як свого роду гербарiй, елементи якого можуть бути сгрупованi за ознакою спорiдненостi. В текстi речення не повторюють, а доповнюють одне одне (див. нижче), а ступiнь їх “смислової близькостi” та “далекостi” практично неможливо вимiрити. З iншого боку, i самий iнструмент аналiзу мiжфразових зв’язкiв - семантичнi словники - виглядає надто ненадiйним i таким, що не вiдповiдає всiй гамi мiжфразових вiдносин. Реальнi семантичнi словники вiдбивають лише малу частину реально iснуючих смислових вiдносин, причому останнi часто вiдбираються для включення в словник iз суто прагматичних мiркувань: так, в iнформацiйно-пошукових тезаурусах задаються вiдносини синонiмiї, антонiмiї, родово-видовi та деякi види асоцiативних. Але цей “екстракт” жодним чином не вичерпує всiх смислових вiдносин мiж словами i, отже, не може бути й мови про достатнiсть використання словникiв для вияву в текстi непередбачених, апостерiорних вiдносин. Це вiдноситься, в першу чергу, до слiв “загального” значення, що має дуже нечiтку семантику [Блехман, 1982: Формалiзация...]. Крiм того, в текстi часто зустрiчаються випадки “просторової” близькостi об’єктiв, що не мають жодного априорного, словникового смислового зв’язку. Так, у вiдомiй англiйськiй лiчилцi

(1) Humpty-Dumpty sat on the wall. Humpty-Dumpty had a great fall.
(2) Humpty-Dumpty sat on the wall. He enjoyed the state greatly and never had any trouble about it.

Якщо в першому уривку сидiння Шалтая-Болтая на стiнi розглядається як причина наступної катастрофи, то в другому - як джерело насолоди. Таким чином, для правильного, тобто такого, що вiдповiдає задуму автора, розумiння деякого речення Si неминучо потрiбно враховувати iншi речення того ж тексту, кiлькiсть яких у текстi з t речень може складати вiд 1 до t-1. Притягнення iнформацiї з iнших речень для розумiння даного I.I.Ревзiн у своїй класичнiй роботi з лiнгвiстики тексту [Ревзин, 1978] назвав “насиченням” речення. Проте, треба пiдкреслити, що саме по собi насичення, власне кажучи,є недостатнiм для адекватного розумiння речень тексту, тому що повної насичувальної iнформацiї значно бiльше: вона вiдбиває багатий досвiд, накопичений людством за тисячолiття свого iснування, вiн мiститься в багатьох тисячах усних i письмових текстiв рiзних жанрiв.Справдi, чи можна зводити, наприклад, змiст речення The cow jumped over the Moon до простої констатацiї того факту, що корова перестрибнула через Мiсяць? Лiнгвiстику ж мають цiкавити, головним чином, вiдношення мiж реченнями, якi входять в одне й те ж мовне цiле - текст, i саме тому I.I.Ревзiн запропонував абстрагу-ватися вiд позалiнгвiстичних чинникiв при аналiзi тексту. Отже, зв’язок речень у текстi має сенс розглядати не як деяку їх семантичну близькiсть (“семантичнi близькими” є всi речення тексту, оскiльки вони є частками єдиного цiлого), а як насичення одних речень iншими. Речення Si пов’язане з реченням Sk, якщо одне з них насичує iнше. (В загальному виглядi, як було сказано вище, насичуюча iнформацiя може мiститися бiльш нiж в одному реченнi тексту). Там, де немає насичення, вiдсутнiй зв’язок речень. При такому пiдходi мiжфразовий зв’язок розглядається як явище, що носить апостерiорний характер, i, природно, семантичнi повтори самi по собi не можуть розглядатися анi в якостi причини, анi у виглядi показника зв’язку речень. Тепер можна встановити, що таке насичення речень i в чому проявляється їх ненасиченiсть. Продовжуючи мiркування, якi ми почали вище, скажемо, що ненасиченiсть речення Si може бути викликана або наявнiстю в ньому деякого предмету, бiльш докладний опис якого мiститься в Sk, або деяким логiчним вiдношенням мiж Si i Sk (пор. приклад iз Шалтаєм-Болтаєм). Переходячи до аналiзу мовного оформлення зв’язкiв мiж реченнями тексту, треба визначити, що в одних випадках мiжфразовi вiдносини “попадають” у план вираження, так що їх можна назвати поверхнево-синтаксичними, в iнших же “залишаються” в планi змiсту. Експлiцитнiсть поверхнево-синтаксичних зв’язкiв зумовлена тим, що речення Si мiстить спецiальний сигнал про наявнiсть у ньому предмету, котрий визначається в деякому Sk, чи логiчного зв’язку Si з деяким Sk. Найбiльш розповсюджене найменування таких сигнальних елементiв - конектори. Особливiсть конектора полягає в тому, що вiн одночасно - i маркер, i причина ненасиченостi речення. Будемо (пор. [Берзон, Зубов, 1977]), розрiзняти безоцiнювальнi та логiчно-смисловi конектори. Рiзниця мiж ними полягає в тому, що другi безпосередньо виражають логiчнi вiдношення мiж Si i Sk. Зокрема, причинно-наслiдковi логiчно-смисловi конектори (“следовательно”, “поэтому”, “hence” тощо) не тiльки оформлюють зв’язок мiж реченнями, але й маркують її характер, а саме - причинно-наслiдковi вiдносини даних речень. Що ж стосується безоцiнкових конекторiв (“этот”, “the” тощо), то вони не несуть такого семантичного навантаження, маркуючи лише об’єктивно iснуючi в текстi суто анафоричнi (з вiдсиланням назад) i катафоричнi (з вiдсиланням уперед) речення. Це не означає, зрозумiло, що речення, формально зв’язанi безоцiнковим конектором, не можуть знаходитися в логiчних вiдносинах. Наведемо простий приклад:

Si-1: Петя купил в магазине шапку. Si: Надев ее, он вышел на улицу.

Речення Si має два експлiцитних показники суто анафоричного зв’язку з реченням Si-1 - безоцiнковi конектори “ее” та “он”. У той же час, данi речення iмплiцитно пов’язанi логiчним вiдношенням наступної дiї:

Si: [Затем], надев ее, он вышел на улицу.

Цiкаво, що в переважнiй бiльшостi типiв поверхньо-синтаксичних мiжфразових зв’язкiв проявляється дiя категорiї визначеностi [Блехман, 1985] - текстове видiлення об’єкту з класу подiбних через його спiвставлення з антецедентом (“адресою” в даному класi). Справдi, бiльшiсть логiчно-смислових конекторiв можна представити у виглядi комбiнацiї анафоричної вiдсилки типу “цей” i деякого логiчного вiдношення, котре вiдповiдає типу конектора -”Результат”, “Протиставлення” тощо. (Про типи конекторiв див. [Берзон, Зубов, 1977]). Займенники ж типу “iнший” можна звести до вислову “не цей”. Iнакше кажучи, причина ненасиченостi речення Si, зв’язаного з деяким Sk, полягає в наявностi в Si явного чи неявного об’єкту, що видiляється з класу подiбних i спiввiдноситься з “адресою”, котра мiститься в Sk. Нижче ми детальнiше опишемо той роздiл ВIЛМ мiжфразового рiвня тексту, який моделює текстоутворюючу функцiю категорiї визначеностi. Виявляється, що поряд з граматично оформленими логiчними та безоцiнковими вiдносинами в текстах iснують подiбнi вiдносини, якi однак не мають спецiальних граматичних засобiв вислову. Аналiз показує, що в текстi присутнi лексичнi одиницi, котрi несуть таке ж семантичне навантаження, що й логiчно-смисловi конектори, але якi не є осередками ненасиченостi речень. Порiвняємо два речення:

(1) Например, уравнение 1 разрешимо при x=1. (2) Примером условия 3 является уравнение 7.

Витягнення речення (1) з контексту виявляє його експлiцитну ненасиченiсть, викликану наявнiстю в ньому логiчно-смислового конектору “например”, тодi як речення (2) є формально насиченим. З iншого боку, в (2) можна видiлити словоформу “примером”, яка має ту ж семантику, що й логiчно-смисловi конектори класу “Деталiзацiя”. Можна припустити, що ця словоформа в рядi випадкiв бере участь у мiжфразовому зв’язку, семантично близькому до зв’язку шляхом логiчно-смислових конекторiв “например”, “в частности” i т.iн. Назвемо такi лексичнi одиницi “квазiконекторами”. Проаналiзуємо подiбнiсть i рiзницю конекторiв i квазiконекторiв. Найважливiшою вiдзнакою конектора є те, що вiн у рiвнiй мiрi належить двом структурам - мiжфразовiй та внутрiшньофразовiй, тобто використовується у виглядi формального виразника мiжфразового зв’язку, являючись, у той же час, елементом синтаксичної структури речення, в яке входить. Особливiсть гiперсинтаксичної ролi логiчно-смислового конектора викликана його “триелементним” складом: логiчно-смисловий конектор = логiчний компонент + вiдсилочний компонент (анафоричний або катафоричний) + присудок. Ця суть логiчно-смислових конекторiв виявляється шляхом трансформацiй:

“например” = “примером этого является” “в результате” = “результатом этого является” “иначе говоря” = “перифразой этого является”.

На вiдмiну вiд конекторiв, квазiконектори не мають вiдсилочного елементу i повнiстю належать до внутрiшньофразової структури. Спроможнiсть же непрямо вказувати на мiжфразовий зв’язок мiститься в однiй лише семантицi квазiконекторiв. Iншими словами, квазiконектор -це “чистий” логiчний компонент, тобто, так би мовити, третя частина конектора, вiн самий по собi є значно бiльш насиченим iнформацiєю, нiж конектор. Саме внаслiдок вiдсутностi у квазiконекторi вiдсилочного елементу його наявнiсть у реченнi не викликає формальної ненасиченостi цього речення. Якщо читач зацiкавиться типологiєю мiжфразових зв’язкiв i їх ранжуванням у залежностi вiд мiри експлiцитностi, вiн може ознайомитися з моїм пiдходом до цiєї проблематики, висловленим у працях [Берзон, Блехман, 1981; Блехман, 1982; Блехман, 1983; Блехман, 1984; Блехман, Головинова, 1982]. Перейдемо тепер до розгляду гiперсинтаксичних угруповань, якi базуються на мiжфразових зв’язках.


Информация о работе «Автоматизація реферування»
Раздел: Бухгалтерский учет и аудит
Количество знаков с пробелами: 85002
Количество таблиц: 0
Количество изображений: 0

Похожие работы

Скачать
41427
0
0

... і їх лише називають. У такий спосіб визначають різні рівні згортання інформації, унаслідок чого стає очевидно, за рахунок яких відомостей скорочено текст первинного документа. Другий етап процесу реферування складний і відповідальний, його виконання вимагає від референта високої кваліфікації, ерудиції, глибокого знання проблематики первинного документа. Щоб полегшити і формалізувати реферативний ...

Скачать
32112
0
0

... розділу книги, у другому - реферат складають лише з урахуванням якогось основного тематичного напряму відповідно до запитів користувачів (цільовий або аспектний реферат). Реферування звітної науково-технічної й дослідно-конструкторської документації. Звітна науково-технічна й дослідно-конструкторська документація містить відомості про найновіші дослідження, тому вона становить особливий інтерес ...

Скачать
57843
0
0

... (логічність подачі матеріалу, грамотність автора, правильне оформлення роботи, належне відповідність реферату всім стандартним вимогам). ВИСНОВКИ На основі викладеного приходимо до висновків: Аналітико-синтетичні засоби обробки інформації вирішують проблему неухильного зростання обсягу інформації. Перспективи розвитку інформаційних галузей науки дають змогу сподіватись, що у майбутньому ...

Скачать
40702
9
0

... що відносяться до підсерії. ISBN підсерії Номер випуску підсерії Зона приміток Примітки Зона Міжнародного стандарту номера книги (ISBN), ціни і тиражу ISBN Ціна Тираж   3. Бібліографічний опис – результат наукової обробки документів З появою великої кількості документних зібрань з’ясувалося, що неможливо швидко знайти потрібну інформацію шляхом перегляду всіх наявних документів. ...

0 комментариев


Наверх