3.5 Словник i граматика систем

Опрацювання апарату аналiзу тексту на мiжфразовому рiвнi мало цiллю утворення реально дiючих автоматизованих iнформацiйних систем, якi здiйснюють реферування англiйських i росiйських текстiв. Iдея такої системи, рiвно як i концепцiя гiперсинтаксису, описанi в серiї класичних робiт В.Ю.Берзона з мiжфразового аналiзу. В найбiльш розгорнутiй формi вони наведенi в монографiї [Добрускина, Берзон, 1986]. У системi, що описується нижче, використовується два машинних словника: словник конекторiв (Ск) i допомiжний словник (Св). Перший складається з незалежних англiйської та росiйської частин. Словник кожної частини мiстить понад 100 конекторiв. У другий включенi слова та словосполучення, що є дiагностуючими ознаками. Св, як i Ск, складається з незалежних англiйської та росiйської частин, кожна з яких подiлена на секцiї. Секцiя має таку структуру: номер секцiї; її довжина; лексичнi одиницi, наприклад, англiйськi слова “загального” значення: fact, problem, result тощо. Алгоритм розпiзнання складає систему правил, застосування яких до тексту дозволяє з достатньою надiйнiстю реалiзувати пошук конекторiв. У пояснювальнiй частинi Ск при кожному конекторi мiститься вказiвка на те, за яких умов лексична одиниця є конектором. Наприклад, займенник such є конектором, якщо його порядковий номер у реченнi не перевищує 8 i одночасно справа вiд нього на вiдстанi не бiльше трьох слiв вiдсутнє слово з певної секцiї Св (as, that). Умови формулюються в термiнах: - вiдстанi конектору вiд початку речення ( в кiлькостi слiв); - дiагностуючої ознаки; - напрямку пошуку дiагностуючого признаку; - вiдстанi дiагностуючого признаку вiд конектора; - вимоги наявностi чи вiдсутностi дiагностуючого признаку. Очевидно, що описана схема перевiрки умов не залежить вiд конкретної мови. Умови перевiряються за допомогою конкретних процедур. Кожному конектору вiдповiдає один запис Ск. Спочатку фiксується його довжина, пiсля цього слiдує так званий признак конектора, що може приймати одне з трьох значень: 1 - конектор є словом (however, “однако”); 2 - конектор є словосполученням (on the other hand, “с другой стороны”); 3 - конектор є основою слова (“эт-”, “так-”). За ознакою конектора слiдують: його системний номер, власне конектор i признак кiнця конектора. В iншiй частинi запису фiксуються групи процедур перевiрки. Кожна група мiстить тип конектора [Берзон, Зубов, 1977] i набiр процедур. Тип конектора визначає смислове вiдношення мiж реченнями, що зв’язуються:

А - итог В - противопоставление С - следствие D - перечисление Е - дополнение G - соединение Н - пространство, время I - подтверждение К - уточнение L - развитие мысли (А-связь) М - пояснение N - пример Р - цитата R - вопрос S - перефразирование

Треба зазначити, що деякi конектори можуть виражати рiзнi типи смислових вiдносин. Зокрема, конектор “так” потенцiйно вiдноситься до типiв G i N. В системi реалiзовано такi процедури: 1) Визначається номер позицiї потенцiйного конектора в реченнi, i цей номер порiвнюється iз заданим в описi процедури параметром. 2) Символ, що знаходиться в словi безпосередньо за ланцюжком символiв, спiвпавших з конектором, порiвнюється з тим, що задається у виглядi параметра. 3) Символ, що знаходиться в словi безпосередньо перед ланцюжком символiв, який спiвпадає з конектором, порiвнюється iз символом, що задається у виглядi параметра. 4) Перевiряється збiг знайденого в текстi слова з конектором - основою слова - пiсля додання до останнього одного з закiнчень, котрi входять у зазначену в описi процедури секцiю Св. 5) На вiдстанi не далi n слiв лiворуч чи праворуч вiд конектора визначається наявнiсть одного зi слiв, котрi входять у зазначену в описi процедури секцiю Св. Можлива iнверсiя результату: лексична одиниця є конектором при вiдсутностi, а не наявностi зазначеного слова. 6) Перевiряється виконання необхiдних умов А-зв’язку. Перевiрка полягає у вiдшуканнi антецеденту для iменника N, оформленого потенцiйним конектором. Пiд N розумiємо будь-яке слово, яке знаходиться праворуч вiд конектора не далi, нiж на певну вiдстань, i безпосередньо передує правiй ексклюзивнiй межi iменникової групи [Волосевич, 1971]. Антецедентом визнається слово A, котре входить у ту ж ПМО, що й N, i знаходиться в одному з наступних вiдносин з N: - A i N спiвпадають; - A i N - однокорiннi; - A i N - синонiми чи значення A є “вужчим”, нiж значення N. 7) Перевiряється виконання достатнiх умов А-зв’язку [Блехман, 1985]. Перевiрка полягає в порiвняннi слiв, котрi залежать вiд N (N-слiв), зi словами, котрi залежать вiд A (A-словами). N-словом вважається будь-яке слово, що знаходиться мiж конектором i N; A-словом - будь-яке слово, що знаходиться мiж A i ближчою лiворуч межою iменникової групи. A-зв’язок встановлюється в тому випадку, якщо сукупнiсть N-слiв входить у сукупнiсть A-слiв. Якщо в сукупностi N-cлiв є “зайвi” у порiвняннi з сукупнiстю A-слiв, то цi “зайвi” не перешкоджають встановленню А-зв’язку тiльки в тому випадку, якщо вони входять у список так званих описових залежних. Якщо антецедент не знайдений, то перевiряється умова неявного А-зв’язку - N спiвпадає з одним iз слiв “загального” значення.


Информация о работе «Автоматизація реферування»
Раздел: Бухгалтерский учет и аудит
Количество знаков с пробелами: 85002
Количество таблиц: 0
Количество изображений: 0

Похожие работы

Скачать
41427
0
0

... і їх лише називають. У такий спосіб визначають різні рівні згортання інформації, унаслідок чого стає очевидно, за рахунок яких відомостей скорочено текст первинного документа. Другий етап процесу реферування складний і відповідальний, його виконання вимагає від референта високої кваліфікації, ерудиції, глибокого знання проблематики первинного документа. Щоб полегшити і формалізувати реферативний ...

Скачать
32112
0
0

... розділу книги, у другому - реферат складають лише з урахуванням якогось основного тематичного напряму відповідно до запитів користувачів (цільовий або аспектний реферат). Реферування звітної науково-технічної й дослідно-конструкторської документації. Звітна науково-технічна й дослідно-конструкторська документація містить відомості про найновіші дослідження, тому вона становить особливий інтерес ...

Скачать
57843
0
0

... (логічність подачі матеріалу, грамотність автора, правильне оформлення роботи, належне відповідність реферату всім стандартним вимогам). ВИСНОВКИ На основі викладеного приходимо до висновків: Аналітико-синтетичні засоби обробки інформації вирішують проблему неухильного зростання обсягу інформації. Перспективи розвитку інформаційних галузей науки дають змогу сподіватись, що у майбутньому ...

Скачать
40702
9
0

... що відносяться до підсерії. ISBN підсерії Номер випуску підсерії Зона приміток Примітки Зона Міжнародного стандарту номера книги (ISBN), ціни і тиражу ISBN Ціна Тираж   3. Бібліографічний опис – результат наукової обробки документів З появою великої кількості документних зібрань з’ясувалося, що неможливо швидко знайти потрібну інформацію шляхом перегляду всіх наявних документів. ...

0 комментариев


Наверх