• Nenhum resultado encontrado

Обзор реализации семантического языка UNL в системе ЭТАП

В настоящее время ряд наиболее активных UNL-центров дополнительно объединились в так называемый U++ консорциум (http://www.unl.fi.upm.es/consorcio/index.php), в рамках которого ведется работа по дальнейшему развитию и стандартизации языка UNL. В июле 2007 г. консорциум организовал встречу, где были достигнуты важные договоренности между участниками. Впервые был согласован единый формат UW, более детальный чем рекомендации UNDL. На встрече был предложен общий для всех групп алгоритм создания новых UW [2] и начата работа над его окончательным согласованием и созданием общей инфраструктуры хранения, пополнения и обмена данными словарей UNL принятого формата. Это очень важное событие, так как преобразование исходного текста на ЕЯ в UNL (конверсия) и порождение нового текста на другом языке (деконверсия) может осуществляться различными и независимыми системами машинного перевода

(МП), реализующими разные подходы и

конкурирующими между собой. Спецификации языка [5] и словарь UW являются общими для всех реализаций ресурсами, которые должны обеспечить совместимость UNL-кода, получаемого с помощью разных систем. Без такой совместимости UNL не может стать языком посредником для Интернет.

3. Язык UNL

Записанный с помощью UNL текст представляет собой гиперграф, состоящий из узлов и семантических ролевых отношений между ними (Рис.1).Набор применяемых отношений ограничен и фиксирован. Каждый узел графа может содержать одно

«универсальное слово» или группу соединенных отношениями узлов (гиперузел). Узлы могут иметь атрибуты, которые используются для передачи дополнительной информации о высказывании, в частности для выражения категорий времени, числа, модальности и т.п,.

[S:00]

{org:en}

UNL text is a hypergraph.

{/org}

{unl}

mod(text(icl>information),unl(icl>language,equ>universal_networking_language)) aoj(hypergraph(icl>abstract_thing).@entry.@indef.@present,text(icl>information)) {/unl}

[/S]

Рис.1: Пример кода UNL и его графическое представление С точки зрения теории МСТ графы UNL

имеют много общего как с поверхностным семантическим представлением, где также предполагается наличие соединенных семантическими связями в недревесную структуру связей между узлами, снабженными атрибутами, так и с глубинным синтаксическим представлением, располагаясь между ними.

Таким образом, UNL хорошо согласуется с общей идеологией системы ЭТАП.

4. Универсальные слова UNL

Универсальные слова (UW) соответствуют отдельным понятиям (концептам), которые выделяются из семантического поля (спектра значений) английских слов, обычно служащих основой для создания UW. UNL не предполагает никакого компонентного анализа значений и считает UW неделимыми.

Значение UW фиксировано и представляет

собой часть семантического поля слова естественного языка. Это позволяет в значительной мере избавиться от последствий явления многозначности. Универсальные слова составляют неограниченно расширяемый словарь, который должен вместить все практически необходимые концепты всех естественных языков. Это обеспечивает UNL гибкость и богатство значений, не уступающие естественным языкам.

UW состоят из заглавного слова и набора ограничителей (Рис.2). В качестве основного источника заглавных слов используется английский язык. Заглавное слово может представлять собой одно английское слово, фразу или слово любого языка в транслитерации.

Фразы и иностранные слова используются в качестве заглавных слов тогда, когда для выражения требуемого смысла невозможно подобрать точное английское слово.

hypergraph

aoj

text

mod

unl

run(icl>move>do,agt>living_thing)

"бежать"

run(icl>do,equ>manage,agt>volitional_thing,obj>thing)

"управлять"

run_into(icl>meet>do,com>accident,agt>person,obj>person)

"случайно встретить"

Рис. 2: примеры UW

Ограничители UW предназначены для различения UW с общим заглавным словом и содержат дополнительную информацию, в том числе о некоторых взаимосвязях понятий и ключевых участниках обозначаемой ситуации.

Однако, они не предоставляют исчерпывающего определения концепта. Ограничители состоят из имени отношения UNL и значения, которое заполняется другим UW в сокращенном виде. Как правило, достаточно одного заглавного слова.

Согласованный в рамках консорциума U++

и применяемый в системе ЭТАП формат записи UW предполагает три вида ограничителей:

онтологические (описывающие иерархию понятий), семантические (помогающие понимать и различать разные значения заглавного слова) и аргументные (указывающие на ключевых участников обозначаемой ситуации).

Рассмотрим для примера ограничители

приведенного выше UW

run_into(icl>meet>do,com>accident,agt>person,ob j>person). Онтологический ограничитель icl>meet>do (элемент класса) сообщает, что обозначаемый данным UW концепт является разновидностью ситуации встречи, а также относится к общему классу действий, меткой чего является do. Семантический ограничитель com>accident (компонент значения) указывает, что речь идет о случайной встрече. Аргументные ограничители agt>person (агент) и obj>person (объект) говорят, что в предполагаемой UW ситуации имеются два участника, причем и действующим лицом, и объектом, как правило, является человек. Такой способ записи UW для концепта случайной встречи не является единственным, поэтому при появлении других UW с тем же смыслом, например независимо составленных другим центром, будет задействован общий механизм согласования в рамках словаря UNL. Если новое UW будет признано лучшим, то оно заменит старое, которое будет считаться устаревшим синонимом. В настоящее время создаваемый общий словарь UW в формате U++ доступен по адресу http://www.unl.fi.upm.es/unlweb/.

5. Синтаксическая структура ЭТАП

Главным продуктом анализа текста в системе

ЭТАП является нормализованная синтаксическая структура. Необходимо отметить, что ЭТАП не использует широко применяемый в аналогичных проектах метод анализа непосредственных составляющих предложения. Вместо этого система строит синтаксическое дерево зависимостей. Узлами являются лексемы, представленные в комбинаторном словаре системы (КС) отдельными статьями. В ходе построения структуры происходит различение омонимов на основе различия морфологических и синтаксических характеристик. В словаре КС омонимы различаются с помощью специального числового суффикса. В настоящее время система также не дает средств для работы с группами узлов обрабатываемой структуры как с целым, хотя такие средства необходимы для полной поддержки UNL и уже были предложены.

Синтаксические структуры ЭТАП для парных предложений на разных языках различаются набором лексем, признаков и отношений. Но несмотря на различия, между двумя структурами существует значительное и регулярное сходство, которое позволяет осуществить перевод с одного языка на другой путем преобразования одной структуры в другую. Это делается особыми правилами, которые заменяют отношения одного языка на отношения другого и заменяют лексемы их переводами в соответствии с данными словаря. При этом по возможности учитываются характерные особенности строения предложений исходного языка и заменяются на эквивалентные структуры переводного. Именно этот принцип, получивший название переноса или трансфера, и стал основой машинного перевода в ЭТАП и других подобных системах.

6. Место UNL в архитектуре системы ЭТАП

Аналогичным описанному образом глубинно- синтаксическая структура используется и для конверсии текста в UNL-код. Несмотря на то, что UNL в рамках системы ЭТАП рассматривается как еще один язык среди прочих, существует коренное отличие между процессaми перевода с одного ЕЯ на другой и с ЕЯ на UNL. При переводе с русского на английский нормализованная синтаксическая структура становится максимальным уровнем абстракции по отношению к исходному тексту. UNL же сам является абстрактным представлением более глубокого уровня чем глубинно-синтаксическая структура. Поэтому перевод на UNL можно считать продолжением анализа в рамках модели МСТ, а обратный перевод - синтезом текста из семантического представления.

Как чисто семантический язык UNL не имеет собственной особой синтаксической структуры.

Это создает выбор, какую из разных структур поддерживаемых в ЭТАП ЕЯ следует взять за основу анализа при создании UNL-кода. Выбор

был сделан в пользу английской структуры, поскольку именно английский словарь служит первичной основой при создании UW. Такое решение наименее трудоемко и не требует заметных изменений сложившейся после- довательности перевода. В результате возникла схема конверсии русского текста в UNL через посредство английской синтаксической структуры (Рис.3).

Рис.3 Схема UNL-конверсии в ЭТАП-3 После построения русской структуры она переводится в английскую, и только тогда применяется набор правил, который осуществляет преобразование в UNL.

7. Основные сведения о правилах в системе ЭТАП

Прежде чем описывать ход перевода фразы на UNL следует дать некоторые общие пояснения о процессе перевода текста и классификации правил. Его подробное описание можно найти в книге [4]. В ней описана предыдущая версия системы, но все сказанное об устройстве и действии правил по-прежнему соответствует действительности. Система ЭТАП последовательно перебирает имеющиеся в переводимом предложении лексемы и применяет к каждой из них определенный набор правил.

Текущая лексема обозначается специальной переменной X, и все правила используют ее как точку отсчета при работе с цепочкой или структурой.

Существуют правила трех разных типов, которые различаются условиями своего применения. "Общие" правила автоматически применяются к каждой из имеющихся в переводимом предложении лексем.

"Трафаретные" правила применяются только к тем лексемам, в словарных статьях которых содержится обращение к ним. Общие и трафаретные правила хранятся в специальной

базе данных правил. Они реализуют, соответственно, общие и контекстно-зависимые, но типичные действия по преобразованию текста.

Кроме того, есть еще "словарные" правила, которые должны обслуживать относительно те ситуации, создание трафаретных правил для которых сочтено нецелесообразным. Словарные правила хранятся непосредственно в статьях словаря КС.

Правила организованы в группы соответственно их типу и этапу обработки текста, для которого они предназначены. Это отражено в их названиях и нумерации. Так, правила RA-

TRADUCT предназначены для перевода

структуры (лексем и отношений) русского языка в структуру английского языка, правила UNL- CONV преобразуют английскую структуру в

UNL-граф, а UNL-TRAD выполняют обратное

преобразование. Внутри таких групп правил имеются подгруппы, обозначаемые числом, например UNL-CONV1 и UNL-CONV2. Это число отражает последовательность этапов, к которым приписаны правила. Так, при переводе синтаксической структуры в UNL последовательно применяются правила UNL- CONV, UNL-CONV1 и UNL-CONV2, что соответствует трем этапам преобразования.

Также важно, что словарные и трафаретные правила, которые хранятся или вызываются из статей КС, выполняются первыми. Это дает им приоритет перед общими правилами.

8. Преобразование синтаксичесой структуры в семантический граф UNL

Как уже было сказано, конверсия глубинно синтаксической структуры фразы в UNL-граф происходит в ЭТАП в три стадии. Возьмем для примера простую фразу "Работает ли эта система?". Сначала ЭТАП построит русскую синтаксическую структуру и удалит частицу "ли"

как незначащую (Рис.4).

Рис.4 Русская синтаксическая структура Затем эта структура с помощь правил русско- английского перевода (“трансфера”)

V,НЕПРОШ,ЕД,ЛИЧ,ИЗЪЯВ,3-Л,НЕСОВ,CAP

A,ИМ,ЕД,ЖЕН

S,ИМ,ЕД,ЖЕН,НЕОД

ПРЕДИК

ОПРЕД

РАБОТАТЬ

Documentos relacionados