УДК 81'322.2

XML-ШАБЛОН ОПИСАНИЯ УСТОЙЧИВЫХ СЛОВОСОЧЕТАНИЙ В ЭЛЕКТРОННЫХ ТЕЗАУРУСАХ

Бурукина Ирина Сергеевна¹, Бурукина Ирина Петровна²
¹Российский государственный гуманитарный университет
²Пензенский государственный университет

Аннотация
В статье проанализирована проблема выделения и единообразного описания устойчивых словосочетаний (составных наименований) и лексико-семантических базах данных типа WordNet. Представлены выводы относительно внутренней структуры составных наименований в русском языке. Приведён разработанный XML-шаблон описания словосочетаний, допускающий интеграцию в тезаурус RussNet и другие системы подобного типа.

Ключевые слова: лексико-семантическая база данных, тезаурус, устойчивые словосочетания

XML-DESCRIPTION OF COLLOCATIONS IN LEXICAL DATABASES

Burukina Irina Sergeevna¹, Burukina Irina Petrovna²
¹Russian State University for the Humanities
²Penza State University

Abstract
In this article we analyzed the problem of collocations (Multiword Expressions) extraction and their further introduction in lexical databases such as WordNet. We made several conclusions about the inner structure of Multiword Expressions in Russian and present the developed XML pattern for collocation description that can be implemented in RussNet lexical database and other systems.

Keywords: Multiword Expressions, RussNet, WordNet, XML описание

Библиографическая ссылка на статью:
Бурукина И.С., Бурукина И.П. XML-шаблон описания устойчивых словосочетаний в электронных тезаурусах // Современная техника и технологии. 2014. № 3 [Электронный ресурс]. URL: https://technology.snauka.ru/2014/03/3234 (дата обращения: 13.07.2023).

Лексико-семантическая база данных RussNet является национальным представлением электронного тезауруса WordNet для русского языка. Целью данного исследования является выделение составных наименований (устойчивых словосочетаний) из корпуса текстов на русском языке и разработка XML шаблона для их описания в базе данных RussNet. В качестве материала исследования выступают тексты корпуса русского языка Бокрёнок (21 млн словоупотреблений), доступ к которым обеспечивается при помощи корпус-менеджера Bonito.

На сегодняшний день составные наименования не входят в словарь базы данных RussNet, несмотря на широту их употребления в речи. Не существует, следовательно, и общепринятого шаблона их описания и процедуры выделения. В зарубежном языкознании известен ряд работ, посвященных автоматическому выделению коллокаций, однако применяя предложенные методы выделения к материалу на русском языке необходимо учитывать своеобразие последнего: высокую флективность, широкое использование слов служебных частей речи, относительно свободный порядок слов.

WordNet — это лексико-семантическая база данных английского языка, созданная учеными Принстонского университета (США) и разрабатываемая под руководством Christiane Fellbaum.

Основной конструктивной единицей баз данных такого типа является синсет (англ. Synset) — группа синонимичных по значению слов одной части речи, лексикализованных устойчивых словосочетаний. В словаре показаны отношения между элементами внутри синсета (синонимия), между единицами из разных синсетов (антонимия) и самими синсетами (гипонимия, меронимия, лексический вывод и т.д.). Совокупность синсетов изображается в виде дерева, узлы которого — сами синсеты — связаны родовидовыми отношениями. Группы слов каждой части речи описываются разными наборами деревьев.

RussNet — лексико-семантическая база данных русского языка. Разработкой данной системы тезаурусного представления лексики занимается группа исследователей кафедры математической лингвистики филологического факультета Санкт-Петербургского государственного университета под руководством И.В. Азаровой.

Multiword expressions theory (теория составных наименований, СН) разрабатывается исследовательской группой Multiword Expression Project (Stanford University, California). Данный проект был запущен в апреле 2001 года в лаборатории CSLI Linguistic Grammars Online (LinGO) под руководством Dan Flickinger.

Составное наименование (СН) — это выражение, состоящее из нескольких единиц (слов), неразложимое на множество простых слов и/или особое по лексическому составу, синтаксической структуре, семантике, прагматике и/или статистическим характеристикам. Таким образом, СН – устойчивая синтаксическая конструкция с относительно высокой частотой употребления. Значение данной конструкций является фиксированным; зачастую они представляют собой целостные синонимы однословных языковых единиц. Ядром составного наименования является частотная единица языка, обладающая несколькими лексическими значениями, в том числе переносными. Примерами различных СН могут служить: Сан Франциско, сыграть в ящик, часть речи, в ногу и т.п.

В ходе исследования составных наименований было отмечено несколько интересных моментов.

Во-первых, для русского языка равно возможны как поиск сочетаний по леммам компонентов, так и по отдельным словоформам. Поиск по леммам позволяет повысить оценки (основанные на частоте встречаемости единицы в корпусе) сочетаний с нефиксированной формой. С другой стороны, для сочетаний с фиксированной или полуфиксированной формой лучше выполнять поиск по конкретным словоформам. Так, например, сочетание носить на руках является устойчивым (носить жену на руках), тогда как вариант носить на руке (в примерах типа носить часы на руке) не может быть назван составным наименованием.

Во-вторых, возникает вопрос, учитывать ли при выделении только слова знаменательных частей речи или же включать в поиск служебные компоненты (в первую очередь предлоги, а также частицы и союзы). Например, для сочетаний типа не дай бог наличие отрицательной частицы является решающим, так как позволяет разграничивать данное устойчивое наименование и конструкцию дай бог и относить их в итоге к разным синсетам. В то же время, при большинстве глаголов частица не носит факультативный характер и обеспечивает в контексте общее отрицание.

Мы остановились на поиске по отдельным словоформам, с фиксированным порядком следования элементов и учётом служебных единиц. Списки выделенных потенциальных составных наименований в дальнейшем прошли проверку экспертом.

Проведя исследования материалов корпуса текстов на русском языке Бокрёнок, мы выделили 245 составных наименований, которые стали материалом дальнейшего изучения.

Мы предложили три основных параметра характеристики составных наименований: фиксированность порядка следования компонентов, разрывность (проницаемость) конструкции, фиксированность грамматических значений элементов. В соответствии с этими параметрами, основываясь на корпусных исследования, мы выделили пять типов составных наименований, характерных для русского языка:

по типу молодой человек: прилагательное + существительное; как правило нефиксированный порядок, разрывность и нефиксированность формы,
по типу человек в футляре: существительное + предложно-падежная конструкция; фиксированный порядок, как правило неразрывная, полуфиксированная форма,
по типу человек слова: существительное + существительное в косвенном падеже; фиксированный порядок, полуфиксированная форма,
по типу тянуть время: глагол + существительное предложно-падежная конструкция инфинитив; чаще разрывной, полуфиксированной формы,
по типу все время: любые сочетания слов разных частей речи с фиксированным порядком, неразрывной, фиксированной формой.

Предложенный нами универсальный XML-шаблон описания составных наименований разработан на базе шаблона описания однословных единиц, применяемом в рамках проекта RussNet. Главным его отличием является включение в иерарзию объектов описания сущности PHRASE. Предлагается покомпонентно описывать составное наименование, указывая «ядро» в качестве основной лексемы. При этом остается возможность описания рамок валентностей слов различных частей речи (какие зависимые составляющие может присоединять то или иное словосочетание); внутренние связи сочетания характеризуются за счет симметричного описания валентностей (активного типа на один компонент и пассивного типа на другой) и указания типа связи (согласование, управление, примыкание либо «коллокация» для сочетаний фиксированной формы). Данный шаблон позволяет описывать сочетания всех типов. Составные наименования типа все время указываются как единые лексемы и задаются в квадратных скобках; «внутренние» валентности не описываются, приводятся лишь примеры подключения сочетания в зависимую позицию к какой-либо единице.

Ниже представлены основные модули компонента PHRASE, разработанного нами для описания составных наименований.

1. модуль описания формы словосочетания:

<!ATTLIST ORDER order_type (fixed | non_fixed) #REQUIRED > – обязательное указание типа порядка слов: фиксированный (например, дай Бог) или не фиксированный (например, носить на руках).

<!ATTLIST CONTINUITY_TYPE cont_type (cont | discont) #REQUIRED > – тип разрывности словосочетания.

<!ATTLIST FORM_TYPE type_of_form (non_fixed | semi_fixed | fixed) #REQUIRED > – тип фиксированности формы: фиксированная форма (для всех компонентов словосочетания), полуфиксированная (для некоторых компонентов, например, носить на руках) или не фиксированная.

2. модуль описания компонентов словосочетания:

<!ATTLIST COMPONENT_UNIT NUM (0 | 1) #REQUIRED POS CDATA #REQUIRED ID CDATA #REQUIRED > – обязательное описание морфологических характеристик компонента.

<!ELEMENT VALENCY_FRAME (VALENCY+)> – обязательное описание рамки валентностей компонента: указывается, какие дочерние группы могут присоединяться, какими словоформами (грамматические характеристики, синсет) могут быть заполнены; связь между компонентами в самом словосочетании также описывается на данном этапе, при помощи симметричных валентностей.

3. модуль описания связи между компонентами:

<!ATTLIST COMPONENTS_RELATIONS components_rel_type (agreement | government | contiguity | collocation) #REQUIRED > – обязательное указание типа связи в словосочетании: согласование, управление, примыкание, идиоматическая связь.

Таким образом, предложен XML-шаблон для описания устойчивых словосочетаний в электронных тезаурусах.

Библиографический список

Азарова И.В., Митрофанова О.А., Синопальникова А.А., Ушакова А.А., Яворская М.В. Разработка компьютерного тезауруса русского языка типа WordNet // Материалы конференции “Корпусная лингвистика и лингвистические базы данных”. СПб., 2002.
Азарова И.В. Схемы управления в грамматике и рамки валентностей в RussNet. 2004.

Все статьи автора «iren»

Связь с автором (комментарии/рецензии к статье)

Оставить комментарий

Вы должны авторизоваться, чтобы оставить комментарий.

Если Вы еще не зарегистрированы на сайте, то Вам необходимо зарегистрироваться:

Авторам

О журнале

XML-ШАБЛОН ОПИСАНИЯ УСТОЙЧИВЫХ СЛОВОСОЧЕТАНИЙ В ЭЛЕКТРОННЫХ ТЕЗАУРУСАХ

XML-DESCRIPTION OF COLLOCATIONS IN LEXICAL DATABASES

Связь с автором (комментарии/рецензии к статье)

Оставить комментарий