<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Электронный научно-практический журнал «Современная техника и технологии» &#187; тезаурус</title>
	<atom:link href="http://technology.snauka.ru/tags/tezaurus/feed" rel="self" type="application/rss+xml" />
	<link>https://technology.snauka.ru</link>
	<description></description>
	<lastBuildDate>Fri, 30 Jan 2026 18:56:12 +0000</lastBuildDate>
	<language>ru</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.2.1</generator>
		<item>
		<title>XML-шаблон описания устойчивых словосочетаний в электронных тезаурусах</title>
		<link>https://technology.snauka.ru/2014/03/3234</link>
		<comments>https://technology.snauka.ru/2014/03/3234#comments</comments>
		<pubDate>Wed, 12 Mar 2014 13:38:43 +0000</pubDate>
		<dc:creator>iren</dc:creator>
				<category><![CDATA[Общая рубрика]]></category>
		<category><![CDATA[Multiword Expressions]]></category>
		<category><![CDATA[RussNet]]></category>
		<category><![CDATA[WordNet]]></category>
		<category><![CDATA[XML описание]]></category>
		<category><![CDATA[лексико-семантическая база данных]]></category>
		<category><![CDATA[тезаурус]]></category>
		<category><![CDATA[устойчивые словосочетания]]></category>

		<guid isPermaLink="false">https://technology.snauka.ru/?p=3234</guid>
		<description><![CDATA[Лексико-семантическая база данных RussNet является национальным представлением электронного тезауруса WordNet для русского языка. Целью данного исследования является выделение составных наименований (устойчивых словосочетаний) из корпуса текстов на русском языке и разработка XML шаблона для их описания в базе данных RussNet. В качестве материала исследования выступают тексты корпуса русского языка Бокрёнок (21 млн словоупотреблений), доступ к которым [...]]]></description>
			<content:encoded><![CDATA[<p>Лексико-семантическая база данных RussNet является национальным представлением электронного тезауруса WordNet для русского языка. Целью данного исследования является выделение составных наименований (устойчивых словосочетаний) из корпуса текстов на русском языке и разработка XML шаблона для их описания в базе данных RussNet. В качестве материала исследования выступают тексты корпуса русского языка Бокрёнок (21 млн словоупотреблений), доступ к которым обеспечивается при помощи корпус-менеджера Bonito.</p>
<p>На сегодняшний день составные наименования не входят в словарь базы данных RussNet, несмотря на широту их употребления в речи. Не существует, следовательно, и общепринятого шаблона их описания и процедуры выделения. В зарубежном языкознании известен ряд работ, посвященных автоматическому выделению коллокаций, однако применяя предложенные методы выделения к материалу на русском языке необходимо учитывать своеобразие последнего: высокую флективность, широкое использование слов служебных частей речи, относительно свободный порядок слов.</p>
<p>WordNet — это лексико-семантическая база данных английского языка, созданная учеными Принстонского университета (США) и разрабатываемая под руководством Christiane Fellbaum.</p>
<p>Основной конструктивной единицей баз данных такого типа является синсет (англ. Synset) — группа синонимичных по значению слов одной части речи, лексикализованных устойчивых словосочетаний. В словаре показаны отношения между элементами внутри синсета (синонимия), между единицами из разных синсетов (антонимия) и самими синсетами (гипонимия, меронимия, лексический вывод и т.д.). Совокупность синсетов изображается в виде дерева, узлы которого — сами синсеты — связаны родовидовыми отношениями. Группы слов каждой части речи описываются разными наборами деревьев.</p>
<p>RussNet<strong> </strong>— лексико-семантическая база данных русского языка. Разработкой данной системы тезаурусного представления лексики занимается группа исследователей кафедры математической лингвистики филологического факультета Санкт-Петербургского государственного университета под руководством И.В. Азаровой.</p>
<p>Multiword expressions theory (теория составных наименований, СН) разрабатывается исследовательской группой Multiword Expression Project (Stanford University, California). Данный проект был запущен в апреле 2001 года в лаборатории CSLI Linguistic Grammars Online (LinGO) под руководством Dan Flickinger.</p>
<p><strong>            </strong>Составное наименование (СН) — это выражение, состоящее из нескольких единиц (слов), неразложимое на множество простых слов и/или особое по лексическому составу, синтаксической структуре, семантике, прагматике и/или статистическим характеристикам. Таким образом, СН &#8211; устойчивая синтаксическая конструкция с относительно высокой частотой употребления. Значение данной конструкций является фиксированным; зачастую они представляют собой целостные синонимы однословных языковых единиц. Ядром составного наименования является частотная единица языка, обладающая несколькими лексическими значениями, в том числе переносными. Примерами различных СН могут служить: <em>Сан Франциско, сыграть в ящик, часть речи, в ногу </em>и т.п.</p>
<p>В ходе исследования составных наименований было отмечено несколько интересных моментов.</p>
<p>Во-первых, для русского языка равно возможны как поиск сочетаний по леммам компонентов, так и по отдельным словоформам. Поиск по леммам позволяет повысить оценки (основанные на частоте встречаемости единицы в корпусе) сочетаний с нефиксированной формой. С другой стороны, для сочетаний с фиксированной или полуфиксированной формой лучше выполнять поиск по конкретным словоформам. Так, например, сочетание<em> носить на руках</em> является устойчивым (<em>носить жену на руках</em>), тогда как вариант <em>носить на руке </em>(в примерах типа<em> носить часы на руке</em>) не может быть назван составным наименованием.</p>
<p>Во-вторых, возникает вопрос, учитывать ли при выделении только слова знаменательных частей речи или же включать в поиск служебные компоненты (в первую очередь предлоги, а также частицы и союзы). Например, для сочетаний типа <em>не дай бог</em> наличие отрицательной частицы является решающим, так как позволяет разграничивать данное устойчивое наименование и конструкцию <em>дай бог</em> и относить их в итоге к разным синсетам. В то же время, при большинстве глаголов частица <em>не</em> носит факультативный характер и обеспечивает в контексте общее отрицание.</p>
<p>Мы остановились на поиске по отдельным словоформам, с фиксированным порядком следования элементов и учётом служебных единиц. Списки выделенных потенциальных составных наименований в дальнейшем прошли проверку экспертом.</p>
<p>Проведя исследования материалов корпуса текстов на русском языке Бокрёнок, мы выделили 245 составных наименований, которые стали материалом дальнейшего изучения.</p>
<p>Мы предложили три основных параметра характеристики составных наименований: фиксированность порядка следования компонентов, разрывность (проницаемость) конструкции, фиксированность грамматических значений элементов. В соответствии с этими параметрами, основываясь на корпусных исследования, мы выделили пять типов составных наименований, характерных для русского языка:</p>
<ul>
<li>по типу <em>молодой человек</em>: прилагательное + существительное; как правило нефиксированный порядок, разрывность и нефиксированность формы,</li>
<li>по типу <em>человек в футляре</em>: существительное + предложно-падежная конструкция; фиксированный порядок, как правило неразрывная, полуфиксированная форма,</li>
<li>по типу <em>человек слова:</em> существительное + существительное в косвенном падеже; фиксированный порядок, полуфиксированная форма,</li>
<li>по типу <em>тянуть время</em>: глагол + существительное предложно-падежная конструкция инфинитив; чаще разрывной, полуфиксированной формы,</li>
<li>по типу <em>все время</em>: любые сочетания слов разных частей речи с фиксированным порядком, неразрывной, фиксированной формой.</li>
</ul>
<p>Предложенный нами универсальный XML-шаблон описания составных наименований разработан на базе шаблона описания однословных единиц, применяемом в рамках проекта RussNet. Главным его отличием является включение в иерарзию объектов описания сущности PHRASE. Предлагается покомпонентно описывать составное наименование, указывая «ядро» в качестве основной лексемы. При этом остается возможность описания рамок валентностей слов различных частей речи (какие зависимые составляющие может присоединять то или иное словосочетание); внутренние связи сочетания характеризуются за счет симметричного описания валентностей (активного типа на один компонент и пассивного типа на другой) и указания типа связи (согласование, управление, примыкание либо «коллокация» для сочетаний фиксированной формы). Данный шаблон позволяет описывать сочетания всех типов. Составные наименования типа <em>все время</em> указываются как единые лексемы и задаются в квадратных скобках; «внутренние» валентности не описываются, приводятся лишь примеры подключения сочетания в зависимую позицию к какой-либо единице.</p>
<p>Ниже представлены основные модули компонента PHRASE, разработанного нами для описания составных наименований.</p>
<p>1. модуль описания формы словосочетания:</p>
<p>&lt;!ATTLIST ORDER order_type (fixed | non_fixed) #REQUIRED &gt; &#8211; обязательное указание типа порядка слов: фиксированный (например, <em>дай Бог</em>) или не фиксированный (например, <em>носить на руках</em>).</p>
<p>&lt;!ATTLIST CONTINUITY_TYPE cont_type (cont | discont) #REQUIRED &gt; &#8211; тип разрывности словосочетания.</p>
<p>&lt;!ATTLIST FORM_TYPE type_of_form (non_fixed | semi_fixed | fixed) #REQUIRED &gt; &#8211; тип фиксированности формы: фиксированная форма (для всех компонентов словосочетания), полуфиксированная (для некоторых компонентов, например, <em>носить на руках</em>) или не фиксированная.</p>
<p>2. модуль описания компонентов словосочетания:</p>
<p>&lt;!ATTLIST COMPONENT_UNIT NUM (0 | 1) #REQUIRED POS CDATA #REQUIRED ID CDATA #REQUIRED &gt; &#8211; обязательное описание морфологических характеристик компонента.</p>
<p>&lt;!ELEMENT VALENCY_FRAME (VALENCY+)&gt; &#8211; обязательное описание рамки валентностей компонента: указывается, какие дочерние группы могут присоединяться, какими словоформами (грамматические характеристики, синсет) могут быть заполнены; связь между компонентами в самом словосочетании также описывается на данном этапе, при помощи симметричных валентностей.</p>
<p>3. модуль описания связи между компонентами:</p>
<p>&lt;!ATTLIST COMPONENTS_RELATIONS components_rel_type (agreement | government | contiguity | collocation) #REQUIRED &gt; &#8211; обязательное указание типа связи  в словосочетании: согласование, управление, примыкание, идиоматическая связь.</p>
<p>Таким образом, предложен XML-шаблон для описания устойчивых словосочетаний в электронных тезаурусах.</p>
]]></content:encoded>
			<wfw:commentRss>https://technology.snauka.ru/2014/03/3234/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
