УДК 004.4

АНАЛИЗ МЕТОДОВ ГЕНЕРАЦИИ ОНТОЛОГИЧЕСКИХ МОДЕЛЕЙ ПО КОЛЛЕКЦИИ ТЕКСТОВЫХ ДОКУМЕНТОВ

Маслова Оксана Владимировна1, Макушкина Лидия Александровна2
1Волжский политехнический институт (филиал) Волгоградского государственного технического университета (г.Волжский), студент, обучающийся по программе бакалавриата
2Волжский политехнический институт (филиал) Волгоградского государственного технического университета (г.Волжский), преподаватель кафедры «Информатика и технология программирования»

Аннотация
В данной работе проводится анализ существующих методов генерации онтологических моделей по коллекции текстовых документов, тематически относящихся к одной предметной области.
Применение онтологических моделей в автоматизированных обучающих системах (АОС) способствует повышению эффективности обучения пользователей за счёт возможности варьирования траекторий обучения в соответствии с текущим уровнем знаний пользователя.

Ключевые слова: автоматизированные обучающие системы, онтологические модели, онтология, семантический анализ текстов


ANALYSIS OF EXISTING METHODS OF GENERATION OF ONTOLOGY MODELS IN THE COLLECTION OF TEXT DOCUMENTS

Maslova Oksana Vladimirovna1, Makushkina Lidiya Aleksandrovna2
1Volzhskiy Polytechnic Institute (branch of Volgograd state technical University (Volzhskiy city), student in an undergraduate program
2Volzhskiy Polytechnic Institute (branch of Volgograd state technical University (Volzhskiy city), lecturer of «Information science and technology of programming»

Abstract
In this work the analysis of existing methods of generation of ontology models in the collection of text documents, thematically related to the same subject area.
The ontology models in the automated training system and contributes to the effectiveness of training users, due to the variation of trajectories of training in accordance with the current level of knowledge of the user.

Keywords: automated training systems, ontological model, ontology, semantic analysis of the text


Библиографическая ссылка на статью:
Маслова О.В., Макушкина Л.А. Анализ методов генерации онтологических моделей по коллекции текстовых документов // Современная техника и технологии. 2014. № 4 [Электронный ресурс]. URL: http://technology.snauka.ru/2014/04/3453 (дата обращения: 28.05.2017).

В настоящее время достаточно широко используются различные автоматизированные системы обучения для поддержки процесса обучения [1]. В большинстве современных автоматизированных обучающих систем реализована линейная траектория обучения, т.е. пользователю предоставляется материал в виде последовательного набора тем независимо от знаний пользователя в данной предметной области (например, система, описанная в 2). Поэтому в настоящее время актуальной является разработка автоматизированной обучающей системы, предоставляющей материла по построенной преподавателем онтологической модели курса.
Понятие онтологии
В настоящее время онтологические модели различных предметных областей получают все большее распространение и производятся различного рода исследования по их разработке и использованию [3].
Онтология – это способ представления знаний о предметной области с помощью конечного множества понятий предметной области и отношений между ними.
Понятие онтологии позаимствовано из философии. В философии онтология изучает категории бытия, которые существуют или могут существовать. В литературе по искусственному интеллекту онтология упоминается в контексте с понятиями концептуализация, знание, представление знаний, системы, основанные на знаниях.
Известно, что одним из первых в области информационных технологий данное понятие начал использовать T. Gruber, который определил онтологию как «точную спецификацию концептуализации» [4].
Для представления предметной области определим онтологию как упорядоченную тройку вида [5]:
 ,
где T - конечное множество терминов (концептов, понятий, классов) предметной области, которую представляет онтология OR - конечное множество отношений между понятиями заданной предметной области; F - конечное множество функций интерпретации (аксиоматизация), заданных на концептах и/или отношениях онтологии O.
Еще одним естественным ограничением множества (помимо конечности) является его непустота, при этом на множества и такие ограничения не накладываются. Если множества и являются пустыми, то работа ведется с глоссарием. Если состоит из единственного отношения «is-a», а - пусто, то онтология будет представлять собой таксономию.
Для представления онтологий применяют дескриптивную логику, логику первого порядкаграфы и семантические сети. онтологии описывают формальным языком, используемым для кодирования онтологии. Для описания онтологий могут быть использоаны следующие языки:Язык OWL - ontology web language, стандарт W3C, язык для семантических утверждений, разработанный как расширение RDF и RDFS.
Язык KIF – Knowledge Interchange Format (формат обмена знаниями), основан на S-выражениях синтаксис для логики.
Язык CycL – онтологический язык, использующийся в проекте Cyc, основан на исчислении предикатов с некоторыми расширениями более высокого порядка.Разработка онтологии включает в себя определение понятий, расположение этих понятий в порядке подкласс-надкласс, определение слотов и описание их допускаемых значений, заполнение значений слотов экземпляров.
Разработка онтологии продолжается в течение всего жизненного цикла онтологии. Различают три вида разработки онтологий:нисходящий – разработка начинается с определения самых общих понятий предметной области с последующей конкретизацией понятий;
восходящий – разработка начинается с определения самых конкретных классов, листьев иерархии, с последующей группировкой этих классов в более общие понятия;
комбинированный – это сочетание нисходящего и восходящего подходов, сначала определяются наиболее заметные понятия, которые затем соответствующим образом обобщаются и ограничиваются.Область применения онтологий многогранна: семантический поиск информации (также поиск ответов на вопросы), автоматическая рубрикация документов, создание баз знаний, реализация процедур вывода и др.
Анализ методов генерации онтологических моделей
Методы генерации онтологических моделей можно условно разделить на три основные группы заимствования основного подхода: методы, основанные на подходах из области искусственного интеллекта, статистические методы и методы, использующие лингвистические подходы.
Лингвистический подход основан на построении онтологий, использующих все уровни анализа естественного языка: морфологию, синтаксис и семантику. Метод семантического анализа текста при помощи лексико-синтаксических шаблонов, предложенный в [6], используется в компьютерной лингвистике и представляет собой характерные выражения и конструкции определенных элементов языка.
На основе лексико-синтаксических шаблонов выделяются онтологические конструкции. Например, в предложении «Студент – это человек, который учится в университете», предлагаемая в [6] система выделит классы «студент», «человек» и отношение «subclass-of» между ними.
Использование для семантического анализа текстов на естественном языке лексико-синтаксических шаблонов является эффективным средством автоматического построения онтологий.
Метод генерации онтологических моделей, основанный на подходе из области искусственного интеллекта, был предложен в [7]. В области естественно-языковой обработки текста используются различные правила для решения задач в каждой рассматриваемой области.
Для создания методов автоматического построения онтологий автор разрабатывает модель генерации системы продукций (применение генетического программирования), модель генерации преобразователей и модель генерации систем логического вывода (применение генетического и автоматного программирования), модель аппарата активации продукций (применения автоматного программирования).
Автор метода [7] предлагает модель автоматического построения онтологий в виде системы продукций и применении генетического и автоматного программирования для создания требуемых моделей.
Метод генерации онтологических моделей, основанный на статических методах анализа текстов на естественном языке, предусматривает два этапа построения онтологии: выделение классов и отношений между ними.
Выделение классов из текстов на естественном языке сводится к определению терминов рассматриваемой предметной области. Статистические методы извлечения терминов показывают лучшие результаты, если дополнить их определенными эвристиками.
В качестве базовых эвристик в [8] предлагается использовать:
I. Имя класса содержит хотя бы одно существительное.
II. Общеупотребительные слова по сравнению с терминами обладают большей частотой встречаемости, приблизительно равной в различных предметных областях.
III. Количество информации термина из нескольких слов больше, чем количество информации отдельных слов, входящих в его состав.
На первом этапе в каждой коллекции документов выделяют существительные и определяют их частоту встречаемости. В результате число предполагаемых классов значительно сокращается (используется эвристика I).
На втором этапе выделяют термины, состоящие из одного слова. Сравниваются в рамках одной коллекции частоты встречаемости различных существительных и проводится оценка пересечения различных коллекций по используемым существительным (используется эвристика II).
На третьем этапе на основе взаимной информации могут быть выделены термины, состоящие из нескольких слов (используется эвристика III).
В случаях двухсложных терминов взаимная информация определяется по формуле:
 ,
где и - отдельные слова термины, P(x) - частота встречаемости xP(y) - частота встречаемости yP(x,y) - частота совместной встречаемости и y.
Использование данной формулы подробно рассмотрено в [9], там же представлен алгоритм, позволяющий статистически определить термины, состоящие из нескольких слов. Выделенные термины представляют классы будущей онтологии.
Предлагаемый подход использования эвристик является универсальным и возможно его использование не только в русском языке.
Отношения между классами можно определить базовыми отношениями «is-a» и «synonym-of». Для отношения «is-a» можно воспользоваться количественным подходом к информации (предположение эвристики III). Термин, находящийся на более низком уровне иерархии, обладает большим количеством информации, чем обобщающий термин.
Если в рассматриваемой коллекции с конкретным термином одновременно встречается некоторое множество слов, то о них можно говорить, как о контексте термина. Если контекст терминов совпадает, а количество информации терминов приблизительно равное, то вероятнее всего между терминами действует отношение «synonym-of».
Предложенный подход позволяет выделить базовые отношения между классами, в дальнейшем, возможно, его расширение для выделения новых отношений.
Метод генерации онтологических моделей по коллекции текстовых документов, относящихся к одной тематике, на основании статистических методов анализа естественно-языковых текстов наиболее эффективен и перспективен, хотя и требует предварительной обработки данных.
Анализ существующих систем работы с онтологиями
Известно ряд отечественных и зарубежных систем, предназначенных для построения онтологий и работающих с ними. В основе этих систем использованы разные методы обработки знаний, различные формализмы описания знаний, модели понятий и отношений.
OntologyEditor – утилита для работы с файлами и схемами онтологий, применяется для создания моделей офисных или бизнес задач. Средствами OntologyEditor можно создавать и редактировать С-XML схемы с последующим их переносом в формат XML. Программа позволяет также конвертировать схемы С-XML в XML и наоборот.
Onto.pro – инструмент просмотра онтологий, со средствами поиска и аннотирования. Является Web-приложением, предоставляющим пользовательский интерфейс для работы с онтологиями, находящимися в разных точках доступа SPARQL. Создается в рамках проекта №3 МРГ НСИ-4Д «Разработка отраслевой библиотеки справочных данных и отраслевого тезауруса. Модель отраслевого обмена данными».
WebOnto – позволяет пользователям просматривать и редактировать моделей знаний через Интернет. WebOnto был построен как часть PatManHCREMA, и Enrich проектов. В дополнение к этим проектам WebOnto в настоящее время используется в PlanetOntoScholOnto.
Ontos – инструмент SQL для извлечения записей из неструктурированных документов на основе онтологического описания предметной области.
Ontolingua – обеспечивает распределенную среду для совместной работы, создания, редактирования, изменения и использования онтологий. Она состоит из сервера и языка представления знаний. Редактор онтологий – наиболее важное приложение сервера Ontolingua является Web-приложением на основе форм HTML. Также сервер Ontolingua включает Webster (получение определений концептов), сервер OKBC (доступ к онтологиям Ontolingua по протоколу OKBC) и Chimaera (анализ, объединение, интегрирование онтологий). Chimaera – программное обеспечение, которое позволяет пользователям создавать и поддерживать распределенную Web-онтологию. Оно поддерживает функцию объединения нескольких онтологий вместе, а также функцию диагностики отдельных или нескольких онтологий. Кроме сервера OKBC, все приложения реализованы на основе форм HTML. Система представления знаний реализована на Lisp.
Protege – локальная, свободно распространяемая Java программа, разработанная группой медицинской информатики Стенфордского университета. Предназначена для построения (создания, редактирования и просмотра) онтологий моделей прикладной области. Создавалась для того, чтобы помочь разработчикам программного обеспечения в создании и поддержке явных моделей предметной области и включение этих моделей непосредственно в программный код. Protege включает редактор онтологий, позволяющий проектировать онтологии разворачивая иерархическую структуру абстрактных или конкретных классов и слотов [10]. Структура онтологии сделана аналогично иерархической структуре каталога. На основе сформированной онтологии, Protege может генерировать формы получения знаний для введения экземпляров классов и подклассов. Имеет открытую, легко расширяемую архитектуру за счёт поддержки модулей расширения функциональности.
Protege основан на фреймовой модели представления знания OKBC (Open Knowledge Base Connectivity) и снабжен рядом плагинов, что позволяет его адаптировать для редактирования моделей в разных форматах (стандартный текстовый, базы данных JDBC, UML, языков XML, XOL, SHOE, RDF и RDFS, DAML+OIL, OWL).
Наибольшее распространение и применение получили лингвистические онтологии по естественным наукам и технологиям, онтологии химии, онтологии по медицинской диагностике.
Анализ существующих методов построения онтологий показал, что процесс разработки объединяет спецификацию, концептуализацию, формализацию, объединение и реализацию. В основе концептуализации лежат категории абстракций, которые носят субъективный характер. Для каждой онтологии существуют своя собственная абстракция.
Эффективное автоматическое построение онтологий основано на использовании методов искусственного интеллекта, способных извлекать из текста элементы знаний и нетривиально их перерабатывать. Однако, не достаточно распространены системы лингвистического анализа текста, способных интерпретировать семантические отношения между словами. И, вследствие этого, низкая достоверность автоматически извлекаемых из текста утверждений и фактов.
Наличие современных технологий, методов и средств автоматического создания онтологий предполагает актуальную необходимость развития и разработки методов автоматического построения онтологий.
Методы построения онтологий, основанные на естественно-языковой обработке текста, основаны на методах морфологического и статистического анализов, выделения устойчивых словосочетаний.
Заключение
В статье рассмотрены методы генерации онтологических моделей по коллекции текстовых документов, тематически относящихся к одной предметной области.
Обосновывается метод генерации онтологических моделей по коллекции текстовых документов на основании статистических методов анализа естественно-языковых текстов. Термины и отношения между ними выделяются автоматически из коллекции текстовых документов на основании статистических данных.


Библиографический список
  1. Макушкина Л.А. Электронный учебник как знаковое средство построения и организации обучения / Макушкина Л.А., Рыбанов А.А., Приходько Е.А. // Известия ВолгГТУ. Серия “Новые образовательные системы и технологии обучения в вузе”. Вып. 6 : межвуз. сб. науч. ст. / ВолгГТУ. – Волгоград, 2009. – № 10. – C. 98-100.
  2. Макушкина Л.А. Автоматизированная система профессионального отбора и повышения квалификации персонала сети магазинов ДоброСтрой / Макушкина Л.А., Володькина П.Н. // Вестник магистратуры. – 2013. – № 5. – C. 53-55.
  3. Попов Д.В. Исследование методов построения конвертера онтологических моделей курса [Электронный ресурс] / Попов Д.В., Макушкина Л.А. // Современные научные исследования и инновации. – 2014. – № 1.
  4. Gruber, T.R. A translation approach to portable ontology specification. // Knowledge Acquisition.1993. Vol. 5. № 1. Pp. 199-220.
  5. Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем: учеб. для вузов. – СПб.: Питер, 2000. – 384 с.
  6. Рабчевский Е.А. Автоматическое построение онтологий на основе лексико-синтаксических шаблонов для информационного поиска. // Труды 11-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» – RCDL’2009. – Петрозаводск, 2009. – С. 69-­77.
  7. Найханова Л.В. Методы и модели автоматического построения онтологий на основе генетического и автоматного программирования: Автореф. дис. докт. тех. наук. – Красноярск, 2008. – 36 с.
  8. Мозжерина Е.С. Автоматическое построение онтологий по коллекции текстовых документов. Труды 13й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» – RCDL’2011, Воронеж, Россия, 2011. – С. 293-298.
  9. Pantel P., and Lin D. A statistical corpus-based term extractor. // Proc. of Canadian Conf. on AI. 2001. Pp. 36-46.
  10. Овдей О.М., Проскудина Г.Ю. Обзор инструментов инженерии онтологий [текст] –  Российский научный электронный журнал Электронные библиотеки.  №4, 2004.


Все статьи автора «Маслова Оксана Владимировна»


© Если вы обнаружили нарушение авторских или смежных прав, пожалуйста, незамедлительно сообщите нам об этом по электронной почте или через форму обратной связи.

Связь с автором (комментарии/рецензии к статье)

Оставить комментарий

Вы должны авторизоваться, чтобы оставить комментарий.

Если Вы еще не зарегистрированы на сайте, то Вам необходимо зарегистрироваться: