УДК 004.42

ИССЛЕДОВАНИЕ МЕТОДОВ АВТОМАТИЧЕСКОЙ ГЕНЕРАЦИИ ОНТОЛОГИИ НА ОСНОВЕ СТРУКТУРИРОВАННОГО МАТЕРИАЛА

Куркин Андрей Николаевич
Волжский политехнический институт (филиал) федерального государственного бюджетного образовательного учреждения высшего образования «Волгоградский государственный технический университет»

Аннотация
В данной работе дается определение самому понятию онтологии, а также рассматриваются методы автоматического построения онтологических моделей.

Ключевые слова: методы построения онтологий, онтологические модели


RESEARCH METHODS OF AUTOMATIC GENERATION OF ONTOLOGY-BASED STRUCTURED MATERIAL

Kurkin Andrey Nikolaevich
Volzhsky Polytechnic Institute (branch) of Federal State Budget Educational Institution of Higher Education

Abstract
In this paper defines the very concept of ontology, and discusses methods for automatic construction of ontological models.

Библиографическая ссылка на статью:
Куркин А.Н. Исследование методов автоматической генерации онтологии на основе структурированного материала // Современная техника и технологии. 2016. № 10 [Электронный ресурс]. URL: http://technology.snauka.ru/2016/10/10842 (дата обращения: 28.05.2017).

Введение

Как правило, построение онтологии требует использования больших ресурсов, а также экспертных знаний в предметной области, и занимает существенный объем времени образом, автоматизация процесса построения онтологии является актуальной задачей.

Представляется возможным автоматическое построение онтологии по коллекции текстовых документов преимущественно на основе статистических методов анализа текстов на естественном языке [11-16]. Содержание документов в коллекции непосредственно влияет на качество получаемой онтологии [6, 8-10]. Если тематически тексты документов слабо связаны [7], скорее всего, построенная онтология окажется невыразительной, поскольку будет описывать отдельные аспекты различных предметных областей, не создавая при этом общей картины.

Целью данной работы является: повышение эффективности построения онтологических моделей за счет автоматизации выделения вершин и их связей.

 Для достижения поставленной цели были решены следующие исследовательские задачи:

  • Провести анализ и исследование методов автоматической генерации онтологии.
  • Составить математическое описание  программной системы автоматической генерации онтологии на основе структурированного материала.
  • Выполнить программную реализацию  системы автоматической генерации онтологии на основе структурированного материала.
  • Проверить эффективность реализованных алгоритмов  программной системы автоматической генерации онтологии на основе структурированного материала. 

Постановка задачи

В настоящее время онтологические модели различных предметных областей получают все большее распространение и производятся различного рода исследования по их разработке и использованию [1-6].

Онтология – это способ представления знаний о предметной области с помощью конечного множества понятий предметной области и отношений между ними. Другими словами, онтология – это некоторое описание взгляда на мир применительно к конкретной области интересов, которое состоит из терминов и правил использования этих терминов, ограничивающих их значения в рамках конкретной области.

Для представления предметной области определим онтологию как упорядоченную тройку вида O = { T, R, F }, где T – конечное множество терминов (концептов, понятий, классов) предметной области, которую представляет онтология O; R – конечное множество отношений между понятиями заданной предметной области; F – конечное множество функций интерпретации (аксиоматизация), заданных на концептах и/или отношениях онтологии O.

Далее были рассмотрены основные методы автоматического построения онтологий по коллекции текстовых документов. Методы автоматического построения онтологий можно условно разделить на три основные группы в зависимости от области заимствования основного подхода: методы, основанные на подходах из области искусственного интеллекта, статистические методы и методы, использующие лингвистические подходы.

Далее был выполнен анализ систем, позволяющих выполнять работу с онтологиями, выделены основные функции подобных систем и проведен их сравнительный анализ.

Большинство из рассмотренных инструментальных средств не зависят от языка представления, имеют открытый код или свободный доступ к своим функциям. 

Наибольшее распространение и применение получили лингвистические онтологии по естественным наукам и технологиям, онтологии химии, онтологии по медицинской диагностике.

Анализ существующих методов построения онтологий показал, что процесс разработки объединяет спецификацию, концептуализацию, формализацию, объединение и реализацию. В основе концептуализации лежат категории абстракций, которые носят субъективный характер. Для каждой онтологии существуют своя собственная абстракция.

Эффективное автоматическое построение онтологий основано на использовании методов искусственного интеллекта, способных извлекать из текста элементы знаний и нетривиально их перерабатывать. Однако, не достаточно распространены системы лингвистического анализа текста, способных интерпретировать семантические отношения между словами и, вследствие этого, низкая достоверность автоматически извлекаемых из текста утверждений и фактов.

На рисунке 1 показана диаграмма верхнего уровня процесса «Генерация онтологии на основе структурированного материала.

Рисунок 1 — Диаграмма верхнего уровня процесса «Генерация онтологии на основе структурированного материала»

Входной информацией являются файл структурированного учебного материала и словари, которые загружает пользователь ИС. Данная входная информация используется на всех этапах генерации онтологической модели.

Выходной информацией в процессе генерации онтологической модели являются: онтологическая модель материала и описание элементов, входящих в состав онтологической модели.

Исполнителями процесса являются пользователь ИС и информационная система (ИС*).

Управление процессом осуществляется на основании правил разбора текста и правил построения онтологической модели.

Генерация онтологии на основе структурированного материала осуществляется в пять этапов:

  1. «разбор структурированного текста» – на данном этапе пользователь выбирает загрузку структурированного текста в систему, после этого система выполняет заполнение внутренних структур программы элементы считанными из файла;
  2. «синтаксическая обработка текста» – на данном этапе выполняется разбор предложений элементов, выделенных из структурированного текста;
  3.  «семантическая обработка текста (построение онтологии)» – на данном этапе выполняется выделение смысловых единиц текста, образующих элементы онтологической модели, т.е. и выделение вершин модели, также на данном этапе выполняется поиск и расстановка связей вершин;
  4. «сохранение онтологической модели в БД» – на данном этапе выполняется сохранение полученной модели в БД;
  5. «отображение онтологической модели» – на данном этапе выполняется вывод полученной онтологической модели в виде графа с выводом информации о каждом элементе онтологической модели.

На рисунке 2 показана детализация процесса «Поиск кратчайшего пути в графе».

Рисунок 2 — Декомпозиция диаграммы А1 «Генерация онтологии на основе структурированного материала».

Диаграмма потоков данных является одним из основных инструментов структурного анализа и проектирования информационных систем, существовавших до широкого распространения UML.

Построим диаграмму DFD – рисунок 3.

Рисунок 3 — Диаграмма DFD

Разрабатываемая система позволит выполнять автоматическое построение онтологии по любой предметной области на основании структурированного материала, т.е. материала, в котором выполнено выделение элементов самой модели [17-18].


Библиографический список
  1. Андрич О.Ф., Макушкина Л.А. Исследование методов оценки качества онтологических моделей // Андрич О.Ф., Макушкина Л.А. Современные наукоемкие технологии. 2014. № 5-2. С. 18-19.
  2. Макушкина Л.А., Рыбанов А.А. Оценка качества структурирования учебного материала на основе метрик онтологических моделей // Актуальные вопросы профессионального образования. 2014. Т. 11. № 14 (141). С. 86-89.
  3. Макушкина Л.А., Рыбанов А.А., Приходько Е.А. Электронный учебник как знаковое средство построения и организации обучения // Актуальные вопросы профессионального образования. 2009. Т. 6. № 10 (58). С. 98-100.
  4. Макушкина Л.А., Рыбанов А.А.Оценка качества структурирования учебного материала на основе метрик онтологических моделей//Макушкина Л.А., Рыбанов А.А. Актуальные вопросы профессионального образования. 2014. Т. 11. № 14 (141). С. 86-89.
  5. Маслова О.В., Макушкина Л.А. Анализ методов генерации онтологических моделей по коллекции текстовых документов// Маслова О.В., Макушкина Л.А. Вестник магистратуры. 2014. № 4-1 (31). С. 85-89.
  6. Паращук А.В., Рыбанов А.А. Исследование методов оценки качества онтологии предметной области // NovaInfo.Ru. 2016. Т. 1. № 43. С. 8-17.
  7. Попов Д.В., Макушкина Л.А. Исследование методов построения конвертера онтологических моделей курса // Попов Д.В., Макушкина Л.А. Современные научные исследования и инновации. 2014. № 1 (33). С. 3.
  8. Рыбанов А. Анализ качества квантования учебного текста // Педагогические измерения. 2014. № 1. С. 3-16.
  9. Рыбанов А. Количественные метрики для оценки качества квантования учебной информации // Педагогические измерения. 2013. № 4. С. 3-12.
  10. Рыбанов А. Степень соответствия между тезаурусом учащегося и тезаурусом учебного контента как метрика процесса усвоения дистанционного учебного курса // Педагогические измерения. 2013. № 3. С. 77-91.
  11. Рыбанов А.А. Автоматизированное определение квантитативных характеристик текста // Современные научные исследования и инновации. 2014. № 2 (34). С. 5.
  12. Рыбанов А.А. Квантование учебной информации как средство повышения качества учебного материала // Актуальные вопросы профессионального образования. 2014. Т. 12. № 15 (142). С. 28-30.
  13. Рыбанов А.А. Квантование учебной информации как средство повышения качества контента в системах дистанционного обучения // Дистанционное и виртуальное обучение. 2014. № 7 (85). С. 4-21.
  14. Рыбанов А.А. Оценка качества текстов электронных средств обучения // Школьные технологии. 2011. № 6. С. 172-174.
  15. Рыбанов А.А. Повышение качества учебного материала на основе применения процедуры квантования // Школьные технологии. 2015. № 2. С. 169-171
  16. Рыбанов А.А. Подходы к анализу качества текста пояснительной записки выпускной квалификационной работы // Актуальные вопросы профессионального образования. 2011. Т. 8. № 10 (83). С. 113-116.
  17. Рыбанов А.А., Панкова Л.А. Исследование методов адаптации к обучаемому в современных компьютерных обучающих системах // Актуальные вопросы профессионального образования, Т. 5. 2008. № 5. С. 67-69.
  18. Рыбанов А.А., Самодьянова А.С. Разработка web-ориентированной экспертной системы оценки качества педагогических тестов // Молодой ученый. 2014. № 9 (68). С. 31-34.


Все статьи автора «Куркин Андрей Николаевич»


© Если вы обнаружили нарушение авторских или смежных прав, пожалуйста, незамедлительно сообщите нам об этом по электронной почте или через форму обратной связи.

Связь с автором (комментарии/рецензии к статье)

Оставить комментарий

Вы должны авторизоваться, чтобы оставить комментарий.

Если Вы еще не зарегистрированы на сайте, то Вам необходимо зарегистрироваться: