УДК 004.9

ИССЛЕДОВАНИЕ МЕТОДОВ И ОПРЕДЕЛЕНИЕ КРИТЕРИЕВ АВТОМАТИЗИРОВАННОЙ КЛАССИФИКАЦИИ ЗАПУСКАЕМЫХ НА КОМПЬЮТЕРЕ ПРИЛОЖЕНИЙ

Чегурихина Диана Юрьевна1, Лясин Дмитрий Николаевич2
1Волжский политехнический институт (филиал) Волгоградского государственного технического университета, студент
2Волжский политехнический институт (филиал) Волгоградского государственного технического университета, научный руководитель, доцент

Аннотация
Данная статья посвящена исследованию методов и определению критериев автоматизированной классификации запускаемых на компьютере приложений. В первой части работы производиться обзор существующих программ, анализ многокритериальной оценки приложений. Далее определяются критерии по которым определяется принадлежность к кластерам. Приводятся границы кластеров найденные эмпирическим путем. Сделаны выводы, о том как должна производиться многокритериальная классификация запущенных приложений.

Ключевые слова: границы, запущенные приложения, изменения изображения экрана., клавиатура, кластеризация, мониторинг, перемещение мыши, размер занимаемой памяти


RESEARCH OF METHODS AND DETERMINATION OF CRITERIA OF AUTOMATED CLASSIFICATION OF APPLICATIONS STARTED ON THE COMPUTER

Chegurikhina Diana Yurievna1, Lyasin Dmitry Nikolaevich2
1Volzhskiy Polytechnical Institute, branch of the Volgograd State Technical University, student
2Volzhskiy Polytechnical Institute, branch of the Volgograd State Technical University, research supervisor, associate professor

Abstract
This article is devoted to research of methods and determination of criteria of automated classification of applications started on the computer. In the first part of work to be performed the review of existing programs, the analysis of a multicriteria assessment of applications. Further criteria by which belonging to clusters is determined are defined. Boundaries of clusters found an empirical way are given. Outputs are drawn, about that as multicriteria classification of the started applications shall be made.

Keywords: Data Mining


Библиографическая ссылка на статью:
Чегурихина Д.Ю., Лясин Д.Н. Исследование методов и определение критериев автоматизированной классификации запускаемых на компьютере приложений // Современная техника и технологии. 2014. № 4 [Электронный ресурс]. URL: http://technology.snauka.ru/2014/04/3384 (дата обращения: 05.10.2017).

Мониторинг за работой пользователя – это неотъемлемая часть работы в некоторых организациях, офисах,  домах, например, когда за компьютером сидит ребенок (“родительский контроль”) , а так же во многих других ситуациях. Отслеживать работу пользователя необходимо для того, чтобы оценивать рациональность использования рабочего времени сотрудников, предотвращать утечку важной информации, отслеживать конкретные действия каждого пользователя, оптимизировать работу персонала.

Главная задача исследования —  мониторинг запущенных процессов, осуществление родительского контроля за приложениями на компьютере детей,  отслеживание работы сотрудников в офисах.

Для того чтобы реализовать программу, осуществляющую автоматизированную классификацию запущенных на компьютере приложений, необходимо произвести многокритериальную классификацию приложений, по результатам этой классификации отнести запущенное приложение к какому либо разработанному кластеру.

Аналогом программы, проводящая классификацию программ запускаемых на компьютере, можно выделить такие программы как: Контроль запуска программ(Лаборатории Касперского),  Launch Control ( системный гаджет для Windows 7),  защитник Windows, так же сбор данных и классификация является частью многих антивирусных программ. Рассмотрим основы программ «Контроль запуска программ» (Лаборатории Касперского) и защитник Windows.

В «Контроль запуска программ» (Лаборатории Касперского) программа  позволяет администратору устанавливать ограничения на запуск программ на компьютерах. Разрешения на запуск программ устанавливаются с помощью определенных правил.

Другая программа проводник ПО в Защитнике Windows служит просмотра подробной информации обо всех запущенных приложениях и программах на компьютере, которые могут нанести угрозу безопасности компьютера. Таким образом подобные системы уже присутствуют на рынке, но существуют ряд минусов, и к тому же интерфейс программ тяжело воспринимается обычным пользователям.

Для того чтобы отнести программу или объект к определенной группе, необходимо использовать различные методы классификации, частным случаем таких методов является Data Mining, который включает в себя не только методы классификации, но так же и всевозможные методы моделирования и прогнозирования.  Data Mining - это мультидисциплинарная область, возникшая и развивающаяся на базе наук, таких как прикладная статистика, распознавание образов, искусственный интеллект, теория баз данных и других.

Целью Data Mining является выявление скрытых правил и закономерностей в наборах данных. Выбор метода зависит от типа имеющихся данных и от того, какую информацию нужно получить.

К задачам Data Mining относят:

  1. Классификация
  2. Кластеризация
  3. Прогнозирование
  4. Ассоциация
  5. Визуализация
  6. Анализ и обнаружение отклонений
  7. Оценивание
  8. Анализ связей
  9. Подведение итогов

Таблица 1 – Сравнение наиболее распространенных типов закономерностей:

Сравнительные

показатели

Типы закономерностей

Классификация Кластеризация Прогнозирование

 

Визуализация

 

Результат решения задачи Обнаруживаются признаки, характеризующие группы объектов; по этим признакам объект можно отнести к классу. Результатом кластеризации является разбиение объектов на группы. Оцениваются пропущенные или же будущие значения целевых численных показателей. В результате визуализации создается графический образ анализируемых данных.
Методы решения Ближайшего соседа , k-ближайшего соседа , байесовские сети, нейронные сети. Не существует однозначно наилучшего метода решения задач кластеризации. Применяются методы математической статистики, нейронные сети Используются графические методы, показывающие наличие закономерностей в данных.
Методы и алгоритмы типов закономерностей 1) классификация с помощью деревьев решений; 2) байесовская классификация ; 3) классификация при помощи искусственных нейронных сетей; 4) статистические методы; 5) при помощи метода ближайшего соседа; 1) Алгоритмы, основанные на разделении данных , 2) Иерархические алгоритмы; 3) Методы, основанные на концентрации объектов ; 4) Грид-методы; Нейронные сети и линейная регрессия. Визуализатор дерева решений, список правил, топология сети,

карты входов, выходов,  другие специфические карты, линия регрессии, дендрограммы, диаграммы рассеивания.

По данной сравнительной таблице можно сделать вывод, что для исследования наиболее оптимальным типом закономерности является кластеризация, так как в результате её решения происходит разбиение объектов на группы.

Математическое описание критериев классификации.

Пусть X – множество описаний объектов, Y – множество наименований классов. В данной работе X – множество признаков приложений на ПК пользователя X={«Принадлежность заголовка», «Принадлежность расширения», «Размер занимаемой памяти», «Количество открытых дескрипторов», «Средняя скорость перемещения мыши», «Средняя частота ввода клавиатуры», «Средняя скорость изменения изображения экрана}, Y={“текст”,”графика”,”мультимедиа” , ”игра”,”браузер”,”не определен” }. Признаком является отображение f: X -> Df, где Df – множество допустимых значений признака.

В зависимости от множества Df признаки делятся на следующие типы:

  • бинарный признак: Df = {0,1} ;
  • номинальный признак: Df — конечное множество;
  • порядковый признак: Df  — конечное упорядоченное множество;
  • количественный признак:  Df — множество действительных чисел.

 

Таблица 2 – Таблица типов признаков, принятых в данной работе

Признак Тип Размерность/Значения
Принадлежность заголовка бинарный признак Принадлежит/не принадлежит
Принадлежность расширения бинарный признак Принадлежит/не принадлежит
Размер занимаемой памяти количественный признак байты
Количество потоков количественный признак -
Средняя скорость перемещения мыши количественный признак px/сек
Средняя частота ввода клавиатуры количественный признак клав/мин
Средняя скорость изменения изображения экрана количественный признак компонент/мин

Определение размера занимаемой памяти.

Для того, чтобы определить размер занимаемой памяти каждого процесса используется максимальное количество виртуальной памяти в байтах, выделенной для связанного процесса с момента его запуска. Значение, которое возвращается этим свойством, представляет максимальный размер виртуальной памяти, используемой процессом с момента его запуска.

Данное свойство может использоваться для мониторинга использования памяти на компьютерах с 32-разрядными или 64-разрядными процессорами.

Особенности программирования:

Для реализации данной функциональной части используется компонент .Net System.Diagnostics. Для получения занимаемой памяти используется свойство process.PeakVirtualMemorySize64.

Определение количества потоков.

Поток выполняет код в процессе. Каждый процесс запускается через единственный поток — основной поток процесса. Любой поток может создавать дополнительные потоки. Потоки процесса разделяют адресное пространство этого процесса.

Особенности программирования:

Для реализации данной функциональной части используется компонент .Net System.Diagnostics. Для получения количества потоков используется свойство process.Threads.Count.

Средняя скорость перемещения мыши.

Для определения скорости перемещения указателя мыши используется формула:

Где (x,y) – координаты текущего положения указателя мыши, (x0,y0) –координаты указателя мыши в предыдущий момент времени, Δt – время за которые указатель мыши переместился.

Средняя скорость перемещения указателя:

Где N – общее число перемещений, зафиксированное за время отслеживания указателя мыши.

Средняя частота нажатий клавиш на клавиатуре.

Для определения времени между нажатиями клавиш используется формула:

ΔtK = (tk0 – tk1),

где tk0 – предыдущее время нажатия на клавишу, tk1 – текущее время нажатия на клавишу.

Средняя частота нажатий на клавиши:

Где N – общее число нажатий на клавиши, зафиксированное за время отслеживания работы клавиатуры.

Средняя скорость изменения изображения экрана.

Для определения скорости изменения изображения, требуется определить критерий по которому судить об изменениях изображений. В качестве критерия было выбрано среднеквадратичное отклонение суммы компонентов цветов RGB:

Компоненты цвета берутся из гистограммы изображения(по каждому цветовому каналу).

Средняя скорость изменения изображения:

Где N – количество зарегистрированных изображений экрана.

С учетом того, что для кластеризации используются граничные значения параметров, введены следующие обозначения: M-скорость перемещения мыши, K – частота работы с клавиатурой, Pm – количество программной памяти, Pt – количество потоков, Scr – скорость изменения экрана. Диапазоны для этих параметров были найдены эмпирически:

 

 

 

 


 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Выводы.

Выявление типологии запускаемых приложений и изучение возможности автоматической классификации приложений, на основе выявленной типологии является целью работы. Были исследованы методы многокритериальной классификации объектов, а так же методы сбора информации о различных приложениях, с помощью технологии WMI и других инструментов. Проведен обзор существующих аналогов программ,  определены кластеры, а так же критерии кластеризации приложений, эмпирическим путем найдены границы кластеров.


Библиографический список
  1. Васильев В.А., Калмыкова М.А. О классификации компьютерных программ // Современные научные исследования и инновации. – Февраль 2013. – № 2
  2. Шитов В.Н. новейший справочник полезных компьютерных программ. Монология.//Дом Славянский кв. 2009г.
  3. Гливенко Е.В. Крупский А.А. Компьютерная программа педдержки процессов распознавания и классификации.Журнал: вопросы радиоэлектроники. //Издательсво: Центральный научно-исследовательский иснтитут «Электроники». 2012г. 8-12с.
  4. Нгуен Д. Т. Технология Автоматизированного анализа данных data mining. Журнал: международное научное издание современной фундаметальные и прикладные исследования// Издание: Учебный центр «Магистр». 2011г. 11-14с.
  5. Амурский К.А. Дрождин В.В. Слесарев Ю.Н. Проблема извлечения знаний в информационных системах. Журнал: Известия Пензенского государственного педагогического университета им. В.Г. Белинского//  2010г. 96-96 с.


Все статьи автора «DianaChegurihina»


© Если вы обнаружили нарушение авторских или смежных прав, пожалуйста, незамедлительно сообщите нам об этом по электронной почте или через форму обратной связи.

Связь с автором (комментарии/рецензии к статье)

Оставить комментарий

Вы должны авторизоваться, чтобы оставить комментарий.

Если Вы еще не зарегистрированы на сайте, то Вам необходимо зарегистрироваться: