<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Электронный научно-практический журнал «Современная техника и технологии» &#187; выявление паттернов</title>
	<atom:link href="http://technology.snauka.ru/tags/vyiyavlenie-patternov/feed" rel="self" type="application/rss+xml" />
	<link>https://technology.snauka.ru</link>
	<description></description>
	<lastBuildDate>Fri, 30 Jan 2026 18:56:12 +0000</lastBuildDate>
	<language>ru</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.2.1</generator>
		<item>
		<title>Распределенный анализ категориальных последовательностей для непрерывного производства</title>
		<link>https://technology.snauka.ru/2017/05/13383</link>
		<comments>https://technology.snauka.ru/2017/05/13383#comments</comments>
		<pubDate>Sun, 21 May 2017 11:09:32 +0000</pubDate>
		<dc:creator>Евгения Ивановна Шереметова</dc:creator>
				<category><![CDATA[Общая рубрика]]></category>
		<category><![CDATA[вычисления на кластерах]]></category>
		<category><![CDATA[выявление паттернов]]></category>
		<category><![CDATA[категориальные последовательности]]></category>
		<category><![CDATA[потоковые данные]]></category>
		<category><![CDATA[распределенный анализ]]></category>

		<guid isPermaLink="false">https://technology.snauka.ru/?p=13383</guid>
		<description><![CDATA[ В области анализа данных последовательностью называют упорядоченный набор элементов, каждый из которых может быть числовым, категориальным (состоящим из нескольких качественных значений), или смешанным [1, с. 1]. Расположение таких элементов в последовательности строго определено в зависимости от логического порядка их следования (категориальные последовательности) или от времени их появления (временные ряды). На сегодняшний день анализ последовательностей данных [...]]]></description>
			<content:encoded><![CDATA[<p align="justify"> <span style="font-weight: normal;">В </span><span style="font-weight: normal;">области анализа данных последовательностью называют упорядоченный набор элементов, каждый из которых может быть числовым, категори</span><span style="font-weight: normal;">аль</span><span style="font-weight: normal;">ным (состоящим из нескольких качественных значений), или смешанным </span><span style="font-weight: normal;">[1, </span><span style="font-weight: normal;">с. 1</span><span style="font-weight: normal;">]</span><span style="font-weight: normal;">. Расположение таких элементов в последовательности строго определено в зависимости </span><span style="font-weight: normal;">от логического </span><span style="font-weight: normal;">порядка их следования </span><span style="font-weight: normal;">(категориальные последовательности) или</span><span style="font-weight: normal;"> от времени </span><span style="font-weight: normal;">их</span><span style="font-weight: normal;"> появления (временные ряды). </span><span style="font-weight: normal;">На сегодняшний день анализ последовательностей данных широко применяется во многих областях – </span><span style="font-weight: normal;">медицине, биологии, производстве, однако существующие на данным момент подходы используют алгоритмы, работа которых существенно зависит от размерности входных данных. В данной статье представляется подход к анализу категориальных последовательностей с использованием технологии распределенной обработки, </span><span style="font-weight: normal;">позволяющей </span><span style="font-weight: normal;">эффективно работать с данными, размеры которых превышают </span><span style="font-weight: normal;">доступную оперативную память.</span></p>
<p align="justify"><span style="font-weight: normal;">ВЫБОР АЛГОРИТМА ДЛЯ АНАЛИЗА</span><span style="font-weight: normal;"> ПОТОКОВЫХ ДАННЫХ</span></p>
<p align="justify"><span style="font-weight: normal;">При работе с потоковыми данными зачастую возникают трудности, которые можно разделить на следующие категории:</span></p>
<ol>
<li>
<p align="justify"><span style="font-weight: normal;">Проблема передачи данных на вход программы из-за высоких скоростей генерации новых данных;</span></p>
</li>
<li>
<p align="justify"><span style="font-weight: normal;">Проблема выполнения операций вычисления сложных функций с использованием большого количества входных данных, которые быстро обновляются, что влечет за собой серьезные нагрузки на вычислительную инфраструктуру;</span></p>
</li>
<li>
<p align="justify"><span style="font-weight: normal;">Проблема хранения данных (временно или в целях последующего использования их в долгосрочной перспективе).</span></p>
</li>
</ol>
<p align="justify"><span style="font-weight: normal;">Исследование литературы по вопросам выявления паттернов в категориальных последовательностях показало, что наиболее популярными методами являются подходы, разработанные группой исследователей IBM Research </span><span style="font-weight: normal;">[2, 3]</span><span style="font-weight: normal;">, которые представили алгоритмы AprioriSome, AprioriAll, DynamicSome и SPADE. Однако применение указанных подходов не позволяет решить проблемы, специфичные для потоковых данных. В первую очередь это связано с использованием в данных алгоритмах чрезмерно сложных структур данных, а также с большим количеством запросов к базе данных. </span><span style="font-weight: normal;">Таким образом, данные алгоритмы трудны для распараллеливания, что делает трудоемким создание распределенной системы на их основе.</span></p>
<p align="justify"><span style="font-weight: normal;">Намного более пригодными для распараллеливания являются алгоритмы поиска подпоследовательностей </span><span style="font-weight: normal;">FreeSpan, PrefixSpan </span><span style="font-weight: normal;">и </span><span style="font-weight: normal;">GSP. </span><span style="font-weight: normal;">Сравнение масштабируемости этих алгоритмах на редуцированном наборе данных, включающем в себя 40000 последовательностей, представлены на рисунках 1, 2. </span></p>
<p align="justify"><span style="font-weight: normal;">На рисунке 1 изображены графики зависимоссти времени выполнения алгоритма от значения параметра минимальной поддержки, характеризующего процент различия между последовательностью данных и входящей в нее подпоследовательностью. Из графиков видно, что наилучшей масштабируемостью обладает алгоритм PrefixSpan </span><span style="font-weight: normal;">[4, с. 3]</span><span style="font-weight: normal;">.</span></p>
<p align="justify"><a href="https://technology.snauka.ru/2017/05/13383/1-176" rel="attachment wp-att-13388"><img class="size-full wp-image-13388 aligncenter" src="https://technology.snauka.ru/wp-content/uploads/2017/05/1.jpg" alt="" width="582" height="340" /></a></p>
<p align="center">Рисунок 1. Проверка масштабируемости времени выполнения алгоритмов GSP, FreeSpan, PrefixSpan</p>
<p style="font-weight: normal;" align="justify"><span><span>На рисунке 2 представлено сравнение </span><span>использования памяти алгоритмами GSP и PrefixSpan при различных значениях </span><span>параметра минимальной поддержки. Из графиков видно, что </span><span>PrefixSpan более стабилен в использовании памяти</span><span>.</span></span></p>
<p align="center"><a href="https://technology.snauka.ru/2017/05/13383/2-149" rel="attachment wp-att-13387"><img class="size-full wp-image-13387 aligncenter" src="https://technology.snauka.ru/wp-content/uploads/2017/05/2.jpg" alt="" width="605" height="340" /></a><span>Рисунок 2. Проверка масштабируемости использования памяти алгоритмами GSP и PrefixSpan</span></p>
<p align="justify">РАСПАРАЛЛЕЛИВАНИЕ ВЫЧИСЛЕНИЙ</p>
<p align="justify">Исследование масшлабируемости алгоритмов показало, что алгоритм <span><span style="font-weight: normal;">PrefixSpan применим для решения задачи анализа категориальных последовательностей, поскольку имеет хорошие показатели масштабируемости. Однако для адаптации к специфике решаемой задачи (необходимость обработки больших объемов данных), требуется использование дополнительных мер по ускорению алгоритма, а также сокращению объема занимаемой памяти. Обе эти проблемы могут быть успешно решены с помощью технологии </span></span><span><span lang="en-US"><span style="font-weight: normal;">MapReduce</span></span></span><span><span style="font-weight: normal;">, которая с одной стороны позволят занимать наименьший объем в памяти, с другой стороны дает возможность сохранять наибольший объем информации для анализа, а также сокращать время выполнения алгоритма. В обобщенном виде технологию MapReduce можно представить в виде схемы, изображенной на рисунке 3.</span></span></p>
<p align="justify"><a href="https://technology.snauka.ru/2017/05/13383/3-111" rel="attachment wp-att-13386"><img class="size-full wp-image-13386 aligncenter" src="https://technology.snauka.ru/wp-content/uploads/2017/05/31.jpg" alt="" width="654" height="195" /></a></p>
<p align="center">Рисунок 3. Технология MapReduce</p>
<p align="justify"><span><span style="font-weight: normal;">Использование данной технологии применительно к решаемой задаче заключается в адаптации выбранного алгоритма (PrefixSpan) к данной технологии – представлении функций, используемых в алгоритме, в виде комбинации функций Map и Reduce. Назначение данных функций подробно описано в [</span></span><span><span style="font-weight: normal;">5</span></span><span><span style="font-weight: normal;">]. </span></span></p>
<p align="justify"><span><span style="font-weight: normal;">ОБОБЩЕННЫЙ ВИД СИСТЕМЫ</span></span></p>
<p align="justify">В связи с увеличением числа данных, подлежащих обработке и анализу, в системы распределенного анализа требуется вводить в инфраструктуры, обеспечивающие гибкую работу с кластерами, на которых выполняются вычисления. Amazon EMR предоставляет управляемую инфраструктуру, которая способна эффективно обрабатывать большие объемы данных на динамически масштабируемых кластерах Amazon EC2.</p>
<p align="justify">На рисунке 4 представлена обобщенная архитектура системы анализа потоковых данных на кластерах с использованием облачной инфраструктуры Amazon ERM.</p>
<p align="center"><a href="https://technology.snauka.ru/2017/05/13383/4-88" rel="attachment wp-att-13385"><img class="alignnone size-full wp-image-13385" src="https://technology.snauka.ru/wp-content/uploads/2017/05/41.png" alt="" width="509" height="276" /></a></p>
<p align="center">Рисунок 4. Архитектура системы</p>
<p align="justify">Выявление паттернов в последовательностях категориальных данных предлагается выполнить на основе алгоритма PrefixSpan, адаптированного для распределенной работы с использованием технологии MapReduce. Модель MapReduce может быть реализована на платформе анализа данных Apache Spark, которая представляет собой новую кластерную распределенную вычислительную среду, предназначенную для итерационных вычислений с низкой задержкой [6, с. 3].</p>
<p align="justify">Данный фреймворк позволяет эффективно распределять нагрузку по кластерам при выполнении операций алгоритма PrefixSpan. Spark доступен для запуска в Amazon EMR, благодаря чему разворачивание распределенной кластерной архитектуры становится доступнее. Кроме того, программый интерфейс Apache Spark доступен на языках программирования высокого уровня Java, Python и Scala, что обеспечивает простоту поддержки и интеграции с другими компонентами, а также последующего расширения системы.</p>
]]></content:encoded>
			<wfw:commentRss>https://technology.snauka.ru/2017/05/13383/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>
