УДК 004.622

ПРОБЛЕМА НАКОПЛЕНИЯ БОЛЬШИХ ДАННЫХ В ТЕКСТОВОЙ ФОРМЕ

Лукин Семен Андреевич¹, Голубничий Артем Александрович²
¹Хакасский государственный университет им. Н.Ф. Катанова, магистрант кафедры программного обеспечения вычислительной техники и автоматизированных систем
²Хакасский государственный университет им. Н.Ф. Катанова, ассистент кафедры инженерной экологии и основ производства

Аннотация
В статье рассматриваются основные виды источников неструктурированных данных в текстовой форме, расположенные в сети Интернет. Описываются их особенности и специфика, как с позиции сбора информации, так и с позиции ее полезности.

Ключевые слова: большие данные, накопление данных

THE PROBLEM OF THE ACCUMULATION BIG DATA IN TEXT FORM

Lukin Semen Andreevich¹, Golubnichiy Artem Aleksandrovich²
¹Katanov Khakass State University, Student of the Department of Computing Software and Automated Systems
²Katanov Khakass State University, Assistant at the Department of Engineer Ecology and Bases of Production

Abstract
The article deals with the main types of sources of unstructured data in text form, located on the Internet. It describes their features and peculiarities, both from the point of collecting information, and from the standpoint of its usefulness.

Keywords: big data, data accumulation

Библиографическая ссылка на статью:
Лукин С.А., Голубничий А.А. Проблема накопления больших данных в текстовой форме // Современная техника и технологии. 2016. № 9 [Электронный ресурс]. URL: https://technology.snauka.ru/2016/09/10475 (дата обращения: 23.07.2023).

В настоящее время развитие информационных технологий, в том числе сети Интернет, привело к образованию большого количества данных. Отличительной особенностью хранение информации является факт ее слабой структурированности. Метаинформация, необходимая для конкретного описания данных, по большей части практически полностью отсутствует, исключением являются лишь хорошо структурированные базы данных. Таким образом, соответственно, большая часть информации, размещенная в сети Интернет в текстовой форме, имеет потенциальную полезность, однако обработка этих данных затруднительна. Практически все системы обработки больших данных работают исключительно с численными данными, используя подходы реализованные в Data Mining, Business Intelligence и т.д.

Неструктурированная текстовая информация требует обработки человеком-экспертом (аналитиком), при этом объемы данных, образуемых в текстовой форме, также относятся к категории больших (Big Data). Исходя из этого факта возникает необходимость автоматизации обработки данных, однако прежде чем переходить к методам, применяемым для анализа неструктурированной информации, необходимо определиться с источниками ее поступления. В зависимости от источника поступления методы применяемые в том или ином случае будут отличаться. Большая часть данных формируемая в сети Интернет представлена 4 источниками:

сканирование web-страниц;
данные, полученные из социальных сетей;
запросы поисковых систем;
данные агрегаторов информации

Сканирование веб-страниц. Данный подход отличается значительно простотой для получения данных Интернет-ресурсов. Популярность данного подхода породила большое количество готовых систем для анализа. Большая часть систем выполняет аналогичные функции по мониторингу ресурсов, сбору, обработке и преобразованию данных в структуры и их простейший анализ. Типичные примеры подобных систем Web Data Extraсtor [1], WebSunDew [2], Kapow Katalyst [3] и др.

Данные, полученные из социальных сетей. Контент социальных сетей отличается большей упорядоченностью, за счет схожести структур данных, и персонифицированностью, за счет возможности получения сведений об источнике информации. Также у данного рода информации есть особенность появления и обновления. Информация в социальных сетях появляется и обновляется быстрее всех остальных источников данных.

Сбор информации из социальных сетей отличен от сканирования веб-страниц. Применение методов прямого сканирования веб-страниц возможно, однако в случае социальных сетей, излишняя нагрузка на серверы при сканировании может быть воспринята как DoS-атака и заблокирована. Для получения сведений из социальных сетей чаще используют или специализированные программные интерфейсы или прибегают к услугам специализированных агрегаторов – посредников в получении информации [4-6].

Запросы поисковых систем. Поисковые системы обладают необходимым вычислительным потенциалом для сканирования всех материалов сети Интернет. Роботы, используемые поисковыми системами, периодически просматривают сайты и соответствующим образом индексируют страницы, что делает более результативным и быстрым поиск по заданной теме.

У поисковых запросов, как источника информации, есть несколько явных недостатков: во-первых значительные объемы информации, с которыми сталкиваются роботы, приводят к тому, что обновление информации в поисковом индексе, по сравнению с обновлением данных на сайте, идет со значительным отставанием; во-вторых закрытый алгоритм релевантности результатов, выданных по поисковым запросам, оставляет открытым вопрос об актуальности материалов, так нужная информация может содержаться в результате выдачи, находящимся за пределами рассматриваемого диапазона, лишь по причине настройки оценки релевантности в таком виде; в-третьих фильтрация результатов поиска, заложенная в поисковых системах, может в принципе исключить необходимую информацию по причине нарушения авторских прав, соглашений и т.д. Таким образом, использование поисковых систем в качестве основного источника информации представляется затруднительным.

Данные агрегаторов. В сети в последнее время появляется все больше тематических сообществ (порталов) агрегирующих контент по какой-то конкретной теме. Причем тематика данных порталов различна, в качестве типичных примеров стоит привести проект Habrahabr [7], специализирующийся на компьютерной тематике и GIS-Lab [8], тематика данного сайта посвящена географическим информационным системам и дистанционному зондированию Земли. Аналогичных ресурсов по разным темам в сети Интернет множество. Особенностью ресурсов данного вида является тот факт, что информация, содержащаяся на них, проходит обязательную редакцию и поэтому потенциально более полезна. При этом наличие агрегаторов способствует дублированию информации, что может усложнить процесс анализа. Выбор сайтов-агрегаторов осуществляется заранее по предметным областям, при этом данный выбор осуществляется не автоматизированными средствами, аналитиком-экспертом.

Выбор необходимых групп источников для получения и обработки информации сложная задача, которая решается исключительно экспертом, при этом зная существующие сложности, преимущества и особенности каждого из них, процесс сбора и анализа данных значительно упрощается.

Библиографический список

Web Data Extractor – Extract Email, URL, Meta Tag, Phone, Fax from Websites [электронный ресурс]. URL: http://www.webextractor.com (дата обращения: 22.08.2016).
Web Scraping, Web Extraction, WebSundew [электронный ресурс]. URL: http://www.websundew.com/ (дата обращения: 22.08.2016).
Kapow Katalyst: The Leading Application Integration Platform for connecting cloud, mobile, social and big data – Kapow Software [электронный ресурс]. URL: http://www.kapowsoftware.com/products/kapow-katalyst/index.php (дата обращения: 22.08.2016).
The Source for Social Data – Gnip [электронный ресурс]. URL: http://gnip.com/ (дата обращения: 22.08.2016).
Spinn3r: RSS Content, News Feeds, News Content, News Crawler and Web Crawler APIs [электронный ресурс]. URL: http://www.spinn3r.com/ (дата обращения: 22.08.2016).
Oracle Social Cloud, Social Relationship Management (SRM) Solutions | Oracle [электронный ресурс]. URL: http://www.oracle.com/us/solutions/social/overview/index.html (дата обращения: 22.08.2016).
О сайте / Хабрахабр [электронный ресурс]. URL: http://habrahabr.ru/info/about (дата обращения: 22.08.2016).
GIS-Lab: O GIS-Lab [электронный ресурс]. URL: http://gis-lab.info/about.html (дата обращения: 22.08.2016).

Все статьи автора «Голубничий Артем Александрович»

Связь с автором (комментарии/рецензии к статье)

Оставить комментарий

Вы должны авторизоваться, чтобы оставить комментарий.

Если Вы еще не зарегистрированы на сайте, то Вам необходимо зарегистрироваться:

Авторам

О журнале

ПРОБЛЕМА НАКОПЛЕНИЯ БОЛЬШИХ ДАННЫХ В ТЕКСТОВОЙ ФОРМЕ

THE PROBLEM OF THE ACCUMULATION BIG DATA IN TEXT FORM

Связь с автором (комментарии/рецензии к статье)

Оставить комментарий