Откройте актуальную версию документа прямо сейчас
Если вы являетесь пользователем интернет-версии системы ГАРАНТ, вы можете открыть этот документ прямо сейчас или запросить по Горячей линии в системе.
Приложение А
(справочное)
Сквозные понятия в сфере больших данных
А.1 Общие сведения
Развитие систем больших данных оказывает влияние на дискуссии и процессы стандартизации в других технологических областях. В данном приложении обсуждаются связи области больших данных с другими областями разработки стандартов.
А.2 Метаданные
Метаданные представляют собой описательные данные, включая, например, описание истории обработки данных. Системы больших данных спроектированы для выполнения распределенной обработки данных, в том числе тех, которые являются внешними и не находятся под контролем системы больших данных, поэтому использование метаданных становится все более значимой концепцией. Большие данные повторно используются для целей, не связанных с целями, для которых они собирались, поэтому важно, чтобы любые данные, доступ к которым предоставляется другим сторонам, были снабжены адекватными метаданными. Метаданные также включают в себя сведения об источниках данных и об использовании данных. Их можно разделить на бизнес- и технические метаданные.
А.3 Алгоритмы
При разработке алгоритмов анализа больших данных необходимо учитывать требования распределенной обработки, поскольку ранее данные обычно хранились на локальных устройствах. Алгоритмы обработки больших данных в узлах должны быть адаптированы к горизонтальному масштабированию, чтобы явно учитывать распределение данных по узлам.
А.4 Кластерные вычисления
Кластерные вычисления относятся к распределению процессов по компьютерной сети. Для работы аппаратной среды как единого целого используется специализированное программное обеспечение. Если поместить уровень служб поверх аппаратной среды, то будут достигнуты преимущества облачных вычислений.
Примечание - В данном перефразированном определении кластерных вычислений под кластером понимается "комбинация набора взаимосвязанных компьютеров/серверов".
А.5 Облачные вычисления
Облачные вычисления - одна из парадигм доступности и управления ресурсами для систем больших данных. Существует несколько ключевых характеристик, часто присущих применению облачных вычислений, в том числе: широкополосный доступ, измеримое обслуживание, многопользовательский режим, самообслуживание по требованию, быстрая адаптация и масштабируемость, а также объединение ресурсов. Облачные вычисления для инфраструктуры, платформ или приложений могут применяться при формировании системы больших данных.
А.6 Безопасность данных
Системы больших данных из-за распределенного характера обработки имеют дополнительные проблемы с безопасностью. Дополнительные уязвимости возникают, например, при распределенном использовании и управлении физической компьютерной и сетевой инфраструктурами, а также при контроле доступа на каждом слое программного обеспечения и системы хранения. Обычно в среде распределенной обработки данных осуществляются шифрование, маскирование и управление доступом на основе ролей для обеспечения всесторонней защиты данных на всех слоях, включая передачу данных по сети. Некоторые примеры массивов данных, для которых обязателен высокий уровень безопасности, включают конфиденциальную информацию о клиентах, сведения о продуктах, коммерческие сведения компаний, данные счетов и финансовые транзакции, медицинские записи пациентов, а также сведения, относящиеся к национальной обороне и безопасности.
А.7 Требования по защите персональных данных
Существуют законодательные и нормативные требования, которые влияют на использование персональных данных и регулируют его. Все больше персональных данных можно получить из сети Интернет, социальных сетей, устройств слежения и т.д. В широком смысле защита персональных данных - это совокупность правовых и нормативных требований, которые обеспечивают право отдельных лиц на контроль не только над использованием их персональных данных, но также их достоверностью, аспектами жизненного цикла (включая принудительное удаление) и т.д. Кроме того, ключевым правом защиты персональных данных является право "информированного согласия" человека в отношении использования его персональных данных. Интеграция массивов данных из разнородных источников может приводить к созданию наборов персональных данных или получению нового способа их использования, отличного от цели, для которой получено осознанное согласие конкретного лица на использование таких персональных данных. Поэтому любая организация, разрабатывающая и использующая системы больших данных, несет юридическую и фидуциарную ответственность за обеспечение полной поддержки и внедрения всех применимых норм по защите персональных данных в тех случаях, когда их деятельность связана с обработкой персональных данных.
А.8 SQL
SQL - это стандартный (см. серию стандартов ИСО/МЭК 9075) интерактивный язык программирования, предназначенный для создания запросов, обновления и управления данными и их массивами в базе данных. SQL предназначен для работы со структурированными данными и предоставляет полноценную и всеобъемлющую структуру для доступа к данным, а также поддерживает широкий спектр эффективных аналитических функций. Расширения баз данных SQL поддерживают обнаружение столбцов в широком диапазоне массивов данных: не только реляционных таблиц/представлений, но также XML, JSON, пространственных объектов, объектов, схожих с изображениями (больших двоичных объектов и больших символьных объектов), и семантических объектов. Системы управления данными NoSQL, предназначенные для поддержки нетабличных структурированных данных, а также неструктурированных и полуструктурированных данных, еще не сделали выбор в пользу одного общего языка доступа. Во многих вариантах реализации NoSQL приняты SQL-подобные языки, включающие некоторое подмножество стандартного SQL с расширениями, поддерживающими специфические особенности реализаций NoSQL.
А.9 Параллельные вычисления
Большие данные обычно связаны с распределенной интенсивной обработкой данных в узлах кластера. Сообщество специалистов в области моделирования уже много лет разрабатывает методы интенсивного использования компьютерных вычислений в больших вычислительных кластерах. Учитывая, что оба подхода представляют собой крайние случаи для крупномасштабных вычислений и анализа данных, технологии обоих подходов будут использоваться для спектра возможностей, требующих как интенсивных компьютерных вычислений, так и интенсивной обработки данных.
А.10 Интернет вещей
Одновременно с увеличением объема данных создаются вычислительные системы, способные эти данные анализировать. Пользователи предпочитают использовать объем данных, доступных с различных сенсоров и других источников, что обеспечивает эффективную предсказательную аналитику для управления и контроля сетевых решений. Технологические достижения в области сенсоров, а также развертывание протокола IPV6 для обеспечения интернет-коннективности этих устройств порождают потребность в системах больших данных, которые могут обрабатывать потоковые данные из нескольких источников, обладающих высокой скоростью генерации. Подобные системы отличаются от систем, создаваемых для пакетной обработки малого числа больших массивов данных. Различие в характеристиках массивов данных оказывает прямое влияние на архитектуру систем и методы анализа данных.
А.11 Языки программирования
Анализ расширенных данных с использованием статистических вычислений является фундаментальным методом в парадигме больших данных. Системы аналитики больших данных могут разрабатываться с использованием базовых языков программирования. Потребности в распределенной обработке данных привели к появлению новых языков программирования, языков запросов и процессов обработки, пригодных для создания систем больших данных. Языки программирования (см. примечание), как правило, имеют общедоступные среды разработки, библиотеки и среды выполнения для обеспечения эффективной обработки больших данных с использованием параллельных вычислений и хранения. Среди новых процессов - распределение-сборка данных для их распределенной обработки.
Примечание - Примеры языков включают в себя R, Python, Scala, Java и т.д.
<< Назад |
||
Содержание Национальный стандарт РФ ГОСТ Р ИСО/МЭК 20546-2021 "Информационные технологии. Большие данные. Обзор и словарь"... |
Если вы являетесь пользователем интернет-версии системы ГАРАНТ, вы можете открыть этот документ прямо сейчас или запросить по Горячей линии в системе.