Information technology. Big data. Overview and vocabulary
ОКС 35.020
Дата введения - 1 ноября 2021 г.
Введен впервые
Полужирный, светлый шрифты, а также курсив в тексте не приводятся
Предисловие
1 Подготовлен Федеральным государственным бюджетным образовательным учреждением высшего образования "Московский государственный университет имени М.В. Ломоносова" (МГУ имени М.В. Ломоносова) в лице Научно-образовательного центра компетенций в области цифровой экономики МГУ и Автономной некоммерческой организацией "Институт развития информационного общества" (ИРИО) на основе собственного перевода на русский язык англоязычной версии стандарта, указанного в пункте 4
2 Внесен Техническим комитетом по стандартизации ТК 164 "Искусственный интеллект"
3 Утвержден и введен в действие Приказом Федерального агентства по техническому регулированию и метрологии от 13 июля 2021 г. N 632-ст
4 Настоящий стандарт идентичен международному стандарту ИСО/МЭК 20546:2019 "Информационные технологии - Большие данные - Обзор и словарь" (ISO/IEC 20546:2019 "Information technology - Big data - Overview and vocabulary", IDT).
Дополнительные сноски в тексте стандарта, выделенные курсивом, приведены для пояснения текста стандарта
5 Введен впервые
Введение
Установленные в настоящем стандарте термины и определения расположены в порядке, отражающем систему понятий данной области знания.
Для каждого понятия установлен один стандартизованный термин.
В стандарте приводятся эквиваленты стандартизованных терминов на английском (en) языке.
Стандартизованные термины набраны полужирным шрифтом, их краткие формы - светлым, а недопустимые термины-синонимы - курсивом.
1 Область применения
Настоящий стандарт содержит набор терминов и определений, необходимых для улучшения информационного взаимодействия и формирования русскоязычных понятий в области информационных технологий и больших данных. Он обеспечивает терминологическую основу для стандартов, связанных с большими данными.
Термины, установленные настоящим стандартом, обязательны для применения во всех видах документации и литературы по данной научно-технической отрасли, входящих в сферу работ по стандартизации и (или) использующих результаты этих работ.
2 Нормативные ссылки
Нормативные ссылки в настоящем стандарте отсутствуют.
3 Термины и определения
В настоящем стандарте применены следующие термины с соответствующими определениями.
ISO (ИСО) и IEC (МЭК) поддерживают терминологические базы данных для использования в стандартизации по следующим адресам:
- Онлайн-библиотека стандартов ISO (ИСО): доступна по адресу: https://www.iso.org/obp;
- Международный электротехнический словарь МЭК (IEC Electropedia): доступен по адресу: http://www.electropedia.org/.
3.1 Термины
3.1.1 выгода (benefit): Польза для организации от практически полезных знаний, полученных из аналитической системы.
Примечание - Большие данные часто ассоциируются с выгодой вследствие понимания того, что данные имеют потенциальную ценность, ранее обычно не рассматриваемую.
3.1.2 большие данные (big data): Большие массивы данных (3.1.11), отличающиеся главным образом такими характеристиками, как объем, разнообразие, скорость обработки и/или вариативность, которые требуют использования технологии масштабирования для эффективного хранения, обработки, управления и анализа.
Примечание - Термин "большие данные" широко применяется в различных значениях, например в качестве наименования технологии масштабирования, используемой для обработки больших массивов данных.
3.1.3 облачные вычисления (cloud computing): Парадигма для предоставления возможности сетевого доступа к масштабируемому и эластичному пулу общих физических или виртуальных ресурсов с предоставлением самообслуживания и администрированием по требованию.
Примечание - Примерами таких ресурсов являются серверы, операционные системы, сети, программное обеспечение, приложения и оборудование для хранения.
[ИСО/МЭК 17788:2014, 3.2.5]
3.1.4 кластер (в распределенной обработке данных) (cluster): Совокупность функциональных устройств, находящихся под общим управлением.
[ИСО/МЭК 2382:2015, 4.496]
3.1.5 данные (data): Представление информации в формальном виде, пригодном для передачи, интерпретации или обработки.
Примечание - Данные могут быть обработаны автоматически или вручную.
[ИСО/МЭК 2382:2015, 4.259]
3.1.6 аналитика данных (data analytics): Составное понятие, охватывающее получение, сбор, проверку и обработку данных (3.1.9), включая их количественную оценку, визуализацию и интерпретацию.
Примечание - Аналитика данных используется для представления объектов, описываемых данными (3.1.5), с целью прогнозирования конкретных ситуаций и формирования пошаговых рекомендаций при решении задач. Закономерности, полученные посредством аналитики, используются в различных целях, таких как принятие решений, проведение исследований, обеспечение устойчивого развития, проектирование, планирование и т.д.
3.1.7 база данных (database): Совокупность данных (3.1.5), организованная в соответствии с концептуальной структурой, в которой описываются характеристики этих данных и взаимосвязи между представляемыми ими сущностями для одной или нескольких областей применения.
[ИСО/МЭК 2382:2015, 2121413]
3.1.8 модель данных (data model): Схема данных (3.1.5), структурированная в базе данных (3.1.7) в соответствии с формальными описаниями в информационной системе и требованиями используемой системы управления базой данных.
[ИСО/МЭК 2382:2015, 2125519]
3.1.9 обработка данных (data processing): Систематическое выполнение операций с данными (3.1.5).
Примечания
1 Арифметические или логические операции с данными, объединение или сортировка данных или такие операции с текстом, как редактирование, сортировка, объединение, хранение, извлечение, отображение или печать.
2 Термин "обработка данных" не должен использоваться в качестве синонима для термина "обработка информации".
[ИСО/МЭК 2382:2015, 2121276]
3.1.10 наука о данных (data science): Извлечение практических знаний из данных (3.1.5) посредством исследования или создания и проверки гипотез.
3.1.11 массив данных (data set, dataset): Идентифицируемая совокупность данных (3.1.5), к которой можно получить доступ или скачать в одном или нескольких форматах.
[Адаптировано из ИСО 19115-2:2009, 4.7]
3.1.12 тип данных (data type, datatype): Совокупность объектов данных (3.1.5) установленной структуры и набора допустимых операций над этими объектами.
Примечания
1 Целочисленный тип данных имеет простую структуру, каждый экземпляр которой, обычно называемый значением, представляет собой одно из целых чисел из заданного диапазона, а допустимые действия включают в себя обычные арифметические операции над этими целыми числами.
2 Если толкование не вызывает сомнений, то вместо термина "тип данных" может быть использован термин "тип".
3 Тип данных: определение и термины, стандартизованные ИСО/МЭК [ИСО/МЭК 2382-15:1999].
[ИСО/МЭК 2382:2015, 2122374]
3.1.13 вариативность данных (data variability): Изменения в скорости передачи, формате или структуре, семантике или качестве массива данных (3.1.11).
3.1.14 разнообразие данных (data variety): Диапазон форматов, логических моделей, временных шкал и семантики массива данных (3.1.11).
Примечание - Данное понятие отражает нерегулярность и разнородность структур данных, навигации по структурам, запросов и типов данных.
3.1.15 скорость обработки данных (data velocity): Скорость потока, с которой данные (3.1.5) создаются, передаются, сохраняются, анализируются или визуализируются.
3.1.16 достоверность данных (data veracity): Полнота и/или точность данных (3.1.5).
Примечание - Под достоверностью данных понимают описательные данные и самоанализ объектов для поддержки принятия решений в режиме реального времени.
3.1.17 изменчивость данных (data volatility): Характеристика данных (3.1.5), относящаяся к скорости их изменения с течением времени.
[ИСО/МЭК 2382:2015, 2121506]
3.1.18 объем данных (data volume): Количественная характеристика данных (3.1.5), влияющая на выбор ресурсов для вычислений и хранения, а также на управление данными в процессе обработки.
Примечание - Объем данных становится важным при работе с большими массивами данных (3.1.11).
3.1.19 распределенная обработка данных (distributed data processing): Обработка данных, при которой выполнение операций распределено по узлам вычислительной сети.
[ИСО/МЭК 2382:2015, 4.1166]
3.1.20 распределенная файловая система (distributed file system): Система, управляющая файлами и папками в нескольких связанных сетью системах.
3.1.21 файл (file): Поименованная совокупность записей, рассматриваемая как единое целое.
[ИСО/МЭК 2382:2015, 4.1470]
3.1.22 сборка (gather): Объединение результатов из нескольких узлов в кластере.
Примечание - См. распределение-сборка (3.2.33) 1).
------------------------------
1)Согласно оригиналу.
------------------------------
3.1.23 горизонтальное масштабирование (horizontal scaling): Формирование единого логического целого путем соединения нескольких аппаратно-программных комплексов.
Примечания
1 Примером горизонтального масштабирования является повышение производительности распределенной обработки данных путем добавления узлов в кластере с целью подключения (привлечения) дополнительных ресурсов.
2 Горизонтальное масштабирование для увеличения производительности также называется масштабированием вширь (scale-out).
3.1.24 метаданные (metadata): Данные (3.1.5) о данных или элементах данных, которые могут включать описание, а также сведения о владельце данных, путях доступа к ним, правах доступа и изменчивости данных (3.1.17).
[ИСО/МЭК 2382:2015, 2121505]
3.1.25 нереляционная база данных (non-relational database): База данных (3.1.7), не соответствующая реляционной модели (3.1.31).
Примечание - "NoSQL", что обычно переводится как "не SQL" или "не только SQL", является общеупотребительным термином для обозначения баз данных, не соответствующих реляционной модели.
3.1.26 нереляционная модель данных (non-relational model): Логическая модель данных (3.1.10), не соответствующая реляционной модели (3.1.31) хранения и обработки данных (3.1.5).
3.1.27 параллельность (parallel): Относится к процессу, в котором все события происходят в одном и том же интервале времени, и при этом каждое из них обрабатывается отдельной, но схожей функциональной единицей.
Примечание - Параллельная передача битов компьютерного слова по линиям внутренней шины.
[ИСО/МЭК 2382:2015, 2121654]
3.1.28 частично структурированные данные (partially structured data): Данные (3.1.5), в которых присутствует определенная степень организации.
Примечания
1 Частично структурированные данные в практической деятельности часто называют полуструктурированными.
2 Примерами частично структурированных данных являются записи со свободными текстовыми полями в дополнение к более структурированным данным. Такие данные часто представлены в компьютерно-интерпретируемых/разбираемых форматах, таких как ХМL или JSON.
[ИСО/МЭК 2382:2015, 2121654]
3.1.29 реляционная алгебра (relational algebra): Алгебра для выражения и манипулирования отношениями.
[ИСО/МЭК 2382:2015, 2121473]
3.1.30 реляционная база данных (relational database): База данных (3.1.7), данные в которой организованы по реляционной модели (3.1.31).
[ИСО/МЭК 2382:2015, 2121470]
3.1.31 реляционная модель данных (relational model): Модель данных (3.1.10), структура которой основана на реляционных отношениях.
[ИСО/МЭК 2382:2015, 2121469]
3.1.32 распределение (scatter): Распределение обработки по нескольким узлам в кластере (3.1.4).
Примечание - См. распределение-сборка (3.2.33) 1).
------------------------------
1)Согласно оригиналу.
------------------------------
3.1.33 распределение-сборка (scatter-gather): Вид обработки больших массивов данных (3.1.11), при которой необходимые вычисления разделяются и распределяются по нескольким узлам в кластере, а общий результат формируется путем объединения результатов от каждого узла.
Примечание - Обработка методом распределения-сборки обычно требует алгоритмического изменения обрабатывающего программного обеспечения. Примером обработки данных методом распределения-сборки является MapReduce.
3.1.34 потоковые данные (streaming data): Данные (3.1.5), передаваемые через интерфейс от непрерывно работающего источника.
[ИСО/МЭК 19784-4:2011, 4.4]
3.1.35 структурированные данные (structured data): Данные (3.1.5), организованные на основе предопределенного (применимого) набора правил.
Примечания
1 Предопределенный набор правил, регулирующих основу для структурирования данных, должен быть четко изложен и опубликован.
2 Предопределенная модель данных часто используется для управления структурированием данных.
3.1.36 SQL: Язык баз данных, описанный в ИСО/МЭК 9075.
Примечание - Аббревиатура SQL иногда расшифровывается как "язык структурированных запросов" (Structured Query Language), но это название не используется в серии стандартов ИСО/МЭК 9075.
3.1.37 неструктурированные данные (unstructured data): Данные (3.1.5), характеризуемые отсутствием какой-либо структуры, кроме структуры на уровне записи или файла.
Примечания
1 В целом неструктурированные данные не состоят из элементов данных.
2 Примером неструктурированных данных является произвольный текст.
3.1.38 вертикальное масштабирование (vertical scaling): Повышение производительности обработки данных за счет улучшения характеристик процессоров, памяти, хранения или коннективности.
Примечание - Вертикальное масштабирование для увеличения производительности также называется масштабированием ввысь (scale-up).
3.2 Сокращения
JSON - обозначение объектов Javascript;
PII - персональные данные;
XML - расширяемый язык разметки.
4 Ключевые характеристики больших данных
4.1 Общие сведения
При выборе системы больших данных необходимо руководствоваться четырьмя характеристиками - объемом, скоростью обработки, разнообразием и вариативностью данных (см. 4.2.4). Управление этими характеристиками определяется средствами обработки в соответствии с описанием в 4.2.
4.2 Ключевые характеристики данных
4.2.1 Объем данных. Объем данных представляет собой определенное количество данных, доступных для анализа с целью извлечения полезной информации. Одним из основных факторов развития технологий обработки больших данных стал рост объемов данных, как следствие интернет-активности.
4.2.2 Скорость обработки данных. Скорость обработки данных - это скорость потока создания, хранения, анализа и визуализации данных. Скорость обработки больших данных означает необходимость обработки большого количества данных за короткий промежуток времени. В качестве примеров работы с данными с высокой скоростью обработки обычно приводят средства обработки потоковых данных.
4.2.3 Разнообразие данных. Свойство разнообразия данных отражает необходимость анализа данных разных типов из различных предметных областей. Как правило, проблема разнообразия данных решалась посредством их преобразования или проведения предварительного анализа с целью выявления свойств, позволяющих объединить их с другими данными. Более широкий диапазон форматов данных, логических моделей, временных шкал и семантики, которые предпочтительно использовать при аналитике, усложняет интеграцию разнообразных данных. В качестве средства, способствующего интеграции, все чаще используются метаданные. Одним из результатов влияния разнообразия на большие данные является необходимость представления семантики данных в машиночитаемом виде.
4.2.4 Вариативность данных. Вариативность данных означает изменения в скорости передачи данных, их формате/структуре, семантике и/или качестве, которые влияют на поддерживаемое приложение, аналитику или проблему. Влияние вариативности может заключаться в необходимости проведения реорганизации архитектур, интерфейсов, методов обработки/алгоритмов, интеграции/слияния, хранения, применимости или использования данных. В дополнение следует отметить, что вариативность объемов данных подразумевает необходимость увеличения или уменьшения виртуализированных ресурсов для эффективного управления дополнительной нагрузкой на обработку.
4.3 Ключевые характеристики обработки данных
4.3.1 Наука о данных. Наука о данных изучает процесс извлечения из них знаний. Используемый научный подход может заключаться либо в проведении исследований, либо в проверке гипотез. Наука о данных изучает полный жизненный цикл аналитики данных, в котором аналитика данных понимается согласно 3.1.6.
4.3.2 Изменчивость данных. Изменчивость данных связана с ограниченным промежутком времени, в течение которого значения данных остаются актуальными для конкретного анализа, и определяется динамикой изменений.
В тех
Если вы являетесь пользователем интернет-версии системы ГАРАНТ, вы можете открыть этот документ прямо сейчас или запросить по Горячей линии в системе.
Национальный стандарт РФ ГОСТ Р ИСО/МЭК 20546-2021 "Информационные технологии. Большие данные. Обзор и словарь" (утв. и введен в действие приказом Федерального агентства по техническому регулированию и метрологии от 13 июля 2021 г. N 632-ст)
Текст ГОСТа приводится по официальному изданию Стандартинформ, Москва, 2021 г.
Дата введения - 1 ноября 2021 г.