Information technology. Big data reference architecture. Part 2. Use cases and derived requirements
УДК 004.01:006.354
ОКС 35.020
Дата введения - 1 марта 2022 г.
Введен впервые
Курсив в тексте не приводится
Предисловие
1 Подготовлен Федеральным государственным бюджетным образовательным учреждением высшего образования "Московский государственный университет имени М.В. Ломоносова" (МГУ имени М.В. Ломоносова) в лице Научно-образовательного центра компетенций в области цифровой экономики МГУ и Автономной некоммерческой организацией "Институт развития информационного общества" (ИРИО) на основе собственного перевода на русский язык англоязычной версии документа, указанного в пункте 4
2 Внесен Техническим комитетом по стандартизации ТК 164 "Искусственный интеллект"
3 Утвержден и введен в действие Приказом Федерального агентства по техническому регулированию и метрологии от 2 декабря 2021 г. N 1685-ст
4 Настоящий стандарт идентичен международному документу ISO/IEC TR 20547-2:2018 "Информационные технологии. Эталонная архитектура больших данных. Часть 2. Варианты использования и производные требования" (ISO/IEC TR 20547-2:2018 "Information technology - Big data reference architecture - Part 2: Use cases and derived requirements", IDT).
При применении настоящего стандарта рекомендуется использовать вместо ссылочных международных стандартов соответствующие им национальные стандарты, сведения о которых приведены в дополнительном приложении ДА.
Дополнительные сноски в тексте стандарта, выделенные курсивом, приведены для пояснения текста стандарта
5 Введен впервые
Введение
Международная организация по стандартизации (ИСО) и Международная электротехническая комиссия (МЭК) вместе образуют специализированную систему всемирной стандартизации. Национальные органы по стандартизации, являющиеся членами ИСО или МЭК, принимают участие в разработке международных стандартов через технические комитеты, созданные соответствующей организацией для рассмотрения вопросов, касающихся конкретных областей технической деятельности. Технические комитеты ИСО и МЭК сотрудничают в областях, представляющих взаимный интерес. Другие международные правительственные и неправительственные организации в сотрудничестве с ИСО и МЭК также принимают участие в этой работе. В области информационных технологий ИСО и МЭК создали Совместный технический комитет ИСО/МЭК СТК1 (ISO/IEC JTC1).
Процедуры, как использованные при подготовке настоящего стандарта, так и те, что будут применяться для его последующей поддержки, описаны в части 1 Директив ИСО/МЭК. Следует в первую очередь обратить внимание на отличающиеся критерии утверждения для различных типов документов. Данный стандарт был подготовлен в соответствии с правилами редактирования, установленными частью 2 Директив ИСО/МЭК (см. www.iso.org/directives).
Следует иметь в виду возможность того, что некоторые элементы данного стандарта могут подпадать под действие патентного права. ИСО и МЭК не несут ответственности за идентификацию соответствующих патентных прав. Детальные сведения о патентных правах, выявленных в ходе разработки настоящего стандарта, будут содержаться во введении и/или в публикуемом ИСО списке полученных патентных деклараций (см. www.iso.org/patents).
Любые торговые марки, использованные в данном стандарте, представляют собой информацию, приводимую для удобства пользователей, и их упоминание не является формой поддержки или одобрения.
Разъяснение добровольного характера стандартов, объяснение смысла специфических терминов и выражений ИСО, связанных с оценкой соответствия, а также сведения о приверженности ИСО принципам Всемирной торговой организации (ВТО) в отношении технических барьеров в торговле (ТВТ), см. www.iso.org/iso/foreword.html.
Настоящий стандарт был подготовлен Совместным техническим комитетом ИСО/МЭК СТК1 "Информационные технологии".
Список всех частей стандарта ИСО/МЭК 20547 можно найти на веб-сайте ИСО.
Данный документ направлен на формирование сообщества, объединяющего интересы представителей промышленности, академических кругов и правительства, с целью подготовки согласованного перечня технических аспектов в области больших данных всех заинтересованных сторон. Эта работа включала сбор и изучение вариантов использования в различных областях (то есть областях применения). Для достижения этой цели были решены следующие задачи:
- собраны материалы, связанные с техническими аспектами работы с большими данными всех заинтересованных сторон;
- проанализирован и приоритизирован перечень технических проблем, возникающих в сложных вариантах использования, которые могут привести к задержке или помешать внедрению технологий больших данных;
- подготовлен всеобъемлющий перечень обобщенных технических аспектов в области работы с большими данными для стандарта ИСО/МЭК 20547-3 "Информационные технологии. Эталонная архитектура больших данных. Часть 3. Эталонная архитектура" (Information technology - Big data reference architecture - Part 3: Reference architecture);
- полученные результаты зафиксированы в настоящем стандарте.
1 Область применения
Настоящий стандарт содержит анализ вариантов использования больших данных в различных областях применения, а также выводы, сделанные на основе этого анализа.
2 Нормативные ссылки
В настоящем стандарте использованы нормативные ссылки на следующие стандарты [для датированных ссылок применяют только указанное издание ссылочного стандарта, для недатированных - последнее издание (включая все изменения)]:
ISO/IEC 20546, Information technology - Big data - Definition and vocabulary (Информационные технологии. Большие данные. Обзор и словарь).
3 Термины и определения
В настоящем стандарте применены термины и определения, представленные в ИСО/МЭК 20546 и приведенные ниже.
Терминологические базы данных для использования в стандартизации поддерживаются ИСО и МЭК по следующим адресам:
- Электропедия МЭК доступна по адресу http://www.electropedia.org/;
- платформа онлайн-просмотра ИСО: доступна по https://www.iso.org/obp/.
3.1 Термины, определенные в других источниках
Отсутствуют.
3.2 Термины, определенные в настоящем стандарте
3.2.1 вариант использования (use case): Типичное применение, сформулированное на высоком уровне для выделения технических особенностей или сравнения практики использования в различных областях.
3.3 Сокращения
2D - двумерный;
3D - трехмерный;
6D - шестимерный;
AOD - данные по объекту анализа (Analysis Object Data);
API - интерфейс программирования приложений (Application Programming Interface);
ASDC - центр обработки атмосферных данных 1) (Atmospheric Science Data Center);
------------------------------
1)Подразделение научно-исследовательского центра HACA в Лэнгли, США.
------------------------------
ASTM - Американское общество испытаний и материалов (American Society for Testing and Materials);
AWS - платформа облачных сервисов компании Амазон (Amazon Web Services);
BC/DR - непрерывность деятельности и восстановление после чрезвычайных ситуаций (Business Continuity and Disaster Recovery);
BD - большие данные (Big data);
BER - Управление биологических и экологических исследований Министерства энергетики США (Biological and Environmental Research);
BNL - Брукхейвенская национальная лаборатория, США (Brookhaven National Laboratory);
CAaaS - аналитика климата как сервис (Climate Analytics as a Service);
CADRG - формат для оцифрованных растровых изображений с ARC-сжатием (ARC Digitized Raster Graphic (ADRG);
CBSP - провайдер облачного брокерского сервера (CBSP Cloud Brokerage Service Provider);
CERES - проект HACA "Система для изучения облачности и излучения Земли" (Clouds and Earth's Radiant Energy System);
CERN - Европейский центр ядерных исследований (The European Organization for Nuclear Research), ЦЕРН;
CESM - модель климатической системы Земли (Community Earth System Model);
CFTC - Комиссия по торговле товарными фьючерсами (Commodity Futures Trading Commission), США;
CIA - конфиденциальность, целостность и доступность (Confidentiality, Integrity and Availability);
CINET - цифровая инфраструктура для исследований и анализа сетей и графов (Cyberinfrastructure for Network (Graph) Science and Analytics);
CMIP - проект сопоставления связанных климатических моделей (Coupled Model Intercomparison Project);
CMIP5 - пятая фаза проекта сопоставления связанных комплексных климатических моделей (Coupled Model Intercomparison Project 5);
CMS - компактный мюонный соленоид (Compact Muon Solenoid);
COSO - Комитет спонсорских организаций Комиссии Тредвея (Committee of Sponsoring Organizations of the Treadway Commission), США);
CPU - центральный процессор (Central Processing Unit);
CReSIS - Центр дистанционного зондирования ледяного покрова Университета Канзаса (Center for Remote Sensing of Ice Sheets), США;
CRTS - каталинский обзор оптических переходных процессов в режиме реального времени (Catalina Real-Time Transient Survey);
CSP - провайдер облачного сервиса (Cloud Service Provider);
CSS - каталинский обзор неба (Catalina Sky Survey);
CV - контролируемый словарь (Controlled Vocabulary);
DFC - Консорциум федеративных сетей данных (DataNet Federation Consortium);
DHTC - распределенные вычисления с высокой пропускной способностью (Distributed High Throughput Computing);
DNA - дезоксирибонуклеиновая кислота; ДНК (DeoxyriboNucleic Acid);
DOE - Министерство энергетики США;
DOJ - Министерство юстиции США;
DPO - онлайновые инструменты работы с данными Центра обработки атмосферных данных (Data Products Online);
EBAF - TOA - баланс и накопление энергии верхних слоев атмосферы (Energy Balanced and Filled-Top of Atmosphere). Средство генерации данных проекта НАСА "Система для изучения облачности и излучения Земли";
ЕС2 - эластичное вычислительное облако (Elastic Compute Cloud);
EDT - хранилище данных в Клинике Мейо (Enterprise Data Trust), США;
EHR - электронные данные (карта) здоровья (Electronic Health Record);
EMR - электронная медицинская карта (Electronic Medical Record);
EMSO - европейская междисциплинарная обсерватория исследования морского дна и слоев воды (European Multidisciplinary Seafloor and Water Column Observatory);
ENVRI - совместная деятельность европейских сетевых инфраструктур в области экологических исследований (Common Operations of Environmental Research Infrastructures);
ENVRI RM - эталонная модель ENVRI (ENVRI Reference Model);
EPOS - европейская исследовательская инфраструктура для слежения за [геологическими] плитами (European Plate Observing System);
ESFRI - европейский стратегический форум по исследовательским инфраструктурам (European Strategy Forum on Research Infrastructures);
ESG - грид-система обработки данных о Земле (Earth System Grid);
ESGF - федеративная грид-система обработки данных о Земле (Earth System Grid Federation);
FDIC - Федеральная корпорация страхования депозитов (U.S. Federal Deposit Insurance Corporation), США;
Fl - финансовый сектор (Financial Industries);
FLUXNET - сеть вышек для наблюдения за газовыми потоками (Flux Tower Network);
FMV - формат высококачественного видео (Full Motion Video);
FNAL - Национальная ускорительная лаборатория имени Ферми Fermi National Accelerator Laboratory, Fermilab), США;
GAAP - общепринятые принципы бухгалтерского учета США (U.S. Generally Accepted Accounting Principles);
GB - Гигабайт;
GCM - модель общей циркуляции (General Circulation Model);
GEOS-5 - годдардовская система наблюдения Земли, 5-я версия (Goddard Earth Observing System version 5);
GeoTiff - Tiff-формат изображения с указанием местоположения (Geo Tagged Image File Format);
GEWaSC - проект моделирования водоразделов с использованием генома (Genome-Enabled Watershed Simulation Capability);
GHG - парниковый газ (Green House Gas);
GMAO - Отдел глобального моделирования и ассимиляции Центра управления полетами имени Годдарда, HACA (Global Modeling and Assimilation Office);
GPFS - общая параллельная файловая система (General Parallel File System);
GPS - глобальная навигационная система (Global Positioning System);
GPU - графический процессор (Graphics Processing Unit);
GRC - стратегическое управление, управление рисками и соблюдение требований (Governance, Risk management, and Compliance);
GSFC - Центр управления полетами имени Годдарда, США (Goddard Space Flight Center);
HDF5 - иерархический формат данных, 5-я версия (Hierarchical Data Format);
HDFS - распределенная файловая система Hadoop (Hadoop Distributed File System);
HPC - высокопроизводительные вычисления (High-Performance Computing);
HTC - вычисления с высокой пропускной способностью (High-Throughput Computing);
HVS - хостинговый виртуальный сервер (Hosted Virtual Server);
I/O - ввод-вывод (Input Output);
IaaS - инфраструктура как сервис (Infrastructure as a Service);
IAGOS - использование самолетов в глобальной системе наблюдений (In-service Aircraft for a Global Observing System);
ICD - международная классификация болезней (International Classification of Diseases);
ICOS - интегрированная система наблюдения за выбросами углерода (Integrated Carbon Observation System);
IMG - проект "Интегрированные микробные геномы" Объединенного института генома Министерства энергетики США (Integrated Microbial Genomes);
INPC - инфраструктура клинических данных по уходу за пациентами штата Индиана (Indiana Network for Patient Care), США;
IPCC - Межправительственная группа экспертов по изменению климата (Intergovernmental Panel on Climate Change);
jRODS - интегрированная система управления данными, основанная на использовании правил (integrated Rule-Oriented Data System);
ISACA - Международная ассоциация аудита и контроля информационных систем (Information Systems Audit and Control Association);
isc2 - Международный консорциум по сертификации в области безопасности информационных систем (International Security Computer and Systems Auditors);
ISO - Международная организация по стандартизации (International Organization for Standardization);
ITIL - библиотека инфраструктуры информационных технологий (Information Technology Infrastructure Library);
JGI - объединенный институт генома Министерства энергетики США (Joint Genome Institute);
KML - язык разметки Keyhole (Keyhole Markup Language);
kWh - киловатт-час;
LaRC - Исследовательский центр в Ленгли, HACA (Langley Research Center);
LBNL - Национальная лаборатория имени Лоуренса в Беркли (Lawrence Berkeley National Laboratory), США;
LDA - латентное размещение Дирихле (latent Dirichlet allocation)
LHC - большой адронный коллайдер (Large Hadron Collider);
LPL - Лаборатория изучения Луны и планет в Университете Аризоны (Lunar and Planetary Laboratory), США;
LSST - большой синоптический обзорный телескоп в Обсерватории имени Веры Рубин (Large Synoptic Survey Telescope), Чили;
MERRA - система для ретроспективного анализа современной эры для исследований и приложений (Modern Era Retrospective Analysis for Research and Applications);
MERRA/AS - аналитические сервисы MERRA (MERRA Analytic Services);
MPI - интерфейс передачи сообщений (Message Passing Interface);
MRI - магнитно-резонансная томография (Magnetic Resonance Imaging);
NARA - Национальные архивы США (National Archives and Records Administration);
NARR - реанализ метеорологических данных для региона Северной Америки (North American Regional Reanalysis);
NaaS - сеть как сервис (Network as a Service);
NASA - Национальное управление по аэронавтике и исследованию космического пространства (National Aeronautics and Space Administration), США;
NCAR - Национальный центр атмосферных исследований (National Center for Atmospheric Research), США;
NCBI - Национальный центр биотехнологической информации (National Center for Biotechnology Information);
NCCS - Центр моделирования климата HACA (Center for Climate Simulation);
NERSC - Национальный научно-исследовательский вычислительный центр энергетических исследований Министерства энергетики США (National Energy Research Scientific Computing Center);
NetCDF - NetCDF-формат представления данных (Network Common Data Form);
NEX - платформа HACA для обмена данными о Земле (NASA Earth Exchange);
NFS - сетевая файловая система (Network File System);
NIKE - интегрированная сеть управления знаниями Национального института стандартов и технологий США (NIST Integrated Knowledge Editorial Net);
NIST - Национальный институт стандартов и технологий США (National Institute of Standards and Technology);
NITF - национальный формат передачи изображений (National Imagery Transmission Format);
NLP - обработка естественного языка (Natural Language Processing);
NRT - почти в режиме реального времени (Near Real Time);
NSF - Национальный научный фонд (National Science Foundation), США;
ODP - открытая распределенная обработка (Open Distributed Processing);
OGC - Открытый геопространственный консорциум (Open Geospatial Consortium);
PB - петабайт;
PCA - метод главных компонентов (Principal Component Analysis);
PCAOB - Некоммерческая организация по надзору за отчетностью публичных компаний (Public Company Accounting and Oversight Board), США;
PID - присвоение постоянного идентификатора (persistent identificator);
PII - персональные данные (Personally Identifiable Information);
PNNL - Тихоокеанская северо-западная национальная лаборатория (Pacific Northwest National Laboratory), США;
RDBMS - система управления реляционными базами данных (relational database management system);
RDF - среда описания ресурсов (Resource Description Framework);
RECOVER - система поддержки принятия решений по восстановлению экосистем (Rehabilitation Capability Convergence for Ecosystem Recovery);
ROI - возврат инвестиций (return on investment);
RPI - интерферометрия повторного хода (Repeat Pass Interferometry);
RPO - заданная точка восстановления (Recovery Point Objective);
RTO - заданное время восстановления (Recovery Time Objective);
SAN - сеть хранения данных (Storage Area Network);
SAR - радар с синтезируемой апертурой (Synthetic Aperture Radar);
SDN - программно-конфигурируемая сеть [передачи данных] (software-defined networking);
SIOS - интегрированная система наблюдений за Арктикой на Шпицбергене (Svalbard Integrated Arctic Earth Observing System);
SPADE - поддержка аудита происхождения в распределенных средах (Support for Provenance Auditing in Distributed Environments);
SSH - защищенная командная среда (Secure Shell);
SSO - технология единого входа (Single Sign-On);
ТВ - терабайт;
tf-idf - частота встречаемости термина в документе - обратная величина частоты документов с данным термином (term frequency-inverse document frequency);
UA - Университет Аризоны (University of Arizona), США;
UAVSAR - радар с синтезируемой апертурой для беспилотного летательного аппарата (Unmanned Air Vehicle Synthetic Aperture Radar);
UC - вариант использования (Use Case);
UI - пользовательский интерфейс (User Interface);
UPS - транснациональная компания, специализирующаяся на экспресс-доставке и логистике, США (United Parcel Service);
UQ - количественная оценка неопределенности (Uncertainty Quantification);
VASP - венский пакет для "ab initio" моделирования материалов на атомарном уровне (Vienna Ab initio Simulation Package);
vCDS - виртуальный сервер климатических данных (virtual Climate Data Server);
VO - виртуальная обсерватория (Virtual Observatory);
VOIP - передача голоса с использованием IP-протокола (Voice over IP);
WALF - WALF-формат видео с высоким разрешением (Wide Area Large Format Imagery);
WLCG - глобальная грид-инфраструктура Большого адронного коллайдера (Worldwide LHC Computing Grid);
XBRL - расширяемый язык разметки для деловой отчетности (Extensible Business Reporting Language);
XML - расширяемый язык разметки (Extensible Markup Language);
ZTF - обзор "Фабрика транзиентов Цвики" (Zwicky Transient Factory);
4 Характеристики варианта использования для проведения обследования
4.1 Общие характеристики
Предметная область: поле предназначено для классификации вариантов использования. Не заполнялось, поскольку до представления вариантов использования онтология не была создана.
Автор/организация/адрес электронной почты: имя и фамилия, название организации и адрес электронной почты (если предоставлен) лица (лиц), представившего(их) вариант использования.
Акторы/заинтересованные лица, их роли и ответственность: описание участников и их ролей в варианте использования.
Цели: поле для описания цели варианта использования.
Описание варианта использования: краткое описание варианта использования.
4.2 Текущие решения
В разделе описывается используемый подход к обработке больших данных на уровнях программно-аппаратной инфраструктуры и аналитики, включая следующие процессы:
- вычислительная система: вычислительный компонент системы анализа данных;
- хранилище данных: компонент хранения системы анализа данных;
- сеть связи: сетевой компонент системы анализа данных;
- программное обеспечение: программный компонент системы анализа данных.
4.3 Характеристики больших данных
Характеристики больших данных, которые описывают свойства (исходных, необработанных) данных, включая четыре основные V-характеристики больших данных.
Источник данных: происхождение данных, которые могут быть получены из интернета вещей, Всемирной паутины, в ходе опросов, коммерческой деятельности, моделирования или от измерительных приборов. Источник (источники) может быть распределенным, централизованным, локальным или удаленным.
Место назначения данных 1): если в варианте использования данные преобразуются, в поле указывают, куда поступают окончательные результаты.
------------------------------
1)В шаблоне данное поле не использовалось.
------------------------------
Объем: характеристика массивов данных, которая преимущественно ассоциируется с большими данными. Объем определяет значительное количество данных, доступных для анализа с целью извлечения ценной информации. Представление о том, что большую ценность можно получить при анализе большего объема данных, было одним из стимулов создания новых технологий масштабирования.
Скорость обработки: скорость потока, с которой данные создаются, передаются, сохраняются, анализируются или визуализируются. Скорость обработки больших данных означает, что большие массивы данных должны быть обработаны за короткий промежуток времени. При высоких скоростях обработки данных обычно имеют дело с методами обработки потоковых данных.
Разнообразие: характеризует необходимость анализа данных из нескольких предметных областей и/или нескольких типов данных. Разнообразные массивы данных преобразовывались или предварительно анализировались для определения характеристик, которые позволили бы интегрировать их с другими данными. Широкий диапазон форматов данных, логических моделей, шкал времени и семантик, который желательно применять в аналитике, усложняет интеграцию разнообразных данных. Возрастает необходимость использования метаданных для интеграции.
Вариативность: изменения в скорости передачи, формате или структуре, семантике или качестве массива данных, которые оказывают воздействие на поддерживаемое приложение, аналитику или решение задачи. Результаты воздействия могут приводить к необходимости изменений в архитектурах, интерфейсах, процессах/алгоритмах, а также способах интеграции/слияния, хранения, применения и использования данных.
4.4 Наука о больших данных
Наука о больших данных описывает высокоуровневые аспекты процесса анализа данных.
Достоверность и качество данных: полнота и точность данных с точки зрения семантического содержания, а также качества синтаксиса данных (например, наличия пропущенных полей или неправильных значений).
Визуализация: способ представления данных для аналитика, принимающего решения на их основе. Как правило, визуализация следует за этапом анализа данных и является заключительным этапом процесса технического анализа данных.
Качество данных (синтаксис) [Data quality (syntax)]: синтаксическое качество данных (например, наличие пропущенных полей или неправильных значений).
Типы данных: характеристики данных, такие как структурированные или неструктурированные данные, изображения (например, пиксельные), текст (например, последовательности символов), последовательности генов, числовое значение.
Метаданные: характеристики качества и полноты используемых метаданных.
Курирование и управление: характеризует процесс, обеспечивающий высокое качество данных, и ответственное лицо.
Примечание - Форма представления варианта использования включает отдельное поле для описания проблем безопасности и защиты персональных данных.
Аналитика данных: характеристики, в обобщенном виде инструменты и алгоритмы, используемые при обработке данных на любой стадии, включая преобразование данных в информацию, информации - в знания, а знания - в мудрость.
4.5 Общие проблемы больших данных
В заключительных полях формы опроса содержатся следующие вопросы:
- Иные проблемы больших данных: упустили ли мы нечто важное, демонстрирующее Ваш вариант использования? Это Ваш шанс ответить на вопросы, которые мы должны были бы задать.
- Проблемы пользовательского интерфейса и мобильного доступа: описание проблем доступа или генерации больших данных клиентами, включая смартфоны и планшеты.
- Технические проблемы обеспечения безопасности и защиты персональных данных: укажите проблемы обеспечения информационной безопасности и особенно защиты персональных данных, возникающие в результате ужесточения требований законодательства.
- Перечислите основные характеристики и связанные варианты использования: поместите вариант использования в контекст подобных ему вариантов. Опишите характеристики, которые допускают обобщение или специфичны для данного варианта.
- Будущее проекта: какие в будущем ожидаются изменения в применении и/или подходе (оборудование, программное обеспечение, аналитика)?
- Дополнительная информация о проекте (URLs): приведите полезные гипертекстовые ссылки.
4.6 Шаблон описания варианта использования больших данных
Данный раздел содержит незаполненную форму для представления варианта использования. Эта форма использовалась для сбора данных о вариантах использования для определения технических требований (проблем).
Примечание - Термины, используемые в этом шаблоне, могут не совпадать с терминами стандарта ИСО/МЭК 20546 и других частей серии ИСО/МЭК 20547.
Название |
|
|
Предметная область |
|
|
Автор/организация/эл. почта |
|
|
Акторы/заинтересованные лица, их роли и ответственность |
|
|
Цели |
|
|
Описание варианта использования |
|
|
Текущие решения |
Вычислительная система |
|
Хранилище данных |
|
|
Сеть связи |
|
|
Программное обеспечение |
|
|
Характеристики больших данных |
Источник данных (распределенный/ централизованный) |
|
Объем (количество) |
|
|
Скорость обработки (например, в реальном времени) |
|
|
Разнообразие (множество наборов данных, комбинация данных из различных источников) |
|
|
Вариативность (темпы изменения) |
|
|
Наука о больших данных (сбор, курирование, анализ, операции) |
Достоверность (вопросы надежности, семантика) |
|
Визуализация |
|
|
Качество данных (синтаксис) |
|
|
Типы данных |
|
|
Аналитика данных |
|
|
Иные проблемы больших данных |
|
|
Проблемы пользовательского интерфейса и мобильного доступа |
|
|
Технические проблемы обеспечения безопасности и защиты персональных данных |
|
|
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры) |
|
|
Дополнительная информация (гиперссылки) |
|
5 Обзор вариантов использования
5.1 Процесс подготовки вариантов использования
Вариант использования - типичное применение, сформулированное на высоком уровне для выделения технических особенностей или сравнения практики использования в различных областях. Формирование списка содержательных вопросов и проблем, с которыми сталкиваются заинтересованные стороны, осуществлено на основе собранной общедоступной информации о различных архитектурах больших данных. В целях структуризации этого списка описания вариантов использования сгруппированы по предметным областям.
Примечание 1 - Список областей применения отражает представленные варианты использования и не является исчерпывающим.
Были выделены следующие девять предметных областей.
Деятельность государственных органов (4): Национальные архивы США, Бюро переписей населения США.
Коммерческая деятельность (8): облачная экосистема бизнеса, включая финансовую отрасль, облачное резервное копирование, интеллектуальный тематический поиск научной литературы, потоковая передача мультимедийного контента, веб-поиск, цифровое материаловедение и геномика материалов, грузоперевозки.
Оборона (3): анализ показаний датчиков, идентификация и отслеживание объектов по данным фотосъемки и видеонаблюдения, оценка ситуации.
Здравоохранение и медико-биологические науки (10): электронные медицинские документы, анализ графов и вероятностный анализ, цифровая патология, анализ биоизображений, геномика, эпидемиология, моделирования распространения социального влияния, биологическое разнообразие.
Глубокое обучение и социальные сети (6): беспилотные автомобили, географическая привязка фотографий, распространение информации в социальных сетях, краудсорсинг, аналитика сетей и графов, эталонные наборы данных.
Экосистема для исследований (4): коллективная работа с метаданными, анализ текстов на естественном языке, эксперименты на синхротронах.
Астрономия и физика (5): обзоры неба (и сравнение данных наблюдений с результатами моделирования), Большой адронный коллайдер в ЦЕРН, эксперимент в области физики элементарных частиц Belle Accelerator II.
Науки о Земле, экологические науки и полярные исследования (10): некогерентное рассеяние радиоволн в атмосфере, исследования землетрясений, океана, наблюдения Земли, радиолокационное зондирование ледяного покрова, радиолокационное картографирование Земли, массивы данных для моделирования климата, изучение турбулентности атмосферы, подповерхностная биогеохимия (микробы в водоразделах), датчики газовых потоков.
Энергетика (2): интеллектуальные энергосети, управление энергопотреблением домашнего хозяйства.
Примечание 2 - Шаблон описания варианта использования был полезен при сборе обобщенной информации с целью проведения вспомогательного и сопоставительного анализа вариантов использования. В то же время в содержании каждого раздела заполненной формы описания наблюдались различия в степени детализации количественной и качественной информации. Для некоторых областей применения были представлены схожие варианты использования анализа больших данных, что позволило получить более полное представление о технических особенностях и проблемах применения анализа больших данных в этих областях.
Примеры вариантов использования описаны в этом разделе на основе первоначально представленной информации. Исходный контент (см. приложение А) изменен не был.
Примечание 3 - В описаниях вариантов использования упоминаются конкретные решения и технологии коммерческих поставщиков, однако перечисление этих решений и технологий не означает их одобрения рабочей группой РГ9 Совместного технического комитета ИСО/МЭК СТК1.
Варианты использования пронумерованы последовательно для облегчения перекрестных ссылок между их краткими описаниями, представленными в данном разделе, исходными описаниями (приложение А) и сводными таблицами по вариантам использования (приложения В, С и Д).
По-видимому, в тексте предыдущего абзаца допущена опечатка. Вместо буквы "Д" следует читать "D"
5.2 Деятельность государственных органов
5.2.1 Вариант использования 1: Большие данные переписи населения в США, проведенной в 2010 и 2000 годах на основании части 13 Свода законов США
Применение
Данные переписи населения в США, проведенной в 2010 и 2000 гг. в соответствии с разделом 13 "Переписи населения" Свода законов США, в течение нескольких десятилетий должны сохраняться таким образом, чтобы обеспечить их доступность и возможность анализа через 75 лет, по истечении ограничительного периода.
В течение ограничительного периода в 75 лет данные должны храниться "как есть", без возможности доступа и анализа, с обеспечением сохранности на уровне битов. Данные курируются, что может включать преобразование формата. Доступ и аналитика должны быть обеспечены через 75 лет.
Часть 13 Свода законов США уполномочивает Бюро переписи населения США (U.S. Census Bureau) собирать и сохранять относящиеся к переписи данные и гарантирует защиту персональных и отраслевых данных.
Текущий подход
Набор данных содержит отсканированные документы общим объемом 380 терабайт.
Планы на будущее
Для данного варианта использования будущие сценарии использования и приложения данных описаны не были.
5.2.2 Вариант использования 2: Прием Национальными архивами США (NARA) государственных данных на хранение, поиск, извлечение и обеспечение долговременной сохранности
Применение
Прием государственных данных на хранение, поиск, извлечение и обеспечение их долговременной сохранности.
Текущий подход
Данные в настоящее время обрабатываются следующим образом:
- передача данных под физический контроль Национальных архивов и переход к Национальным архивам юридической ответственности за их сохранность;
- предварительная обработка данных, включающая проверки на наличие вирусов, определение файловых форматов и удаления пустых файлов;
- индексирование данных;
- категоризация документов (выделяются, например, чувствительные конфиденциальные, неконфиденциальные, персональные данные);
- преобразование устаревших файловых форматов в современные;
- проведение электронного раскрытия;
- поиск и извлечение данных в рамках исполнения специальных запросов;
- поиск и извлечение государственных документов представителями общественности.
Сотни терабайт информации хранятся централизованно в коммерческих базах данных, поддерживаемых кастомизированным программным обеспечением и коммерческими поисковыми продуктами.
Планы на будущее
Федеральные органы исполнительной власти США располагают многочисленными распределенными источниками данных, которые в настоящее время должны быть переданы в централизованное хранилище. В будущем эти источники данных могут находиться в ряде облачных сред. В этом случае в рамках передачи Национальным Архивам ответственности за физическую сохранность желательно избегать перемещения больших данных из одного облака в другое либо из облака в центр обработки данных.
5.2.3 Вариант использования 3: Повышение активности респондентов в статистических обследованиях
Применение
Затраты на проведение статистических обследований растут, в то время как активность респондентов падает. Целью текущей работы является повышение качества, включая и сокращение затрат на проведение обследований посредством применения усовершенствованных "методов рекомендательных систем" (recommendation system techniques). Эти методы являются открытыми и научно обоснованными; они предусматривают использование комбинации данных из нескольких источников, а также вспомогательных данных исторических обследований (т.е. административные данные об обследованиях).
Текущий подход
В настоящем варианте использования речь идет о массиве данных, полученных в ходе опросов, а также из других государственных административных источников. Объем этих данных составляет около петабайта. Данные могут передаваться в потоковом режиме. Во время последней всеобщей переписи населения, проводимой раз в 10 лет в США, осуществлялась непрерывная потоковая передача полученных на местах данных, содержащих около 150 млн документов. Необходимо было обеспечить безопасность и конфиденциальность всех данных. Согласно требованиям законодательства следовало обеспечить возможность аудита всех процессов на предмет безопасности и конфиденциальности. Качество данных должно было быть высоким и статистически проверяться на точность и надежность на протяжении всего процесса сбора данных. Информация о решении приведена в А.1.3.
Планы на будущее
Необходимы улучшенные рекомендательные системы, аналогичные тем, которые используются в электронной коммерции (например, аналогичные системе, упоминаемой в варианте использования 5.3.3), позволяющие снизить затраты и повысить качество, обеспечить одновременно надежные и публично проверяемые меры защиты конфиденциальности. Визуализация полезна для проверки данных, оперативной деятельности и общего анализа. Система продолжает развиваться, и в нее включаются такие важные функциональные возможности, как поддержка мобильного доступа.
5.2.4 Вариант использования 4: Использование нетрадиционных данных для повышения активности респондентов в статистических обследованиях (адаптивная схема)
Применение
Затраты на проведение статистических обследований растут, в то время как активность респондентов падает. Цели данного варианта использования близки к целям варианта "Повышение активности респондентов в статистических обследованиях" (см. 5.2.3). Однако данный вариант использования охватывает коммерческие и публичные источники данных из интернета, сетей беспроводной связи и систем электронных транзакций, которые для целей аналитических исследований объединяются с данными традиционных статистических обследований. Цель такого комбинирования данных - повысить качество статистики для небольших регионов и новых показателей, а также обеспечить своевременность публикуемой статистики.
Текущий подход
Интегрируются данные из ряда источников, включая данные статистических обследований, иные государственные административные данные, данные из интернета, систем беспроводной связи, данные электронных транзакций, возможно, данные из социальных сетей, а также геопространственные данные из различных источников. Характеристики программного обеспечения, визуализации и данных аналогичны соответствующим характеристикам варианта использования "Повышение активности респондентов в статистических обследованиях".
Планы на будущее
Требуется разработать инструменты аналитики, позволяющие дать более детальные статистические оценки почти в режиме реального времени и с меньшими затратами. Надежность статистических оценок, полученных на основе комбинирования данных из подобных смешанных источников, пока еще предстоит определить.
5.3 Коммерческая деятельность
5.3.1 Вариант использования 5: Облачная экосистема для финансовой отрасли
Применение
Необходимо расширить использование облачных технологий (например, больших данных) в деятельности секторов финансовой отрасли (т.е. в банковском деле, операциях с ценными бумагами и управлении инвестициями, страховании), осуществляющих операции в США.
Текущий подход
Финансовая отрасль уже использует большие данные для выявления мошенничества, анализа и оценки рисков, а также расширения знаний и понимания клиентов. В то же время в отрасли все еще используются традиционные системы типа клиент/сервер/хранилище данных/система управления реляционными базами данных (RDBMS) для управления, обработки, хранения и архивирования финансовых данных. В этой области важны обработка и анализ данных в реальном времени.
Планы на будущее
Необходимо решить задачи обеспечения безопасности, неприкосновенности персональных данных и исполнения законодательно-нормативных требований. Например, в финансовой отрасли необходимо рассмотреть вопрос о требуемом Федеральной комиссией по ценным бумагам и биржам (Securities and Exchange Commission, SEC) применении языка XBRL (расширяемый язык разметки для деловой отчетности) и использовании иных облачных функций.
5.3.2 Вариант использования 6: Международная исследовательская сеть Mendeley
Применение
Международная сеть "Менделей" (Mendeley) позволила сформировать базу данных научно-исследовательских материалов, которая облегчает создание коллективно используемых библиографий. Mendeley дает возможность собирать и использовать информацию о закономерностях чтения материалов исследований, а также о других видах деятельности, осуществляемых с помощью ее программного обеспечения и с целью создания более эффективных инструментов для поиска и анализа научной литературы. Системы интеллектуального анализа и классификации текста позволяют автоматически рекомендовать взаимосвязанные исследования, повышая производительность и экономическую эффективность исследовательских групп, в особенности тех, которые занимаются мониторингом литературы по конкретной теме.
Текущий подход
Объем данных в настоящее время составляет 15 терабайт и увеличивается со скоростью около 1 терабайта в месяц. Информация о решении приведена в А.2.2. База данных использует стандартные библиотеки для проведения машинного обучения и аналитики, выполнения латентного размещения Дирихле (Latent Dirichlet Allocation, LDA, порождающая вероятностная модель для сбора дискретных данных), а также специально разработанные инструменты для составления отчетности и визуализации данных, агрегирования сведений о читательской и социальной активности, связанной с каждым документом.
Планы на будущее
В настоящее время пакетные задания по сохранению больших данных планируются раз в день, но началась работа над рекомендациями по выполнению работ в реальном времени. База данных содержит примерно 400 млн документов, в том числе около 80 млн уникальных документов, принимая в рабочие дни от 500 до 700 тыс. новых загрузок. Таким образом, основная проблема заключается в группировке соответствующих друг другу документов вычислительно эффективным (т.е. масштабируемым и распараллеливаемым) способом, когда они загружаются из разных источников и могут быть слегка модифицированы инструментами аннотирования третьих сторон или же путем присоединения титульных страниц либо наложения "водяных знаков" издателя.
5.3.3 Вариант использования 7: Сервис потоковой передачи мультимедийного контента
Применение
Сервис Netflix обеспечивает потоковую передачу выбранных пользователем фильмов, решая одновременно несколько задач (в интересах различных заинтересованных сторон), но с акцентом на удержание подписчиков. Компании нужно в режиме реального времени определить наилучшую возможную подборку видеоматериалов для пользователя (например, домохозяйства) в заданном контексте с целью максимизации потребления фильмов. Основными технологиями Netflix являются рекомендательные системы и доставка потокового видео. Рекомендательные системы всегда персонализированы и используют логистическую/линейную регрессию, эластичные сети, факторизацию матриц, кластеризацию, разведочный анализ данных (exploratory data analysis, EDA), ассоциативные правила, градиентный бустинг деревьев решений и другие инструменты. Цифровые фильмы хранятся в облаке вместе с метаданными, а также с индивидуальными профилями пользователей и рейтингами для небольшой части фильмов. В настоящее время в системе используется несколько критериев: рекомендательная система на основе контента, рекомендательная система на основе данных пользователей и разнообразие. Алгоритмы постоянно совершенствуются с помощью А/В-тестирования (т.е. используемого в онлайн-маркетинге метода рандомизированных экспериментов с двумя переменными).
Текущий подход
Компания Netflix провела конкурс на лучший алгоритм совместного фильтрования для прогнозирования пользовательских рейтингов фильмов, целью которых было повышение точности прогнозирования на 10 %. Победившая система объединила более 100 различных алгоритмов. Информация о решении описана в А.2.3. Были организованы бизнес-инициативы с целью увеличения зрительской аудитории.
Планы на будущее
Потоковое видео - очень конкурентный бизнес. Необходимо знать о других компаниях, а также о тенденциях, связанных как с контентом (например, какие фильмы популярны), так и с технологиями больших данных.
5.3.4 Вариант использования 8: Веб-поиск
Применение
Функция веб-поиска через 0,1 секунды возвращает результаты поисковых запросов, включающих в среднем три слова. Важно максимизировать такие метрики, как "точность 10 наилучших результатов" (precision@10), отражающие количество высокоточных, соответствующих запросу ответов в первой десятке лучших ранжированных результатов.
Текущий подход
Текущий подход использует следующие шаги:
- сканирование интернета;
- предварительная обработка данных с целью выделения элементов, по которым можно вести поиск (слова, позиции);
- формирование инвертированного индекса, который связывает слова с их местоположением в документах;
- ранжирование релевантности документов с использованием алгоритма PageRank;
- использование маркетинговых технологий (например, обратного проектирования - reverse engineering) для определения моделей ранжирования либо создание препятствий для использования обратного проектирования;
- кластеризация документов по темам (как в Google News);
- эффективное обновление результатов.
Данный вариант использования, в настоящее время охватывающий около 45 млрд веб-страниц, значительно повлиял на развитие современных облачных решений и появление таких технологий, как Map/Reduce.
Планы на будущее
Поиск в интернете - очень конкурентная сфера деятельности, поэтому здесь необходимы постоянные инновации. Двумя важными областями для внедрения инноваций являются удовлетворение потребностей растущего сегмента мобильных клиентов, а также растущая изощренность возвращаемых результатов поиска и схем размещения информации с целью максимизации общей выгоды клиентов, рекламодателей и поисковой компании. Все большее значение также приобретают "глубокий интернет" (deep web-контент, не индексируемый стандартными поисковыми системами, скрытый за пользовательскими интерфейсами доступа к базам данных и т.д.) и поиск по мультимедийным материалам. Ежедневно загружается 500 млн фотографий, и ежеминутно на YouTube закачивается 100 часов видеоматериалов.
5.3.5 Вариант использования 9: Обеспечение непрерывности деловой деятельности и восстановления после катастроф для больших данных в облачной экосистеме
Применение
При обеспечении непрерывности деловой деятельности и ее восстановления после катастроф (Business Continuity and Disaster Recovery, BC/DR) необходимо учесть роль, которую четыре перекрывающихся и взаимозависимых фактора будут играть в обеспечении реализации стратегического плана организации. Этими четырьмя факторами являются люди (как ресурсы), процессы [например, время/затраты/возврат инвестиций (ROI)], технологии (например, различные операционные системы, платформы, а также зоны влияния/масштабы воздействия технологий) и стратегическое управление (зависит от многочисленных различных регулирующих органов).
Текущий подход
Сервисы репликации данных предоставляются через облачные экосистемы, включающие предоставление инфраструктуры как сервиса (IaaS) и поддерживаемые центрами обработки данных уровня Tier 3. Репликация отличается от резервного копирования тем, что воспроизводятся только те изменения, которые произошли после предыдущей репликации, включая изменения на уровне блоков. Репликация может быть выполнена быстро - в рамках пятисекундного "окна", при этом репликация данных может проводиться каждые четыре часа. Соответствующий "снимок" данных сохраняется в течение семи рабочих дней или дольше, если это необходимо. Реплицированные данные могут быть перемещены в запасной центр (т.е. в резервную систему) для удовлетворения требований организации в отношении заданной точки восстановления (recovery point objective, RPO) и заданного времени восстановления (recovery time objective, RTO). Соответствующая информация о решении приведена в приложении А. Объемы данных варьируются от терабайтов до петабайтов.
Планы на будущее
Переключение с основного сайта на сайт репликации или резервный сайт еще не полностью автоматизировано. Цель заключается в том, чтобы дать пользователю возможность автоматически инициировать последовательность действий по переходу на резервную систему. Обе организации должны знать, какие серверы должны быть восстановлены и какие существуют зависимости и взаимозависимости между серверами основного сайта и сайта репликации и/или резервного сайта. С этой целью необходим постоянный мониторинг обоих сайтов.
5.3.6 Вариант использования 10: Грузоперевозки
Применение
Компаниям, занимающимся доставкой грузов, нужны оптимальные средства мониторинга и отслеживания груза.
Текущий подход
Информация обновляется только тогда, когда сведения с маркировки объекта считываются сканером штрихкода, который отправляет данные на центральный сервер. В настоящее время местоположение объекта в реальном времени не отображается.
Планы на будущее
Отслеживание объектов в режиме реального времени возможно с помощью приложения "интернета вещей", в котором объектам присваиваются уникальные идентификаторы и которое способно автоматически передавать данные, то есть без участия человека.
Новым аспектом станут сведения о статусе и состоянии объекта, включая информацию с датчиков и получаемые от глобальной системы позиционирования (GPS) координаты, а также уникальная схема идентификации, основанная на международном стандарте ИСО/МЭК 29161:2016 "Информационные технологии. Структура данных. Уникальная идентификация для интернета вещей" 1).
------------------------------
1)ISO/IEC 29161:2016, Information technology - Data structure - Unique identification for the Internet of Things, https://www.iso.org/standard/45240.html.
------------------------------
5.3.7 Вариант использования 11: Данные об используемых в производстве материалах
Применение
Каждый физический продукт изготовлен из материалов, которые были выбраны исходя из их свойств, стоимости и доступности. Каждый год принимаются связанные с выбором материалов решения на общие суммы, исчисляемые сотнями миллиардов долларов. Однако внедрение новых материалов обычно занимает два-три десятилетия, а не несколько лет, отчасти из-за того, что сведения о новых материалах не являются легкодоступными. Чтобы ускорить процесс внедрения, необходимо улучшить доступность, качество и удобство использования данных о материалах, а также преодолеть проприетарные барьеры для обмена такими данными. Необходимы достаточно крупные хранилища данных о материалах, способствующие поиску и раскрытию этой информации.
Текущий подход
Решения об использовании материалов в настоящее время излишне консервативны, часто основываются на более старых, а не последних данных соответствующих исследований и разработок, и не используют достижения в области построения моделей и моделирования.
Планы на будущее
Информатика материалов (materials informatics) - это область, в которой новые инструменты науки о данных могут оказывать существенное влияние, позволяя предсказывать поведение и характеристики реальных материалов (в количествах от грамма до тонны), начиная с описаний на атомном, нано- и/или микрометровом уровнях. Для поддержки этого необходимы следующие усилия:
- создание хранилищ данных о материалах помимо существующих, которые ориентированы на хранение лишь базовых данных;
- разработка международных стандартов регистрации данных, которые могут использоваться многочисленными специалистами по материалам, включая разработчиков стандартов испытаний материалов (таких как ассоциация ASTM International и Международная организация по стандартизации ИСО), занимающимися испытаниями материалов компании, производителями материалов, а также научно-исследовательскими и опытно-конструкторскими лабораториями;
- разработка инструментов и процедур, помогающих организациям, которым требуется депонировать в хранилищах данных сведения о проприетарных материалах, маскировать проприетарную информацию, сохраняя при этом пригодность данных к использованию;
- разработка многопараметрических инструментов визуализации данных о материалах, позволяющих работать с достаточно большим количеством переменных.
5.3.8 Вариант использования 12: "Геномика" материалов на основе результатов моделирования
Применение
Широкое применение моделирования, охватывающее большое количество возможных проектных решений, приведет к появлению инновационных технологий для электрических батарей и аккумуляторов. Проводятся систематические вычислительные исследования для изучения инновационных возможностей фотоэлектрических устройств. Поиск и моделирование являются фундаментом рационального проектирования материалов. Для всего этого требуется менеджмент результатов моделирования, используемых в интересах "генома материалов".
Текущий подход
Результаты создаются с использованием программного обеспечения PyMatGen, FireWorks, VASP, ABINIT, NWChem, BerkeleyGW, а также различных программ, разрабатываемых при участии специалистов по материаловедению. Программы исполняются на больших суперкомпьютерах, таких как состоящая из 150 тыс. процессоров вычислительная система Hopper в Национальном научно-исследовательском вычислительном центре энергетических исследований Министерства энергетики США (NERSC), которые позволяют проводить моделирование с высоким разрешением.
Планы на будущее
Для моделирования необходимы крупномасштабные вычисления и гибкие методы обработки данных, подходящие для обработки неупорядоченных данных. Развитие направленного на результат мышления при проектировании материалов требует машинного обучения и систем управления знаниями, объединяющих данные из публикаций, результаты экспериментов и моделирования. В числе прочих потребностей можно назвать масштабируемые базы данных для данных типа "ключ-значение" и библиотек объектов. В течение следующих пяти лет ожидается рост объемов данных со 100 терабайт в настоящее время до 500 терабайт.
5.4 Оборона
5.4.1 Вариант использования 13: Облачный крупномасштабный анализ и визуализация геопространственных данных
Применение
Необходимо обеспечить крупномасштабный анализ и визуализацию геопространственных данных. По мере того, как увеличивается количество датчиков и источников данных с географической привязкой, объемы требующих сложного анализа и визуализации геопространственных данных увеличиваются в геометрической прогрессии.
Текущий подход
Традиционные географические информационные (геоинформационные) системы (ГИС) обычно способны анализировать миллионы и визуализировать тысячи объектов.
Типы данных включают растровые графические образы и изображения в различных форматах, таких как национальный формат передачи изображений (National Imagery Transmission Format, NITF), Tiff-формат изображения с указанием местоположения (GeoTiff) и формат для оцифрованных растровых изображений с ARC-сжатием (Compressed ARC Digitized Raster Graphics, CADRG), а также векторную графику в различных формах, таких как формат Shapefile, язык разметки Keyhole (Keyhole Markup Language, KML) и текстовые потоки. Типы объектов включают точки, линии, области, ломаные линии (polylines), окружности и эллипсы.
Регистрация изображений - преобразование различных данных в единую систему - требует точности данных и датчика. Аналитика включает в себя метод главных компонентов (principal component analysis, РСА) и анализ независимых компонентов (independent component analysis, ICA), ближайшую точку подхода, отклонение от маршрута и плотность точек во времени. Информация о программном обеспечении приведена в А.3.1.
Планы на будущее
Современные интеллектуальные системы часто содержат триллионы геопространственных объектов и должны визуализировать и взаимодействовать с миллионами объектов. Критически важными проблемами являются индексирование, поиск/извлечение и распределенный анализ (обратите внимание, что геопространственные данные требуют уникальных подходов к индексации и проведению распределенного анализа), формирование и передача визуализации, а также визуализация данных в конечной точке беспроводных соединений с низкой пропускной способностью. Данные являются чувствительными, и должна быть обеспечена их полная безопасность при передаче и хранении (особенно на портативных устройствах).
5.4.2 Вариант использования 14: Идентификация и отслеживание объектов по данным широкоформатной фотосъемки территории или полнокадрового видео. Постоянное наблюдение
Применение
Датчики постоянного наблюдения легко могут за считанные часы собирать петабайты фото- и видеоданных. Данные должны быть редуцированы к набору геопространственных объектов (например, точек, путей), которые можно легко интегрировать с другими данными для формирования общей оперативной картины. Типичная обработка включает выделение из первичных необработанных фото/видеоданных объектов (например, транспортных средств, людей и грузов) и их отслеживание во времени.
Текущий подход
Человек не способен обработать такие объемы данных в целях предупреждения о событиях или отслеживания. Обработка данных должна осуществляться рядом с датчиком, который, вероятно, развернут на передовой, поскольку объемы данных слишком велики для того, чтобы их можно было легко передать. Типичные системы выделения объектов в настоящее время представляют собой небольшие (от 1 до 20 узлов) кластеры расширенных за счет использования графических процессоров (GPU) компьютерных систем.
Существует широкий спектр специализированного программного обеспечения и инструментов, включая, в том числе, традиционные реляционные СУБД и средства отображения.
Данные в режиме реального времени захватываются в FMV-формате высококачественного видео - от 30 до 60 кадров в секунду при полноцветном разрешении 1080 пикселей (т.е. с размером кадра 1920 на 1080 пикселей, построчная развертка высокой четкости) или в WALF-формат видео с высоким разрешением (WALF) - от 1 до 10 кадров в секунду при полноцветном разрешении 10 тысяч на 10 тысяч пикселей.
Извлеченные результаты обычно визуализируются путем наложения на отображение геопространственных данных. Аналитика включает базовую аналитику обнаружения объектов и интеграцию со сложными инструментами информирования о ситуации посредством объединения данных. Необходимо принимать во внимание серьезные проблемы безопасности; нельзя допустить компрометацию источников данных и методов их обработки (т.е. "враг" не должен знать, что именно мы видим).
Планы на будущее
Типичной проблемой является интеграция обработки такого рода в большой кластер графических процессоров, способный параллельно обрабатывать данные от нескольких датчиков в масштабе времени, близком к реальному. Передача данных от датчика к системе также является серьезной проблемой.
5.4.3 Вариант использования 15: Обработка и анализ разведывательных данных
Применение
Работающим с разведданными аналитикам требуются следующие возможности:
- идентифицировать взаимосвязи между объектами (например, людьми, организациями, местами, оборудованием);
- выявлять тенденции в настроениях или намерениях как населения в целом, так и групп лидеров, таких как государственные деятели и представители негосударственных структур;
- выявлять с упреждением случаи злонамеренного использования искусственного интеллекта;
- определять место и, по возможности, время проведения враждебных действий, включая установку самодельных взрывных устройств;
- отслеживать местоположение и действия потенциально враждебных действующих лиц;
- осмысливать и извлекать знания из многообразных, разрозненных и часто неструктурированных (например, текстовых) источников данных;
- обрабатывать данные вблизи точки сбора и обеспечивать легкий обмен данными с/между отдельными солдатами, подразделениями, отрядами передового базирования и высшим руководством гарнизонов.
Текущий подход
Объем данных варьируется в диапазоне от десятков терабайт до сотен петабайт, причем устройства сбора фото/видеоданных собирают петабайт данных за несколько часов. У пехотинцев обычно имеется от одного до сотен гигабайт данных, хранящихся в портативном/карманном устройстве. Сведения о программном обеспечении приведены в А.3.3.
Планы на будущее
Данные в настоящее время существуют в изолированных хранилищах. Эти данные должны быть доступны через семантически интегрированное пространство данных. Широкий спектр типов, источников, структур данных различного качества будет охватывать ряд предметных областей и требует интегрированного поиска и анализа. Большинство ключевых по важности данных либо являются неструктурированными, либо хранятся в виде графических образов или видеоматериалов, что требует значительной обработки для выделения объектов и извлечения информации. Качество сети, происхождение данных и безопасность имеют важнейшее значение.
5.5 Здравоохранение и медико-биологические науки
5.5.1 Вариант использования 16: Данные электронной медицинской документации 1)
------------------------------
1)В российской литературе термин "Electronic Medical Record", переведенный в настоящем стандарте как "электронная медицинская документация", иногда переводится как "электронная медицинская карта" (ЭМК), "электронная история болезни", "электронный учет здоровья" (ЭУЗ) - см. ГОСТ Р ИСО/ТС 18308-2008; "электронный медицинский учет" (ЭМУ) - см. ГОСТ Р ИСО/ТО 20514-2009. В данном случае речь идет не о некоем едином документе ("карте", "истории болезни") и не о виде деятельности ("учет"), а о совокупности, относящейся к конкретному пациенту разнообразной документированной информации, содержащейся обычно в ряде независимых источников и представленной в разнообразных форматах.
------------------------------
Применение
В настоящее время появляются крупные национальные инициативы, касающиеся данных о здоровье. К ним относятся:
- разработка информационной системы в сфере здравоохранения с использованием технологии машинного обучения, поддерживающей принятие клинических решений, все больше основанных на фактических данных, посредством предоставления своевременной, точной и актуальной клинической информации, ориентированной на пациента;
- использование электронных данных клинических наблюдений для эффективного и быстрого преобразования научных открытий в эффективные клинические методы лечения;
- электронный обмен интегрированными данными о здоровье в интересах повышения эффективности и результативности процесса оказания медицинских услуг.
Все эти ключевые инициативы опираются на высококачественные, крупномасштабные, стандартизированные и агрегированные данные о здоровье. Требуются развитые методы для стандартизации выделения понятий (concept identification), связанных с пациентом, поставщиком, учреждением и клинической деятельностью, осуществляемой внутри отдельных организаций сферы здравоохранения и между ними. В случае применения этих методов при определении и извлечении клинических фенотипов (проявлений болезни) из нестандартных, дискретных и представленных в виде свободного текста клинических данных могут выделяться признаки, извлекаться информация и расширяться модели принятия решений на основе машинного обучения. Данные клинического фенотипа должны быть использованы для поддержки объединения пациентов в группы (cohort selection), изучения результатов лечения и принятия клинических решений.
Текущий подход
Инфраструктура клинических данных по уходу за пациентами штата Индиана, США (INPC) является крупнейшей и старейшей в США системой обмена медицинской информацией, которая хранит клинические данные из более чем 1100 отдельных оперативных медицинских источников. Это более 20 терабайт первичных данных, которые описывают более 12 млн пациентов и более 4 млрд отдельных клинических наблюдений. Ежедневно добавляется от 500 тыс. до 1,5 млн новых клинических транзакций в режиме реального времени.
Планы на будущее
Исполняемое на суперкомпьютере Университета Индианы программное обеспечение Teradata, PostgreSQL и MongoDB будет поддерживать методы извлечения информации с целью выявления соответствующих клинических признаков (это такие методы, как статистическая мера TF-IDF (от term frequency - inverse document frequency), латентно-семантический анализ (latent semantic analysis, LSA) и статистическая функция "взаимная информация" (mutual information)). Методы обработки естественного языка (natural language processing, NLP) позволят извлечь релевантные клинические признаки. Проверенные признаки будут использоваться для параметризации моделей принятия решений по клиническим фенотипам на основе метода оценки максимального правдоподобия и Байесовских сетей. Модели принятия решений будут использоваться для выявления ряда клинических фенотипов, таких как диабет, хроническая сердечная недостаточность и рак поджелудочной железы.
5.5.2 Вариант использования 17: Анализ графических образов в патологической анатомии/Цифровая патологическая анатомия
Применение
Анализ цифровых графических образов в патологической анатомии (digital pathology imaging) является нарождающейся областью, в которой изучение сделанных с высоким разрешением изображений образцов тканей позволяет создавать новые и более эффективные способы диагностики заболеваний.
В рамках патологического анализа графических изображений выделяется огромное количество пространственных объектов (например, миллионы объектов на изображение), таких как ядра клеток и кровеносные сосуды, представленные их границами, наряду со многими извлеченными по изображению признаками этих объектов. Полученная информация используется для многих сложных запросов и аналитики, поддерживающих биомедицинские исследования и клиническую диагностику.
Текущий подход
Каждое двумерное изображение содержит 1 гигабайт первичных данных изображения, и на его основе производится 1,5 гигабайта аналитических результатов. Для анализа изображений используется интерфейс передачи информации MPI (Message Passing Interface). Информация о решении приведена в А.4.2.
Планы на будущее
Недавно стал возможен патологический анализ трехмерных изображений на основе использования трехмерных лазерных технологий либо последовательного размещения сотен срезов тканей на предметные стекла и их сканирования в цифровые изображения. Выделение трехмерных гистологических объектов на основе серий зафиксированных изображений может породить десятки миллионов трехмерных объектов по одному трехмерному изображению. В результате формируется глубокая "карта" тканей человека для использования в методах диагностики следующего поколения. Трехмерное изображение может содержать 1 терабайт первичных данных изображения, и на его основе производится 1 терабайт аналитических результатов. Средняя по размерам больница будет генерировать 1 петабайт данных в год.
5.5.3 Вариант использования 18: Вычислительный анализ биоизображений (Computational Bioimaging)
Применение
Данные биоизображений все более автоматизировано создаются с более высоким разрешением и являются более мультимодальными. В результате возникает узкое место в анализе данных, устранение которого может способствовать новым открытиям в биологических науках посредством применения технологий больших данных.
Текущий подход
Ныне используемый фрагментарный подход к проведению анализа не масштабируется на ситуации, в которых объем данных в результате одного сканирования на появляющихся устройствах составляет 32 терабайта, а годовой объем медицинских диагностических изображений - около 70 петабайт, не считая данные кардиологии. Для высокопроизводительной, с высокой пропускной способностью обработки изображений в интересах создателей и потребителей моделей, построенных на основе данных биоизображений, необходима единая онлайн-точка обслуживания.
Планы на будущее
Цель заключается в том, чтобы устранить данное узкое место (единую онлайн-точку обслуживания) с помощью экстремально масштабных вычислений и ориентированных на обслуживание сообщества научных порталов, которые применяют средства анализа больших объемов данных к большим наборам данных изображений. Компоненты потока рабочих процессов включают сбор, хранение, улучшение качества данных, минимизацию шума, сегментацию представляющих интерес областей, групповой отбор и извлечение признаков, классификацию объектов, а также организацию и поиск. Возможные пакеты программного обеспечения описаны в А.4.3.
5.5.4 Вариант использования 19: Геномные измерения
Применение
Поддерживаемое американским Национальным институтом стандартов и технологий (NIST) государственно-частно-академическое партнерство "Консорциум "Геном в бутылке" (Genome in a Bottle Consortium, https://www.nist.gov/programs-projects/genome-bottle) занимается объединением данных, полученных в результате применения различных технологий и методов секвенирования (определения первичной структуры макромолекул) с целью создания высоконадежных описаний полных геномов человека в качестве эталонных материалов. Консорциум также разрабатывает методы использования этих эталонных материалов для оценки эффективности алгоритмов секвенирования генома.
Текущий подход
Используемая NIST сетевая файловая система (network file system, NFS) емкостью примерно 40 терабайт заполнена. "Национальные учреждения здравоохранения" (National Institutes of Health, NIH) и Национальный центр биотехнологической информации (National Center for Biotechnology Information, NCBI) в настоящее время хранят петабайты данных. NIST также хранит данные с использованием программного обеспечения с открытым исходным кодом для секвенирования в биоинформатике, разработанного академическими группами (на основе UNIX) на 72-ядерном кластере, дополненном более крупными системами участников коллективной работы.
Планы на будущее
Секвенсоры ДНК способны генерировать порядка 300 гигабайт сжатых данных в день, и эти объемы росли намного быстрее предсказанного законом Мура роста вычислительной мощности компьютеров. В будущем в состав данных могут войти результаты измерений, сделанных в рамках других направлений биологической науки - "омиков" (omics - например, геномика), объем которых будет даже больше, чем объем результатов секвенирования ДНК. В качестве экономически эффективного масштабируемого подхода изучалась возможность использования облачных решений.
5.5.5 Вариант использования 20: Сравнительный анализ метагеномов и геномов
Применение
Использование данного варианта при изучении образцов в метагеномике преследует следующие цели:
- определить состав изучаемой колонии/сообщества с точки зрения присутствия других эталонных изолированных геномов;
- охарактеризовать функции его генов;
- начать выявление возможных функциональных путей (functional pathways);
- охарактеризовать сходство или различие по сравнению с другими метагеномными образцами;
- начать характеризацию изменений в составе и функциях сообщества в связи с изменениями воздействием факторов окружающей среды;
- выделить подразделы данных на основе показателей качества и состава сообщества.
Текущий подход
Современная интегрированная система сравнительного анализа метагеномов и геномов снабжена интерактивным пользовательским веб-интерфейсом. Система включает в себя предварительные вычисления на сервере (backend precomputations) и отправку пакетных заданий из пользовательского интерфейса. Система предоставляет интерфейсы к стандартным инструментам биоинформатики (таким как BLAST, HMMER, инструменты множественного выравнивания последовательностей и филогенетики, программы поиска/предсказания генов и генных структур (gene callers), программы предсказания свойств по результатам секвенирования (sequence feature predictors)).
Планы на будущее
Управление разнородными биологическими данными в настоящее время осуществляется с помощью СУБД (например, Oracle). К сожалению, оно не масштабируется даже для текущего объема в 50 терабайт данных. Решения класса NoSQL (СУБД, существенно отличающиеся от традиционных реляционных) должны были обеспечить альтернативу, но, к сожалению, они не всегда пригодны для интерактивного использования в реальном времени или же для быстрой параллельной массовой загрузки, и иногда у них возникают проблемы с надежностью.
5.5.6 Вариант использования 21: Индивидуальное управление лечением диабета
Применение
Диабет - это болезнь, которая становится все более распространенной среди населения Земли, затрагивая как развивающиеся, так и развитые страны. Современные стратегии управления лечением не учитывают должным образом индивидуальные профили пациентов, в том числе наличие сопутствующих заболеваний и прием соответствующих лекарств - обычное явление у пациентов с хроническими заболеваниями. Для обработки данных в электронных медицинских документах и записях (EHR) следует применять передовые методы интеллектуального анализа данных на основе графов, преобразуя данные в графы RDF (Resource Description Framework) 1). Эти передовые методы облегчат поиск пациентов с диабетом и позволят извлечь их медицинские данные для оценки результатов лечения.
------------------------------
1)Resource Description Framework (RDF) - среда описания ресурсов, разработанная Консорциумом Всемирной паутины модель для представления данных и особенно метаданных. RDF представляет утверждения о ресурсах в виде, пригодном для машинной обработки. Множество RDF-утверждений образует ориентированный граф, в котором вершинами являются субъекты и объекты, а ребра отображают отношения. - Википедия, https://ru.wikipedia.org/wiki/Resource_Description_Framework
------------------------------
Текущий подход
Типичные данные о пациенте включают порядка сотни терминов из контролируемых словарей и тысячу непрерывных числовых величин. Большинство значений свойств снабжены отметками времени. Традиционную парадигму поиска в таблицах реляционной базы данных следует обновить, сменив ее на обход семантического графа.
Планы на будущее
Первым шагом является сопоставление документов пациентов для выявления схожих пациентов в большой базе данных медицинской документации (т.е. формирование индивидуализированной демографической когорты). Необходимо оценить результаты лечения каждого пациента с тем, чтобы выбрать наиболее подходящее решение для конкретного больного диабетом. Зависящие от времени свойства должны быть обработаны перед выполнением запроса для того, чтобы сделать возможным сопоставление на основе производных и других выводимых свойств. Информация о программном обеспечении описана в А.4.6.
5.5.7 Вариант использования 22: Статистический реляционный искусственный интеллект для здравоохранения
Применение
Целью проекта является анализ больших мультимодальных медицинских данных, включая данные различных типов, такие как изображения, электронные медицинские документы и записи (EHR), генетические данные и данные на естественном языке. В рамках этого подхода используются реляционные вероятностные модели, способные работать с богатыми реляционными данными и моделирующие неопределенности на основе теории вероятности.
Программное обеспечение обучает модели на основе различных массивов данных и, возможно, позволит интегрировать информацию и логические рассуждения о сложных запросах. Пользователи могут представить набор сведений, например результаты магнитно-резонансной томографии (МРТ) и демографические данные о конкретном субъекте. Затем они могут сделать запрос о начале конкретного заболевания (например, болезни Альцгеймера), и система выдаст распределение вероятностей для возможного возникновения этого заболевания.
Текущий подход
Один сервер может обрабатывать тестовую когорту из нескольких сотен пациентов, при этом объем соответствующих данных составит сотни гигабайт.
Планы на будущее
В случае когорты из миллионов пациентов придется иметь дело с базами данных петабайтного объема. Основной проблемой является наличие слишком большого количества данных (например, изображений, генетических последовательностей), что может усложнить анализ. Иногда доступны большие объемы данных об одном субъекте, но число субъектов при этом не очень велико (то есть имеется дисбаланс данных). Это может привести к тому, что в ходе анализа алгоритмы обучения расценят случайные корреляции между данными нескольких типов как важные свойства. Еще одна проблема заключается в согласовании и слиянии данных из нескольких источников в форме, полезной для их совместного анализа.
5.5.8 Вариант использования 23: Эпидемиологическое исследование в масштабе всего населения Земли
Применение
Существует потребность в надежном, в режиме реального времени, прогнозировании и контроле над пандемиями, аналогичными пандемии гриппа H1N1 в 2009 г. и COVID19. Борьба с различными видами распространения инфекции может включать моделирование и расчеты, касающиеся распространения информации, болезней и социальных волнений. Модели на основе действующих лиц-агентов могут использовать базовую сеть взаимодействий (т.е. сеть, определяемую моделью людей, транспортных средств и их деятельности) для изучения эволюции рассматриваемых явлений.
Текущий подход
Используется двухэтапный подход: (1) сформировать синтетическую глобальную популяцию; и (2) провести моделирование в масштабе глобальной популяции с тем, чтобы сделать выводы о вспышках заболеваемости и различных стратегиях вмешательства. Текущий набор данных объемом 100 терабайт был сгенерирован централизованно с помощью написанной на Charm++ системы моделирования, использующей интерфейс передачи сообщений MPI (Message Passing Interface). Параллелизм достигается за счет использования меры "время присутствия болезни" (disease residence time period).
Планы на будущее
Для изучения сложных проблем глобального масштаба могут быть использованы большие модели распространения социального влияния (social contagion models), что значительно увеличит размер используемых систем.
5.5.9 Вариант использования 24: Применение моделирования распространения социального влияния в планировании, здравоохранении и менеджменте катастроф
Применение
Модели социального поведения применимы в сферах национальной безопасности, здравоохранения, вирусного маркетинга, городского планирования и обеспечения готовности к чрезвычайным ситуациям и катастрофам.
В случае социальной напряженности и волнений люди выходят на улицы, чтобы выразить свое недовольство либо поддержку руководству государства. Модели могли бы помочь количественно определить степень, в которой деловая деятельность и активность населения нарушаются из-за страха и гнева; вероятность мирных демонстраций и/или насильственных протестов; а также диапазон возможных ответных мер правительства, начиная от умиротворения, разрешения протестов и до угроз в адрес протестующих и действий по срыву протестов. Для решения таких задач потребуются модели и наборы данных с высоким разрешением (на уровне отдельных лиц, транспортных средств и зданий).
Текущий подход
Инфраструктура модели распространения социального влияния (social contagion model) представляет различные типы взаимодействия между людьми (например, лицом к лицу, через социальные сети), а также между людьми и сервисами (например, транспорт) либо инфраструктурой (например, интернет, электроснабжение). Эти модели деятельности генерируются на основе усредненных данных, таких как данные переписи населения.
Планы на будущее
Одной из важных проблем является объединение данных (data fusion - как комбинировать данные из разных источников и что делать в случае отсутствия или неполноты данных). Правильно организованный процесс моделирования должен учитывать разнородные особенности сотен миллионов или миллиардов людей, а также культурные различия в разных странах. Для таких больших и сложных моделей сам по себе процесс их валидации также представляет собой проблему.
5.5.10 Вариант использования 25: Биологическое разнообразие и европейская электронная научно-исследовательская инфраструктура LifeWatch
Применение
Мониторинг и исследование различных экосистем, биологических видов, их динамики и миграции с помощью набора специализированных датчиков и доступа/обработки получаемых данных, а также посредством кооперации с соответствующими проектами в данной области. В числе конкретных тематических исследований можно назвать мониторинг чужеродных видов, мигрирующих птиц и водно-болотных угодий.
Одно из направлений деятельности консорциума под названием "Совместная деятельность европейских сетевых инфраструктур в области экологических исследований" (ENVRI) заключается в изучении интеграции инфраструктуры LifeWatch с другими электронными инфраструктурами экологических исследований.
Текущий подход
В настоящее время данный проект находится на стадии предварительного планирования и, соответственно, текущий подход не полностью проработан.
Планы на будущее
Проект LifeWatch обеспечит интегрированный доступ к различным данным, инструментам аналитики и моделирования, предоставленными другими проектами. Он также будет предлагать данные и инструменты в составе отдельных рабочих процессов конкретным научным сообществам. Помимо этого LifeWatch предоставит возможности для создания персонализированных "виртуальных лабораторий", позволяя участникам вводить и получать доступ к новым данным и аналитическим инструментам.
Новые данные будут коллективно использоваться сотрудничающими с LifeWatch центрами обработки данных, включая Всемирную систему информации о биоразнообразии (Global Biodiversity Information Facility) и Каталог биоразнообразия (Biodiversity Catalogue), известный как Реестр веб-сервисов науки о биоразнообразии (Biodiversity Science Web Services Registry). В состав данных входят данные других направлений биологической науки - "омиков" (omics), сведения о биологических видах, экологическая информация (например, сведения о биомассе, плотности населения) и данные об экосистеме (например, о потоках диоксида углерода СО 2, о цветении водорослей, характеристики воды и почвы).
5.6 Глубокое обучение (Deep Learning) и социальные сети
5.6.1 Вариант использования 26: Крупномасштабное глубокое обучение
Применение
Существует потребность в увеличении объема массивов данных и размера моделей, с которыми способны работать алгоритмы глубокого обучения. Большие модели (например, нейронные сети с большим количеством нейронов и соединений) в сочетании с большими массивами данных все чаще показывают наилучшие результаты при выполнении эталонных задач в области зрения, речи и обработки естественного языка. Необходимо будет обучать глубокую нейронную сеть на большом (например, намного более 1 терабайта) массиве данных, обычно состоящем из изображений, видео-, аудиоматериалов или текста. Такие процедуры обучения часто требуют специфической настройки архитектуры нейронной сети, критериев обучения и предварительной обработки данных. Помимо вычислительных затрат, которых требуют алгоритмы обучения, чрезвычайно высока потребность в быстрой разработке прототипа и удобстве разработки.
Текущий подход
На сегодняшний день наиболее крупными приложениями являются распознавание изображений и научные исследования в области обучения без учителя, проводимые на высокопроизводительном кластере из 64 графических процессоров с коммутационной сетью Infiniband, в которых используется 10 млн изображений и до 11 млрд параметров. Изучаются как машинное обучение с учителем (т.е. использующее существующие классифицированные изображения), так и обучение без учителя.
Планы на будущее
Массивы данных объемом 100 терабайт и более могут стать необходимыми для использования репрезентативной способности более крупных моделей. Для обучения беспилотного автомобиля могут потребоваться 100 млн изображений в мегапиксельном разрешении. Глубокое обучение имеет много общих черт с более широкой областью машинного обучения. Первостепенными требованиями являются высокая вычислительная пропускная способность (computational throughput) главным образом для операций линейной алгебры с плотными матрицами, а также чрезвычайно высокая эффективность научного труда. Высокопроизводительные библиотеки должны быть интегрированы с высокоуровневыми средами разработки прототипов.
5.6.2 Вариант использования 27: Организация крупномасштабных, неструктурированных коллекций сделанных потребителями фотографий
Применение
Коллекции, содержащие от миллионов до миллиардов сделанных потребителями фотографий, используются для создания трехмерных реконструкций сцен при отсутствии априорных знаний как о структуре сцены, так и положениях камеры. Получающиеся в результате трехмерные модели позволяют эффективно и результативно организовать просмотр больших коллекций фотографий по географическому положению. Географическая привязка новых изображений может осуществляться путем сопоставления их с трехмерными моделями, и для каждого изображения может быть выполнено распознавание объектов. Задачу трехмерной реконструкции можно сформулировать как задачу робастной нелинейной оптимизации с использованием метода наименьших квадратов; наблюдаемые (зашумленные) соответствия между изображениями являются ограничениями, а в число неизвестных входят 6-мерные координаты, задающие положение камеры для каждого изображения, и 3-мерные координаты положения каждой точки сцены.
Текущий подход
Текущая информация о системе приведена в А.5.2. В социальных сетях в настоящее время размещено более 505 млрд изображений, и каждый день на сайты социальных сетей добавляется более 500 млн изображений.
Планы на будущее
В рамках технического обслуживания и обновлений необходимо добавить большое число инструментов аналитики, включая инструменты извлечения признаков, сопоставления признаков и крупномасштабную машину вероятностных логических выводов. Эти инструменты аналитики используются при решении многих или даже большинства проблем компьютерного зрения и обработки изображений, включая распознавание, разделение по глубине (stereo resolution) и устранение шума в изображениях. В числе иных потребностей можно назвать визуализацию крупномасштабных трехмерных реконструкций и навигацию по крупномасштабным коллекциям изображений, которые были согласованы с картами.
5.6.3 Вариант использования 28: Truthy - Исследование распространения информации на основе данных Твиттера
Применение
Необходимо лучше понимать, как информация распространяется по социально-техническим сетям, и требуются методы для обнаружения потенциально опасной информации (например, вводящих в заблуждение сообщений, скоординированных кампаний и недостоверной информации) на ранних стадиях ее распространения.
Текущий подход
Твиттер генерирует непрерывный поток данных большого объема - около 30 терабайт в год в сжатом виде - посредством распространения примерно 100 млн сообщений в день. Темпы роста объемов данных составляют примерно 500 гигабайт в день. Все эти данные должны быть собраны и сохранены. Дополнительные потребности включают анализ таких данных в режиме времени, близком к реальному, с целью выявления аномалий, кластеризации потока, классификации сигналов и онлайн-обучения; а также поиск данных, визуализацию больших данных, интерактивные веб-интерфейсы и общедоступные программные интерфейсы (API) для запросов к данным. Сведения о программном обеспечении приведены в А.5.4. Возможности для анализа процесса распространения информации, для кластеризации и динамической визуализации уже существуют.
Планы на будущее
Планируется расширение проекта, поэтому необходимо двигаться в сторону описанных в А.5.4 развитых программ распределенного хранения и базы данных, располагающейся в оперативной памяти компьютера, с целью обеспечения анализа в реальном времени. Решения должны включать кластеризацию потока, обнаружение аномалий и онлайн-обучение.
5.6.4 Вариант использования 29: Краудсорсинг в гуманитарных науках как источник больших и динамических данных
Применение
Информация собирается у многих людей и с их устройств с использованием ряда источников данных: ручного ввода, записанных мультимедийных материалов, времени реагирования, изображений, информации с датчиков. Эти данные используются для характеризации широкого спектра индивидуальных, социальных, культурных и лингвистических вариаций в нескольких измерениях (например, в пространстве, социальном пространстве, во времени).
Текущий подход
На данный момент типичным является использование расширяемого языка разметки (XML) и традиционных реляционных баз данных. Пока что помимо изображений используется не очень много мультимедийных материалов.
Планы на будущее
Краудсорсинг начинает использоваться в более широком масштабе. Наличие датчиков в мобильных устройствах создает огромный потенциал для сбора большого количества данных от многочисленных физических лиц. Эта возможность до настоящего времени в широком масштабе не опробовалась; существующие краудсорсинговые проекты обычно имеют ограниченный масштаб и основаны на веб-технологиях. Могут возникнуть проблемы с обеспечением защиты персональных данных в связи с доступом к аудиовизуальным файлам физических лиц; анонимизация может быть необходима, но она не всегда возможна. Важное значение имеют управление данными и их курирование. В случае обработки мультимедийных материалов объем данных может составлять сотни терабайт.
5.6.5 Вариант использования 30: Цифровая инфраструктура для исследований и анализа сетей и графов (CINET)
Применение
CINET предоставляет общую веб-платформу, обеспечивающую конечному пользователю бесперебойный доступ:
- к инструментам анализа сетей и графов, таким как SNAP, NetworkX и Galib;
- к созданным для решения реальных задач и синтезированным сетям;
- к вычислительным ресурсам;
- к системе управления данными.
Текущий подход
CINET используют как сервис высокопроизводительного вычислительного кластера с 720 ядрами и соединениями на основе InfiniBand. Платформа используется для научных исследований и в образовательных целях. CINET используется специалистами в области общественных наук и социального взаимодействия на занятиях и для поддержки исследований.
Планы на будущее
Ожидается быстрое расширение хранилища, в котором примерно через год будет храниться как минимум от одной до 5 тыс. сетей и методов. Поскольку все больше дисциплин используют графы увеличивающегося размера, будут важны параллельные алгоритмы. Двумя ключевыми проблемами являются манипулирование данными и учет производных данных, поскольку отсутствуют четко определенные и эффективные модели и инструменты для унифицированного управления различными данными графов.
5.6.6 Вариант использования 31: Измерения, оценки и стандарты эффективности аналитических технологий в отделе доступа к информации NIST
Применение
Для создания основ и ускорения дальнейшего развития передовых аналитических технологий в областях обработки речи и языка, видеозаписей и мультимедийных материалов, биометрических изображений и неоднородных данных необходимы метрики эффективности, методы измерения и проведение оценок сообществом, а также взаимодействие аналитиков с пользователями.
Обычно применяется одна из двух моделей обработки:
1) предоставить участникам тестирования тестовые данные и проанализировать выходные данные систем - участников, и
2) предоставить участникам интерфейсы к тестовой обвязке для алгоритмов, взять их алгоритмы и провести тестирование алгоритмов на внутренних вычислительных кластерах.
Текущий подход
Для целей обучения, испытаний в ходе разработки и итоговых оценок имеются большие аннотированные совокупности неструктурированного/полуструктурированного текста, аудио- и видеозаписей, изображений, мультимедийных материалов и разнородные коллекции вышеперечисленного, включая аннотации о точности и достоверности (ground truth). В составе этой совокупности более 900 млн веб-страниц общим объемом 30 терабайт, 100 млн твиттов, 100 млн проверенных биометрических изображений, несколько сотен тысяч частично проверенных видеоклипов и терабайты более мелких полностью проверенных тестовых коллекций.
Планы на будущее
Для будущих оценок аналитики планируется собрать еще большие коллекции данных с использованием нескольких потоков данных, включая очень неоднородные данные. В дополнение к более крупным массивам данных в будущем предполагается тестирование потоковых алгоритмов на различных неоднородных данных. Изучается возможность использования облаков.
5.7 Экосистема для исследований
5.7.1 Вариант использования 32: Консорциум федеративных сетей данных (DFC)
Применение
Консорциум федеративных сетей данных (DFC) содействует совместным и междисциплинарным исследованиям посредством объединения на федеративных началах систем управления данными, используемых федеральными органами и учреждениями США, национальными академическими научно-исследовательскими инициативами, хранилищами учреждений и участниками международного сотрудничества. Эта масштабная среда совместной работы включает петабайты данных, сотни миллионов файлов, сотни миллионов атрибутов метаданных, десятки тысяч пользователей и тысячу ресурсов хранения.
Текущий подход
В настоящее время в 25 областях науки и техники имеются проекты, полагающиеся на интегрированную систему управления данными, основанную на использовании правил (iRODS). В числе активных пользователей можно назвать:
- Национальный научный фонд США, со следующими крупными проектами:
1) "Инициатива океанических наблюдательных станций" (Ocean Observatories Initiative) - архивация показаний датчиков;
2) "Динамика во времени учебного центра" (Temporal Dynamics of Learning Center) - грид-система управления данными для науки о процессах познания;
3) проект создания киберинфраструктуры для ботаники (iPlant Collaborative) - геномика растений;
- проект электронной инженерной библиотеки Университета им. Дрекселя (Drexel University);
- Институт социальных наук им. Говарда Одума (H.W.Odum Institute for Research in Social Science) при Университете Северной Каролины в Чапел-Хилл - объединение грид-системы управления данными с открытым программным обеспечением для управления научно-исследовательскими данными Dataverse.
В настоящее время iRODS управляет петабайтами данных, сотнями миллионов файлов, сотнями миллионов атрибутов метаданных, десятками тысяч пользователей и тысячей ресурсов хранения. iRODS взаимодействует с системами управления потоками рабочих процессов [такими как решение Cyberintegrator Национального центра компьютерных приложений (National Center for Computing Applications, NCSA), Kepler, Taverna], совместим с облачными и более традиционными моделями хранения, а также поддерживает различные транспортные протоколы.
Планы на будущее
Будущие сценарии использования и приложения данных не были представлены для этого варианта использования.
5.7.2 Вариант использования 33: "Discinnet-процесс"
Применение
Компания Discinnet Labs разработала прототип "Веб 2.0" - платформы для совместной работы, которая, в качестве пилотной системы, в настоящее время развертывается и тестируется исследователями из растущего числа различных областей науки.
Цель заключается в том, чтобы набрать достаточно большую выборку активных областей исследований, представленных в виде кластеров (то есть исследователей, отображенных и агрегируемых в рамках множества главным образом коллективных экспериментальных измерений), с тем чтобы проверить общие, а следовательно, потенциально междисциплинарные, эпистемологические модели в течение текущего десятилетия.
Текущий подход
В настоящее время активировано 35 кластеров, и еще около 100 ждут, пока будут выделены дополнительные ресурсы. Существует потенциал для сознания исследовательскими сообществами управления и модерирования многих других кластеров. Примеры кластеров включают в себя оптику, космологию, материаловедение, микроводоросли, здравоохранение, прикладную математику, вычисления, резину и другие химические продукты/проблемы.
Планы на будущее
Сам по себе "Discinnet-процесс" не является большими данными. Скорее, он будет генерировать метаданные при применении к кластеру, который включает большие данные. При междисциплинарной интеграции нескольких предметных областей процесс будет согласовывать метаданные многих уровней сложности.
5.7.3 Вариант использования 34: Поиск по семантическому графу для текстовых научных данных по химии
Применение
Для аннотирования и представления информации о технологиях создаются инфраструктура на основе социальных сетей, терминология и семантические графы данных. В этом процессе используются методы, основанные на корневых морфемах (root-based) и правилах (rule-based), которые в настоящее время главным образом ориентированы на определенные индоевропейские языки, такие как санскрит и латынь.
Текущий подход
Во многих отчетах, в том числе в недавнем отчете по проекту "Геном материала" (Materials Genome Initiative), отмечается, что исключительно нисходящие решения, облегчающие обмен данными и интеграцию, нежелательны в случае междисциплинарных усилий. В то же время подход "снизу вверх" может быть хаотичным. По этой причине существует потребность в сбалансированном сочетании двух подходов с целью поддержки простых в использовании методов создания, интеграции и обмена метаданными. Эта проблема очень похожа на проблему, с которой сталкиваются разработчики языка, поэтому недавно разработанный метод основан на этих идеях. В настоящее время предпринимаются усилия по распространению этого метода на публикации, представляющие интерес для инициативы "Геном материала", движения "Открытое правительство", а также для "Сети интегрированных знаний NIST - EditorialNet" (NIKE) - архива публикаций американского Национального института стандартов и технологий (NIST). Эти усилия являются частью деятельности рабочей группы "Справочник стандартов метаданных" (Metadata Standards Directory) Альянса научных данных (Research Data Alliance).
Планы на будущее
Должна быть создана облачная инфраструктура для социальных сетей научной информации. Ученые всего мира смогут использовать эту инфраструктуру для участия и размещения результатов своих экспериментов. Перед созданием научной социальной сети необходимо решить некоторые вопросы, включая следующие:
- минимизировать проблемы, связанные с созданием повторно используемого, междисциплинарного, масштабируемого по требованию, дружественного по отношению к варианту использования и пользователю словаря;
- использовать существующий или создать новый индивидуализированный граф данных для размещения информации интуитивно понятным способом, таким образом, чтобы он легко интегрировался с существующими графами данных в объединенной среде независимо от специфики управления данными;
- найти адекватные научные данные, не проводя чересчур много времени в интернете.
Начать предполагается с таких ресурсов, как движение "Открытое правительство", инициатива "Геном материала" и "Банк данных белковых структур" (Protein Data Bank, PDB). Эти усилия охватят множество локальных и сетевых ресурсов. Разработка инфраструктуры для автоматической интеграции информации из всех этих ресурсов с использованием графов данных является сложной задачей, однако предпринимаются шаги для ее решения. Необходимы мощные инструменты базы данных и серверы для манипулирования графами данных.
5.7.4 Вариант использования 35: Анализ больших объемов данных, получаемых в экспериментах на синхротроне
Применение
Образцы подвергаются воздействию рентгеновского излучения от источников излучения в различных конфигурациях, в зависимости от эксперимента. Данные собираются детекторами, которые фактически представляют собой высокоскоростные цифровые фотокамеры. Затем данные анализируются с целью восстановления вида исследуемого образца или процесса.
Текущий подход
Для анализа данных используется различное программное обеспечение, как коммерческое, так и с открытым исходным кодом. Передача данных осуществляется посредством физического перемещения портативных носителей информации (что сильно ограничивает производительность); либо с использованием высокопроизводительного протокола GridFTP в реализации компании Globus Online и систем управления потоками рабочих процессов, таких как программная инфраструктура с открытым исходным кодом (Support for Provenance Auditing in Distributed Environments - "Поддержка аудита происхождения в распределенных средах").
Планы на будущее
Разрешение фотокамер постоянно увеличивается. Становится необходимой передача данных в крупномасштабные вычислительные центры из-за вычислительной мощности, необходимой для проведения анализа в разумные, с точки зрения эксперимента, сроки. Из-за большого количества каналов отвода излучения к экспериментальным установкам (их, например, 39 у синхротрона Advanced Light Source (ALS) Национальной лаборатории имени Лоуренса в Беркли, США (LBNL), совокупное производство данных, вероятно, значительно возрастет в ближайшие годы, равно как и потребность в обобщенной инфраструктуре для анализа гигабайт данных в секунду, поступающих от множества детекторов на ряде экспериментальных установок.
5.8 Астрономия и физика
5.8.1 Вариант использования 36: Каталинский обзор оптических переходных процессов в режиме реального времени (CRTS) - цифровой, панорамный, синоптический обзор неба
Применение
В рамках проекта "Каталинский обзор оптических переходных процессов в режиме реального времени" (CRTS) проводятся исследования меняющейся Вселенной в диапазоне видимого света, в масштабах времени, варьирующихся от минут до лет, путем поиска переменных и транзиентных (непостоянных, преходящих) источников.
Такие исследования позволяют выявить широкий спектр астрофизических объектов и явлений, включая различные типы космических взрывов (например, сверхновых), переменные звезды, явления, связанные с аккрецией на массивные черные дыры (примером служат активные галактические ядра) и их релятивистские потоки частиц и энергий, и звезды с большим собственным движением.
Данные поступают с трех телескопов (два в Аризоне, США и один в Австралии), и в ближайшем будущем ожидается подключение дополнительных телескопов в Чили.
Текущий подход
В ходе обзора создается примерно до 0,1 терабайта данных в ясную ночь, а суммарный объем фондов данных составляет в настоящее время около 100 терабайт. Данные предварительно обрабатываются на телескопе, а затем передаются в Университет Аризоны и Калифорнийский технологический институт (Caltech) для дальнейшего анализа, распространения и архивирования.
Данные обрабатываются в режиме реального времени, а обнаруженные транзиентные события публикуются с использованием различных электронных механизмов распространения, без использования проприетарного периода отсрочки до широкого распространения данных (CRTS использует политику полностью открытых данных).
Дальнейший анализ данных включает классификацию обнаруженных транзиентных событий, дополнительные наблюдения с использованием других телескопов, научную интерпретацию и публикацию. В этом процессе интенсивно используются архивные данные (несколько петабайт) из широкого спектра географически распределенных ресурсов, объединенных структурой Виртуальной обсерватории.
Планы на будущее
Проект CRTS является научным и методологическим испытательным стендом и предшественником предстоящих крупных обзоров, которые будут проводиться, в частности, Большим синоптическим обзорным телескопом в Обсерватории имени Веры Рубин, Чили (LSST). Этот телескоп, который, как ожидается, войдет в эксплуатацию в 2020-х гг., в "Астрономическом и астрофизическом ежедекадном обозрении" (Astronomy and Astrophysics Decadal Survey) 2010 г. признан наиболее приоритетным наземным инструментом. Телескоп LSST будет собирать около 30 терабайт данных за ночь.
Потоки данных обзора от телескопов (размещенных на земле или в космосе) формируют потоки данных о транзиентных событиях. Данные о событиях вместе с их качественными описаниями поступают на хранение в одно или несколько хранилищ, которые могут распространять их в электронном виде для астрономов или роботизированных телескопов. С каждым событием ассоциируется пополняющийся портфель информации, который включает в себя все доступные данные о конкретной небесной позиции. Данные собираются из разнообразных архивов, объединенных в структуре Виртуальной обсерватории, из аннотаций экспертов и т.д.
Представления такой объединенной информации могут быть как человекочитаемыми, так и машиночитаемыми. Данные поступают в один или несколько автоматических механизмов определения характеристик, классификации и приоритизации, которые используют различные инструменты машинного обучения для выполнения этих задач.
Выходные данные этих механизмов, которые динамически эволюционируют по мере поступления и обработки новой информации, учитываются при планировании последующих наблюдениях за избранными событиями, а полученные в ходе таких наблюдений данные передаются обратно в портфели событий для следующей итерации.
Пользователи, как люди, так и автоматы, могут подключаться к системе во многих точках для поиска и извлечения информации и для предоставления новой информации посредством использования стандартизированного набора форматов и протоколов. Это может быть сделано в режиме почти реального времени либо в "архивном" режиме (когда время не является критическим фактором).
5.8.2 Вариант использования 37: Проект Министерства энергетики США анализа экстремально больших данных космологических обзоров неба и моделирования
Применение
Инструмент выявления космологических явлений объединяет моделирование и данные наблюдений с тем, чтобы прояснить природу темной материи, темной энергии и инфляции, - это вопросы, которые относятся к числу самых волнующих, озадачивающих и проблемных, которые стоят перед современной физикой, включая вопрос о влиянии свойств элементарных частиц на раннюю Вселенную. В ходе моделирования будут создаваться данные в объемах, сопоставимых с объемами данных наблюдений.
Текущий подход
В настоящее время данный проект находится на стадии предварительного планирования и, соответственно, текущий подход не полностью разработан.
Планы на будущее
Такого рода системы будут использовать колоссальное количество суперкомпьютерного времени - более 200 млн часов. Соответствующие объемы данных следующие:
- обзор "Темная энергия" (Dark Energy Survey, DES): 4 петабайта в год в 2015 г.;
- обзор Zwicky Transient Factory (ZTF): 1 петабайт в год в 2015 г.;
- большой синоптический обзорный телескоп в Обсерватории имени Веры Рубин, Чили (LSST) - 7 петабайт в год в 2019 г. (см. описание проекта CRTS в 5.8.1);
- моделирование: 10 петабайт в год в 2017 г.
5.8.3 Вариант использования 38: Большие данные космологических обзоров
Применение
При выполнении обзора "Темная энергия" (Dark Energy Survey, DES) данные с вершины горы передаются по микроволновой связи в чилийский город Ла Серена (La Serena). Оттуда по оптическим каналам связи они поступают в американский Национальный центр компьютерных приложений (National Center for Computing Applications, NCSA) и Национальный научно-исследовательский вычислительный центр энергетических исследований Министерства энергетики США (NERSC) для хранения и "редуцирования". Здесь проводится идентификация и каталогизация галактик и звезд как на отдельных изображениях, так и на сериях изображений, и, наконец, их характеристики измеряются и сохраняются в базе данных.
Текущий подход
Работают конвейеры "вычитания" с использованием существующих изображений с целью найти новые оптические транзиенты при помощи алгоритмов машинного обучения. Технологии работы с данными и аппаратные ресурсы описаны в А.7.3.
Планы на будущее
Необходимы методы для выполнения разложения Холецкого для тысяч моделирований с матрицами порядка миллиона по каждой стороне и параллельное хранение изображений. Телескоп LSST создаст 60 петабайт графических данных и 15 петабайт данных каталога, и будет создан соответственно большой (или даже больший) объем данных моделирования. В общей сложности за ночь будет создаваться более 20 терабайт данных.
5.8.4 Вариант использования 39: Физика элементарных частиц - Анализ данных "Большого адронного коллайдера": открытие бозона Хиггса
Применение
Проводится анализ соударений на ускорителе "Большого адронного коллайдера" (БАК - Large Hadron Collider, LHC) Европейского центра ядерных исследований ЦЕРН (CERN).
Обработанная информация описывает физические свойства событий, и на ее основе создаются списки частиц с указанием их типа и импульса. Эти события анализируются с целью обнаружения новых явлений, как новых частиц (например, бозона Хиггса), так и сбора доказательств того, что предполагаемые частицы (предсказываемые, например, теорией суперсимметрии) не были обнаружены. На Большом адронном коллайдере проводится несколько крупных экспериментов, включая "Тороидальный детектор БАК" ATLAS (A Toroidal LHC ApparatuS) и "Компактный мюонный соленоид" (Compact Muon Solenoid, CMS). В этих экспериментах принимают участие представители глобального научного сообщества (например, в эксперименте CMS насчитывается 3600 участников из 183 учреждений 38 стран), поэтому данные на всех уровнях передаются и являются доступными на всех континентах.
Текущий подход
Эксперименты на Большом адронном коллайдере являются пионерами в области распределенной инфраструктуры больших данных. Ряд аспектов потока рабочих процессов этих экспериментов высвечивают задачи, которые в рамках других дисциплин тоже нужно будет решить. В числе этих задач - автоматизация распределения данных, высокопроизводительная передача данных и крупномасштабные вычисления с большой пропускной способностью.
В рамках анализа на гриде данных, проводившегося для обнаружения бозона Хиггса, использовались 350 тысяч ядер, работавших почти непрерывно, выполняя в день более двух миллионов заданий, распределенных по трем основным уровням: ЦЕРН, континенты/страны и университеты.
Для анализа используется распределенная архитектура для вычислений с высокой пропускной способностью (т.е. комфортабельно-параллельная), в рамках которой участвующие вычислительные центры объединены в мировом масштабе с помощью "Всемирного вычислительного грида Большого адронного коллайдера" (Worldwide LHC Computing Grid, WLCG) и, в США, "Грида открытой науки" (Open Science Grid).
В общей сложности в ходе экспериментов на ускорителе и при анализе их результатов ежегодно создается 15 петабайт данных, а суммарный объем данных составляет 200 петабайт. В частности, в 2012 г. эксперимент ATLAS хранил 8 петабайт на магнитной ленте для обеспечения первого уровня хранения Tier-1 и более 10 петабайт на диске уровня Tier-1 в Брукхейвенской национальной лаборатории (BNL), и 12 петабайт в кэш памяти на дисках в американских центрах уровня Tier-2. В рамках эксперимента CMS объемы данных аналогичны. Более половины ресурсов используется для моделирования по методу Монте-Карло, а не для анализа данных.
Планы на будущее
В прошлом сообщество специалистов в области физики элементарных частиц могло рассчитывать на то, что промышленность обеспечит во времени экспоненциальный рост производительности в расчете на единицу затрат в соответствии с законом Мура. Однако в будущем доступную производительность будет гораздо сложнее использовать, поскольку технологические ограничения, связанные, в частности, с энергопотреблением, привели к глубоким изменениям в архитектуре современных микросхем центральных процессоров (CPU).
В прошлом программное обеспечение могло использоваться без изменений на последовательных поколениях процессоров и достигать соответствующего закону Мура прироста производительности благодаря регулярному повышению тактовой частоты процессоров, которое продолжалось до 2006 г. Эра масштабирования последовательных приложений на процессорах, построенных на неоднородных элементах (heterogeneous element processor, HEP), теперь уже закончилась. Изменения в архитектуре центральных процессоров предполагают значительно больший параллелизм программного обеспечения, а также использование специализированных возможностей для вычислений с плавающей запятой.
Структура и производительность программного обеспечения для обработки данных физики высоких энергий должны быть изменены таким образом, чтобы его можно было продолжать адаптировать и развивать, обеспечивая его эффективную работу на новом оборудовании. Это означает серьезную смену парадигмы в разработке программного обеспечения для физики высоких энергий и подразумевает крупномасштабную реорганизацию структур данных и алгоритмов. Параллелизм необходимо добавлять одновременно на всех уровнях: на уровне событий, на уровне алгоритма и на суб-алгоритмическом уровне. Компоненты на всех уровнях стека программного обеспечения должны быть способны взаимодействовать, поэтому цель заключается в том, чтобы максимально стандартизировать типовые проектировочные решения и выбор модели параллелизма. Это также поможет обеспечить эффективное и сбалансированное использование ресурсов.
5.8.5 Вариант использования 40: Эксперимент Belle II в области физики высоких энергий
Применение
"Belle" - это эксперимент в области физики элементарных частиц, в рамках которого более 400 физиков и инженеров исследуют эффекты нарушения зарядовой четности (СР-инвариантности) при получении В-мезонов на ускорителе высоких энергий - электронно-позитронном коллайдере KEKB, находящемся в Цукубе, Япония. В частности, идет поиск различных мод распада в мезонном резонансе Y(4S) с целью обнаружения новых явлений, выходящих за рамки стандартной модели физики элементарных частиц.
Данный ускоритель имеет наибольшую интенсивность из всех существующих в мире, но события проще, чем те, что наблюдаются на "Большом андронном коллайдере" (LHC), и поэтому анализ менее сложен, но по стилю похож на анализ данных ускорителя LHC в ЦЕРН.
Текущий подход
В настоящее время данный проект находится на стадии предварительного планирования и, соответственно, текущий подход не полностью разработан.
Планы на будущее
Модернизированный эксперимент Belle II и ускоритель SuperKEKB начали работу в 2015 г. Объем данных увеличится в 50 раз, при этом суммарный объем интегрированных первичных данных составил около 120 петабайт, физических данных - около 15 петабайт, данных моделирования по методу Монте-Карло - около 100 петабайт.
На новом этапе потребуется переход к модели распределенных вычислений, требующей непрерывной передачи необработанных данных со скоростью 20 гигабит в секунду между Японией и США при проектной яркости ускорителя. Необходимое программное обеспечение описано в А.7.5.
5.9 Науки о Земле, экологические науки и полярные исследования
5.9.1 Вариант использования 41: Радарная система некогерентного рассеяния EISCAT-3D Европейской научной ассоциации по некогерентному рассеянию радиоволн
Применение
Европейская научная ассоциация по некогерентному рассеянию радиоволн (European Incoherent Scatter Scientific Association, EISCAT) проводит исследования нижней, средней и верхней атмосферы и ионосферы с использованием радарных систем некогерентного рассеяния. Эти установки являются наиболее мощными наземными инструментами, используемыми в такого рода исследованиях. EISCAT изучает нестабильности в ионосфере и исследует структуру и динамику средней атмосферы. В экспериментах по искусственной модификации ионосферы EISCAT использует измерительный комплекс в сочетании с отдельным нагревным стендом. В настоящее время EISCAT эксплуатирует три из десяти основных радарных систем некогерентного рассеяния в мире. Эти три системы расположены в скандинавском секторе к северу от полярного круга.
Текущий подход
Эксплуатируемая в настоящее время радарная система EISCAT производит данные со скоростью несколько терабайт в год. Каких-либо особых проблем у системы нет.
Планы на будущее
Конструктивно радарная система следующего поколения EISCAT-3D будет состоять из центрального радиолокационного поста с приемными и передающими антенными решетками, и четырех приемных постов с приемными антенными решетками на расстоянии около 100 км от центрального поста.
Полностью функциональная система из пяти постов будет производить в несколько тысяч раз большие объемы данных по сравнению с ныне используемой системой EISCAT, на уровне 40 петабайт в год в 2022 г. и, как ожидается, будет эксплуатироваться в течение 30 лет.
В электронной инфраструктуре данных эксперимента EISCAT-3D планируется использовать высокопроизводительные компьютеры для обработки данных в основном центре и компьютеры с высокой пропускной способностью в зеркальных центрах обработки данных. Операция скачивания всего массива данных не является критичной ко времени, однако для оперативного управления требуется информация в реальном времени о некоторых заранее определенных событиях, которая будет поступать с постов в центр управления, а также связь в реальном времени центра управления с постами для установления в реальном времени режима работы радара.
5.9.2 Вариант использования 42: "Совместная деятельность европейских сетевых инфраструктур в области экологических исследований" (ENVRI)
Применение
Предметом проекта "Совместная деятельность европейских сетевых инфраструктур в области экологических исследований" (ENVRI) являются европейские распределенные, рассчитанные на длительную перспективу, дистанционно управляемые сети наблюдений, ориентированные на понимание процессов, тенденций, порогов, взаимодействий и обратных связей, а также на повышение предсказательной способности в интересах разрешения будущих экологических проблем. Следующие усилия являются частью проекта ENVRI:
- "Интегрированная система наблюдения за выбросами углерода" ICOS (Integrated Carbon Observation System) - европейская распределенная инфраструктура, предназначенная для мониторинга парниковых газов через ее атмосферные, экосистемные и океанские сети наблюдений;
- EURO-Argo - европейский вклад в международную систему наблюдений за океаном Argo;
- проект EISCAT-3D (описан в отдельном варианте применения N 41) - европейская исследовательская радарная система некогерентного рассеяния нового поколения для исследований верхней атмосферы;
- проект LifeWatch (описан в отдельном варианте применения N 25) - европейская электронная инфраструктура для исследований в области экологии и биологического разнообразия;
- "Европейская исследовательская инфраструктура для слежения за [геологическими] плитами" EPOS (European Plate Observing System) - это европейская инфраструктура для исследования землетрясений, вулканов, динамики поверхности и тектоники;
- "Европейская междисциплинарная обсерватория исследования морского дна и слоев воды" (EMSO) - европейская сеть наблюдательных станций морского дна, предназначенная для мониторинга в долгосрочном масштабе времени экологических процессов, связанных с экосистемами, изменением климата и геологическими опасностями;
- проект "Использование самолетов в глобальной системе наблюдений" (IAGOS) организует сеть самолетов для глобального наблюдения за атмосферой;
- проект "Интегрированная система наблюдений за Арктикой на Шпицбергене" (SIOS) создает систему наблюдений на Шпицбергене и вокруг него, которая объединяет исследования геофизических, химических и биологических процессов, проводимые на всех платформах исследований и мониторинга.
Текущий подход
В рамках проекта ENVRI разрабатывается эталонная модель (ENVRI RM) в качестве общей онтологической структуры и стандарта для описания и характеризации вычислительной инфраструктуры и инфраструктуры хранения. Цель состоит в том, чтобы обеспечить бесперебойную интероперабельность между неоднородными ресурсами различных инфраструктур. Модель ENVRI RM служит языком общения, обеспечивая единую концепцию, на основе которой можно классифицировать и сравнивать компоненты инфраструктуры. Модель ENVRI RM также используется для выявления типовых решений общих проблем. Темпы производства данных в инфраструктурах варьируются от нескольких гигабайт до нескольких петабайт в год.
Планы на будущее
Общая среда ENVRI откроет новые возможности для пользователей взаимодействующих инфраструктур экологических исследований и обеспечит участникам междисциплинарных исследований возможность получать, изучать и сопоставлять данные из нескольких областей знаний в интересах исследований системного уровня. Сотрудничество влияет на требования к большим данным, образующиеся в результате междисциплинарных исследований.
ENVRI проанализировала вычислительные характеристики шести инфраструктур экологических исследований "Европейского стратегического форума по исследовательским инфраструктурам" (European Strategy Forum on Research Infrastructures, ESFRI) и выделила пять общих подсистем. Они описаны в эталонной модели ENVRI RM (см. https://confluence.egi.eu/display/EC/Download+of+ENVRI+ Reference+Model) и перечислены ниже:
- подсистема сбора данных: собирает первичные данные от групп датчиков, различных приборов или наблюдателей-людей, направляет потоки данных измерений в систему;
- подсистема курирования данных: облегчает контроль качества и обеспечение долговременной сохранности научных данных и обычно размещается в центре обработки данных;
- подсистема доступ к данным: обеспечивает поиск и извлечение данных, размещенных в ресурсах данных, управляемых подсистемой курирования данных;
- подсистема обработки данных: объединяет данные из различных ресурсов и предоставляет вычислительные ресурсы и возможности для проведения анализа данных и научных экспериментов;
- подсистема поддержки сообщества: управляет, контролирует и отслеживает действия пользователей и поддерживает пользователей при выполнении ими их ролей в сообществе.
5.9.3 Вариант использования 43: Анализ радиолокационных данных для Центра дистанционного зондирования ледяного покрова (CReSIS)
Применение
Центр дистанционного зондирования ледяного покрова университета Канзаса, США (CReSIS) использует специализированные радиолокационные системы для измерения толщины слоя ледяного покрова и (ежегодно) толщины слоя снега на Северном и Южном полюсах и в горных районах.
Полученные данные передаются в Межправительственную группу экспертов по изменению климата (IPCC). Радарные системы, как правило, устанавливаются на самолетах, летающих по нескольким траекториям.
Текущий подход
Первоначальный анализ предусматривает использование инструментов обработки сигналов пакета Matlab, в результате которой выдается набор радиолокационных изображений. Эти изображения не могут быть переданы с места исследований через интернет, поэтому они, как правило, копируются на месте на несколько съемных жестких дисков терабайтного объема, а затем доставляются по воздуху в лабораторию для подробного анализа.
Элементы изображения (слои) выявляются с использованием инструментов понимания изображений при некотором контроле со стороны человека. Типичная эхограмма с выявленными границами позволяет различать границы между слоями воздуха и льда, между льдом и рельефом местности. Эта информация хранится в базе данных, доступ к которой осуществляется через географическую информационную систему. Данные о толщине слоя ледяного покрова используются при моделировании движения ледников. В ходе каждой полевой экспедиции, длящейся, как правило, несколько недель, производится от 50 до 100 терабайт данных.
Планы на будущее
Прогнозируется, что при использовании улучшенных инструментов объемы данных вырастут на порядок величины (до петабайта за экспедицию). Поскольку увеличивающиеся в объеме первичные данные должны обрабатываться в среде с ограниченным доступом к энергии, в качестве предпочтительных рассматриваются архитектуры с низким энергопотреблением или с низкой производительностью, такие как системы на основе графических процессоров.
5.9.4 Вариант использования 44: Обработка данных, доставка результатов и сервисы данных проекта "Радар с синтезированной апертурой для беспилотного летательного аппарата" (UAVSAR)
Применение
Радар с синтезированной апертурой (SAR) способен выявлять изменения ландшафта, вызванные сейсмической активностью, оползнями, обезлесением, изменениями растительности и наводнениями. Эта функциональная возможность может быть использована в интересах науки о землетрясениях, а также менеджмента стихийных бедствий. Данный вариант использования охватывает хранение данных, приложение для обработки изображений и визуализацию данных с географической привязкой.
Текущий подход
После передачи существенных объемов данные с самолетов и спутников перед сохранением обрабатываются на компьютерах Национального управления по аэронавтике и исследованию космического пространства США (NASA). Данные раскрываются для общественности после обработки и требуют значительного курирования из-за сбоев измерительного оборудования. Текущий объем данных составляет примерно 150 терабайт.
Планы на будущее
Размер данных резко увеличится в случае запуска программы НАСА спутникового радиолокационного зондирования Земли (Earth Radar Mission). Облачные системы хранения являются подходящими для хранения данных, однако в настоящее время не используются.
5.9.5 Вариант использования 45: Объединенный испытательный стенд iRODS Исследовательского центра в Ленгли НАСА и Центра управления полетами имени Годдарда
Применение
Центр моделирования климата НАСА (NCCS) и Центр обработки атмосферных данных (ASDC) Национального управления по аэронавтике и исследованию космического пространства США (NASA) имеют в своем распоряжении взаимодополняющие друг друга наборы данных огромного объема, ввиду чего по этим данным трудно выполнять запросы и ими сложно обмениваться.
Исследователям климата, специалистам по прогнозированию погоды, группам разработки и обслуживания измерительной аппаратуры и другим специалистам нужен доступ к данным из нескольких массивов данных с тем, чтобы сравнивать показания датчиков различных измерительных инструментов, сопоставлять показания датчиков с результатами моделирования, калибровать приборы, искать корреляции между несколькими параметрами и т.д.
Текущий подход
Данные создаются на основе двух продуктов: "Система для ретроспективного анализа современной эры для исследований и приложений" (MERRA), описывается отдельно в варианте применения N 46, и проекта НАСА "Система для изучения облачности и излучения Земли" (CERES):
- база данных "Баланс и накопление энергии верхних слоев атмосферы" EBAF-TOA (Energy Balanced and Filled-Top of Atmosphere) объемом около 420 мегабайт;
- продукт "Баланс и накопление энергии - Поверхность" EBAF-Surface, объемом около 690 мегабайт.
Количество данных увеличивается с каждым обновлением версии, которое происходит примерно раз в полгода. В настоящее время усилия по анализу, визуализации и обработке данных из неоднородных массивов данных требуют много времени. Ученым приходится отдельно получать доступ, искать и загружать данные с каждого из нескольких серверов. Данные часто дублируются, при этом непонятно, какой источник считать авторитетным. Нередко получение доступа к данным отнимает больше времени, чем научный анализ. Текущие массивы данных размещаются на кластерах InfiniBand умеренного размера (от 144 до 576 ядер).
Планы на будущее
Улучшенный доступ будет обеспечиваться благодаря использованию интегрированной системы управления данными, основанной на использовании правил" (iRODS). Эти системы поддерживают параллельную загрузку массивов данных с выбранных серверов копий (replica servers), обеспечивая пользователям всемирный доступ к географически рассредоточенным серверам. Работе iRODS будут способствовать семантически организованные метаданные, управление которыми осуществляется на основе высокоточной онтологии НАСА для наук о Земле. Также будет рассмотрен вопрос о возможности использования облачных решений.
5.9.6 Вариант использования 46: Аналитические сервисы MERRA (MERRA/AS)
Применение
Данное приложение "Система для ретроспективного анализа современной эры для исследований и приложений" (MERRA) осуществляет глобальный, согласованный во времени и пространстве синтез значений 26 ключевых климатических параметров путем объединения результатов численного моделирования с данными наблюдений.
Пространственные результаты выдаются каждые шесть часов начиная с 1979 г. и по настоящее время. Эти данные поддерживают такие важные приложения, как исследования Межправительственной группы экспертов по изменению климата (IPCC) и системы поддержки принятия решений по восстановлению экосистем (RECOVER) и борьбы НАСА и Министерства внутренних дел США с природными пожарами. В этих приложениях данные MERRA обычно интегрируются с данными из других массивов данных.
Текущий подход
Для обработки текущего объема данных в 480 терабайт используется Map/Reduce. Существующая система размещена в кластере InfiniBand с 36 узлами.
Планы на будущее
Изучается вопрос об использовании облачных вычислений. Прирост объема данных составляет один терабайт в месяц.
5.9.7 Вариант использования 47: Атмосферная турбулентность - Обнаружение событий и прогностическая аналитика
Применение
Интеллектуальный анализ данных на основе продуктов ретроспективного анализа, таких как массивы данных проектов "Система для ретроспективного анализа современной эры для исследований и приложений" (MERRA), который описывается отдельно в варианте использования N 46, и "Реанализ метеорологических данных для региона Северной Америки" (NARR), который представляет собой набор климатических данных высокого разрешения за длительный период времени для Северной Америки.
В ходе анализа сопоставляются сведения о турбулентности, полученные от летательных аппаратов (либо из отчетов пилотов, либо из автоматических измерений на летательных аппаратах скорости диссипации вихрей), с данными недавно завершенного ретроспективного анализа.
Получаемая информация представляет ценность для авиационной промышленности и специалистов по прогнозу погоды. В настоящее время стандартов для продуктов ретроспективного анализа нет, что приводит к усложнению систем, для которых изучаются возможности использования инструмента Map/Reduce. Объем медленно обновляемых данных реанализа составляет сотни терабайт, в то время как набор данных турбулентности меньше по размеру и реализован как потоковый сервис.
Текущий подход
Текущий массив данных объемом 200 терабайт может быть проанализирован с помощью Map/Reduce или аналогичного инструмента с использованием SciDB или иной научной СУБД.
Планы на будущее
Через пять лет объем массива данных достигнет 500 терабайт. Исходная тематика турбулентности может быть расширена за счет других океанических/атмосферных явлений, однако аналитика в каждом случае будет отличаться.
5.9.8 Вариант использования 48: Исследования климата с использованием модели климатической системы Земли (CESM) в Национальном научно-исследовательском вычислительном центре энергетических исследований Министерства энергетики США (NERSC)
Применение
Моделирование с использованием модели климатической системы Земли (CESM) может быть использовано для понимания и количественного определения вклада естественных и антропогенно-обусловленных типовых сценариев изменчивости и изменения климата в 20-м и 21-м столетиях. Результаты проводимого по всему миру суперкомпьютерного моделирования должны сохраняться и сравниваться.
Текущий подход
Грид-система обработки данных о Земле (ESG) обеспечивает глобальный доступ к климатическим данным в огромных масштабах - в пета или даже в экза-масштабе, храня многие петабайты данных в десятках центрах по всему миру, объединенных в грид. Инфраструктура ESG считается ведущей в плане управления и обеспечения доступа к большим распределенным объемам данных, используемых в исследованиях в области изменения климата. Она поддерживает "Проект сопоставления связанных климатических моделей" (CMIP), протоколы которого обеспечиваются периодическими оценками, выполняемыми "Межправительственной группой экспертов по изменению климата" (IPCC).
Планы на будущее
Ожидается быстрый рост объемов данных: в 2017 г. только в Национальном научно-исследовательском вычислительном центре энергетических исследований Министерства энергетики США (NERSC) будет произведено 30 петабайт данных (при условии выполнения 15 сквозных экспериментов по теме изменения климата) и во много раз больше в мире в целом.
5.9.9 Вариант использования 49: Фокус-область подповерхностных биогеохимических исследований Управления биологических и экологических исследований Министерства энергетики США (BER)
Применение
Обеспечиваемые проектом моделирования водоразделов с использованием генома (Genome - Enabled Watershed Simulation Capability, GEWaSC) возможности необходимы для создания прогнозирующей структуры для понимания следующего:
- как геномная информация, хранящаяся в подповерхностном микробиоме, влияет на функционирование биогеохимического водораздела;
- как процессы в масштабе водораздела влияют на функционирование микробов;
- как эти взаимодействия сосуществуют.
Текущий подход
Текущие средства моделирования позволяют воспроизводить процессы, происходящие во внушительном диапазоне масштабов - от отдельной бактериальной клетки до шлейфа загрязнения. Данные охватывают все масштабы от геномики микробов в почве до гидробиогеохимии водораздела. Данные производятся различными областями исследований и включают данные моделирования, полевых измерений (например, гидрологические, геохимические, геофизические), биологических наук - "омиков" и наблюдений в ходе лабораторных экспериментов.
Планы на будущее
До сегодняшнего дня недостаточно внимания уделялось разработке концепции для систематического соединения явлений различных масштабов, что необходимо для выявления ключевых элементов контроля и управления и моделирования существенных обратных связей. В рамках проекта GEWaSC будет разработана концепция моделирования, которая охватит широкий диапазон данных - от геномов до водоразделов. Она позволит объединять разнообразные и разрозненные массивы данных полевых, лабораторных измерений и моделирования, включая различные семантические, пространственные и временные измерения.
5.9.10 Вариант использования 50: Сеть AmeriFlux Управления биологических и экологических исследований Министерства энергетики США и сеть FLUXNET
Применение
Сети AmeriFlux и FLUXNET представляют собой, соответственно, американскую и мировую коллекции датчиков, которые отслеживают потоки малых газовых составляющих (таких как СO 2, водяной пар) в широком временном (часы, дни, времена года, годы и десятилетия) и пространственном диапазонах. Кроме того, формируемые наборы данных содержат информацию о важнейших взаимосвязях между организмами, экосистемами и исследованиями на уровне процессов - в адекватных для изучения климата масштабах ландшафтов, регионов и континентов, которые следует учитывать в биогеохимических и климатических моделях.
Текущий подход
Сведения о программном обеспечении приведены в А.8.10. Имеется около 150 измерительных вышек в составе сети AmeriFlux и более 500 распределенных по всему миру вышек для сбора измерений газовых потоков.
Планы на будущее
Сбор данных полевых экспериментов будет улучшен благодаря доступу к существующим данным и автоматическому вводу новых данных через мобильные устройства. Будут расширены междисциплинарные исследования, объединяющие различные источники данных.
5.10 Энергетика
5.10.1 Вариант использования 51: Прогнозирование потребления электроэнергии в интеллектуальных энергосетях
Применение
"Умные" счетчики поддерживают прогнозирование потребления энергии для потребителей, трансформаторов, подстанций и зон обслуживания электросетей. Передовые счетчики выдают показания каждые 15 минут, обеспечивая детализацию на уровне отдельных потребителей в зоне обслуживания интеллектуальных электросетей.
В состав объединяемых данных входят данные умных счетчиков (распределенные), служебные базы данных энергетических компаний (информация о клиентах, топология сети - централизованные), данные всеобщей переписи населения США (распределенные), метеорологические данные Национального управления океанических и атмосферных исследований США (National Oceanic and Atmospheric Administration, NOAA) (распределенные), данные информационных систем для построения микроэнергосетей (централизованные) и сенсорных сетей микроэнергосетей (распределенные). Центральной темой является выполняемый в реальном времени, управляемый данными анализ временных рядов из киберфизических систем.
Текущий подход
Прогнозирование использует визуализацию на основе геоинформационных систем (ГИС). Темпы производства данных составляют около 4 терабайт в год для такого города, как Лос-Анджелес, где имеется 1,4 млн датчиков. Существуют серьезные проблемы в плане обеспечения защиты персональных данных, требующие анонимизации путем агрегирования данных. Данные в реальном времени и исторические данные в сочетании с машинным обучением используются для прогнозирования потребления. Информация о программном обеспечении приведена в А.9.1.
Планы на будущее
Будут широко развернуты передовые технологии энергосетей. В интеллектуальных сетях появятся новые инструменты аналитики, объединяющие разнородные данные и поддерживающие выдачу требований к крупным потребителям о сокращении энергопотребления в пиковые периоды (curtailment request). Новые технологии будут поддерживать мобильные приложения для взаимодействия с клиентами.
5.10.2 Вариант использования 52: Система управления энергией домашнего хозяйства HEMS
Применение
Система управления энергией домашнего хозяйства (HEMS) является полезной для энергосбережения в частных домах. В рамках системы HEMS в частных домах устанавливается различного вида датчики и устройства, такие как "умный" счетчик, электромобиль, панель солнечных батарей, осветительные приборы, кондиционер, топливный элемент, водонагреватель, аккумуляторная батарея. "Менеджер энергопотребления" собирает произведенные в частных домах данные и сохраняет их в облачной базе данных, называемой "большой информационной платформой HEMS". "Информационный менеджер" управляет большой информационной платформой HEMS и осуществляет менеджмент данных. Он также отвечает за обеспечение неприкосновенности частной жизни и безопасность пользователей. "Сервисный агент" анализирует данные и предоставляет пользователям ценную информацию в качестве услуги.
Текущий подход
Услуги, предоставляемые "сервисным агентом", не ограничиваются мониторингом энергопотребления. Другими примерами полезных услуг являются услуги по наблюдению за состоянием пожилых людей, помощь с выбором оптимального тарифного плана для электроэнергии, прогнозирование выработки электроэнергии фотоэлектрической системой, управление спросом на электроэнергию посредством стимулирования купонами (coupon incentive-based demand response, CIDR).
Планы на будущее
Для повышения полезности данных HEMS необходима будет стандартизация API-интерфейса программирования приложений.
6 Технические проблемы, выявленные в результате анализа вариантов использования
Технические проблемы - это проблемы и препятствия, ограничивающие дальнейшее использование больших данных. После сбора, обработки и анализа вариантов использования из отдельных описаний были выделены упомянутые в них технические проблемы и сгруппированы на основе семи характерных признаков. Затем эти специфические проблемы были обобщены с целью выделения, в рамках семи характерных категорий, высокоуровневых требований, которые не зависят от производителя и от технологии. При этом следует отметить, что ни списки вариантов использования, ни списки требований не являются исчерпывающими.
6.1 Технические проблемы в конкретных вариантах использования
Каждый вариант использования был оценен на предмет наличия технических проблем по семи критериям, определяемым следующими ключевыми факторами:
- источник данных [например, объемы данных, файловые форматы, темпы увеличения объемов, нахождение данных в покое (неактивные данные) или движении (данные в процессе передачи либо обработки)];
- преобразование данных (например, объединение данных, аналитика);
- возможности обработки (например, программные инструменты, инструменты платформ, аппаратные ресурсы, такие как ресурсы хранения и сетевые);
- потребитель данных (например, представление обработанных результатов в текстовом, табличном, визуальном и иных форматах);
- безопасность и защита персональных данных;
- управление жизненным циклом (например, курирование, конверсия (конвертация), проверка качества, предварительная обработка перед проведением анализа);
- иные технические проблемы.
В описаниях некоторых вариантов использования присутствовали все технические проблемы, в то время как в описаниях других вариантов назывались лишь несколько проблем. Полный список специфических проблем, извлеченных из описаний вариантов использования, приведен в приложении D. Данные признаки были приняты во внимание при окончательном отборе ролей, описанных в ИСО/МЭК 20547-3.
6.2 Сводные итоги анализа требований
Были выделены 35 общих требований [1] на основе анализа и обобщения 439 специфических технических проблем, извлеченных из 52 вариантов использования. В графе 2 таблицы 1 указано количество специфических технических проблем, послуживших основой для выделения соответствующего общего требования.
Таблица 1 - Общие технические требования, сформулированные на основе специфических технических проблем
# |
Количество вариантов |
Требование |
Требования к поставщику данных | ||
1 |
26 1) |
Необходимо поддерживать надежную, в реальном времени и/или асинхронную, потоковую и/или пакетную обработку с целью сбора данных из централизованных, распределенных и/или облачных источников, от датчиков и/или приборов |
2 |
22 |
Необходимо поддерживать передачу данных - медленную и/или неравномерную с периодическими пиковыми нагрузками и/или с высокой пропускной способностью - между источниками данных и вычислительными кластерами |
3 |
28 |
Необходимо поддерживать данные разнообразных типов и видов, включая структурированные и неструктурированные тексты, документы, графы, веб-материалы, геопространственные данные, сжатые, с привязкой ко времени, пространственные, мультимедийные данные, данные моделирования и показания измерительных инструментов |
Требования к провайдеру сервиса преобразования данных | ||
1 |
36 1) |
Необходимо поддерживать разнообразные вычислительно-интенсивные методы аналитической обработки и методы машинного обучения |
2 |
7 |
Необходимо поддерживать аналитическую обработку в реальном времени и/или пакетную |
3 |
14 1) |
Необходимо поддерживать обработку большого объема разнородных данных и данных моделирования |
4 |
6 |
Необходимо поддерживать обработку данных в движении (потоковая передача, доставка нового контента, отслеживание и т.д.) |
Требования к провайдеру вычислительных возможностей | ||
1 |
27 1) |
Необходимо поддерживать как унаследованные, так и продвинутые пакеты программ (ПО) |
2 |
16 1) |
Необходимо поддерживать как унаследованные, так и продвинутые вычислительные платформы (платформа) |
3 |
23 1) |
Необходимо поддерживать как унаследованные, так и продвинутые распределенные вычислительные кластеры, сопроцессоры, обработку ввода-вывода (инфраструктура) |
4 |
14 |
Необходимо поддерживать гибкую передачу данных (сети) |
5 |
28 1) |
Необходимо поддерживать унаследованные, крупномасштабные и продвинутые распределенные хранилища данных (хранение) |
6 |
13 |
Необходимо поддерживать как унаследованные, так и продвинутые исполняемые программы: приложения, инструменты, утилиты и библиотеки (ПО) |
Требования к потребителю данных | ||
1 |
4 |
Необходимо поддерживать быстрый поиск по обработанным данным - с высокой релевантностью, точностью и полнотой результатов поиска |
2 |
13 1) |
Необходимо поддерживать различные форматы выходных файлов для визуализации, рендеринга и создания отчетов |
3 |
2 |
Необходимо поддерживать визуальную разметку для представления результатов |
4 |
9 1) |
Необходимо поддерживать пользовательский интерфейс с широкими функциональными возможностями для доступа с помощью браузера и средства визуализации |
5 |
20 |
Необходимо поддерживать инструменты многомерной, с высоким разрешением визуализации данных |
6 |
1 |
Необходимо поддерживать потоковую передачу результатов клиентам |
Требования по обеспечению безопасности и защиты персональных данных | ||
1 |
30 1) |
Необходимо обеспечить безопасность и конфиденциальность чувствительных данных |
2 |
12 |
Необходимо поддерживать изолированную среду ("песочницу"), обеспечивать контроль доступа и многоуровневую аутентификацию на основе политик в отношении подлежащих защите данных |
Требования к управлению жизненным циклом | ||
1 |
20 |
Необходимо поддерживать курирование качества данных, включая предварительную обработку, кластеризацию, классификацию, редуцирование (преобразование к физическим величинам) и преобразование форматов |
2 |
2 |
Необходимо поддерживать динамическое обновление данных, профилей пользователей и ссылок |
3 |
6 |
Необходимо поддерживать жизненный цикл данных и политику обеспечения долговременной сохранности, включая отслеживание происхождения данных |
4 |
4 |
Необходимо поддерживать валидацию данных |
5 |
4 |
Необходимо поддерживать аннотирование данных человеком для их валидации |
6 |
3 |
Необходимо принимать меры для предотвращения утраты или порчи данных |
7 |
1 |
Необходимо поддерживать географически распределенные (multi-site) архивы |
8 |
2 |
Необходимо поддерживать постоянные идентификаторы и прослеживаемость данных |
9 |
1 |
Необходимо поддерживать стандартизацию, агрегирование и нормализацию данных из разнородных источников |
Иные требования | ||
1 |
6 |
Необходимо поддерживать пользовательский интерфейс с широкими возможностями для мобильных платформ с целью обеспечения доступа к обработанным результатам |
2 |
2 |
Необходимо поддерживать мониторинг с использованием мобильных платформ и учетом производительности аналитической обработки |
3 |
13 |
Необходимо поддерживать визуальный поиск по контенту с широкими функциональными возможностями и отображение контента на мобильных платформах |
4 |
1 |
Необходимо поддерживать сбор данных с использованием мобильных устройств |
5 |
1 |
Необходимо обеспечивать безопасность на мобильных устройствах |
------------------------------
1)Исправлена неверная цифра, здесь и в приложении D.
------------------------------
6.3 Признаки вариантов использования
В таблице 2 указано количество вариантов использования, обладавших определенными признаками. Выбор этих признаков был сделан на основе анализа, описанного в публикациях [2], [3] и [4].
Таблица 2 - Признаки вариантов использования
Аббревиатура |
# |
Описание |
РР |
26 |
Хорошо распараллеливаемая задача или задача Map-Only в парадигме Map/Reduce |
MR |
18 |
Классический Map/Reduce (добавьте данные по MRStat ниже для полного подсчета) |
MRStat |
7 |
Простая версия Map/Reduce, в которой ключевые вычисления представляют собой простое редуцирование, подобное вычислению статистических средних величин, таких как гистограммы и средние значения |
MRIter |
23 |
Итеративный Map/Reduce |
Graph |
9 |
Для анализа необходима сложная структура данных в виде графа |
Fusion |
11 |
Интеграция разнообразных данных в интересах выявления/принятия решений; может включать сложные алгоритмы или быть просто порталом |
Streaming |
41 |
Некоторые данные поступают порциями и таким же образом обрабатываются |
Classify |
30 |
Классификация: разделение данных по категориям |
S/Q |
12 |
Индексирование, поиск и выполнение запросов |
CF |
4 |
Использование совместной фильтрации рекомендательной системой |
LML |
36 |
Локальное машинное обучение (независимое для каждой параллельной сущности) |
GML |
23 |
Глобальное машинное обучение: глубокое обучение, кластеризация, LDA, PLSI, MDS, оптимизация большой размерности, как в вариационном байесовском методе, МСМС, алгоритм с распространением доверия "с подъемом" (Lifted Belief Propagation), стохастический градиентный спуск, L-BFGS, алгоритм Левенберга-Марквардта. Может вызывать алгоритм эффективной глобальной оптимизации (Efficient Global Optimization, EGO) или оптимизация сверхбольшой размерности (Exascale Global Optimization) вместе с масштабируемым параллельным алгоритмом. |
|
51 |
Управление потоками рабочих процессов - универсальное свойство, поэтому без идентификатора |
GIS |
16 |
Данные с геопривязкой часто отображаются с использованием ESRI, Microsoft Virtual Earth, Google Earth, GeoServer и т.д. |
HPC |
5 |
Классическое крупномасштабное моделирование космоса, материалов и т.д., производящее данные (например, для визуализации) |
Agent |
2 |
Моделирование с использованием моделей управляемыми данными макрообъектов, представленных в виде агентов |
С учетом этого дополнительного анализа данная таблица была расширена [3]. В итоге были выделены 50 свойств, сгруппированных в четыре представления, приведенные в таблицах 3-6.
Таблица 3 - Фасеты ракурса "архитектуры проблемы" концепции Ogres (мета/макрошаблон)
Pleasingly Parallel, РР (хорошее распараллеливание) |
Можно найти в BLAST, в моделировании белково-белковых взаимодействий (белковом докинге), в некоторых вариантах обработки (био) изображений, включая локальную аналитику или локальное машинное обучение с хорошо распараллеливаемой фильтрацией |
Classic Map/Reduce, MR (классический Map/Reduce) |
Алгоритмы индексирования, поиска, выполнения запросов и классификации, такие как совместная фильтрация ("вычислительные задачи-гиганты": G1 для MRStat в таблице 2, G7) |
Map Collective |
Встречается в машинном обучении - особенно в случае ядра на основе линейной алгебры |
Map P2P |
Прямая связь между узлами (Point to Point Communication), наблюдаемая в параллельном моделировании и графовых алгоритмах |
Map Streaming (архитектура работы с потоковыми данными) |
Комбинация (параллельных) длительно выполняемых процессов отображения (картирования - maps), принимающих потоковые данные |
Shared Memory |
Общая память - в отличие от распределенных данных (памяти). Используется в задачах, где важна реализация совместно используемой памяти. Имеет тенденцию быть динамически асинхронной |
SPMD |
Хорошо известный метод распараллеливания "Единая программа, множество данных" (Single Program Multiple Data) |
BSP |
Массовая синхронная обработка (Bulk Synchronous Processing, также расшифровывается как Bulk Synchronous Parallel model - массовая синхронная параллельная модель): четко определенные этапы вычислений/обмена информацией |
Fusion (объединение) |
Процесс выявления знаний часто включает в себя объединение ряда методов или источников данных |
Dataflow (потоки данных) |
Составная структура, в рамках которой ряд компонентов связан друг с другом посредством обмена данными |
Agents (агенты) |
Используется в эпидемиологии, при моделировании дискретных событий и т.д. "Роевые" подходы |
Workflow (потоки рабочих процессов) |
Во многих приложениях часто используется "аранжировка" (orchestration)/управление потоками рабочих процессов многих компонентов |
Таблица 4 - Фасеты ракурса "Особенности исполнения" концепции Ogres
Метрики производительности (эффективности) |
Измеряются в рамках сопоставительного анализ на основе эталонных показателей |
Отношение флоп/байт |
Важно для производительности |
Среда исполнения |
Облако или среда высокопроизводительных вычислений; нужны ли базовые библиотеки, такие как библиотеки матричной/векторной алгебры, метода сопряженного градиента, редукции, трансляции и т.д.? (Задача "гигант" G4) |
Объем |
Обширность данных, доступных для анализа с целью извлечения ценной информации |
Скорость обработки |
Скорость потока, с которой данные создаются, передаются, хранятся, анализируются или визуализируются |
Разнообразие |
Разнородность массива данных, полученных из нескольких предметных областей и/или объединяющих несколько их типов. См. также фасет "объединение" (fusion) |
Достоверность |
Полнота и точность данных, влияющие на процесс необходимой предварительной обработки и надежность результатов |
Структура информационного обмена |
Какова структура соединений? Является ли информационный обмен синхронным или асинхронным? В последнем случае может оказаться привлекательным использование общей памяти |
Статическое или динамическое? |
Изменяется ли приложение (граф) во время исполнения? |
Регулярность |
Большинство приложений состоит из набора взаимосвязанных объектов; является ли этот набор регулярным, как набор пикселей, или же представляет собой сложный нерегулярный граф? |
Алгоритм итеративный или нет? |
Важная характеристика алгоритма |
Абстрактная модель данных |
Пары "ключ-значение", пиксели, графы, вектора, файлы формата HDF5, "мешок слов" и т.д. |
Является ли пространство данных метрическим? |
Находятся ли точки данных в метрическом или неметрическом пространстве? (Задача "гигант" G2) |
Сложность |
Является ли сложность алгоритма порядка O(N 2) или O(N) включая log(N), для N элементов, обрабатываемых за итерацию? (Задача "гигант" G2) |
Таблица 5 - Фасеты ракурса "Источник данных и стиль обработки данных" концепции Ogres
SQL, NoSQL или NewSQL |
NoSQL включают в себя хранилища документов, столбцы, пары "ключ-значение", графы, Triplestore (хранилище триплетов, или RDF-хранилище) |
Корпоративные системы управления данными |
В 10 вариантах использования из публикации NIST [1] интегрируются SQL/NoSQL-решения |
Файлы и объекты |
Файлы в том виде, в каком они управляются в iRODS, чрезвычайно распространены в научных исследованиях. Объекты наиболее часто встречаются в стеке программного обеспечения для обработки больших данных Apache Big Data Stack (ABDS) |
HDFS/Luster/GPFS |
Располагаются ли данные и вычисления в одном месте? |
Архивация/пакетная обработка/потоковая обработка |
Потоковая обработка представляет собой процесс постепенного обновления наборов данных, при этом внедряются новые алгоритмы для достижения отклика в реальном времени (Задача "гигант" G7) |
Виды систем хранения |
Виды включают "коллективное использование" (shared), "выделение" (dedicated), "постоянное хранение" (permanent) и "временное хранение" (transient) |
Метаданные/ Происхождение данных |
Описывают общие характеристики данных, историю и особенности их обработки |
Интернет вещей |
К 2020 г. Интернет вещей будет охватывать от 24 (см. [6] 1)) до 50 млрд устройств (см. [7], [8]) |
Данные, создаваемые в ходе высокопроизводительных вычислений |
В результате математического моделирования генерируется визуализация, для формирования которой часто требуется проводить интеллектуальный анализ данных моделирования |
Геоинформационные системы (ГИС) |
Географические информационные системы обеспечивают доступ к геопространственным данным |
------------------------------
1)Исправлена ошибочная ссылка.
------------------------------
Таблица 6 - Фасеты ракурса "Обработка/реальное время" концепции Ogres
Микрорейтинги (micro benchmarks) |
Простое ядро или мини-приложение, используемое для измерения производительности базовой системы |
LML |
Локальная аналитика или локальное машинное обучение |
GML |
Глобальная аналитика или машинное обучение, требующее итеративной среды выполнения (задачи "гиганты" G5, G6) |
Базовая статистика |
Простая статистика, представленная в таблице 2 как MRStat |
Рекомендации |
Совместное фильтрование и другие аналитические методы, используемые в рекомендательных системах |
Индексирование, поиск и выполнение запросов |
Богатый набор технологий, используемых для индексирования данных, поиска и выполнения запросов к данным |
Классификация |
Технологии для маркировки/тегирования данных (SVM, Байес, глубокое обучение, кластеризация) |
Обучение |
Обучение алгоритмов |
Методы оптимизации |
Машинное обучение, нелинейная оптимизация, метод наименьших квадратов, линейное/квадратичное программирование, комбинаторная оптимизация, ЕМ-алгоритм, метод Монте-Карло, вариационный байесовский анализ, глобальный вывод |
Потоковая обработка |
Расширяющийся класс быстрых онлайн-алгоритмов сложности O(N) |
Согласование (alignment) |
Вариант поиска, используемый при сопоставлении последовательностей (как, например, в BLAST) |
Линейная алгебра |
Многие алгоритмы машинного обучения основаны на ядрах вычислений линейной алгебры |
Граф |
Задача представлена в виде графа, а не вектора, сетки и т.д. (задача "гигант" G3) |
Визуализация |
Важный компонент многих конвейеров аналитической обработки |
Библиография
Ключевые слова: информационные технологии, ИТ, данные, большие данные, аналитика данных, база данных, модель данных, массив данных, разнообразие данных, скорость обработки данных, достоверность данных, объем данных, распределенная обработка данных, неструктурированные данные, частично структурированные данные, потоковые данные.
Если вы являетесь пользователем интернет-версии системы ГАРАНТ, вы можете открыть этот документ прямо сейчас или запросить по Горячей линии в системе.
Национальный стандарт РФ ГОСТ Р 59926-2021/ISO/IEC TR 20547-2:2018 "Информационные технологии. Эталонная архитектура больших данных. Часть 2. Варианты использования и производные требования" (утв. и введен в действие приказом Федерального агентства по техническому регулированию и метрологии от 2 декабря 2021 г. N 1685-ст)
Текст ГОСТа приводится по официальному изданию Российского института стандартизации, Москва, 2022 г.
Дата введения - 1 марта 2022 г.