Откройте актуальную версию документа прямо сейчас
Если вы являетесь пользователем интернет-версии системы ГАРАНТ, вы можете открыть этот документ прямо сейчас или запросить по Горячей линии в системе.
Приложение В
(справочное)
Сводка ключевых характеристик
Из описания каждого варианта использования были извлечены сведения, связанные с пятью ключевыми характеристиками, в число которых вошли три характеристики больших данных (объем, скорость обработки и разнообразие), сведения о программном обеспечении и соответствующей аналитике. Данные сведения представлены в таблице В.1.
Таблица В.1 - Специфическая для варианта использования информация о ключевых характеристиках
Вариант использования |
Объем |
Скорость обработки |
Разнообразие |
Программное обеспечение |
Аналитика |
А.1.1 Вариант использования N 1: Архивное хранение больших данных переписей населения в США 2010 и 2000 годов |
380 терабайт |
Данные статичны в течение 75 лет |
Отсканированные документы |
Надежное архивное хранение |
Только по истечении 75 лет |
А.1.2 Вариант использования N 2: Прием Национальными архивами США государственных данных на архивное хранение, поиск, извлечение и обеспечение долговременной сохранности |
Сотни терабайт, постоянно увеличивается |
Скорость поступления данных относительно низкая по сравнению с другими вариантами использования, однако случаются всплески, т.е. данные могут поступать партиями размером от гигабайта до сотен терабайт |
Неструктурированные и структурированные данные: текстовые документы, электронная почта, фотографии, отсканированные документы, мультимедийные материалы, материалы из социальных сетей, веб-сайты, базы данных и т.д. |
Кастомизированное ПО, коммерческие поисковые продукты, коммерческие базы данных |
Сканирование/ индексирование; поиск; ранжирование; прогностический поиск; категоризация данных (чувствительные, конфиденциальные и т.д.). Выявление и маркировка персональных данных (Personally Identifiable Information, PII). |
А.1.3 Вариант использования N 3: Повышение активности респондентов в статистических обследованиях |
Примерно один петабайт |
Варьируется, данные с мест о ходе проведения обследования передаются непрерывно в потоковом режиме. Во время последней переписи были переданы 150 миллионов документов |
Данные обычно представляют собой заданные текстовые и числовые поля |
Hadoop, Spark, Hive, R, SAS, Mahout, Allegrograph, MySQL, Oracle, Storm, BigMemory, Cassandra, Pig |
Рекомендательные системы, постоянный мониторинг |
А.1.4 Вариант использования N 4: Использование нетрадиционных данных для повышения активности респондентов в статистических обследованиях |
Будет определен в будущем |
Будет определена в будущем |
Данные обследований, другие государственные административные данные, геопространственные данные из различных источников |
Hadoop, Spark, Hive, R, SAS, Mahout, Allegrograph, MySQL, Oracle, Storm, BigMemory, Cassandra, Pig |
Новая аналитика необходима для получения надежных оценок на основе нетрадиционных разнородных источников |
А.2.1 Вариант использования N 5: Облачные вычисления в секторах финансовой отрасли |
От нескольких терабайт до нескольких петабайт |
В реальном времени |
Различные виртуальные среды, работающие в рамках архитектуры пакетной обработки или параллельной архитектуры с "горячей" заменой |
Hadoop, RDBMS, XBRL |
Выявление мошенничества |
А.2.2 Вариант использования N 6: Международная исследовательская сеть Mendeley |
В настоящее время 15 терабайт с темпом прироста около 1 терабайта в месяц |
В настоящее время пакетные задания Hadoop планируются раз в день, но началась работа над рекомендациями по выполнению работ в реальном времени |
PDF-документы, лог-файлы социальной сети и активности клиентов |
Hadoop, Scribe, Hive, Mahout, Python |
Стандартные библиотеки для проведения машинного обучения и аналитики, выполнения латентного размещения Дирихле (LDA), а также специально разработанные инструменты составления отчетности и визуализации данных для агрегирования сведений о читательской и социальной активности, связанной с каждым документом |
А.2.3 Вариант использования N 7: Сервис кинофильмов Netflix |
По состоянию на лето 2012 г.: 25 миллионов подписчиков; 4 млн оценок в день; 3 млн поисковых запросов в день; 1 млрд часов потокового видео в июне 2012 г. Объем облачного хранения 2 петабайта (июнь 2013 г.) |
Контент (видео и характеристики) и рейтинги постоянно обновляются |
Данные варьируются от цифровых мультимедийных материалов до пользовательских рейтингов, профилей пользователей и параметров мультимедиа, используемых для основанных на контенте рекомендаций |
Hadoop и Pig, Cassandra, Teradata |
Персонализированные рекомендательные системы, использующие логистическую/ линейную регрессию, эластичные сети, факторизацию матриц, кластеризацию, латентное размещение Дирихле (LDA), ассоциативные правила, градиентный бустинг деревьев решений и другие инструменты; доставка потокового видео |
А.2.4 Вариант использования N 8: Веб-поиск |
В общей сложности около 45 млрд веб-страниц; ежедневно загружается 500 млн фотографий; и ежеминутно на YouTube закачивается 100 часов видеоматериалов |
Данные обновляются и ответы на запросы выдаются в реальном времени |
Различные мультимедийные форматы |
Map/Reduce + Bigtable; Dryad + Cosmos. PageRank. Последний этап по сути представляет собой рекомендательную систему |
Веб-сканирование, поиск (в том числе по тематике), ранжирование, рекомендации |
А.2.5 Вариант использования N 9: Обеспечение непрерывности деловой деятельности и восстановления после катастроф для больших данных в облачной экосистеме |
От нескольких терабайт до нескольких петабайт |
Возможна обработка в реальном времени для последних изменений |
Решение должно работать с любыми данными |
Hadoop, Map/Reduce, Open-source и/или проприетарные решения поставщиков, таких как AWS (Amazon Web Services), Google Cloud Services и Microsoft |
Надежное резервное копирование |
А.2.6 Вариант использования N 10: Грузоперевозки |
Большой |
Должна заработать в реальном времени; в настоящее время обновления идут по наступлению событий |
По наступлению событий |
Неизвестно |
Распределенный анализ событий с целью выявления проблем |
А.2.7 Вариант использования N 11: Данные о материалах |
Более 500 тысяч видов материалов в 1980-х годах, значительный рост с того времени |
Постоянное нарастание количества новых материалов |
Много наборов данных при практическом отсутствии стандартов |
Национальные программы (Япония, Южная Корея и Китай), прикладные программы (ядерная программа Евросоюза); проприетарные решения (Granta, и др.) |
Широко применяемой аналитики нет |
А.2.8 Вариант использования N 12: Геномика материалов на основе результатов моделирования |
100 терабайт (текущий), 500 терабайт через 5 лет. Требуются масштабируемые базы данных для данных типа "ключ - значение" и для библиотек объектов |
Регулярное добавление результатов моделирования |
Разнообразные данные и результаты моделирования |
MongoDB, GPFS, PyMatGen, FireWorks, VASP, ABINIT, NWChem, BerkeleyGW; различное ПО, разработанное сообществом |
Технологии Map/Reduce и поиска, позволяющие комбинировать данные моделирования и экспериментальные данные |
А.3.1 Вариант использования N 13: Облачный крупномасштабный анализ и визуализация геопространственных данных |
Растровая графика - сотни терабайт; векторные данные - десятки гигабайт, но при этом миллиарды точек |
Некоторые датчики передают векторные данные в масштабе времени, близком к реальному |
Растровые изображения, векторная графика (различные форматы: формат Shapefile, язык разметки Keyhole (Keyhole Markup Language, KML) и текстовые потоки), различные структуры из объектов |
Реляционная СУБД с геопространственной поддержкой; ESRI ArcServer, Geoserver |
Ближайшая точка подхода, отклонение от маршрута, плотность точек во времени, метод главных компонентов (principal component analysis, РСА) и метод анализа независимых компонентов (independent component analysis, ICA) |
А.3.2 Вариант использования N 14: Идентификация и отслеживание объектов - Постоянное наблюдение |
FMV - от 30 до 60 кадров в секунду при полноцветном разрешении 1080 пикселей; WALF - от 1 до 10 кадров в секунду при полноцветном разрешении 10 тысяч * 10 тысяч пикселей |
В реальном времени |
Данные обычно представлены в одном или нескольких стандартных форматах для графических изображений или видео |
Широкий спектр специализированного программного обеспечения и инструментов, включая, в том числе, традиционные реляционные СУБД и средства отображения |
Визуализация путем наложения на отображение геопространственных данных; базовая аналитика для выявления объектов и интеграция с развитыми средствами оценки ситуации на основе объединения данных |
А.3.3 Вариант использования N 15: Обработка и анализ разведывательных данных |
От десятков терабайт до сотен петабайт в случае периферийных и стационарных кластеров. У пехотинцев, как правило, имеется от одного до сотен гигабайт данных (обычно на портативном/ карманном устройстве с объемом памяти менее 10 гигабайт) |
Многие устройства сбора фото/видеоданных собирают петабайт данных за несколько часов |
Текстовые файлы, первичные данные с датчиков (raw media), графические образы, видео, аудио, электронные данные и данные, созданные человеком |
Hadoop, Accumulo (BigTable), Solr, NLP, Puppet (управление жизненным циклом ИТ, обеспечение безопасности) и Storm; ГИС |
Оповещения в масштабе времени, близком к реальному, основанные на закономерностях и изменениях основных параметров; анализ взаимосвязей; Геопространственный анализ; Аналитика текстов (определение настроений, выделение сущностей и т.д.) |
А.4.1 Вариант использования N 16: Данные электронной медицинской документации |
Свыше 12 млн пациентов, более 4 млрд отдельных клинических наблюдений, более 20 терабайт первичных данных |
Ежедневно добавляется от 500 тыс. до 1,5 млн новых клинических транзакций в режиме реального времени |
Широкий спектр данных, поступающих от врачей, медсестер, лабораторий и измерительных инструментов |
Teradata, PostgreSQL, MongoDB, Hadoop, Hive, R |
Методы извлечения информации (статистическая мера TF-IDF, латентно-семантический анализ и статистическая функция "взаимная информация"). Методы обработки естественного языка (NLP), метода оценки максимального правдоподобия и Байесовских сетей |
А.4.2 Вариант использования N 17: Анализ графических образов в патологии/ Цифровая патология |
1 гигабайт первичных данных + 1,5 гигабайта аналитических результатов на двумерное изображение; 1 терабайт первичных данных + 1 терабайт аналитических результатов на трехмерное изображение. 1 петабайт данных в год в средней больнице |
После создания данные не подвергаются изменениям |
Характеристики изображений и виды аналитики зависят от типа заболевания |
MPI для анализа изображений; Map/Reduce + Hive с пространственным расширением |
Анализ изображений, пространственные запросы и аналитика, кластеризация и классификация признаков |
А.4.3 Вариант использования N 18: Вычислительный анализ биоизображений |
Объем данных в результате одного сканирования на появляющихся установках составляет 32 терабайта, а годовой объем медицинских диагностических изображений - около 70 петабайт |
Объемы собираемых данных требуют использования высокопроизводительных вычислений |
Мультимодальный сбор и анализ изображений (multimodal imaging), поступающих по разрозненным каналам данных |
Масштабируемые базы данных для данных типа "ключ - значение" и для библиотек объектов. ImageJ, OMERO, из новых продуктов - VolRover, продвинутые методы сегментации и выявления признаков |
Машинное обучение (метод опорных векторов (Support Vector Machine, SVM) и алгоритм "случайный лес" (random forest, RF) для сервисов классификации и рекомендательных сервисов |
А.4.4 Вариант использования N 19: Геномные измерения |
В течение года - двух в NIST потребуется > 100 терабайт. Сообществу здравоохранения в целом потребуется много петабайт для хранения данных |
Секвенсоры ДНК способны генерировать порядка 300 гигабайт сжатых данных в день |
Файловые форматы недостаточно хорошо стандартизированы, хотя некоторые стандарты существуют. Как правило, структурированные данные |
Программное обеспечение с открытым исходным кодом для секвенирования в биоинформатике, разработанное академическими группами |
Обработка первичных данных с целью выделения вариаций (variant calls), а также клиническая интерпретация вариаций |
А.4.5 Вариант использования N 20: Сравнительный анализ (мета) геномов |
50 терабайт |
Новые секвенсоры выдают потоки данных, скорость которых растет |
Биологические данные по своей природе неоднородны, сложны, структурны и иерархичны. Помимо базовых геномных данных, новые типы данных таких направлений биологической науки - "омиков" (omics), как транскриптомика, метиломика (methylomics) и протеомика |
Стандартные инструменты биоинформатики (BLAST, HMMER, инструменты множественного выравнивания последовательностей и филогенетики, программы поиска/ предсказания генов и генных структур (gene callers), программы предсказания свойств по результатам секвенирования (sequence feature predictors) и т.д.), скрипты Perl/Python |
Описательная статистика, статистическая значимость при проверке гипотез, кластеризация и классификация |
А.4.6 Вариант использования N 21: Индивидуальное управление лечением диабета |
5 млн пациентов |
Не в режиме реального времени, но данные периодически обновляются |
Типичным для пациента является около 100 значений свойств из контролируемых словарей и 1000 непрерывных числовых величин. Большинство значений привязаны ко времени |
Внутреннее хранилище данных в Клинике Мейо, США (EDT), дополняемой HDFS |
Интеграция данных в семантический граф, использование обхода графа взамен операции join в SQL. Разработка алгоритмов интеллектуального анализа семантических графов с целью выявления закономерностей в графе, индексирования графа и поиска по нему. СУБД Hbase с индексированием. Специализированная программа для выявления новых свойств пациента на основе хранящихся данных |
А.4.7 Вариант использования N 22: Статистический реляционный искусственный интеллект для здравоохранения |
Сотни гигабайт для одной когорты из нескольких сотен человек. Когда речь идет о миллионах пациентов, объем данных может быть порядка 1 петабайта |
Электронные медицинские документы постоянно обновляются. В других контролируемых исследованиях данные часто поступают партиями с регулярными интервалами |
Ключевая особенность - данные обычно содержатся в ряде таблиц, которые необходимо объединить для выполнения анализа |
В основном на основе Java, для обработки данных используются инструменты собственной разработки |
Реляционные вероятностные модели (статистический реляционный искусственный интеллект), обучающиеся на данных различных типов |
А.4.8 Вариант использования N 23: Эпидемиологическое исследование в масштабе всего населения Земли |
100 терабайт |
Подача данных в программу моделирования мала, однако в ходе моделирования создаются огромные объемы данных |
Возможно большое разнообразие, если принять во внимание различные аспекты мировой популяции, географические, социально-экономические и культурные различия |
Charm++, MPI |
Моделирование на основе синтетической глобальной популяции |
А.4.9 Вариант использования N 24: Моделирование распространения социального влияния |
Десятки терабайт новых данных ежегодно |
Во время социальных волнений взаимодействие между людьми и мобильность являются ключом к пониманию динамики системы. Быстрые изменения в данных: например, о том, кто на кого подписан в Твиттере |
Серьезные проблемы: объединение данных (data fusion), комбинирование данные из разных источников, проблема отсутствующих или неполных данных |
Специализированные программы моделирования, программное обеспечение с открытым исходным кодом и проприетарные среды моделирования. Базы данных |
Модели поведения людей и физических инфраструктур, а также взаимодействия между ними. Визуализация результатов |
А.4.10 Вариант использования N 25 Биологическое разнообразие и европейская электронная научно-исследовательская инфраструктура LifeWatch |
Суммарный объем данных предстоит определить |
Обработка и анализ в реальном времени в случае стихийных бедствий или техногенных катастроф |
Большое разнообразие и количество задействованных баз данных и данных наблюдений |
Веб-сервисы, грид-сервисы, реляционные базы данных |
Требуются развитая и богатая визуализация |
А.5.1 Вариант использования N 26: Крупномасштабное глубокое обучение |
Типичный объем наборов данных обычно составляет от 1 до 10 терабайт. Для обучения беспилотного автомобиля могут потребоваться 100 миллионов изображений |
Требуется намного более быстрая обработка, чем в реальном времени. Для управления беспилотным автомобилем необходимо обрабатывать многие тысячи изображений с высоким разрешением (6 мегапикселей и более) в секунду |
Нейронная сеть очень неоднородна, поскольку она изучает множество различных признаков |
Программное обеспечение для информационного обмена между ядрами графических профессоров и для взаимодействия на основе MPI, разработанное на факультете вычислительных наук Стэндфордского университета. Исходный код на языках С++/Python |
В небольшой степени выполняется пакетная статистическая предварительная обработка; весь остальной анализ данных выполняется самим алгоритмом обучения |
А.5.2 Вариант использования N 27: Организация крупномасштабных, неструктурированных коллекций сделанных потребителями фотографий |
Более 500 млрд фотографий на Facebook, более 5 млн фотографий на Flickr |
Ежедневно в Facebook добавляется более 100 миллионов новых фотографий |
Изображения и метаданные, включая теги EXIF (фокусное расстояние, тип камеры и т.д.) |
Hadoop Map/Reduce, написанные вручную простые многопоточные инструменты (ssh и сокеты для обмена информацией) |
Надежное решение задачи оптимизации с использованием нелинейного метода наименьших квадратов, метод опорных векторов SVM |
А.5.3 Вариант использования N 28: Truthy - Анализ данных Твиттера |
30 терабайт в год сжатых данных |
Хранение, выполнение запросов и анализ в масштабе времени, близком к реальному |
Непрерывный поток данных в реальном времени, поступающий из каждого источника |
Hadoop/HBase с индексированием и HDFS; Hadoop, Hive, Redis для управления данными; Python/SciPy/ NumPy/MPI для анализа данных |
Выявление аномалий, кластеризация потока, классификация сигналов и онлайн-обучение; анализ процесса распространения информации и кластеризации, динамическая визуализация сети |
А.5.4 Вариант использования N 29: Краудсорсинг в гуманитарных науках |
От нескольких гигабайт (текст, опросы, экспериментальные значения) до сотен терабайт (мультимедиа) |
Данные постоянно обновляются и анализируются инкрементально |
До настоящего времени - в основном однородные небольшие наборы данных; ожидаются большие распределенные неоднородные наборы данных |
Язык XML, традиционные реляционные базы данных |
Все виды распознавания закономерностей (например, распознавание речи, автоматический анализ аудиовизуальных материалов, культурные закономерности); выявление структур (лексические единицы, лингвистические правила и т.д.) |
А.5.5 Вариант использования N 30: Цифровая инфраструктура для исследований и анализа сетей и графов" (CINET) |
Может составлять сотни гигабайт для одной сети; 1000-5000 сетей и методов |
Сети очень динамичны; быстрое расширение коллекции сетей |
Многочисленные типы сетей |
Библиотеки для работы с графами: Galib, NetworkX. Управление распределенными потоками рабочих процессов: Simfrastructure, Базы данных, семантические веб-инструменты |
Визуализация сетей |
А.5.6 Вариант использования N 31: Измерения и оценки эффективности аналитических технологий в Национальном институте стандартов и технологий (NIST) |
Более 900 млн веб-страниц общим объемом 30 терабайт, 100 млн твитов, 100 млн проверенных биометрических изображений, несколько сотен тысяч частично проверенных видеоклипов и терабайты более мелких полностью проверенных тестовых коллекций |
Большинство старых методов оценки было основано на ретроспективной аналитике. В новых методах оценки основное внимание уделяется моделированию проблем анализа в реальном времени на основании данных из нескольких потоков |
Широкий спектр типов данных, включая текстовый поиск/ извлечение, машинный перевод, распознавание речи, биометрию изображений и голоса, распознавание и отслеживание объектов и людей, анализ документов, диалог между человеком и компьютером и поиск/ извлечение мультимедиа |
PERL, Python, C/C++, Matlab, R. Разработка по принципу "снизу вверх" тестовых и измерительных приложений |
Извлечение информации, фильтрация, поиск и резюмирование; биометрия изображения и голоса; распознавание и понимание речи; машинный перевод; обнаружение и отслеживание людей и объектов в видеозаписях; детектирование событий; сопоставление изображений и документов; обнаружение новизны в данных; разнообразная структурная/ семантическая/ временная аналитика |
А.6.1 Вариант использования N 32: Консорциум федеративных сетей данных (DFC) |
Петабайты данных, сотни миллионов файлов |
Обработка в реальном времени и пакетная |
Большое |
Интегрированная система управления данными, основанная на использовании правил (iRODS) |
Поддержка общих рабочих процессов анализа |
А.6.2 Вариант использования N 33: Discinnet-процесс |
Не имеет значения: это база метаданных, а не больших данных |
В реальном времени |
Способность работать с произвольными большими данными |
Symfony PHP, Linux, MySQL |
|
А.6.3 Вариант использования N 34: Поиск по графу для научных данных |
Несколько терабайт |
Со временем эволюционирует |
Большое |
СУБД |
Обработка графов данных |
А.6.4 Вариант использования N 35: Анализ больших объемов данных, получаемых в экспериментах на синхротроне |
От 50 до 400 гигабайт в день, в общей сложности 400 терабайт |
Непрерывный поток данных, однако анализ не обязательно проводить в реальном времени |
Изображения |
Octopus для томографической реконструкции, Avizo (http://vsg3d.com/) и FIJI (дистрибутив открытого программного обеспечения ImageJ) |
Объемная реконструкция, идентификация характеристик и т.д. |
А.7.1 Вариант использования N 36: Каталинский цифровой обзор неба в поисках транзиентов |
Увеличение 0,1 терабайта за ночь, суммарный объем в настоящее время около 100 терабайт. Доступ к петабайтам базовых астрономических данных. Новый телескоп LSST будет собирать 30 терабайт данных за ночь |
Обновление каждую ночь, процессы выполняются в реальном времени |
Изображения, спектры, временные ряды для отдельных объектов (кривые блеска), каталоги |
Специализированные "конвейер" обработки данных и программное обеспечение для анализа данных |
Детектирование редких событий и установление связей с разнообразными существующими данными |
А.7.2 Вариант использования N 37: Космологический обзор неба и моделирование |
Несколько петабайт данных обзоров DES и ZTF; данные моделирования - более 10 петабайт |
Анализ выполняется в пакетном режиме; данные наблюдений и моделирования пополняются ежедневно |
Изображения и данные моделирования |
MPI, FFTW, пакеты визуализации, Numpy, Boost, OpenMP, ScaLAPCK, СУБД PSQL и MySQL, Eigen, Cfitsio, http://astrometry.net/ и Minuit2 |
Требуются новые средства аналитики для анализа результатов моделирования |
А.7.3 Вариант использования N 38: Большие данные космологических обзоров неба |
Петабайты данных обзора "Темная энергия" (DES) |
За ночь 400 изображений объемом 1 гигабайт каждое |
Изображения |
Linux-кластер, сервер реляционной СУБД Oracle, Postgres PSQL, большие машины памяти, стандартные интерактивные хосты Linux, GPFS; для моделирования - ресурсы высокопроизводительных вычислений; стандартное астрофизическое программное обеспечение для редуцирования данных, а также сценарии - обертки Perl/Python |
Поиск новых оптических транзиентов при помощи алгоритмов машинного обучения, разложения Холецкого для тысяч моделирований с матрицами порядка миллиона по каждой стороне; и параллельное хранение изображений |
А.7.4 Вариант использования N 39: Анализ данных Большого адронного коллайдера |
15 петабайт в год данных от детекторов и результатов анализа |
Данные поступают непрерывно, проходя при этом сложную процедуру отбора в реальном времени и тестовый анализ; однако полноценный анализ всех данных выполняется в автономном режиме |
На каждой стадии анализа используются свои форматы, однако в рамках каждой стадии данные однородны |
Грид-среда, содержащая 350 тысяч одновременно работающих ядер |
Используются сложные специализированные программы анализа данных, а после этого - базовые статистические инструменты "предварительной разведки" (гистограммы); сложные поправки для устранения систематических погрешностей |
А.7.5 Вариант использования N 40: Эксперимент Belle II |
В конечном итоге объем данных наблюдений и моделирования по методу Монте-Карло составит около 120 петабайт |
Данные поступают непрерывно, проходя при этом сложную процедуру отбора в реальном времени и тестовый анализ; однако полноценный анализ всех данных выполняется в автономном режиме |
На каждой стадии анализа используются свои форматы, однако в рамках каждой стадии данные однородны |
Программное обеспечение грида DIRAC |
Используются сложные специализированные программы анализа данных, а после этого - базовые статистические инструменты "предварительной разведки" (гистограммы); сложные поправки для устранения систематических погрешностей |
А.8.1 Вариант использования N 41: Радарная система некогерентного рассеяния EISCAT-3D |
В настоящее время - несколько терабайт в год; 40 петабайт в год начиная с 2022 года |
Данные поступают непрерывно. Проводится тестовый анализ в реальном времени и полный анализ в пакетном режиме |
Однородные большие данные |
Специализированное программное обеспечение для анализа, на основе простого одноуровневого хранения файлов |
Распознавание образов, требовательные процедуры корреляции, извлечение высокоуровневых параметров |
А.8.2 Вариант использования N 42: Совместная деятельность европейских сетевых инфраструктур в области экологических исследований (ENVRI) |
Объемы данных невелики (за исключением описанной выше системы EISCAT-3D), одна EPOS-система производит 15 терабайт в год |
В основном обработка потоков данных в реальном времени |
6 отдельных проектов с единой архитектурой инфраструктуры. Данные очень разные от проекта к проекту |
Для визуализации R и Python (Matplotlib); для обработки - специальное программное обеспечение |
Ассимиляция данных, (статистический) анализ, интеллектуальный анализ данных, извлечение данных, построение научных моделей и моделирование, управление потоками научных рабочих процессов |
А.8.3 Вариант использования N 43: Анализ радиолокационных данных для Центра дистанционного зондирования ледяного покрова CReSIS |
Около 1 петабайта в настоящее время; рост на 50-100 терабайт за экспедицию. В будущем в ходе каждой экспедиции будет создаваться 1 петабайт данных |
Данные собираются в ходе двухмесячных экспедиций (включая результаты тест - анализов) и впоследствии обрабатываются в пакетном режиме |
Первичные данные; изображения. Результаты последнего этапа обработки используются в научных исследованиях |
Пакет Matlab для специализированной обработки первичных данных; специализированное ПО для обработки изображений; геоинформационная система как пользовательский интерфейс |
Специализированная обработка сигналов для получения радиолокационных изображений, которые затем анализируются с помощью средств обработки изображений с целью выделения слоев |
А.8.4 Вариант использования N 44: Обработка данных проекта UAVSAR |
110 терабайт первичных данных и 40 терабайт обработанных; плюс наборы данных меньшего размера |
Данные поступают от инструмента, установленного на самолете, и добавляются порциями. Время от времени проводится повторная обработка ввиду появления новых методов или изменения параметров. |
Изображения и файлы аннотаций |
ROI_PAC, GeoServer, GDAL, а также инструменты, поддерживающие стандарт метаданных GeoTIFF; переход в облако |
Проводится обработка первичных данных для получения изображений, которые пропускаются через инструменты обработки изображений; доступ через ГИС |
А.8.5 Вариант использования N 45: Объединенный испытательный стенд iRODS центра НАСА в Лэнгли и Центра космических полетов имени Годдарда |
Основная часть данных содержится в коллекции MERRA (описана ниже); остальные коллекции данных меньшего размера |
Периодические обновления раз в полгода |
Для многих приложений необходимо объединять данные реанализа MERRA с другими данными повторного анализа и с данными наблюдений, таких как CERES |
SGE Univa Grid Engine версии 8.1, iRODS версии 3.2 и/или 3.3, файловая система IBM General Parallel File System (GPFS) версии 3.4, Cloudera версии 4.5.2-1 |
Программное обеспечение для объединения данных |
А.8.6 Вариант использования N 46: Аналитические сервисы MERRA |
480 терабайт в коллекции MERRA |
Рост объема данных 1 терабайт в месяц |
Для многих приложений необходимо объединять данные реанализа MERRA с другими данными повторного анализа и с данными наблюдений |
Cloudera, iRODS, Amazon AWS |
Аналитика климата как сервис (CAaaS) |
А.8.7 Вариант использования N 47: Атмосферная турбулентность - Обнаружение событий |
Текущий объем 200 терабайт, через 5 лет - 500 терабайт |
Данные анализируются по частям |
Наборы данных ретроспективного анализа несогласованны по формату, разрешению, семантике и метаданным. Интерпретация/ анализ каждого из входных потоков для включения в общий продукт |
Инструмент Map/Reduce или аналогичный; SciDB или другая научная СУБД |
Интеллектуальный анализ данных, ориентированный на поиск событий конкретных типов |
А.8.8 Вариант использования N 48: Исследования климата с использованием модели климатической системы Земли (CESM) |
До 30 петабайт в год (при условии проведения 15 сквозных моделирований в NERSC); еще больше в прочих центрах высокопроизводительных вычислений |
В ходе моделирований производится 42 гигабайта/с |
Существенные различия между данными моделирования различных групп и между данными наблюдений и результатами моделирования |
Разработанные центром NCAR библиотека параллельного ввода-вывода и утилиты "NCAR Командный язык" (NCAR Command Language, NCL) и "NetCDF-операторы" (NetCDF Operators, NCO); параллельные библиотеки NetCDF |
Необходима возможность анализа рядом с местом хранения данных |
А.8.9 Вариант использования N 49: Подповерхностные биогеохимические исследования |
- |
- |
От данных биологических наук - "омиков", от геномики микробов в почве до гидробиогеохимии водораздела; от данных наблюдений до результатов экспериментов |
PFLOWTran, Postgres, HDF5, Akuna, NEWT и др. |
Интеллектуальный анализ данных, оценка качества данных, взаимная корреляция между наборами данных, ускорение процесса разработки моделей, статистика, оценка качества, слияние данных |
А.8.10 Вариант использования N 50: Сети AmeriFlux и FLUXNET |
- |
Данные измерений газовых потоков поступают от 150 вышек в сети AmeriFlux, и более 500 вышек, распределенных по всему миру |
Данные о газовых потоках объединяются с биологическими данными, данными об атмосферных возмущениях и другими вспомогательными данными |
EddyPro, специализированное аналитическое программное обеспечение, R, Python, нейронные сети, Matlab |
Интеллектуальный анализ данных, оценка качества данных, взаимная корреляция между наборами данных, ассимиляция данных, интерполяция данных, статистика, оценка качества, слияние данных |
А.9.1 Вариант использования N 51: Прогнозирование потребления электроэнергии в интеллектуальных энергосетях |
4 терабайта в год для города с 1,4 млн датчиков, такого, как Лос-Анджелес |
Поточная передача данных с миллионов датчиков |
На основе кортежей: временные ряды, строки баз данных; На основе графов: топология сети, подключение клиентов; Некоторые семантические данные используются для нормализации |
R/Matlab, Weka, Hadoop, визуализация на основе ГИС |
Модели прогнозирования, модели машинного обучения, анализ временных рядов, кластеризация, выявление закономерностей, обработка сложных событий, визуальный анализ сети |
А.9.2 Вариант использования N 52: Система управления энергией домашнего хозяйства HEMS |
Около 14 тысяч домохозяйств. Об объемах данных сведений нет |
В режиме реального времени потоковая передача данных с датчиков |
"Умный" счетчик, электромобиль, панель солнечных батарей, осветительные приборы, кондиционер, топливный элемент, водонагреватель, аккумуляторная батарея |
- |
Сервис мониторинга энергопотребления, услуги по наблюдению за состоянием пожилых людей, помощь с выбором оптимального тарифного плана для электроэнергии, прогнозирование выработки электроэнергии фотоэлектрической системой, управление спросом на электроэнергию посредством стимулирования купонами (coupon incentivebased demand response, CIDR) |
Если вы являетесь пользователем интернет-версии системы ГАРАНТ, вы можете открыть этот документ прямо сейчас или запросить по Горячей линии в системе.