Откройте актуальную версию документа прямо сейчас
Если вы являетесь пользователем интернет-версии системы ГАРАНТ, вы можете открыть этот документ прямо сейчас или запросить по Горячей линии в системе.
Приложение С
(справочное)
Сводка технических проблем вариантов использования
Из описаний вариантов использования были извлечены сведения о технических проблемах в семи категориях, описанных в разделе 6.1. Количество технических проблем по каждой категории варьировалось от варианта к варианту. Таблица С.1 содержит сведения о специфических для вариантов использования технических проблемах.
Таблица С.1 - Технические проблемы, специфические для вариантов использования
Вариант использования |
Источник данных |
Преобразование данных |
Возможности обработки |
Потребитель данных |
Безопасность и защита ПДн |
Управление жизненным циклом |
Иные технические проблемы |
А.1.1 Вариант использования N 1: Архивное хранение больших данных переписи населения в США 2010 и 2000 годов |
Большие объемы документов в центральном хранилище |
- |
Большое централизованное хранилище |
- |
Исполнение положений части 13 Свода законов США |
1. Долговременная сохранность данных "как есть" в течение 75 лет. 2. Долговременная сохранность на уровне битов. 3. Курирование, включая преобразование формата. 4. Доступ и анализ после 75 лет. 5. Отсутствие утраты данных |
- |
А.1.2 Вариант использования N 2: Прием Национальными архивами США государственных данных на архивное хранение, поиск, извлечение и обеспечение долговременной сохранности |
1. Распределенные источники данных. 2. Хранение больших объемов данных. 3. Неравномерно поступающие данные, партии от гигабайт до сотен терабайт. 4. Много разнообразных форматов в т.ч. для неструктурированных и структурированных данных. 5. Распределенные источники данных в различных облачных решениях |
1. Сканирование и индексирование распределенных источников данных. 2. Различные методы аналитики, вкл. ранжирование, категоризацию данных и выявление ПДн. 3. Предварительная обработка данных. 4. Долговременная сохранность больших разнообразных наборов данных. 5. Поиск по огромному количеству данных с высокой релевантностью и полнотой результатов |
1. Большое хранилище данных. 2. Различные системы хранения: NetApps, Hitachi, магнитные ленты |
1. Высокая релевантность и полнота результатов поиска. 2. Высокая точность классификации документов. 3. Различные системы хранения: NetApps, Hitachi, магнитные ленты |
Политика в области безопасности |
1. Предварительная обработка, в т.ч. сканирование на вирусы. 2. Идентификация файлового формата. 3. Индексация. 4. Классификация документов |
Мобильный поиск, имеющий интерфейс похожий на интерфейс стационарных компьютеров, и выдающий похожие результаты |
А.1.3 Вариант использования N 3: Повышение активности респондентов в статистических обследованиях |
Объем данных примерно один петабайт |
Аналитика для рекомендательных систем, постоянного мониторинга и для общего совершенствования процесса обследования |
Hadoop, Spark, Hive, R, SAS, Mahout, Allegrograph, MySQL, Oracle, Storm, BigMemory, Cassandra и Pig |
Визуализация для проверки данных, оперативной деятельности и общего анализа; непрерывная эволюция |
1. Улучшенные рекомендательные системы, позволяющие снизить затраты и повысить качество, обеспечивая одновременно надежные и публично проверяемые меры защиты конфиденциальности. 2. Безопасность и конфиденциальность данных. Возможность аудита процессов на предмет обеспечения безопасности и конфиденциальности |
Высокая достоверность данных и надежность систем (проблемы: семантическая целостность концептуальных метаданных, описывающих, что именно измеряется, и вытекающие из этого пределы точности выводов) |
Мобильный доступ |
А.1.4 Вариант использования N 4: Использование нетрадиционных данных для повышения активности респондентов в статистических обследованиях |
- |
Аналитика для получения надежных оценок на базе данных традиционных обследований, государственных административных данных и данных из нетрадиционных источников из сферы цифровой экономики |
Hadoop, Spark, Hive, R, SAS, Mahout, Allegrograph, MySQL, Oracle, Storm, BigMemory, Cassandra и Pig |
Визуализация для проверки данных, оперативной деятельности и общего анализа; постоянная эволюция |
Безопасность и конфиденциальность данных. Возможность аудита всех процессов на предмет безопасности и конфиденциальности согласно законодательству |
Высокая достоверность данных, и надежность систем (проблемы: семантическая целостность концептуальных метаданных, описывающих, что именно измеряется, и вытекающие из этого пределы точности выводов) |
- |
А.2.1 Вариант использования N 5: Облачные вычисления в секторах финансовой отрасли |
Ввод данных в реальном времени |
Аналитика в реальном времени |
- |
- |
Исполнение строгих требований к обеспечению безопасности и неприкосновенности частной жизни |
- |
Мобильный доступ |
А.2.2 Вариант использования N 6: Международная исследовательская сеть Mendeley |
1. Документы в виде файлов. В систему постоянно загружаются новые документы. 2. Различные типы файлов: PDF-файлы, лог-файлы социальных сети и активности клиентов, изображения, электронные таблицы, файлы презентаций |
1. Стандартные библиотеки для машинного обучения и аналитики. 2. Эффективные масштабируемые и распараллеленные способы сопоставления документов, группировки похожих (вкл. те, что были модифицированы инструментами аннотирования третьих сторон или путем добавления титульных страниц или водяных знаков издателя) |
1. Amazon ЕС2 с HDFS (инфраструктура). 2. S3 (хранение). 3. Hadoop (платформа). 4. Scribe, Hive, Mahout и Python (язык). 5. Хранилище умеренного объема (15 терабайт, с приростом 1 терабайт в месяц). 6. Обработка в реальном времени и пакетная |
1. Специализированные инструменты создания отчетов. 2. Визуализация графа сети с помощью Gephi; диаграммы рассеяния и т.д. |
Контроль доступа: кто и к какому контенту получает доступ |
1. Управление метаданными, извлеченными из PDF-файлов. 2. Выявление дублирования документов. 3. Постоянные идентификаторы. 4. Сопоставление метаданных со сведениями в базах данных Crossref, PubMed и arXiv |
Доставка контента и услуг на различные вычислительные платформы, от настольных компьютеров под Windows до мобильных устройств под ОС Android и iOS |
А.2.3 Вариант использования N 7: Сервис кинофильмов Netflix |
Профили пользователей и рейтинговая информация |
1. Передача потокового видео многочисленным клиентам. 2. Аналитика для подбора фильмов, соответствующих интересам клиента. 3. Различные методы аналитики для персонализации услуг. 4. Надежные алгоритмы обучения. 5. Непрерывная аналитическая обработка на основе результатов мониторинга и оценки эффективности |
1. Hadoop (платформа). 2. Pig (язык). 3. Cassandra и Hive. 4. Огромное количество подписчиков, рейтингов и поисков в сутки (база данных). 5. Огромное хранилище (2 петабайта). 6. Обработка с интенсивным вводом-выводом |
Потоковая передача и представление видеоматериалов |
Неприкосновенность частной жизни пользователей и соблюдение цифровых прав на видеоконтент |
Постоянное вычисление рейтингов и их обновление на основе профилей пользователей и результатов аналитики |
Интеллектуальные интерфейсы для доступа к киноконтенту на мобильных платформах |
А.2.4 Вариант использования N 8: Веб-поиск |
1. Распределенные источники данных. 2. Потоковые данные. 3. Мультимедийный контент |
1. Динамическая доставка контента по сети. 2. Связывание профилей пользователей и данных из социальных сетей |
Петабайты текстовых и мультимедийных данных (хранение) |
1. Время поиска 0,1 секунды. 2. Максимизация метрики "точность 10 наилучших результатов". 3. Адекватный макет страницы выдачи результатов (визуализация) |
1. Контроль доступа. 2. Защита чувствительного контента |
1. Уничтожение данных по истечении определенного времени (несколько месяцев). 2. Чистка данных |
Мобильный поиск и отображение |
А.2.5 Вариант использования N 9: Обеспечение непрерывности деловой деятельности и восстановления после катастроф в облачной экосистеме |
- |
1. Надежный алгоритм резервного копирования. 2. Репликация последних изменений |
1. Hadoop. 2. Коммерческие облачные сервисы |
- |
Высокий уровень безопасности во многих приложениях |
- |
- |
А.2.6 Вариант использования N 10: Грузоперевозки |
Централизованные и распределенные источники информации/ датчики, в реальном времени |
1. Отслеживание объекта на основе уникальной идентификации с использованием установленного на нем датчика и координат GPS. 2. Обновление в реальном времени сведений об отслеживаемых объектах |
Подключение к Интернету |
- |
Политика в области безопасности |
- |
- |
А.2.7 Вариант использования N 11: Данные о материалах |
1. Распределенные хранилища данных о более чем 500 тысячах коммерческих материалов. 2. Множество видов наборов данных. 3. Тексты, графики и изображения |
Описания свойств материалов, содержание сотни независимых переменных. Сбор значений этих переменных для создания надежных наборов данных |
- |
1. Визуализация для отыскания подходящих материалов, свойства которых зависят от множества независимых переменных. 2. Многопараметрические инструменты визуализации |
1. Защита чувствительных проприетарных данных. 2. Средства маскирования проприетарной информации |
Управление качеством данных (сейчас низкое или непонятное) |
- |
А.2.8 Вариант использования N 12: Геномика материалов на основе результатов моделирования |
1. Потоки данных от пета/экзафлопсных централизованных систем моделирования. 2. Распределенные веб-потоки данных от центрального шлюза к пользователям |
1. Анализ данных в режиме реального времени с использованием вычислений с высокой пропускной способностью для оперативного реагирования. 2. Комбинирование результатов моделирования с использованием различных программ. 3. Поисковые исследования, ориентированные на потребности потребителей; вычислительная база должна гибко адаптироваться к новым целям. 4. Map/Reduce и поиск, для комбинирования данные моделирования и экспериментальных данных |
1. Массивная (суперкомпьютер Cray ХЕ6 "Норрег", 150 тыс. процессоров) унаследованная инфраструктура (инфраструктура). 2. GPFS (хранение). 3. MonogDB (платформа). 4. Сеть 10 гигабит/с. 5. Различные аналитические инструменты: PyMatGen, FireWorks, VASP, ABINIT, NWChem, BerkeleyGW и различное ПО сообщества. 6. Большое хранилище (хранение). 7. Масштабируемые базы данных для данных "ключ-значение" и объектов (платформа). 8. Потоки данных от пета/экзафлопсных централизованных систем моделирования |
Программы просмотра данных о материалах, необходимые ввиду растущих объемов выдаваемых в ходе поиска данных |
1. Возможность работать в изолированной зоне - песочнице и создавать независимые рабочие зоны для заинтересованных сторон. 2. Объединение (федерацию) наборов данных на основе политик |
1. Валидация и оценка неопределенности результатов моделирования путем сопоставления с экспериментом. 2. Количественная оценка неопределенности на основе нескольких наборов данных |
Мобильные приложения для доступа к информации по геномике материалов |
А.3.1 Вариант использования N 13: Облачный крупномасштабный анализ и визуализация геопространственных данных |
Уникальные подходы для индексирования и распределенного анализа геопространственных данных |
1. Аналитика: ближайшая точка подхода, отклонение от маршрута, плотность точек во времени, метод главных компонентов (РСА) и метод анализа независимых компонентов (ICA). 2. Уникальные подходы для индексирования и распределенного анализа геопространственных данных |
Реляционная СУБД с геопространственной поддержкой; геопространственный сервер/ПО для анализа - ESRI ArcServer, Geoserver |
Визуализация посредством ГИС как при высокой, так при низкой пропускной способности сети, а также на выделенных устройствах и на портативных устройствах |
Безопасность чувствительных данных при передаче и при хранении (особенно на портативных/ карманных устройствах) |
- |
- |
А.3.2 Вариант использования N 14: Идентификация и отслеживание объектов - Постоянное наблюдение |
Поступающие в реальном времени данные FMV-формата высококачественного видео (от 30 до 60 кадров в секунду при полноцветном разрешении 1080 пикселей) и WALF-формат видео с высоким разрешением (WALF) - от 1 до 10 кадров в секунду при полноцветном разрешении 10 тысяч * 10 тысяч пикселей |
Расширенная аналитика: средства идентификации объекта, анализа закономерностей поведения объекта, анализа группового поведения/динамики и хозяйственной деятельности, а также для объединения (слияния) данных |
1. Широкий спектр специализированного ПО и инструментов, включая реляционные СУБД и средства отображения. 2. Несколько каналов сетевого взаимодействия. 3. Кластеры графических процессоров (GPU) |
1. Визуализация извлеченных результатов путем наложения на отображение геопространственных данных. Обратные ссылки на соответствующие сегменты исходного изображения/ видеопотока. 2. Выходные данные в форме веб-функций, соответствующих стандартам "Открытого геопространственного консорциума" (OGC), либо в виде стандартных геопространственных файлов (Shapefile, KML) |
Высокий уровень безопасности и конфиденциальности; нельзя допустить компрометацию источников данных и методов их обработки |
Достоверность извлеченных объектов |
- |
А.3.3 Вариант использования N 15: Обработка и анализ разведывательных данных |
1. Данные, поступающие в реальном времени с их обработкой (в худшем случае) в масштабе времени, близком к реальному. 2. Данные в разрозненных хранилищах должны быть доступны через семантически интегрированное пространство данных. 3. Разнообразные данные: текстовые файлы, первичные данные с датчиков, изображения, видео, аудио, электронные данные и данные, созданные человеком |
Аналитика: оповещения в масштабе времени, близком к реальному, основанные на закономерностях и изменениях основных параметров |
1. Стабильность системы в случае ненадежной связи с солдатами и удаленными датчиками. 2. До сотен петабайт, хранимых средними и крупными кластерами и облачными системами. 3: Hadoop, Accumulo (с системой хранения данных BigTable), Solr, NLP (несколько вариантов), Puppet (управление жизненным циклом ИТ, обеспечение безопасности), Storm, а также специализированные приложения и инструменты визуализации |
Визуализация: наложения на геопространственную картину и сетевые графики (network diagrams) |
Защита данных от несанкционированного доступа или раскрытия и от несанкционированного вмешательства |
Происхождение данных (включая, например, отслеживание всех передач и преобразований) в течение жизненного цикла данных |
- |
А.4.1 Вариант использования N 16: Данные электронной медицинской документации |
1. Неоднородные, большого объема, разнообразные источники данных. 2. Объем: > 12 млн пациентов, > 4 млрд отдельных клинических наблюдений, всего более 20 терабайт первичных данных. 3. Скорость: от 500 тыс. до 1,5 млн новых клинических транзакций в день. 4. Разнообразие форматов: числовые и структурированные числовые данные, тексты в свободном формате, структурированные тексты, дискретные номинальные данные, дискретные порядковые данные, дискретные структурированные данные, большие двоичные объекты (изображения и видео). 5. Данные с течением времени эволюционируют |
1. Всестороннее и согласованное представление данных из разных источников во времени. 2. Методы аналитики: методы извлечения информации с целью выявления клинических признаков; обработка естественного языка; машинное обучение моделей принятия решений; методы оценки максимального правдоподобия и Байесовских сетей |
1. Hadoop, Hive и R на основе Unix. 2. Суперкомпьютер Cray. 3. Teradata, PostgreSQL, MongoDB. 4. Различные сетевые возможности с учетом значительных объемов обработки с интенсивным вводом - выводом |
Предоставление результатов аналитики для использования потребителями данных/заинтересованными сторонами, то есть теми, кто сам анализ не проводил |
Прямой доступ потребителей к данным, а также ссылки на результаты аналитики, выполненной специалистами в области информатики и исследователями системы здравоохранения. 2. Защита всех данных о здоровье в соответствии с действующим законодательством. 3. Защита данных в соответствии с политиками поставщиков данных. 4. Политики безопасности и защиты ПДн, уникальные для конкретных подмножеств данных. 5. Надежная безопасность для предотвращения утечек данных |
1. Стандартизация, агрегирование и нормализация данных из разнородных источников. 2. Уменьшение количества ошибок и устранение систематических погрешностей. 3. Общая номенклатура и классификация контента из разных источников |
Обеспечение безопасности на мобильных устройствах |
А.4.2 Вариант использования N 17: Анализ графических образов в патологии/ Цифровая патология |
1. Пространственные цифровые графические образы высокого разрешения в патологии. 2. Различные алгоритмы анализа качества изображений. 3. Различные форматы графических данных, особенно BigTIFF; и результаты анализа в структурированном виде. 4. Анализ изображений, пространственные запросы и аналитика, кластеризация и классификация признаков |
1. Высокопроизводительный анализ изображений с целью извлечения пространственной информации. 2. Пространственные запросы и аналитика, кластеризация и классификация признаков. 3. Аналитическая обработка огромного многомерного набора данных, возможность корреляции с данными других типов, такими, как клинические данные и данные биологических наук - "омиков" |
1. Унаследованные системы и облачные решения (вычислительный кластер). 2. Огромные объемы данных в унаследованных и новых системах хранения, таких кк SAN и HDFS (хранение). 3. Сетевые соединения с высокой пропускной способностью (сети). 4. Анализ изображений с использованием MPI, Map/Reduce и Hive с пространственным расширением (пакеты программ). |
Визуализация для целей проверки и обучения |
Обеспечение безопасности и защита ПДн для защищаемой медицинской информации |
Аннотирование материалов человеком для использования при валидации |
Трехмерная визуализация и отображение на мобильных платформах |
А.4.3 Вариант использования N 18: Вычислительный анализ биоизображений |
1. Распределенные мультимодальные экспериментальные источники (инструменты) биологических изображений высокого разрешения. 2. 50 терабайт данных в различных форматах, включая графические |
1. Высокопроизводительные вычисления и управление анализом полученных результатов. 2. Сегментация представляющих интерес областей; групповой отбор и извлечение признаков, классификация объектов, организация и поиск. 3. Расширенное выявление представляющих интерес для биологических наук новых явлений, с помощью методов больших данных/экстремальных вычислений, обработки и анализа данных непосредственно в базе данных, машинного обучения (SVM и RF) для сервисов классификации и рекомендательных сервисов, продвинутых алгоритмов для массового анализа изображений и высокопроизводительных вычислительных решений. 4. Массовый анализ данных применительно к масштабным наборам данных изображений |
1. ImageJ, OMERO, VolRover, разработанные прикладными математиками продвинутые методы сегментации и выявления признаков. Необходимы масштабируемые базы данных для данных типа "ключ-значение" и для библиотек объектов. 2. Инфраструктура суперкомпьютера Hopper в NERSC. 3. Базы данных и коллекций изображений. 4. 10-гигабитные, в будущем 100-гигабитные сети и расширенные сетевые возможности (SDN) |
Работа с трехмерными структурными моделями |
Достаточно высокий, но не являющийся обязательным уровень безопасности и защиты ПДн, включая использование защищенных серверов и анонимизацию |
Компоненты потока рабочих процессов, вкл. сбор, хранение, улучшение качества данных и минимизацию шума |
- |
А.4.4 Вариант использования N 19: Геномные измерения |
1. Поступающие с высокой скоростью сжатые данные ( 300 гигабайт в день) от различных секвенсоров ДНК. 2. Распределенные источники данных (секвенсоры). 3. Различные файловые форматы как для структурированных, так и для неструктурированных данных |
1. Обработка первичных данных с целью выделения вариаций. 2. Машинное обучение для комплексного анализа систематических ошибок технологий секвенирования, которые сложно охарактеризовать |
1. Унаследованный вычислительный кластер и другие PaaS и IaaS-решения (вычислительный кластер). 2. Огромное хранилище данных петабайтного масштаба (хранение). 3. Унаследованное ПО с открытым исходным кодом для секвенирования в биоинформатике на основе UNIX (пакет программ) |
Формат данных, используемый браузерами генома |
Обеспечение безопасности и защита персональных данных для медицинских документов и баз данных клинических исследований |
- |
Обеспечение врачам доступа к геномным данным на мобильных платформах |
А.4.5 Вариант использования N 20: Сравнительный анализ (мета) геномов |
1. Многочисленные централизованные источники данных. 2. От сведений о последовательностях аминокислот до данных о белках и их структурных особенностях (базовые геномные данные), а также данные биологических наук - "омиков", таких как транскриптомика, метиломика и протеомика, описывающих экспрессии генов в различных условиях. 3. Интерактивный пользовательский веб-интерфейс в реальном времени. Возможности обработки загружаемых данных на сервере должны соответствовать экспоненциальному росту объемов данных секвенирования из-за быстрого снижения стоимости технологии секвенирования 4. Разнородные, сложные, структурные и иерархические биологические данные. 5. Метагеномные образцы, размеры которых могут варьироваться на несколько порядков величины - от нескольких сотен тысяч до миллиарда генов |
1. Методы сравнительного анализа очень сложных данных. 2. Описательная статистика |
1. Огромное хранилище данных. 2. Масштабируемая реляционная СУБД для разнородных биологических данных. 3. Быстрая и параллельная массовая загрузка в реальном времени. 4. Реляционная СУБД Oracle, файлы SQLite, плоские текстовые файлы, Lucy (версия Lucene) для поиска по ключевым словам, базы данных BLAST, базы данных USEARCH. 5. Linux-кластер, сервер реляционной СУБД Oracle, большие системы хранения данных, стандартные интерактивные хосты Linux |
1. Параллельная массовая загрузка в реальном времени. 2. Интерактивный пользовательский веб-интерфейс к основным данным, предварительные вычисления на сервере и отправка пакетных заданий из пользовательского интерфейса. 3. Скачивание сформированных и аннотированных наборов данных для анализа в автономном режиме. 4. Возможность запрашивать и просматривать данные через интерактивный пользовательский веб-интерфейс. 5. Визуализация структурных элементов на разных уровнях разрешения; возможность представления группы очень похожих геномов в виде пангенома |
1. Безопасность учетных данных для входа в систему, т.е. логинов и паролей. 2. Создание учетных записей пользователей для доступа к наборам данных и представления наборов данных в систему через веб-интерфейс. 3. Технология единого входа (SSO) |
1. Методы повышения качества данных. 2. Кластеризация, классификация и редуцирование данных. 3. Интеграция новых данных/ контента в системное хранилище данных и аннотирование данных |
- |
А.4.6 Вариант использования N 21: Индивидуальное управление лечением диабета |
1. Распределенные данные электронных медицинских документов. 2. Более 5 млн пациентов с тысячами свойств по каждому, и производные данные на основе первичных. 3. По каждому пациенту число значений свойств от 100 до более чем 100 тыс.; в среднем 100 значений свойств из контролируемых словарей и 1000 числовых величин. 4. Данные периодически обновляются (не в режиме реального времени). Данные снабжаются отметками времени наблюдения (времени записи значения). 5. Две основные категории данных: со значениями из контролируемого словаря и числовыми значениями (которые документируются/ регистрируются чаще). 6. Данные состоят из текста и числовых значений |
1. Интеграция данных с использованием аннотаций на основе онтологии и таксономии. 2. Алгоритмы параллельного поиска и извлечения как для поиска по индексу, так и для настраиваемого поиска; способность выделять представляющие интерес данные: когорты пациентов, пациентов, удовлетворяющих определенным критериям, и пациентов, имеющих сходные характеристики. 3. Алгоритмы распределенного интеллектуального анализа закономерностей в графе, индексации графов, а также поиска закономерностей в графах на основе триплетов RDF. 4. Надежные инструменты статистического анализа для контроля частоты ложных срабатываний, определения значимости подграфа и исключения ложных позитивных и ложных негативных результатов. 5. Алгоритмы интеллектуального анализа закономерностей в графах, их индексации и поиска по графам. 6. Обход семантического графа |
1. Хранилища данных, в т.ч. нереляционная СУБД Hbase с открытым исходным кодом. 2. Суперкомпьютеры, облачные и параллельные вычисления. 3. Обработка с интенсивным вводом-выводом. 4. Распределенная файловая система HDFS. 5. Специализированное ПО для выявления новых признаков на основе хранимых данных |
Эффективная визуализация данных на основе графов |
1. Защита медицинских данных в соответствии с политиками защиты ПДн и законодательно-нормативными требованиями к безопасности и защите персональных данных, например, американского закона HIPAA. 2. Политики безопасности для разных пользовательских ролей |
1. Аннотирование данных на основе онтологии и таксономии. 2. Прослеживаемость данных от источника (начальной точки сбора) и далее на протяжении периода работы с ними. 3. Преобразование данных из существующего хранилища данных в триплеты RDF |
Мобильный доступ |
А.4.7 Вариант использования N 22: Статистический реляционный искусственный интеллект для здравоохранения |
1. Централизованные данные, некоторые данные - из интернет-источников. 2. Данные в диапазоне от сотен Гб для одной когорты из нескольких сотен человек, и до одного Пб в очень масштабных исследованиях. 3. Как постоянно обновляемые/ пополняемые данные о пациентах, так и данные, поступающие партиями по графику. 4. Большие, мультимодальные данные длительного наблюдения. 5. Богатые реляционные данные, состоящие из многочисленных таблиц, а также различные типы данных, такие как изображения, электронные медицинские документы, демографические, генетические данные и данные на естественном языке, требующие богатых средств представления. 6. Непредсказуемые темпы поступления данных, которые во многих случаях поступают в режиме реального времени |
1. Реляционные вероятностные модели, моделирующие неопределенности на основе теории вероятности. ПО обучает модели на основе ряда типов данных, потенциально может интегрировать информацию и логические рассуждения о сложных запросах. 2. Надежные и точные методы обучения для учета дисбаланса данных, когда большие объемы данных доступны для небольшого числа субъектов. 3. Алгоритмы обучения для определения перекосов в данных, чтобы избежать ошибочного моделирования "шума". 4. Обобщенные и уточненные обученные модели для применения к другим наборам данных. 5. Принятие данных в разных формах и из разрозненных источников |
1. Java, некоторые инструменты собственной разработки, реляционную базу данных и хранилища NoSQL. 2. Облачные и параллельные вычисления. 3. Высокопроизводительный компьютер с 48 гигабайт ОЗУ (для анализа при умеренном размере выборки). 4. Вычислительные кластеры для обработки больших наборов данных. 5. Жесткий диск объемом от 200 гигабайт до 1 терабайта для тестовых данных |
Визуализация подмножеств очень больших наборов данных |
Защищенная обработка данных |
1. Объединение нескольких таблиц перед выполнением анализа. 2. Методы валидации данных с целью минимизации ошибок |
- |
А.4.8 Вариант использования N 23: Эпидемиологическое исследование в масштабе всего населения Земли |
1. Синтетическая глобальная популяция, на централизованных либо распределенных ресурсах. 2. Большие объемы выходных данных, поступающих в режиме реального времени. 3. Различные выходные наборы данных в зависимости от сложности модели |
1. Вычисления, требующие как значительных вычислительных ресурсов, так и обработки больших объемов данных, соответствуют характеристикам суперкомпьютеров. 2. Алгоритмы, учитывающие неструктурированный и нерегулярный характер обработки графов. 3. Получение сводок по различным прогонам и повторам моделирования |
1. Перемещение очень больших объемов данных для визуализации (сети). 2. Распределенная система моделирования на основе MPI (платформа). 3. Charm++ на нескольких узлах (ПО). 4. Сетевая файловая система (хранение). 5. Сеть Infiniband (сети) |
Визуализация |
1. Защита используемых в моделировании персональных данных физических лиц. 2. Защита данных и защищенная платформа для вычислений |
Качество данных и отслеживание происхождения данных в ходе вычислений |
- |
А.4.9 Вариант использования N 24: Моделирование распространения социального влияния |
1. Динамическая распределенная обработка с использованием как традиционной архитектуры коммерческих кластеров, так и более новых (например, облачной). 2. Модели с высокой детализацией; и наборы данных, поддерживающие сетевой трафик Twitter. 3. Хранение огромных объемов данных |
1. Крупномасштабное моделирование различных событий (болезни, эмоции, поведение и т.д.). 2. Масштабируемое объединение наборов данных. 3. Многоуровневый анализ, одновременно обеспечивая быстрое получение достаточных результатов |
1. Вычислительная инфраструктура, позволяющая моделировать различные типы взаимодействия между людьми через интернет в связи с различными социальными событиями (инфраструктура). 2. Файловые сервера и базы данных (платформа). 3. Сети Ethernet и Infiniband (сети) 4. Специализированные программы моделирования, ПО с открытым исходным кодом и проприетарные среды моделирования, (приложения). 5. Обработка огромного количества учетных записей пользователей социальных сетей из различных стран (сети) |
1. Многоуровневые детальные представления в виде сетей. 2. Визуализация с возможностью интерактивного взаимодействия |
1. Защита используемых в моделировании персональных данных физических лиц. 2. Защита данных и защищенная платформа для вычислений |
1. Объединение данных из различных источников данных. 2. Согласованность данных и предотвращение их порчи. 3. Предварительная обработка первичных данных |
Перемещение данных ближе к вычислительным ресурсам с целью повышения эффективности |
А.4.10 Вариант использования N 25 Биологическое разнообразие и европейская электронная научно-исследовательская инфраструктура LifeWatch |
1. Специальные выделенные или оверлейные (наложенные) сенсорные сети. 2. Распределенное хранение, в том числе архивирование и сохранение исторических данных и данных о тенденциях. 3. Распределенные источники данных, в том числе многочисленные пункты наблюдения и мониторинга, сети датчиков и спутники. 4. Широкий спектр данных, включая спутниковые изображения/ информацию, данные о климате и погоде, фотографии, видео и звукозаписи и т.д. 5. Комбинации данных различных типов, и связи с потенциально неограниченными в своем разнообразии данными. 6. Потоковая передача данных |
1. Поэтапный анализ и/или анализ данных в реальном времени; темпы поступления данных варьируются в зависимости от исходных биологических и экологических процессов. 2. Разнообразие данных, аналитических инструментов и инструментов моделирования для поддержки аналитики в интересах различных научных сообществ. 3. Аналитика параллельных потоков данных и аналитика данных, поступающих в потоковом режиме. 4. Доступ и интеграция нескольких распределенных баз данных |
1. Расширяемые и предоставляемые по требованию ресурсы хранения для глобальных пользователей. 2. Облачные ресурсы сообщества. 3. Веб-сервисы, грид-сервисы, реляционные базы данных. 4. Персонализированные "виртуальные лаборатории". 5. Грид-ресурсы и облачные ресурсы |
1. Доступ мобильных пользователей. 2. Развитая и богатая визуализация, средства визуализации высокой четкости. 3. 4D-визуализация |
1.Объединенное (федеративное) управление идентификацией для мобильных исследователей и мобильных датчиков. 2. Управление доступом и контроль над ним |
1. Хранение и архивация данных, обмен данными и их интеграция. 2. Управление жизненным циклом данных, включая происхождение данных, ссылочную целостность и идентификацию, прослеживаемость до первоначальных данных наблюдений. 3. Обработанные (вторичные) данные (в дополнение к исходным данным), для использования в будущем. 4. Контроль происхождения с присвоением постоянного идентификатора (PID) данных, алгоритмов и рабочих процессов. 5. Курированные (авторизованные) эталонные данные (т.е. списки названий видов), алгоритмы, программные коды и рабочие процессы |
- |
А.5.1 Вариант использования N 26: Крупномасштабное глубокое обучение |
- |
- |
1. Графические процессоры. 2. Высокопроизводительный кластер с внутренними соединениями на основе MPI и Infiniband. 3. Библиотеки для вычислений на одной машине или на одном графическом процессоре (например, BLAS, CuBLAS, MAGMA и др.). 4. Распределенные вычисления с плотными матрицами на графических процессорах, подобно BLAS или LAPACK, которые пока слабо развиты. Существующие решения (например, ScaLapack для центральных процессоров) не очень хорошо интегрированы с языками высокого уровня и требуют низкоуровневого программирования, что удлиняет время эксперимента и процесса разработки |
- |
- |
- |
- |
А.5.2 Вариант использования N 27: Организация крупномасштабных, неструктурированных коллекций, сделанных потребителями фотографий |
Более 500 миллионов изображений, загружаемых ежедневно на сайты социальных сетей |
1. Классификатор (например, SVM) - процесс, который часто трудно распараллелить. 2. Функциональные возможности, применяемые во многих крупномасштабных задачах обработки изображений |
Hadoop или усовершенствованный Map/Reduce |
Визуализация крупномасштабных трехмерных реконструкций и навигация по крупномасштабным коллекциям изображений, которые были согласованы с картами |
Требуется обеспечивать защиту ПДн пользователей и защиту цифровых прав на контент |
- |
- |
А.5.3 Вариант использования N 28: Truthy - Анализ данных Твиттера |
1. Распределенные источники данных. 2. Большие объемы данных и потоковая передача в реальном времени. 3. Первичные данные в сжатых форматах. 4. Полностью структурированные данные в формате JSON, пользовательские метаданные и данные геолокации. 5. Несколько схем данных |
Различные методы анализа данных в реальном времени для выявления аномалий, кластеризации потока, классификации сигналов на основе многомерных временных рядов и онлайн-обучения |
1. Hadoop и HDFS (платформа). 2. Indexed HBase, Hive, SciPy и NumPy (ПО). 3. Базы данных в памяти и MPI (платформа). 4. Высокоскоростная сеть Infiniband (сети) |
1. Поиск/извлечение данных и их динамическая визуализация. 2. Управляемые данными интерактивные веб-интерфейсы. 3. API-интерфейсы программирования приложений для запросов к данным |
Политика в области безопасности и защиты неприкосновенности частной жизни |
Стандартизированные структуры данных/форматы и исключительно высокое качество данных |
Низкоуровневые функциональные возможности инфраструктуры хранения данных с целью обеспечения эффективного мобильного доступа к данным |
А.5.4 Вариант использования N 29: Краудсорсинг в гуманитарных науках |
- |
1. Оцифровка существующих архивов документов и аудио-, видео- и фотоматериалов. 2. Аналитика, включая все виды распознавания закономерностей (например, распознавание речи, автоматический анализ аудиовизуальных материалов, культурные закономерности) и выявления структур (лексические единицы, лингвистические правила и т.д.) |
- |
- |
Требуется решать вопросы обеспечения неприкосновенности частной жизни, сохраняя анонимность авторов полученных материалов |
- |
- |
А.5.5 Вариант использования N 30: Цифровая инфраструктура для исследований и анализа сетей и графов" (CINET) |
1. Набор файлов сетевых топологий для изучения теоретических свойств графов и поведения различных алгоритмов. 2. Асинхронные и синхронные распределенные вычисления в реальном времени |
1. Среды для запуска различных инструментов анализа сетей и графов. 2. Динамический рост сетей. 3. Асинхронные и синхронные, выполняемые в реальном времени распределенные вычисления. 4. Различные параллельные алгоритмы для разных схем разделения, используемых для повышения эффективности вычислений |
1. Высокопроизводительная кластеризованная файловая система (хранение). 2. Различные сетевые подключения (сети). 3. Существующий вычислительный кластер. 4. Вычислительный кластер Amazon ЕС2. 5. Различные библиотеки для работы с графами, инструменты управления потоками процессов, СУБД и семантические веб-инструменты |
Визуализация на стороне клиента |
- |
- |
- |
А.5.6 Вариант использования N 31: Измерения и оценки эффективности аналитических технологий в Национальном институте стандартов и технологий (NIST) |
1. Большое количество частично аннотированных веб-страниц, твитов, изображений и видеозаписей. 2. Масштабирование процесса проверки на большие объемы данных; измерение внутренней неопределенности и неопределенности аннотаций, измерение эффективности для не полностью аннотированных данных, измерение эффективности аналитики для разнородных данных и аналитических потоков с участием пользователей |
Аналитические алгоритмы, работающих с письменным языком, речью, изображениями людей и т.д. Алгоритмы, как правило, следует тестировать на реальных или реалистичных данных. Проблематично создание искусственных данных, в достаточной степени отражающих вариативность реальных данных, связанных с людьми |
1. Средства разработки PERL, Python, C/C++, Matlab, R. 2. Разработка по принципу "снизу вверх" тестовых и измерительных приложений |
Потоки работ аналитики с участием пользователей |
Исполнение требований по безопасности и защите ПДн в отношении защиты чувствительных данных, обеспечивая при этом возможность проведения содержательной оценки эффективности разработок. Совместно используемые испытательные стенды должны обеспечивать защиту интеллектуальной собственности разработчиков аналитических алгоритмов |
- |
- |
А.6.1 Вариант использования N 32: Консорциум федеративных сетей данных (DFC) |
1. Обработка ключевых файловых форматов: NetCDF, HDF5, Dicom. 2. Обработка данных в режиме реального времени и пакетная обработка |
Типовые потоки рабочих процессов аналитики |
1. ПО для управления данными iRODS. 2. Интероперабельность между различными типами протоколов хранения и сетевого взаимодействия |
Типовые потоки рабочих процессов визуализации |
1. Объединение (федерация) существующих сред аутентификации с помощью "Типового API-интерфейса служб защиты данных" (Generic Security Service API) и подключаемых модулей аутентификации (GSI, Kerberos, InCommon, Shibboleth). 2. Управление доступом к файлам независимо от места хранения |
- |
- |
А.6.2 Вариант использования N 33: Discinnet-процесс |
Интеграция методов работы с метаданными различных дисциплин |
- |
Программное обеспечение: Symfony-PHP, Linux и MySQL |
- |
Достаточно высокий, но необязательный уровень безопасности и защиты ПДн, включая использование защищенных серверов и анонимизацию |
Интеграция методов работы с метаданными различных дисциплин |
- |
А.6.3 Вариант использования N 34: Поиск по графу для научных данных |
Любые типы данных, от изображений до текстов, от структур до белковых последовательностей |
1. Обработка графа данных. 2. Реляционная СУБД |
Облачные ресурсы сообщества |
Эффективная визуализация на основе графа данных |
- |
- |
- |
А.6.4 Вариант использования N 35: Анализ больших объемов данных, получаемых в экспериментах на синхротроне |
1. Многочисленные потоки данных в реальном времени, сохранение данных для последующего анализа. 2. Анализ в режиме реального времени выборок данных |
Стандартные инструменты биоинформатики (BLAST, HMMER, инструменты множественного выравнивания последовательностей и филогенетики, программы поиска/ предсказания генов и генных структур, программы предсказания свойств по результатам секвенирования и т.д.), скрипты Perl/Python и планировщик задач Linux - кластера |
Передача больших объемов данных на удаленный ресурс для пакетной обработки |
- |
Исполнение многочисленных требований к безопасности и защите неприкосновенности частной жизни |
- |
- |
А.7.1 Вариант использования N 36: Каталинский цифровой обзор неба в поисках транзиентов |
Обработка поступающих за ночь 0,1 Тб первичных данных обзора; в будущем темпы производства данных могут возрасти в 100 раз |
1. Большое количество разнообразных инструментов анализа астрономических данных, а также большое количество специализированных инструментов и ПО, часть которых является самостоятельными исследовательскими проектами. 2. Автоматизированная классификация с помощью инструментов машинного обучения, учитывающая немногочисленность и разнородность данных, которая динамически эволюционирует во времени по мере поступления большего количества данных; и принятия решений о проведении дополнительных исследований в условиях ограниченности выделяемых для этого ресурсов |
- |
Механизмы визуализации для пространств параметров данных высокой размерности |
- |
- |
- |
А.7.2 Вариант использования N 37: Космологический обзор неба и моделирование |
Обработка 1 петабайта данных наблюдений в год. В будущем темпы производства данных вырастут до 7 петабайт в год |
Интерпретация результатов детального моделирования, которая требует развитых методов и средств анализа и визуализации |
1. MPI, OpenMP, С, С++, F90, FFTW, пакеты визуализации, Python, FFTW, Numpy, Boost, OpenMP, ScaLAPCK, СУБД PSQL и MySQL, Eigen, Cfitsio, http://astrometry.net/ и Minuit2. 2. Разработка новых методов анализа ввиду ограничений подсистемы ввода/ вывода суперкомпьютера |
Интерпретация результатов с использованием передовых методов и средств визуализации |
- |
- |
- |
А.7.3 Вариант использования N 38: Большие данные космологических обзоров неба |
Обработку 20 терабайт данных в день |
1. Анализ как результатов моделирования, так и данных наблюдений. 2. Методы для выполнения разложения Холецкого для тысяч моделирований с матрицами порядка миллиона по каждой стороне |
1. Стандартное астрофизическое ПО для обработки ("редуцирования") данных, а также сценарии - обертки Perl/Python. 2. Реляционная СУБД Oracle, терминальный клиент psql, файловые системы GPFS и Luster и ленточные архивы. 3. Параллельные базы данных для хранения изображений |
- |
- |
Связи между удаленными телескопами и центрами аналитической обработки |
- |
А.7.4 Вариант использования N 39: Анализ данных Большого адронного коллайдера |
1. Обработка данных, поступающих в реальном времени от ускорителей и инструментов анализа. 2. Асинхронизация сбора данных. 3. Калибровка экспериментальных установок |
1. Экспериментальные данные проектов ALICE, ATLAS, CMS и LHC. 2. Гистограммы, диаграммы рассеяния, подбор моделей. 3. Вычисления по методу Монте-Карло |
1. Унаследованная вычислительная инфраструктура (вычислительные узлы). 2. Распределенное хранение файлов (хранение) 3. Объектно-ориентированные базы данных (ПО) |
Построение гистограмм, диаграмм рассеяния с подбором моделей (визуализация) |
Защита данных |
Качество данных на сложных установках |
- |
А.7.5 Вариант использования N 40: Эксперимент Belle II |
120 петабайт первичных данных |
- |
1. Хранение 120 петабайт первичных данных. 2. Модель международных распределенных вычислений, для расширения имеющихся возможностей на ускорителе (в Японии). 3. Передача первичных данных со скоростью 20 гигабит/с между Японией и США (при проектной яркости ускорителя). 4. Программное обеспечение: "Грид Открытой науки" (Open Science Grid), Geant4, DIRAC, FTS, инфраструктура Belle II |
- |
Стандартная аутентификация в грид-системе |
- |
- |
А.8.1 Вариант использования N 41: Радарная система некогерентного рассеяния EISCAT-3D |
1. Систему из пяти постов, которая будет производить 40 петабайт данных в год в 2022 году. 2. Формат данных Hierarchical Data Format (HDF5). 3. Визуализация многомерных ( 5) данных |
1. Архитектура "пчелиной матки" (Queen Bee), в которой централизованная обработка сочетается с распределенной обработкой на измерительных устройствах для данных с 5 распределенных постов. 2. Мониторинг оборудования в режиме реального времени путем частичного анализа потока данных. 3. Богатый набор сервисов обработки радиолокационных изображений с использованием машинного обучения, статистического моделирования и алгоритмов поиска на графе |
Архитектура, позволяющая принимать участие в сотрудничестве в рамках проекта ENVRI |
Визуализация многомерных ( 5) данных |
- |
Долговременная сохранность данных и предотвращение утраты данных в случае сбоев в работе измерительного комплекса |
Требуется поддержка мониторинга оборудования в режиме реального времени, посредством частичного анализа потока данных |
А.8.2 Вариант использования N 42: Совместная деятельность европейских сетевых инфраструктур в области экологических исследований (ENVRI) |
1. Огромный объем данных, поступающих в реальном времени из распределенных источников. 2. Разнообразные наборы данных и метаданных, поступающих с измерительных инструментов |
Разнообразные аналитические инструменты |
1. Взаимодействие с различными вычислительными инфраструктурами и архитектурами (инфраструктура). 2. Взаимодействие с разрозненными хранилищами (хранение) |
1. Инструменты построения графиков. 2. Инструменты интерактивной линейной временной визуализации (на базе Google Chart Tools) для временных рядов. 3. Отображение диаграмм в браузере с использованием технологии Flash. 4. Визуализация данных с высоким разрешением с привязкой к картам Земли. 5. Визуальные инструменты для сравнения качества моделей |
Политика открытых данных с небольшими ограничениями |
1. Высокое качество данных. 2. Зеркальные архивы. 3. Различные схемы метаданных. 4. Разрозненные хранилища и курирование данных |
Мобильные датчики и измерительные устройства различных типов с целью сбора данных |
А.8.3 Вариант использования N 43: Анализ радиолокационных данных для Центра дистанционного зондирования ледяного покрова CReSIS |
1. Надежная передача данных с установленных на самолете датчиков/ приборов либо со съемных жестких дисков, доставленных с удаленных объектов. 2. Сбор данных в режиме реального времени. 3. Различные наборы данных |
1. Унаследованное ПО (Matlab) и языки (C/Java) для обработки данных. 2. Обработка сигналов и методы обработки изображений с целью выделения слоев |
1. 0,5 петабайт первичных данных в год. 2. Передача материалов со съемного жесткого диска в вычислительный кластер для параллельной обработки. 3. Map/Reduce или MPI, плюс С/Java |
1. ГИС как пользовательский интерфейс. 2. Богатый пользовательский интерфейс для моделирования |
Обеспечение безопасности и неприкосновенности частной жизни, в том числе с учетом деликатности политической ситуации в зоне проведения исследований. Требуется поддерживать динамичные механизмы политик в области безопасности и неприкосновенности частной жизни |
Обеспечение уверенности в качестве данных |
Мониторинг собирающих данные устройств и датчиков |
А.8.4 Вариант использования N 44: Обработка данных проекта UAVSAR |
1. Пространственные данные и данные в угловых координатах. 2. Совместимость с другими радиолокационными системами и хранилищами данных НАСА, например, Спутникового центра НАСА на Аляске (Alaska Satellite Facility, ASF) |
1. Данные с географической привязкой, требующие интеграции в ГИС в качестве дополнительных наложений (оверлеев). 2. Значительное вмешательство человека в конвейер обработки данных. 3. Поддержка богатого набора сервисов обработки радиолокационных изображений. 4. Инструменты ROI_PAC, GeoServer, GDAL, а также поддерживающие стандарт метаданных GeoTIFF |
1. Архитектура, обеспечивающая интероперабельность системы высокопроизводительных вычислений с облачными решениями. 2. Поддержка богатого набора сервисов обработки радиолокационных изображений. 3. Инструменты ROI_PAC, GeoServer, GDAL, а также поддерживающие стандарт метаданных GeoTIFF. 4. Совместимость с другими радиолокационными системами и хранилищами данных НАСА |
Поддержка пользователей в полевых экспедициях посредством предоставления интерфейса для смартфонов/ планшетов и поддержки скачивания данных с низким разрешением |
- |
1. Значительное вмешательство человека в конвейер обработки данных. 2. Подробные и надежные сведения о происхождении, описывающие сложный процесс обработки компьютером/ человеком |
Поддержка работающих в полевых условиях пользователей посредством предоставления интерфейсов к смартфонам/ планшетам и возможности скачивания данных в низком разрешении |
А.8.5 Вариант использования N 45: Объединенный испытательный стенд iRODS центра НАСА в Лэнгли и Центра космических полетов им. Годдарда |
Федеративные распределенные неоднородные наборы данных |
Облачная аналитика климата как сервис (CAaaS) |
1. "Виртуальный сервер климатических данных" vCDS. 2. Файловая система GPFS, интегрированная с Hadoop. 3. iRODS |
Визуализация распределенных разнородных данных |
- |
- |
- |
А.8.6 Вариант использования N 46: Аналитические сервисы MERRA |
1. Интеграция результатов моделирования и данных наблюдений, файлы формата NetCDF. 2. Обработка в режиме реального времени и в пакетном режиме. 3. Интероперабельность между облачным решением AWS и локальными кластерами. 4. Управление данными с помощью iRODS |
Облачная аналитика климата как сервис (CAaaS) |
1. Программное обеспечение, способное работать с форматом NetCDF. 2. Map/Reduce. 3. Интероперабельное использование Amazon AWS и локальных кластеров |
Высокопроизводительная распределенная визуализация |
- |
- |
1. Требуется поддержка доступа со смартфонов и планшетов. 2. Управление данными посредством iRODS |
А.8.7 Вариант использования N 47: Атмосферная турбулентность - Обнаружение событий |
1. Распределенные наборы данных, полученные данные в реальном времени. 2. Различные форматы, разрешения, семантики и метаданные |
1. Инструмент Map/Reduce или аналогичный; SciDB или другая научная СУБД. 2. Непрерывные вычисления по мере поступления новых данных. 3. Язык спецификации событий для интеллектуального анализа данных/поиска событий. 4. Интерпретации семантики, а также базы данных с оптимальной структурой для 4-мерного интеллектуального анализа данных и прогнозного анализа |
1. Унаследованные вычислительные системы (например, суперкомпьютер). 2. Передача данных по сети с высокой пропускной способностью |
Визуализация для помощи в интерпретации результатов |
- |
Валидация для выходных продуктов (корреляции) |
- |
А.8.8 Вариант использования N 48: Исследования климата с использованием модели климатической системы Земли (CESM) |
1. Потоковая передача (до 100 петабайт в 2017 году), при высокой скорости передачи данных от крупных суперкомпьютеров, расположенных по всему миру. 2. Интеграция крупномасштабных распределенных данных моделирования с результатами различных наблюдений. 3. Сопоставление разнообразных существующих данных с новыми данными моделирования в среде высокопроизводительных вычислений |
Выполнение анализа данных вблизи места их хранения |
Расширение архитектуры с целью охватить данные ряда других областей науки |
1. Коллективное использование климатических данных в глобальном масштабе. 2. Высокопроизводительная распределенная визуализация |
- |
- |
Ввод данных и доступ со смартфонов |
А.8.9 Вариант использования N 49: Подповерхностные биогеохимические исследования |
1. Разнородные разнообразные данные различных областей и разного масштаба, а также их перемещение по различным масштабам и областям. 2. Объединение разнообразных и разрозненных наборов данных полевых, лабораторных измерений, биологических наук и моделирования, охватывая различные семантические, пространственные и временные масштабы. 3. Сопоставление разнообразных существующих данных с новыми данными моделирования в среде высокопроизводительных вычислений |
- |
Postgres, HDF5 и различные специализированные программные системы |
Доступ к данным и ввод данных со смартфона |
- |
- |
Ввод данных и доступ со смартфонов |
А.8.10 Вариант использования N 50: Сети AmeriFlux и FLUXNET |
1. Разнородные разнообразные данные различных областей и разного масштаба, а также их перемещение по различным масштабам и областям. 2. Ссылки на многие другие экологические и биологические наборы данных. 3. Ссылки на данные моделирования климата и иные результаты моделирования в среде высокопроизводительных вычислений. Требуется поддерживать ссылки на европейские источники данных и проекты. Требуется поддерживать доступ к данным из 500 распределенных источников |
Специализированное ПО, такое как EddyPro, и специальное ПО для анализа, такое как R, Python, нейронные сети, Matlab |
1.Специализированное ПО, такое, как EddyPro; и специализированное ПО для анализа, такое, как R, Python, нейронные сети, Matlab. 2. Методы аналитики: интеллектуальный анализ данных, оценка качества данных, взаимная корреляция между наборами данных, ассимиляция данных, интерполяция данных, статистика, оценка качества, слияние данных и т.д. |
Доступ к данным и ввод данных со смартфона |
- |
- |
Ввод данных и доступ со смартфонов |
А.9.1 Вариант использования N 51: Прогнозирование потребления электроэнергии в интеллектуальных энергосетях |
1. Разнообразные данные: показания датчиков интеллектуальной энергосети, данные городского планирования, метеорологические данные и служебные базы данных энергетических компаний. 2. Обновление данных каждые 15 минут |
Новые виды аналитики на основе машинного обучения для прогнозирования энергопотребления |
1. СУБД SQL, CSV-файлы, HDFS (платформа). 2. R/Matlab, Weka и Hadoop (платформа) |
- |
Защита персональных данных посредством анонимизации и агрегирования данных |
- |
Мобильный доступ для клиентов |
А.9.2 Вариант использования N 52: Система управления энергией домашнего хозяйства HEMS |
Источники данных распределены по отдельным частным домам |
- |
Большое централизованное хранилище (хранение) |
Потребители услуг, предоставляемых HEMS, это, как правило, люди, проживающие в частных домах |
Обработка персональных данных должна производиться ответственно и осмотрительно, с целью обеспечить неприкосновенность частной жизни пользователей |
Данные будут полностью уничтожены, если пользователи расторгнут договор |
Несколько игроков участвуют в цепочке поставок для потока больших данных |
Если вы являетесь пользователем интернет-версии системы ГАРАНТ, вы можете открыть этот документ прямо сейчас или запросить по Горячей линии в системе.