Откройте актуальную версию документа прямо сейчас
Если вы являетесь пользователем интернет-версии системы ГАРАНТ, вы можете открыть этот документ прямо сейчас или запросить по Горячей линии в системе.
Приложение D
(справочное)
Детальное описание специфических для вариантов использования технических проблем
В данном приложении описаны специфические для конкретных вариантов использования технические проблемы, а также обобщенные технические проблемы в каждой из следующих семи категорий:
- источник данных (таблица D.1);
- преобразование данных (таблица D.2);
- возможности обработки (таблица D.3);
- потребитель данных (таблица D.4);
- безопасность и неприкосновенность частной жизни (таблица D.5);
- управление жизненным циклом (таблица D.6);
- иные технические проблемы (таблица D.7).
В каждой категории перечислены общие технические проблемы с указанием примеров использования, к которым применяется соответствующее требование.
Вслед за общими техническими проблемами перечислены специфические технические проблемы данной категории для каждого варианта использования. Если из описания конкретного варианта использования не удалось извлечь требований для определенной категории характеристик, соответствующий вариант не будет указан в данном пункте таблицы.
Таблица D.1 - Технические проблемы в категории "Источник данных"
Общие технические требования | ||
1. Необходимо поддерживать надежную, в реальном времени и/или асинхронную; потоковую и/или пакетную обработку с целью сбора данных из централизованных, распределенных и/или облачных источников данных, от датчиков и/или приборов |
Применимо к 26 вариантам использования: N 1-2, 8, 10-12, 15-16, 18-25, 28, 39, 42-44, 46-50 |
|
2. Необходимо поддерживать передачу данных - медленную и/или неравномерную с периодическими пиковыми нагрузками и/или с высокой пропускной способностью - между источниками данных и вычислительными кластерами |
Применимо к 22 вариантам использования: N 2-3, 8, 11-12, 16, 18-20, 22-23, 27, 36-38, 40-43, 48, 50-51 |
|
3. Необходимо поддерживать данные разнообразных типов и видов, включая структурированные и неструктурированные тексты, документы, графы, веб-материалы, геопространственные данные, сжатые, с привязкой ко времени, пространственные, мультимедийные данные, данные моделирования и показания измерительных инструментов |
Применимо к 28 вариантам использования: N 1-2, 6, 8, 11, 13-18, 20-21, 23-25, 27-28, 30-31, 39, 41, 43, 47-51 |
|
Специфические для варианта применения технические требования к источнику данных | ||
1 1) |
А.1.1 Вариант использования N 1: Архивное хранение больших данных переписей населения в США 2010 и 2000 годов Требуется обеспечить долговременную сохранность больших объемов документов в центральном хранилище |
|
2 |
А.1.2 Вариант использования N 2: Прием Национальными архивами США государственных данных на архивное хранение, поиск, извлечение и обеспечение долговременной сохранности Требуется поддержка распределенных источников данных. Требуется обеспечить хранение больших объемов данных. Требуется обеспечить обработку неравномерно поступающих данных, когда объем партии документов может варьироваться от гигабайт до сотен терабайт. Требуется поддерживать большое количество разнообразных форматов данных, в том числе для неструктурированных и для структурированных данных. Требуется поддержка распределенных источников данных в различных облачных решениях |
|
3 |
А.1.3 Вариант использования N 3: Повышение активности респондентов в статистических обследованиях Требуется поддержка данных объемом примерно один петабайт |
|
5 |
А.2.1 Вариант использования N 5: Облачные вычисления в секторах финансовой отрасли Требуется поддержка ввода данных в реальном времени |
|
6 |
А.2.2 Вариант использования N 6: Международная исследовательская сеть Mendeley Требуется поддержка представленных в виде файлов документов. В систему постоянно загружаются новые документы. Требуется поддержка различных типов файлов, таких как PDF-файлы, лог-файлы социальных сети и активности клиентов, изображения, электронные таблицы, файлы презентаций |
|
7 |
А.2.3 Вариант использования N 7: Сервис кинофильмов Netflix Необходима поддержка профилей пользователей и рейтинговой информации. |
|
8 |
А.2.4 Вариант использования N 8: Веб-поиск Требуется поддерживать распределенные источники данных. Требуется поддерживать потоковые данные. Требуется поддерживать мультимедийный контент |
|
10 |
А.2.6 Вариант использования N 10: Грузоперевозки Требуется поддержка в реальном времени централизованных и распределенных источников информации/датчиков |
|
11 |
А.2.7 Вариант использования N 11: Данные о материалах Требуется поддерживать распределенные хранилища данных о более чем 500 тысячах коммерческих материалов. Требуется поддерживать множество видов наборов данных. Требуется поддержка текста, графики и изображений |
|
12 |
А.2.8 Вариант использования N 12: Геномика материалов на основе результатов моделирования Требуется поддерживать потоки данных от пета/экзафлопсных централизованных систем моделирования. Требуется поддерживать распределенные веб-потоки данных от центрального шлюза к пользователям |
|
13 |
А.3.1 Вариант использования N 13: Облачный крупномасштабный анализ и визуализация геопространственных данных Нужна поддержка геопространственных данных, требующих уникальных подходов для индексирования и распределенного анализа |
|
14 |
А.3.2 Вариант использования N 14: Идентификация и отслеживание объектов - Постоянное наблюдение Требуется поддерживать поступающие в реальном времени данные FMV-формата высококачественного видео (от 30 до 60 кадров в секунду при полноцветном разрешении 1080 пикселей) и WALF-формат видео с высоким разрешением (WALF) - от 1 до 10 кадров в секунду при полноцветном разрешении 10 тысяч * 10 тысяч пикселей |
|
15 |
А.3.3 Вариант использования N 15: Обработка и анализ разведывательных данных Требуется поддерживать данные, поступающие в реальном времени с их обработкой (в худшем случае) в масштабе времени, близком к реальному. Требуется поддерживать данные, которые в настоящее время существуют в разрозненных хранилищах, и которые должны быть доступны через семантически интегрированное пространство данных. Требуется поддерживать разнообразные данные: текстовые файлы, первичные данные с датчиков, графические образы, видео, аудио, электронные данные и данные, созданные человеком |
|
16 |
А.4.1 Вариант использования N 16: Данные электронной медицинской документации Требуется поддерживать неоднородные, большого объема, разнообразные источники данных. Требуется поддерживать данные на более чем 12 млн пациентов, содержащие более 4 млрд отдельных клинических наблюдений, суммарный объем которых превышает 20 терабайт первичных данных. Требуется поддерживать обработку данных, поступающих со скоростью от 500 тыс. до 1,5 млн новых клинических транзакций в день. Требуется поддерживать разнообразные данные: числовые и структурированные числовые данные, тексты в свободном формате, структурированные тексты, дискретные номинальные данные, дискретные порядковые данные, дискретные структурированные данные, большие двоичные объекты (изображения и видео). Требуется поддерживать данные, которые с течением времени эволюционируют. Требуется поддерживать во времени всестороннее и согласованное представление данных из разных источников |
|
17 |
А.4.2 Вариант использования N 17: Анализ графических образов в патологии/Цифровая патология Требуется поддерживать пространственные цифровые графические образы высокого разрешения в патологии. Требуется поддерживать различные алгоритмы анализа качества изображений. Требуется поддерживать различные форматы графических данных, особенно BigTIFF, и результаты анализа, представленные в виде структурированных данных. Требуется поддерживать анализ изображений, пространственные запросы и аналитику, кластеризацию и классификацию признаков |
|
18 |
А.4.3 Вариант использования N 18: Вычислительный анализ биоизображений Требуется поддерживать распределенные мультимодальные экспериментальные источники (инструменты) биологических изображений высокого разрешения. Требуется поддерживать 50 терабайт данных в различных форматах, включая графические. |
|
19 |
А.4.4 Вариант использования N 19: Геномные измерения Требуется поддерживать поступающие с высокой скоростью сжатые данные ( 300 гигабайт в день) от различных секвенсоров ДНК. Требуется поддерживать распределенные источники данных (секвенсоры). Требуется поддерживать различные файловые форматы, как для структурированных, так и для неструктурированных данных |
|
20 |
А.4.5 Вариант использования N 20: Сравнительный анализ (мета) геномов Требуется поддерживать многочисленные централизованные источники данных. Требуется поддерживать разнообразные данные, от сведений о последовательностях аминокислот до данных о белках и их структурных особенностях (базовые геномные данные), а также новые типы данных таких направлений биологической науки - "омиков", как транскриптомика, метиломика и протеомика, описывающих экспрессии генов в различных условиях. Требуется поддерживать интерактивный пользовательский веб-интерфейс в реальном времени. Возможности обработки загружаемых данных на сервере должны соответствовать экспоненциальному росту объемов данных секвенирования из-за быстрого снижения стоимости технологии секвенирования. Требуется поддерживать разнородные, сложные, структурные и иерархические биологические данные. Требуется поддерживать метагеномные образцы, размеры, которые могут варьироваться на несколько порядков величины - от нескольких сотен тысяч до миллиарда генов |
|
21 |
А.4.6 Вариант использования N 21: Индивидуальное управление лечением диабета Требуется поддерживать распределенные данные электронных медицинских документов. Требуется поддерживать данные более 5 миллионов пациентов с тысячами свойств по каждому, а также многие другие сведения, полученные из первичных данных. Требуется поддерживать данные по каждому пациенту, при этом число значений свойств может варьироваться от менее 100 до более чем 100 тысяч; типичным для пациента является около 100 значений свойств из контролируемых словарей и 1000 непрерывных числовых величин. Требуется поддерживать данные, которые периодически обновляются (не в режиме реального времени). Данные снабжаются отметками времени наблюдения (времени записи значения). Требуется поддерживать структурированные данные о пациентах. Данные делятся на две основные категории: данные со значениями свойств из контролируемого словаря и данные со значениями свойств, являющимися непрерывными числовыми величинами (которые документируются/регистрируются чаще). Требуется поддерживать данные, которые состоят из текста и непрерывных числовых значений |
|
22 |
А.4.7 Вариант использования N 22: Статистический реляционный искусственный интеллект для здравоохранения Требуется поддержка централизованных данных, при этом некоторые данные извлекаются из интернет-источников. Требуется поддержка данных в диапазоне от сотен гигабайт для одной когорты из нескольких сотен человек и до одного петабайта в очень масштабных исследованиях, охватывающих миллионы пациентов. Требуется поддерживать как постоянно обновляемые/пополняемые данные о пациентах, так и данные, поступающие партиями по графику. Требуется поддерживать большие, мультимодальные данные длительного наблюдения. Требуется поддержка богатых реляционных данных, состоящих из многочисленных таблиц, а также различные типы данных, такие как изображения, электронные медицинские документы, демографические, генетические данные и данные на естественном языке, требующие богатых средств представления. Требуется поддерживать непредсказуемые темпы поступления данных, которые во многих случаях поступают в режиме реального времени |
|
23 |
А.4.8 Вариант использования N 23: Эпидемиологическое исследование в масштабе всего населения Земли Требуется поддерживать синтетическую глобальную популяцию на централизованных либо распределенных ресурсах. Требуется поддерживать большие объемы выходных данных, поступающих в режиме реального времени. Требуется поддержка различных выходных наборов данных, в зависимости от сложности модели |
|
24 |
А.4.9 Вариант использования N 24: Моделирование распространения социального влияния Требуется поддерживать динамическую распределенную обработку с использованием как традиционной архитектуры коммерческих кластеров, так и более новых архитектур (например, облачной). Требуется поддержка моделей с высокой детализацией и наборов данных, поддерживающих сетевой трафик Twitter. Требуется поддерживать хранение данных, поступающих каждый год в огромном объеме |
|
25 |
А.4.10 Вариант использования N 25: Биологическое разнообразие и европейская электронная научно-исследовательская инфраструктура LifeWatch Требуется поддерживать специальные выделенные или оверлейные (наложенные) сенсорные сети. Требуется поддерживать распределенное хранение, в том числе архивирования и сохранение исторических данных и данных о тенденциях. Требуется поддерживать распределенные источники данных, в том числе многочисленные пункты наблюдения и мониторинга, сети датчиков и спутники. Требуется поддерживать широкий спектр данных, включая спутниковые изображения/информацию, данные о климате и погоде, фотографии, видео и звукозаписи и т.д. Требуется поддерживать комбинации данных различных типов и связи с потенциально неограниченными в своем разнообразии данными. Требуется поддерживать потоковую передачу данных |
|
27 |
А.5.2 Вариант использования N 27: Организация крупномасштабных, неструктурированных коллекций сделанных потребителями фотографий Требуется поддерживать более 500 миллионов изображений, загружаемых ежедневно на сайты социальных сетей |
|
28 |
А.5.3 Вариант использования N 28: Truthy - Анализ данных Твиттера Требуется поддерживать распределенные источники данных. Требуется поддерживать большие объемы данных и потоковую передачу в реальном времени. Требуется поддерживать первичные данные в сжатых форматах. Требуется поддерживать полностью структурированные данные в формате JSON, пользовательские метаданные и данные геолокации. Требуется поддерживать несколько схем данных |
|
30 |
А.5.5 Вариант использования N 30: Цифровая инфраструктура для исследований и анализа сетей и графов (CINET) Требуется поддерживать набор файлов сетевых топологий для изучения теоретических свойств графов и поведения различных алгоритмов. Требуется поддерживать асинхронные и синхронные распределенные вычисления в реальном времени |
|
31 |
А.5.6 Вариант использования N 31: Измерения и оценки эффективности аналитических технологий в Национальном институте стандартов и технологий (NIST) Требуется поддерживать большое количество частично аннотированных веб-страниц, твиттов, изображений и видеозаписей. Требуется поддерживать масштабирование процесса проверки на большие объемы данных, измерение внутренней неопределенности и неопределенности аннотаций, измерение эффективности для не полностью аннотированных данных, измерение эффективности аналитики для разнородных данных и аналитических потоков с участием пользователей |
|
32 |
А.6.1 Вариант использования N 32: Консорциум федеративных сетей данных (DFC) Требуется поддерживать обработку ключевых файловых форматов: NetCDF, HDF5, Dicom. Требуется поддерживать обработку данных в режиме реального времени и пакетную обработку |
|
33 |
А.6.2 Вариант использования N 33: Discinnet-процесс Требуется поддерживать интеграцию методов работы с метаданными различных дисциплин |
|
34 |
А.6.3 Вариант использования N 34: Поиск по графу для научных данных Необходимо поддерживать любые типы данных, от изображений до текстов, от структур до белковых последовательностей |
|
35 |
А.6.4 Вариант использования N 35: Анализ больших объемов данных, получаемых в экспериментах на синхротроне Требуется поддерживать многочисленные потоки данных в реальном времени, сохраняя данные для последующего анализа. Требуется поддерживать анализ в режиме реального времени выборок данных |
|
36 |
А.7.1 Вариант использования N 36: Каталинский цифровой обзор неба в поисках транзиентов Необходимо поддерживать обработку поступающих за ночь 0.1 терабайта первичных данных обзора; в будущем темпы производства данных могут возрасти в 100 раз |
|
37 |
А.7.2 Вариант использования N 37: Космологический обзор неба и моделирование Требуется поддерживать обработку 1 петабайта данных наблюдений в год. В будущем темпы производства данных вырастут до 7 петабайт в год |
|
38 |
А.7.3 Вариант использования N 38: Большие данные космологических обзоров неба Требуется поддерживать обработку 20 терабайт данных в день |
|
39 |
А.7.4 Вариант использования N 39: Анализ данных Большого адронного коллайдера Требуется поддерживать обработку данных, поступающих в реальном времени от ускорителей и инструментов анализа. Требуется поддерживать асинхронизацию сбора данных. Требуется поддерживать калибровку экспериментальных установок |
|
40 |
А.7.5 Вариант использования N 40: Эксперимент Belle II Требуется поддерживать 120 петабайт первичных данных |
|
41 |
А.8.1 Вариант использования N 41: Радарная система некогерентного рассеяния EISCAT-3D Требуется поддерживать систему из пяти постов, которая будет производить 40 петабайт данных в год в 2022 г. Требуется поддерживать формат данных HDF5. Требуется поддерживать визуализацию многомерных ( 5) данных |
|
42 |
А.8.2 Вариант использования N 42: Совместная деятельность европейских сетевых инфраструктур в области экологических исследований (ENVRI) Требуется поддерживать огромный объем данных, поступающих в реальном времени из распределенных источников. Требуется поддерживать разнообразные наборы данных и метаданных, поступающих с измерительных инструментов |
|
43 |
А.8.3 Вариант использования N 43: Анализ радиолокационных данных для Центра дистанционного зондирования ледяного покрова CReSIS Требуется обеспечить надежную передачу данных с установленных на самолете датчиков/приборов либо со съемных жестких дисков, доставленных с удаленных объектов. Требуется поддерживать сбор данных в режиме реального времени. Требуется поддерживать различные наборы данных |
|
44 |
А.8.4 Вариант использования N 44: Обработка данных проекта UAVSAR Требуется поддерживать пространственные данные и данные в угловых координатах. Требуется поддерживать совместимость с другими радиолокационными системами и хранилищами данных НАСА, например Спутникового центра НАСА на Аляске (Alaska Satellite Facility, ASF) |
|
45 |
A.8.5 Вариант использования N 45: Объединенный испытательный стенд iRODS центра НАСА в Лэнгли и Центра космических полетов имени Годдарда Необходимо поддерживать федеративные распределенные неоднородные наборы данных |
|
46 |
А.8.6 Вариант использования N 46: Аналитические сервисы MERRA Требуется поддерживать интеграцию результатов моделирования и данных наблюдений, файлы формата NetCDF. Требуется поддерживать обработку в режиме реального времени и в пакетном режиме. Требуется обеспечить интероперабельность между облачным решением AWS и локальными кластерами. Требуется поддерживать управление данными с помощью iRODS |
|
47 |
А.8.7 Вариант использования N 47: Атмосферная турбулентность - Обнаружение событий Требуется поддержка распределенных наборов данных, получающих данные в реальном времени. Требуется поддерживать различные форматы, разрешения, семантику и метаданные |
|
48 |
А.8.8 Вариант использования N 48: Исследования климата с использованием модели климатической системы Земли (CESM) Требуется поддерживать потоковую передачу (до 100 петабайт в 2017 г.), обеспечивая высокую скорость передачи данных от крупных суперкомпьютеров, расположенных по всему миру. Требуется поддерживать интеграцию крупномасштабных распределенных данных моделирования с результатами различных наблюдений. Требуется сопоставлять разнообразные существующие данные с новыми данными моделирования в среде высокопроизводительных вычислений |
|
49 |
А.8.9 Вариант использования N 49: Подповерхностные биогеохимические исследования Требуется поддерживать разнородные разнообразные данные различных областей и разного масштаба, а также их перемещение по различным масштабам и областям. Требуется поддерживать объединение разнообразных и разрозненных наборов данных полевых, лабораторных измерений, медико-биологических наук и моделирования, охватывая различные семантические, пространственные и временные масштабы. Требуется сопоставлять разнообразные существующие данные с новыми данными моделирования в среде высокопроизводительных вычислений |
|
50 |
А.8.10 Вариант использования N 50: Сети AmeriFlux и FLUXNET Требуется поддерживать разнородные разнообразные данные различных областей и разного масштаба, а также их перемещение по различным масштабам и областям. Требуется поддерживать ссылки на многие другие экологические и биологические наборы данных. Требуется поддерживать ссылки на данные моделирования климата и иные результаты моделирования в среде высокопроизводительных вычислений. Требуется поддерживать ссылки на европейские источники данных и проекты. Требуется поддерживать доступ к данным из 500 распределенных источников |
|
51 |
А.9.1 Вариант использования N 51: Прогнозирование потребления электроэнергии в интеллектуальных энергосетях Требуется поддерживать разнообразные данные: показания датчиков интеллектуальной энергосети, данные городского планирования, метеорологические данные и служебные базы данных энергетических компаний. Требуется поддерживать обновление данных каждые 15 минут |
------------------------------
1)Сохранена использованная в данной таблице нумерация с пропусками.
------------------------------
Таблица D.2 - Технические проблемы в категории "Преобразование данных"
Общие технические требования | ||
1. Необходимо поддерживать разнообразные вычислительно-интенсивные методы аналитической обработки и методы машинного обучения |
Применимо к 36 вариантам использования: N 2-4, 6-7, 10, 12-19, 21-25, 27-31, 36-39, 41-46, 48, 51 |
|
2. Необходимо поддерживать аналитическую обработку в реальном времени и/или пакетную |
Применимо к 7 вариантам использования: N 7-8, 10, 20, 25, 41, 47 |
|
3. Необходимо поддерживать обработку большого объема разнородных данных и данных моделирования |
Применимо к 14 вариантам использования: N 8, 11-13, 17, 19, 21, 23-24, 27, 30, 39, 43-44 |
|
4. Необходимо поддерживать обработку данных в движении (потоковая передача, доставка нового контента, отслеживание и т.д.) |
Применимо к 6 вариантам использования: N 7-8, 10, 19, 39, 47 |
|
Специфические для варианта применения технические требования к поставщику услуг преобразования данных | ||
1 |
А.1.2 Вариант использования N 2: Прием Национальными архивами США государственных данных на архивное хранение, поиск, извлечение и обеспечение долговременной сохранности Требуется поддерживать сканирование и индексирование распределенных источников данных. Требуется поддерживать различные методы аналитической обработки, включая ранжирование, категоризацию данных и выявление персональных данных. Требуется поддерживать предварительную обработку данных. Требуется поддерживать управление обеспечением долговременной сохранности больших разнообразных наборов данных. Требуется поддерживать поиск по огромному количеству данных с высокой релевантностью и полнотой результатов |
|
2 |
А.1.3 Вариант использования N 3: Повышение активности респондентов в статистических обследованиях Требуется поддерживать аналитику, которая необходима для рекомендательных систем, постоянного мониторинга и для общего совершенствования процесса проведения обследования |
|
3 |
А.1.4 Вариант использования N 4: Использование нетрадиционных данных для повышения активности респондентов в статистических обследованиях Требуется поддерживать аналитику, позволяющую получать надежные оценки с использованием данных традиционных обследований, государственных административных данных и данных из нетрадиционных источников из сферы цифровой экономики |
|
4 |
А.2.1 Вариант использования N 5: Облачные вычисления в секторах финансовой отрасли Требуется поддерживать аналитику в реальном времени |
|
5 |
А.2.2 Вариант использования N 6: Международная исследовательская сеть Mendeley Требуется поддерживать стандартные библиотеки для проведения машинного обучения и аналитики. Требуется поддерживать эффективные масштабируемые и распараллеленные способы сопоставления документов, группировки похожих документов (включая те, что были слегка модифицированы инструментами аннотирования третьих сторон или же путем присоединения титульных страниц или наложения "водяных знаков" издателя) |
|
6 |
А.2.3 Вариант использования N 7: Сервис кинофильмов Netflix Требуется поддерживать потоковое видео для многочисленных клиентов. Требуется поддерживать аналитическую обработку с целью подбора фильмов, соответствующих интересам клиента. Требуется поддерживать различные методы аналитической обработки с целью персонализации оказываемых клиенту услуг. Требуется поддерживать надежные алгоритмы обучения. Требуется поддерживать непрерывную аналитическую обработку на основе результатов мониторинга и оценки эффективности |
|
7 |
А.2.4 Вариант использования N 8: Веб-поиск Требуется поддерживать динамическую доставку контента по сети. Необходимо обеспечить связывание профилей пользователей с данными из социальных сетей |
|
8 |
А.2.5 Вариант использования N 9: Обеспечение непрерывности деловой деятельности и восстановления после катастроф для больших данных в облачной экосистеме Требуется поддерживать надежный алгоритм резервного копирования. Необходимо реплицировать последние изменения |
|
9 |
А.2.6 Вариант использования N 10: Грузоперевозки Требуется поддерживать отслеживания объекта на основе уникальной идентификации с использованием закрепленного на объекте датчика и получаемых от глобальной системы позиционирования (GPS) координат. Требуется поддерживать обновление в реальном времени сведений об отслеживаемых объектах |
|
10 |
А.2.7 Вариант использования N 11: Данные о материалах Требуется поддерживать описания свойств материалов, содержание сотни независимых переменных, и сбор значений этих переменных, с конечной целью создания надежных наборов данных |
|
11 |
А.2.8 Вариант использования N 12: Геномика материалов на основе результатов моделирования Требуется поддерживать анализ данных в режиме реального времени с использованием вычислений с высокой пропускной способностью для оперативного реагирования. Требуется поддерживать комбинирование результатов моделирования, полученных с использованием различных программ. Требуется поддерживать поисковые исследования, ориентированные на потребности потребителей; вычислительная база должна гибко адаптироваться к новым целям. Требуется поддерживать технологии Map/Reduce и поиска, позволяющие комбинировать данные моделирования и экспериментальные данные |
|
12 |
А.3.1 Вариант использования N 13: Облачный крупномасштабный анализ и визуализация геопространственных данных Требуется поддерживать методы аналитики, включая ближайшую точку подхода, отклонение от маршрута, плотность точек во времени, метод главных компонентов (РСА) и метод анализа независимых компонентов (ICA). Требуется поддерживать геопространственные данные, требующие уникальных подходов к индексации и проведению распределенного анализа |
|
13 |
А.3.2 Вариант использования N 14: Идентификация и отслеживание объектов - Постоянное наблюдение Требуется поддерживать расширенную аналитику, включающую возможности для идентификации объекта, анализа закономерностей поведения объекта, анализа группового поведения/динамики и хозяйственной деятельности, а также для объединения (слияния) данных |
|
14 |
А.3.3 Вариант использования N 15: Обработка и анализ разведывательных данных Требуется поддерживать аналитику, включая оповещения в масштабе времени, близком к реальному, основанные на закономерностях и изменениях основных параметров |
|
15 |
А.4.1 Вариант использования N 16: Данные электронной медицинской документации Требуется поддерживать во времени всестороннее и согласованное представление данных из разных источников. Требуется поддерживать аналитические методы: методы извлечения информации с целью выявления соответствующих клинических признаков; обработка естественного языка; машинное обучение моделей принятия решений; методы оценки максимального правдоподобия и Байесовских сетей |
|
16 |
А.4.2 Вариант использования N 17: Анализ графических образов в патологии/Цифровая патология Требуется поддерживать высокопроизводительный анализ изображений с целью извлечения пространственной информации. Требуется поддерживать пространственные запросы и аналитику, а также кластеризацию и классификацию признаков. Требуется поддерживать аналитическую обработку огромного многомерного набора данных, и обеспечивать возможность корреляции с данными других типов, такими, как клинические данные и данные других направлений биологической науки - "омиков" |
|
17 |
А.4.3 Вариант использования N 18: Вычислительный анализ биоизображений Требуется поддерживать высокопроизводительные вычисления и управление анализом полученных результатов. Требуется поддерживать сегментацию представляющих интерес областей; групповой отбор и извлечение признаков, классификацию объектов, а также организацию и поиск. Требуется поддерживать расширенное выявление новых фактов и явлений, представляющих интерес для биологических наук, с помощью методов больших данных/экстремальных вычислений, обработки и анализа данных непосредственно в базе данных, машинного обучения (SVM и RF) для сервисов классификации и рекомендательных сервисов, продвинутых алгоритмов для массового анализа изображений и высокопроизводительных вычислительных решений. Требуется поддерживать массовый анализ данных применительно к масштабным наборам данных изображений |
|
18 |
А.4.4 Вариант использования N 19: Геномные измерения Требуется поддерживать обработку первичных данных с целью выделения вариаций. Требуется поддерживать машинное обучение для комплексного анализа систематических ошибок технологий секвенирования, которые сложно охарактеризовать |
|
19 |
А.4.5 Вариант использования N 20: Сравнительный анализ (мета) геномов Требуется поддерживать методы сравнительного анализа очень сложных данных. Требуется поддерживать описательную статистику |
|
20 |
А.4.6 Вариант использования N 21: Индивидуальное управление лечением диабета Требуется поддерживать интеграцию данных с использованием аннотаций на основе онтологии и таксономии. Требуется поддерживать алгоритмы параллельного поиска и извлечения как для поиска по индексу, так и для настраиваемого поиска; а также способность выделять представляющие интерес данные. Потенциальные результаты включают когорты пациентов, группы пациентов, удовлетворяющих определенным критериям, и группы пациентов, имеющих сходные характеристики. Требуется поддерживать алгоритмы распределенного интеллектуального анализа закономерностей в графе, анализа закономерностей и индексации графов, а также поиска закономерностей в графах на основе триплетов RDF. Требуется поддерживать надежные инструменты статистического анализа для контроля частоты ложных срабатываний, определения истинной значимости подграфа и исключения ложных позитивных и ложных негативных результатов. Требуется поддерживать алгоритмы интеллектуального анализа закономерностей в графах с целью выявления закономерностей в графах, их индексации и поиска по графам. Требуется поддерживать обход семантического графа |
|
21 |
А.4.7 Вариант использования N 22: Статистический реляционный искусственный интеллект для здравоохранения Требуется поддерживать реляционные вероятностные модели, моделирующие неопределенности на основе теории вероятности. Программное обеспечение обучает модели на основе ряда типов данных, и, возможно, сможет интегрировать информацию и логические рассуждения о сложных запросах. Требуется поддерживать надежных и точных методов обучения для учета дисбаланса данных, то есть ситуаций, в которых большие объемы данных доступны для небольшого числа субъектов. Требуется поддерживать алгоритмы обучения для определения перекосов в данных, чтобы избежать ошибочного моделирования "шума". Требуется поддерживать обученные модели, которые могут быть обобщены и уточнены для применения к другим наборам данных. Требуется поддерживать принятие данных в разных формах и из разрозненных источников |
|
22 |
А.4.8 Вариант использования N 23: Эпидемиологическое исследование в масштабе всего населения Земли Требуется поддерживать вычисления, требующие как значительных вычислительных ресурсов, так и обработки больших объемов данных, что больше всего соответствует характеристикам суперкомпьютеров. Требуется поддерживать алгоритмы, учитывающие неструктурированный и нерегулярный характер обработки графов. Требуется поддерживать получение сводок по различным прогонам и повторам моделирования |
|
23 |
А.4.9 Вариант использования N 24: Моделирование распространения социального влияния Требуется поддерживать крупномасштабное моделирование различных событий (болезни, эмоции, поведение и т.д.). Требуется поддерживать масштабируемое объединение наборов данных. Требуется поддерживать многоуровневый анализ, одновременно обеспечивая быстрое получение достаточных результатов |
|
24 |
А.4.10 Вариант использования N 25 Биологическое разнообразие и европейская электронная научно-исследовательская инфраструктура LifeWatch Требуется поддерживать поэтапный анализ и/или анализ данных в реальном времени; темпы поступления данных варьируются в зависимости от исходных биологических и экологических процессов. Требуется поддерживать разнообразие данных, аналитических инструментов и инструментов моделирования для поддержки аналитики в интересах различных научных сообществ. Требуется поддерживать аналитику параллельных потоков данных и аналитику данных, поступающих в потоковом режиме. Требуется поддерживать доступ и интеграцию нескольких распределенных баз данных |
|
25 |
А.5.2 Вариант использования N 27: Организация крупномасштабных, неструктурированных коллекций сделанных потребителями фотографий Требуется поддерживать классификатор (например, SVM) - процесс, который часто трудно распараллелить. Требуется поддерживать функциональные возможности, применяемые во многих крупномасштабных задачах обработки изображений |
|
26 |
А.5.3 Вариант использования N 28: Truthy - Анализ данных Твиттера Требуется поддерживать различные методы анализа данных в реальном времени для выявления аномалий, кластеризации потока, классификации сигналов на основе многомерных временных рядов и онлайн-обучения |
|
27 |
А.5.4 Вариант использования N 29: Краудсорсинг в гуманитарных науках Требуется поддерживать оцифровку существующих архивов документов и аудио-, видео- и фотоматериалов. Требуется поддерживать аналитику, включая все виды распознавания закономерностей (например, распознавание речи, автоматический анализ аудиовизуальных материалов, культурные закономерности) и выявления структур (лексические единицы, лингвистические правила и т.д.) |
|
28 |
А.5.5 Вариант использования N 30: Цифровая инфраструктура для исследований и анализа сетей и графов" (CINET) Требуется поддерживать среды для запуска различных инструментов анализа сетей и графов. Требуется поддерживать динамический рост сетей. Требуется поддерживать асинхронные и синхронные, выполняемые в реальном времени распределенные вычисления. Требуется поддерживать различные параллельные алгоритмы для разных схем разделения, используемых для повышения эффективности вычислений |
|
29 |
А.5.6 Вариант использования N 31: Измерения и оценки эффективности аналитических технологий в Национальном институте стандартов и технологий (NIST) Требуется поддерживать аналитические алгоритмы работающих с письменным языком, речью, изображениями людей и т.д. Алгоритмы, как правило, следует тестировать на реальных или реалистичных данных. Крайне проблематично создание искусственных данных, которые бы в достаточной степени отражали вариативность реальных данных, связанных с людьми |
|
30 |
А.6.1 Вариант использования N 32: Консорциум федеративных сетей данных (DFC) Необходимо обеспечить типовые потоки рабочих процессов аналитики |
|
31 |
А.6.3 Вариант использования N 34: Поиск по графу для научных данных Требуется поддерживать обработку графа данных. Требуется поддерживать реляционную СУБД |
|
32 |
А.6.4 Вариант использования N 35: Анализ больших объемов данных, получаемых в экспериментах на синхротроне Требуется поддерживать стандартные инструменты биоинформатики (BLAST, HMMER, инструменты множественного выравнивания последовательностей и филогенетики, программы поиска/предсказания генов и генных структур (gene callers), программы предсказания свойств по результатам секвенирования (sequence feature predictors) и т.д.), скрипты Perl/Python и планировщик задач Linux-кластера |
|
33 |
А.7.1 Вариант использования N 36: Каталинский цифровой обзор неба в поисках транзиентов Требуется поддерживать большое количество разнообразных инструментов анализа астрономических данных, а также большое количество специализированных инструментов и программного обеспечения, часть которых является самостоятельными исследовательскими проектами. Требуется поддерживать автоматизированную классификацию с помощью инструментов машинного обучения, учитывающую немногочисленность и разнородность данных, которая динамически эволюционирует во времени по мере поступления большего количества данных; и принятия решений о проведении дополнительных исследований в условиях немногочисленности и ограниченности выделяемых для этого ресурсов |
|
34 |
А.7.2 Вариант использования N 37: Космологический обзор неба и моделирование Требуется поддерживать интерпретацию результатов детального моделирования, которая требует развитых методов и средств анализа и визуализации |
|
35 |
А.7.3 Вариант использования N 38: Большие данные космологических обзоров неба Требуется одновременно поддерживать анализ результатов моделирования и данных наблюдений. Требуется поддерживать методы для выполнения разложения Холецкого для тысяч моделирований с матрицами порядка миллиона по каждой стороне |
|
36 |
А.7.4 Вариант использования N 39: Анализ данных Большого адронного коллайдера Требуется поддерживать экспериментальные данные проектов ALICE, ATLAS, CMS и LHC. Требуется поддерживать гистограммы, диаграммы рассеяния, подбор моделей. Требуется поддерживать вычисления по методу Монте-Карло |
|
37 |
А.8.1 Вариант использования N 41: Радарная система некогерентного рассеяния EISCAT-3D Требуется поддерживать архитектуру "пчелиной матки" (Queen Bee), в рамках которой централизованная обработка сочетается с распределенной обработкой на измерительных устройствах для данных с 5 распределенных постов. Требуется поддерживать мониторинг оборудования в режиме реального времени путем частичного анализа потока данных. Требуется поддерживать богатый набор сервисов обработки радиолокационных изображений с использованием машинного обучения, статистического моделирования и алгоритмов поиска на графе |
|
38 |
А.8.2 Вариант использования N 42: Совместная деятельность европейских сетевых инфраструктур в области экологических исследований (ENVRI) Требуется поддерживать разнообразные аналитические инструменты. |
|
39 |
А.8.3 Вариант использования N 43: Центра дистанционного зондирования ледяного покрова CReSIS Требуется поддерживать унаследованное программное обеспечение (Matlab) и языки (C/Java) для обработки данных. Требуется поддерживать обработку сигналов и методы обработки изображений с целью выделения слоев |
|
40 |
А.8.4 Вариант использования N 44: Обработка данных проекта UAVSAR Требуется поддержка данных с географической привязкой, которые требуют интеграции данных в ГИС в качестве дополнительных наложений (оверлеев). Требуется поддерживать значительное вмешательство человека в конвейер обработки данных. Необходимо обеспечить богатый набор сервисов обработки радиолокационных изображений. Требуется поддерживать инструменты ROI_PAC, GeoServer, GDAL, а также инструменты, поддерживающие стандарт метаданных GeoTIFF |
|
41 |
А.8.5 Вариант использования N 45: Объединенный испытательный стенд iRODS центра НАСА в Лэнгли и Центра космических полетов имени Годдарда Требуется поддерживать облачную аналитику климата как сервис (CAaaS) |
|
42 |
А.8.6 Вариант использования N 46: Аналитические сервисы MERRA Требуется поддерживать облачную аналитику климата как сервис (CAaaS) |
|
43 |
А.8.7 Вариант использования N 47: Атмосферная турбулентность - Обнаружение событий Требуется поддерживать инструмент Map/Reduce или аналогичный; SciDB или другую научную СУБД. Требуется поддерживать непрерывные вычисления по мере поступления новых данных. Требуется поддерживать язык спецификации событий для интеллектуального анализа данных/поиска событий. Требуется поддерживать интерпретации семантики, а также базы данных с оптимальной структурой для четырехмерного интеллектуального анализа данных и прогнозного анализа |
|
44 |
А.8.8 Вариант использования N 48: Исследования климата с использованием модели климатической системы Земли (CESM) Требуется поддерживать выполнение анализа данных вблизи места их хранения |
|
45 |
А.8.10 Вариант использования N 50: Сети AmeriFlux и FLUXNET Требуется поддерживать специализированное программное обеспечение, такое как EddyPro, и специальное программное обеспечение для анализа, такого как R, Python, нейронные сети, Matlab |
|
46 |
А.9.1 Вариант использования N 51: Прогнозирование потребления электроэнергии в интеллектуальных энергосетях Требуется поддерживать новые виды аналитики на основе машинного обучения для прогнозирования энергопотребления |
Таблица D.3 - Технические проблемы в категории "Возможности обработки"
Общие технические требования | ||
1. Необходимо поддерживать как унаследованные, так и продвинутые пакеты программ (субкомпонент: SaaS) |
Применимо к 27 вариантам использования: N 3, 6-7, 12-26, 28, 30, 38-40, 43-44, 49, 51 |
|
2. Необходимо поддерживать как унаследованные, так и продвинутые вычислительные платформы (субкомпонент: PaaS) |
Применимо к 16 вариантам использования: N 6-7, 16-20, 23-24, 27-28, 30, 38, 44-45, 51 |
|
3. Необходимо поддерживать как унаследованные, так и продвинутые распределенные вычислительные кластеры, сопроцессоры, обработку ввода-вывода (субкомпонент: IaaS) |
Применимо к 23 вариантам использования: N 6-7, 12, 14-19, 21-26, 30, 37, 39, 41, 43, 46-48 |
|
4. Необходимо поддерживать гибкую передачу данных (субкомпонент: сети) |
Применимо к 14 вариантам использования: N 10, 12, 14-15, 17-18, 23-26, 28, 30, 40, 47 |
|
5. Необходимо поддерживать унаследованные, крупномасштабные и продвинутые распределенные хранилища данных (субкомпонент: хранение) |
Применимо к 28 вариантам использования: N 1-3, 6-8, 12, 15, 17, 19-24, 27-28, 30, 36-45 |
|
6. Необходимо поддерживать как унаследованные, так и продвинутые исполняемые программы: приложения, инструменты, утилиты и библиотеки (субкомпонент: программное обеспечение) |
Применимо к 13 вариантам использования: N 7, 12, 14-15, 17, 19, 21-22, 31, 37, 39, 43, 50 |
|
Специфические для варианта применения технические требования к поставщику вычислительных возможностей | ||
1 |
А.1.1 Вариант использования N 1: Архивное хранение больших данных переписи населения в США 2010 и 2000 годов Требуется поддерживать большое централизованное хранилище |
|
2 |
А.1.2 Вариант использования N 2: Прием Национальными архивами США государственных данных на архивное хранение, поиск, извлечение и обеспечение долговременной сохранности Требуется поддерживать большое хранилище данных. Требуется поддерживать различные системы хранения, такие как NetApps, Hitachi и магнитные ленты |
|
3 |
А.1.3 Вариант использования N 3: Повышение активности респондентов в статистических обследованиях Требуется поддерживать следующее программное обеспечение: Hadoop, Spark, Hive, R, SAS, Mahout, Allegrograph, MySQL, Oracle, Storm, BigMemory, Cassandra и Pig |
|
4 |
A.1.4 Вариант использования N 4: Использование нетрадиционных данных для повышения активности респондентов в статистических обследованиях Требуется поддерживать следующее программное обеспечение: Hadoop, Spark, Hive, R, SAS, Mahout, Allegrograph, MySQL, Oracle, Storm, BigMemory, Cassandra и Pig |
|
5 |
A.2.2 Вариант использования N 6: Международная исследовательская сеть Mendeley Требуется поддерживать Amazon ЕС2 с HDFS (инфраструктура). Требуется поддерживать S3 (хранение). Требуется поддерживать Hadoop (платформа). Требуется поддерживать Scribe, Hive, Mahout и Python (язык). Требуется поддерживать хранилище умеренного объема (15 терабайт, с приростом 1 терабайт в месяц). Требуется поддерживать пакетную обработку и обработку в реальном времени |
|
6 |
А.2.3 Вариант использования N 7: Сервис кинофильмов Netflix Требуется поддерживать Hadoop (платформа). Требуется поддерживать Pig (язык). Требуется поддерживать Cassandra и Hive. Требуется поддерживать огромный объем подписчиков, рейтингов и поисков в сутки (база данных). Требуется поддерживать огромное хранилище (2 петабайта). Требуется поддерживать обработку с интенсивным вводом-выводом |
|
7 |
А.2.4 Вариант использования N 8: Веб-поиск Требуется поддерживать петабайты текстовых и мультимедийных данных (хранение) |
|
8 |
А.2.5 Вариант использования N 9: Обеспечение непрерывности деловой деятельности и восстановления после катастроф для больших данных в облачной экосистеме Требуется поддерживать Hadoop. Требуется поддерживать использование коммерческих облачных сервисов |
|
9 |
А.2.6 Вариант использования N 10: Грузоперевозки Требуется поддерживать подключение к Интернету |
|
10 |
А.2.8 Вариант использования N 12: Геномика материалов на основе результатов моделирования Требуется поддерживать массивной (суперкомпьютер Gray ХЕ6 "Норрег", 150 тысяч процессоров) унаследованной инфраструктуры (инфраструктура). Требуется поддерживать GPFS (хранение). Требуется поддерживать систему MonogDB (платформа). Требуется поддерживать сетевое подключение 10 гигабит/с. Требуется поддерживать различные аналитические инструменты, такие как PyMatGen, FireWorks, VASP, ABINIT, NWChem, BerkeleyGWn различное ПО, разработанное сообществом. Требуется поддерживать большое хранилище (хранение). Требуется поддерживать масштабируемые базы данных для данных типа "ключ-значение" и для библиотек объектов (платформа). Требуется поддерживать потоки данных моделирования из централизованных пета/экзафлопсных вычислительных систем |
|
11 |
А.3.1 Вариант использования N 13: Облачный крупномасштабный анализ и визуализация геопространственных данных Требуется поддерживать реляционную СУБД с геопространственной поддержкой; а также геопространственный сервер/программное обеспечение для анализа - ESRI ArcServer, Geoserver |
|
12 |
А.3.2 Вариант использования N 14: Идентификация и отслеживание объектов - Постоянное наблюдение Требуется поддерживать широкий спектр специализированного программного обеспечения и инструментов, включая традиционные реляционные СУБД и средства отображения. Требуется поддерживать несколько каналов сетевого взаимодействия. Требуется поддерживать кластеры расширенных за счет использования графических процессоров (GPU) компьютерных систем |
|
13 |
А.3.3 Вариант использования N 15: Обработка и анализ разведывательных данных Требуется обеспечивать стабильность и жизнеспособность системы в случае ненадежной связи с солдатами и удаленными датчиками. Требуется поддерживать объемы данных до сотен петабайт, хранимые средними и крупными кластерами и облачными системами. Требуется поддерживать следующее программное обеспечение: Hadoop, Accumulo (с системой хранения данных BigTable), Solr, NLP (несколько вариантов), Puppet (управление жизненным циклом ИТ, обеспечение безопасности), Storm, а также специализированные приложения и инструменты визуализации |
|
14 |
А.4.1 Вариант использования N 16: Данные электронной медицинской документации Требуется поддерживать Hadoop, Hive и R на основе Unix. Требуется поддерживать суперкомпьютер Cray. Требуется поддерживать Teradata, PostgreSQL, MongoDB. Требуется поддерживать различные сетевые возможности с учетом значительных объемов обработки с интенсивным вводом-выводом |
|
15 |
А.4.2 Вариант использования N 17: Анализ графических образов в патологии/Цифровая патология Требуется поддержка унаследованных систем и облачных решений (вычислительный кластер). Требуется поддерживать огромные объемы данных в унаследованных и новых системах хранения, таких как SAN и HDFS (хранение). Требуется поддерживать сетевые соединения с высокой пропускной способностью (сети). Требуется поддерживать анализ изображений с использованием MPI, Map/Reduce и Hive с пространственным расширением (пакеты программ) |
|
16 |
А.4.3 Вариант использования N 18: Вычислительный анализ биоизображений Требуется поддерживать ImageJ, OMERO, VolRover, разработанные прикладными математиками продвинутые методы сегментации и выявления признаков. Необходимы масштабируемые базы данных для данных типа "ключ-значение" и для библиотек объектов. Требуется поддерживать инфраструктуру суперкомпьютера Hopper в Национальном научно-исследовательском вычислительном центре энергетических исследований Министерства энергетики США (NERSC). Требуется поддерживать базы данных и коллекций изображений. Требуется поддерживать 10-гигабитные, в будущем 100-гигабитные сети и расширенные сетевые возможности (SDN) |
|
17 |
А.4.4 Вариант использования N 19: Геномные измерения Требуется поддерживать унаследованный вычислительный кластер и другие PaaS и IaaS-решения (вычислительный кластер). Требуется поддерживать огромное хранилище данных петабайтного масштаба (хранение). Требуется поддерживать унаследованное программное обеспечение с открытым исходным кодом для секвенирования в биоинформатике на основе UNIX (пакет программ) |
|
18 |
А.4.5 Вариант использования N 20: Сравнительный анализ (мета) геномов Требуется поддерживать огромное хранилище данных. Требуется поддерживать масштабируемую реляционную СУБД для разнородных биологических данных. Требуется поддерживать быструю и параллельную массовую загрузку в реальном времени. Требуется поддерживать реляционную СУБД Oracle, файлы SQLite, плоские текстовые файлы, Lucy (версия Lucene) для поиска по ключевым словам, базы данных BLAST, базы данных USEARCH. Требуется поддерживать Linux-кластер, сервер реляционной СУБД Oracle, большие системы хранения данных, стандартные интерактивные хосты Linux |
|
19 |
А.4.6 Вариант использования N 21: Индивидуальное управление лечением диабета Требуется поддерживать хранилища данных, в частности нереляционную СУБД Hbase с открытым исходным кодом. Требуется поддерживать использование суперкомпьютеров в рамках облачных и параллельных вычислений. Требуется поддерживать обработку с интенсивным вводом-выводом. Требуется поддерживать распределенную файловую систему HDFS. Требуется поддерживать специализированное программное обеспечение для выявления новых признаков на основе хранимых данных |
|
20 |
А.4.7 Вариант использования N 22: Статистический реляционный искусственный интеллект для здравоохранения Требуется поддерживать Java, некоторые инструменты собственной разработки, реляционную базу данных и хранилища NoSQL. Требуется поддерживать облачные и параллельные вычисления. Требуется поддерживать высокопроизводительный компьютер с 48 гигабайт ОЗУ (для анализа при умеренном размере выборки). Требуется поддерживать вычислительные кластеры для обработки больших наборов данных. Требуется поддерживать жесткий диск объемом от 200 гигабайт до 1 терабайта для тестовых данных |
|
21 |
А.4.8 Вариант использования N 23: Эпидемиологическое исследование в масштабе всего населения Земли Требуется поддерживать перемещение очень больших объемов данных для визуализации (сети). Требуется поддерживать распределенную систему моделирования на основе MPI (платформа). Требуется поддерживать Charm++ на нескольких узлах (программное обеспечение). Требуется поддерживать сетевую файловую систему (хранение). Требуется поддерживать сеть Infiniband (сети) |
|
22 |
А.4.9 Вариант использования N 24: Моделирование распространения социального влияния Требуется поддерживать вычислительную инфраструктуру, позволяющую моделировать различные типы взаимодействия между людьми через интернет в связи с различными социальными событиями (инфраструктура). Требуется поддерживать файловые серверы и базы данных (платформа). Требуется поддерживать сети Ethernet и Infiniband (сети). Требуется поддерживать специализированные программы моделирования, программное обеспечение с открытым исходным кодом и проприетарные среды моделирования (приложения). Требуется поддерживать обработку огромного количества учетных записей пользователей социальных сетей из различных стран (сети) |
|
23 |
А.4.10 Вариант использования N 25 Биологическое разнообразие и европейская электронная научно-исследовательская инфраструктура LifeWatch Требуется поддерживать расширяемые и предоставляемые по требованию ресурсы хранения для глобальных пользователей. Требуется поддерживать облачные ресурсы сообщества |
|
24 |
А.5.1 Вариант использования N 26: Крупномасштабное глубокое обучение Требуется поддерживать использование графических процессоров. Требуется поддерживать высокопроизводительный кластер с внутренними соединениями на основе MPI и Infiniband. Требуется поддерживать библиотеки для вычислений на одной машине или на одном графическом процессоре (например, ВLAS, CuBLAS, MAGMA и др.). Требуется поддерживать распределенные вычисления с плотными матрицами на графических процессорах, подобно BLAS или LAPACK, которые остаются слабо развитыми. Существующие решения (например, ScaLapack для центральных процессоров) не очень хорошо интегрированы с языками высокого уровня и требуют низкоуровневого программирования, что удлиняет время эксперимента и процесса разработки |
|
25 |
А.5.2 Вариант использования N 27: Организация крупномасштабных, неструктурированных коллекций сделанных потребителями фотографий Требуется поддерживать Hadoop или усовершенствованный Map/Reduce |
|
26 |
А.5.3 Вариант использования N 28: Truthy - Анализ данных Твиттера Требуется поддерживать Hadoop и HDFS (платформа). Требуется поддерживать IndexedHBase, Hive, SciPy и NumPy (программное обеспечение). Требуется поддерживать базы данных в памяти и MPI (платформа). Требуется поддерживать высокоскоростную сеть Infiniband (сети) |
|
27 |
А.5.5 Вариант использования N 30: Цифровая инфраструктура для исследований и анализа сетей и графов" (CINET) Требуется поддерживать высокопроизводительную кластеризованную файловую систему (хранение). Требуется поддерживать различные сетевые подключения (сети). Требуется поддерживать существующий вычислительный кластер. Требуется поддерживать вычислительный кластер Amazon ЕС2. Требуется поддерживать различные библиотеки для работы с графами, инструменты управления потоками процессов, СУБД и семантические веб-инструменты |
|
28 |
А.5.6 Вариант использования N 31: Измерения и оценки эффективности аналитических технологий в Национальном институте стандартов и технологий (NIST) Требуется поддерживать средства разработки PERL, Python, C/C++, Matlab, R. Требуется поддерживать разработку по принципу "снизу вверх" тестовых и измерительных приложений |
|
29 |
А.6.1 Вариант использования N 32: Консорциум федеративных сетей данных (DFC) Требуется поддерживать программное обеспечение для управления данными iRODS. Требуется поддерживать интероперабельность между различными типами протоколов хранения и сетевого взаимодействия |
|
30 |
А.6.2 Вариант использования N 33: Discinnet-процесс Требуется поддерживать следующее программное обеспечение: Symfony-PHP, Linux и MySQL |
|
31 |
А.6.3 Вариант использования N 34: Поиск по графу для научных данных Требуется поддерживать облачные ресурсы сообщества |
|
32 |
А.6.4 Вариант использования N 35: Анализ больших объемов данных, получаемых в экспериментах на синхротроне Требуется поддерживать передачу больших объемов данных на удаленный ресурс для пакетной обработки |
|
33 |
А.7.2 Вариант использования N 37: Космологический обзор неба и моделирование Требуется поддерживать программное обеспечение MPI, OpenMP, С, С++, F90, FFTW, пакеты визуализации, Python, FFTW, Numpy, Boost, OpenMP, ScaLAPCK, СУБД PSQL и MySQL, Eigen, Cfitsio, http://astrometry.net/ и Minuit2. Требуется поддерживать разработку новых методов анализа ввиду ограничений подсистемы ввода/вывода суперкомпьютера |
|
34 |
А.7.3 Вариант использования N 38: Большие данные космологических обзоров неба Требуется поддерживать стандартное астрофизическое программное обеспечение для обработки ("редуцирования") данных, а также сценарии-обертки Perl/Python. Требуется поддерживать реляционную СУБД Oracle, терминальный клиент psql (PostgreSQL interactive terminal) для работы с объектно-реляционной СУБД PostgreSQL, а также файловые системы GPFS и Luster и ленточные архивы. Требуется поддерживать параллельные базы данных для хранения изображений |
|
35 |
А.7.4 Вариант использования N 39: Анализ данных Большого адронного коллайдера Требуется поддерживать унаследованную вычислительную инфраструктуру (вычислительные узлы). Требуется поддерживать распределенное хранение файлов (хранение). Требуется поддерживать объектно-ориентированные базы данных (программное обеспечение) |
|
36 |
А.7.5 Вариант использования N 40: Эксперимент Belle II Требуется поддерживать хранение 120 петабайт первичных данных. Требуется поддерживать модель международных распределенных вычислений, для расширения имеющихся возможностей на ускорителе в Японии. Требуется поддерживать передачу первичных данных со скоростью 20 гигабит/с между Японией и США (при проектной яркости ускорителя). Требуется поддерживать программное обеспечение: "Грид Открытой науки" (Open Science Grid), Geant4, DIRAC, FTS, инфраструктуру Belle II |
|
37 |
A.8.1 Вариант использования N 41: Радарная система некогерентного рассеяния EISCAT-3D Требуется поддерживать архитектуру, позволяющую принимать участие в сотрудничестве в рамках проекта ENVRI |
|
38 |
А.8.2 Вариант использования N 42: Совместная деятельность европейских сетевых инфраструктур в области экологических исследований (ENVRI) Требуется поддерживать взаимодействие с различными вычислительными инфраструктурами и архитектурами (инфраструктура). Требуется поддерживать взаимодействие с разрозненными хранилищами (хранение) |
|
39 |
А.8.3 Вариант использования N 43: Центра дистанционного зондирования ледяного покрова CReSIS Требуется поддерживать хранение необработанных данных, объемы которых увеличиваются на 0,5 петабайт в год. Требуется поддерживать передачу материалов со съемного жесткого диска в вычислительный кластер для параллельной обработки. Требуется поддерживать Map/Reduce или MPI, плюс C/Java |
|
40 |
А.8.4 Вариант использования N 44: Обработка данных проекта UAVSAR Требуется поддерживать архитектуру, обеспечивающую интероперабельность системы высокопроизводительных вычислений с облачными решениями. Требуется поддерживать богатый набор сервисов обработки радиолокационных изображений. Требуется поддерживать инструменты ROI_PAC, GeoServer, GDAL, а также инструменты, поддерживающие стандарт метаданных GeoTIFF. Требуется поддерживать совместимость с другими радиолокационными системами и хранилищами данных НАСА, например, Спутникового центра НАСА на Аляске (Alaska Satellite Facility, ASF) |
|
41 |
A.8.5 Вариант использования N 45: Объединенный испытательный стенд iRODS центра НАСА в Лэнгли и Центра космических полетов имени Годдарда Требуется поддерживать "виртуальный сервер климатических данных" vCDS. Требуется поддерживать файловую систему GPFS интегрированную с Hadoop. Требуется поддерживать iRODS |
|
42 |
А.8.6 Вариант использования N 46: Аналитические сервисы MERRA Требуется поддерживать программное обеспечение, способное работать с форматом NetCDF. Требуется поддерживать Map/Reduce. Требуется поддерживать интероперабельное использование Amazon AWS и локальных кластеров |
|
43 |
А.8.7 Вариант использования N 47: Атмосферная турбулентность - Обнаружение событий Требуется поддерживать другие унаследованные вычислительные системы (например, суперкомпьютер). Требуется поддерживать передачу данных по сети с высокой пропускной способностью |
|
44 |
А.8.8 Вариант использования N 48: Исследования климата с использованием модели климатической системы Земли (CESM) Требуется поддерживать расширение архитектуры с тем, чтобы охватить данные ряда других областей науки |
|
45 |
А.8.9 Вариант использования N 49: Подповерхностные биогеохимические исследования Требуется поддерживать Postgres, HDF5 и различные специализированные программные системы |
|
46 |
А.8.10 Вариант использования N 50: Сети AmeriFlux и FLUXNET Требуется поддерживать специализированное программное обеспечение, такое как EddyPro; и специализированное аналитическое программное обеспечение, такое как R, Python, нейронные сети, Matlab. Требуется поддерживать методы аналитики: интеллектуальный анализ данных, оценка качества данных, взаимная корреляция между наборами данных, ассимиляция данных, интерполяция данных, статистика, оценка качества, слияние данных и т.д. |
|
47 |
А.9.1 Вариант использования N 51: Прогнозирование потребления электроэнергии в интеллектуальных энергосетях Требуется поддерживать СУБД SQL, CSV-файлы, HDFS (платформа). Требуется поддерживать R/Matlab, Weka и Hadoop (платформа) |
Таблица D.4 - Технические проблемы в категории "Потребитель данных"
Общие технические требования | ||
1. Необходимо поддерживать быстрый поиск по обработанным данным, с высокой релевантностью, точностью и полнотой результатов поиска |
Применимо к четырем вариантам использования: N 2, 8, 12, 28 |
|
2. Необходимо поддерживать различные форматы выходных файлов для визуализации, рендеринга и создания отчетов |
Применимо к 13 вариантам использования: N 6-8, 13-14, 16-17, 19, 22, 39, 42, 43, 47 |
|
3. Необходимо поддерживать визуальную разметку для представления результатов |
Применимо к двум вариантам использования: N 8, 43 |
|
4. Необходимо поддерживать пользовательский интерфейс с широкими функциональными возможностями для доступа с помощью браузера, средства визуализации |
Применимо к девяти вариантам использования: N 11, 20, 28, 31, 42-44, 49-50 |
|
5. Необходимо поддерживать инструменты многомерной, с высоким разрешением визуализации данных |
Применимо к 20 вариантам использования: N 3-4, 6, 11, 13-14, 16, 18, 20, 23-24, 27, 12, 30, 37, 41, 45-46, 48, 15 1) |
|
6. Необходимо поддерживать потоковую передачу результатов клиентам |
Применимо к одному варианту использования: N 7 |
|
Специфические для варианта применения технические требования к потребителю данных | ||
1 |
А.1.2 Вариант использования N 2: Прием Национальными архивами США государственных данных на архивное хранение, поиск, извлечение и обеспечение долговременной сохранности Требуется поддерживать высокую релевантность и полноту результатов поиска. Требуется поддерживать высокую точность классификации документов. Требуется поддерживать различные системы хранения, такие как облачные сервисы NetApp, система хранения Hitachi, магнитные ленты |
|
2 |
А.1.3 Вариант использования N 3: Повышение активности респондентов в статистических обследованиях Требуется поддерживать развивающуюся визуализацию для проверки данных, оперативной деятельности и общего анализа |
|
3 |
А.1.4 Вариант использования N 4: Использование нетрадиционных данных для повышения активности респондентов в статистических обследованиях Требуется поддерживать развивающуюся визуализацию для проверки данных, оперативной деятельности и общего анализа |
|
4 |
А.2.2 Вариант использования N 6: Международная исследовательская сеть Mendeley Требуется поддерживать специализированные инструменты создания отчетов. Требуется поддерживать инструменты визуализации, такие как визуализация сети с использованием программного обеспечения Gephi, диаграммы рассеяния (scatterplots) и т.д. |
|
5 |
А.2.3 Вариант использования N 7: Сервис кинофильмов Netflix Требуется поддерживать потоковую передачу и представление видеоматериалов |
|
6 |
А.2.4 Вариант использования N 8: Веб-поиск Требуется поддерживать время поиска 0,1 секунды. Требуется максимизировать такую метрику, как "точность 10 наилучших результатов". Требуется поддерживать адекватный макет страницы выдачи результатов (визуализация) |
|
7 |
А.2.7 Вариант использования N 11: Данные о материалах Требуется поддерживать инструменты визуализации, способствующие отысканию подходящих материалов и пониманию зависимости свойств материалов от множества независимых переменных. Требуется поддерживать многопараметрические инструменты визуализации данных о материалах, способные работать с достаточно большим количеством переменных |
|
8 |
А.2.8 Вариант использования N 12: Геномика материалов на основе результатов моделирования Требуется поддерживать программы просмотра данных о материалах, необходимые ввиду растущих объемов выдаваемых в ходе поиска данных |
|
9 |
А.3.1 Вариант использования N 13: Облачный крупномасштабный анализ и визуализация геопространственных данных Требуется поддерживать визуализацию посредством ГИС как при высокой, так при низкой пропускной способности сети, а также на выделенных устройствах и на портативных устройствах |
|
10 |
А.3.2 Вариант использования N 14: Идентификация и отслеживание объектов - Постоянное наблюдение Требуется поддерживать визуализацию извлеченных результатов путем наложения на отображение геопространственных данных. Наложенные объекты должны отсылать к соответствующему сегменту исходного изображения/видеопотока. Требуется поддерживать выходные данные в форме веб-функций, соответствующих стандартам "Открытого геопространственного консорциума" (Open Geospatial Consortium, OGC), либо в виде стандартных геопространственных файлов (Shapefile, язык разметки Keyhole (Keyhole Markup Language, KML)) |
|
11 |
A.3.3 Вариант использования N 15: Обработка и анализ разведывательных данных Требуется поддерживать такие основные виды визуализации, как наложения на геопространственную картину и сетевые графики (network diagrams) |
|
12 |
А.4.1 Вариант использования N 16: Данные электронной медицинской документации Требуется обеспечить предоставление результатов аналитики для использования потребителями данных/заинтересованными сторонами, то есть теми, кто сам анализ не проводил. Требуется поддерживать специализированные методы визуализации |
|
13 |
А.4.2 Вариант использования N 17: Анализ графических образов в патологии/ Цифровая патология Требуется поддерживать визуализацию для целей проверки и обучения |
|
14 |
А.4.3 Вариант использования N 18: Вычислительный анализ биоизображений Требуется поддерживать работу с трехмерными структурными моделями |
|
15 |
А.4.4 Вариант использования N 19: Геномные измерения Требуется поддерживать формат данных, используемый браузерами генома |
|
16 |
А.4.5 Вариант использования N 20: Сравнительный анализ (мета) геномов Требуется поддерживать параллельную массовую загрузку в реальном времени. Требуется поддерживать интерактивный пользовательский веб-интерфейс к основным данным, предварительные вычисления на сервере и отправку пакетных заданий из пользовательского интерфейса. Требуется поддерживать скачивание сформированных и аннотированных наборов данных для анализа в автономном режиме. Требуется поддерживать возможность запрашивать и просматривать данные через интерактивный пользовательский веб-интерфейс. Требуется поддерживать визуализацию структурных элементов на разных уровнях разрешения, а также возможность представления группы очень похожих геномов в виде пангенома |
|
17 |
А.4.7 Вариант использования N 22: Статистический реляционный искусственный интеллект для здравоохранения Требуется поддерживать визуализацию подмножеств очень больших наборов данных |
|
18 |
А.4.8 Вариант использования N 23: Эпидемиологическое исследование в масштабе всего населения Земли Требуется поддерживать визуализацию |
|
19 |
А.4.9 Вариант использования N 24: Моделирование распространения социального влияния Требуется поддерживать многоуровневые детальные представления в виде сетей. Требуется поддерживать визуализацию с возможностью интерактивного взаимодействия |
|
20 |
А.4.10 Вариант использования N 25 Биологическое разнообразие и европейская электронная научно-исследовательская инфраструктура LifeWatch Требуется поддерживать развитую и богатую визуализацию, средства визуализации высокой четкости. Требуется поддерживать 4D-визуализацию |
|
21 |
А.5.2 Вариант использования N 27: Организация крупномасштабных, неструктурированных коллекций сделанных потребителями фотографий Требуется поддерживать визуализацию крупномасштабных трехмерных реконструкций и навигацию по крупномасштабным коллекциям изображений, которые были согласованы с картами |
|
22 |
А.5.3 Вариант использования N 28: Truthy - Анализ данных Твиттера Требуется поддерживать поиск/извлечение данных и их динамическую визуализацию. Требуется поддерживать управляемые данными интерактивные веб-интерфейсы. Требуется поддерживать API-интерфейсы программирования приложений для запросов к данным |
|
23 |
А.5.5 Вариант использования N 30: Цифровая инфраструктура для исследований и анализа сетей и графов" (CINET) Требуется поддерживать визуализацию на стороне клиента |
|
24 |
А.5.6 Вариант использования N 31: Измерения и оценки эффективности аналитических технологий в Национальном институте стандартов и технологий (NIST) Требуется поддерживать потоки работ аналитики с участием пользователей |
|
25 |
А.6.1 Вариант использования N 32: Консорциум федеративных сетей данных (DFC) Требуется поддерживать типовые потоки рабочих процессов визуализации |
|
26 |
А.6.3 Вариант использования N 34: Поиск по графу для научных данных Требуется поддерживать эффективную визуализацию на основе графа данных |
|
27 |
А.7.1 Вариант использования N 36: Каталинский цифровой обзор неба в поисках транзиентов Требуется поддерживать механизмы визуализации для пространств параметров данных высокой размерности |
|
28 |
А.7.2 Вариант использования N 37: Космологический обзор неба и моделирование Требуется поддерживать интерпретацию результатов с использованием передовых методов и средств визуализации |
|
29 |
А.7.4 Вариант использования N 39: Анализ данных Большого адронного коллайдера Требуется поддерживать построение гистограмм, диаграмм рассеяния с подбором моделей (визуализация) |
|
30 |
А.8.1 Вариант использования N 41: Радарная система некогерентного рассеяния EISCAT-3D Требуется поддерживать визуализацию многомерных ( 5) данных |
|
31 |
А.8.2 Вариант использования N 42: Совместная деятельность европейских сетевых инфраструктур в области экологических исследований (ENVRI) Требуется поддерживать инструменты построения графиков. Требуется поддерживать инструменты интерактивной линейной временной визуализации (на базе Google Chart Tools) для временных рядов. Требуется поддерживать отображение диаграмм в браузере с использованием технологии Flash. Требуется поддерживать визуализацию данных с высоким разрешением с привязкой к картам. Требуется поддерживать визуальные инструменты для сравнения качества моделей |
|
32 |
А.8.3 Вариант использования N 43: Центра дистанционного зондирования ледяного покрова CReSIS Требуется поддерживать ГИС как пользовательский интерфейс. Требуется поддерживать богатый пользовательский интерфейс для моделирования |
|
33 |
А.8.4 Вариант использования N 44: Обработка данных проекта UAVSAR Требуется поддерживать пользователей в полевых экспедициях посредством предоставления интерфейса для смартфонов/планшетов и поддержки скачивания данных с низким разрешением |
|
34 |
А.8.5 Вариант использования N 45: Объединенный испытательный стенд iRODS центра НАСА в Лэнгли и Центра космических полетов имени Годдарда Требуется поддерживать визуализацию распределенных разнородных данных |
|
35 |
А.8.6 Вариант использования N 46: Аналитические сервисы MERRA Требуется поддерживать высокопроизводительную распределенную визуализацию |
|
36 |
А.8.7 Вариант использования N 47: Атмосферная турбулентность - Обнаружение событий Требуется поддерживать визуализацию для помощи в интерпретации результатов |
|
37 |
А.8.8 Вариант использования N 48: Исследования климата с использованием модели климатической системы Земли (CESM) Требуется поддерживать коллективное использование климатических данных в глобальном масштабе. Требуется поддерживать высокопроизводительную распределенную визуализацию |
|
38 |
А.8.9 Вариант использования N 49: Подповерхностные биогеохимические исследования Требуется поддерживать доступ к данным и ввод данных со смартфона |
|
39 |
А.8.10 Вариант использования N 50: Сети AmeriFlux и FLUXNET Требуется поддерживать доступ к данным и ввод данных со смартфона |
------------------------------
1)Исправлены неверные ссылки на варианты использования.
------------------------------
Таблица D.5 - Технические проблемы в категории "Безопасность и неприкосновенность частной жизни (защита персональных данных)"
Общие технические требования | ||
1. Необходимо обеспечить безопасность и конфиденциальность чувствительных данных. |
Применимо к 30 вариантам использования: N 1-4, 7-8, 10-19, 21-25, 27-29, 31, 39-40, 42-43, 51 |
|
2. Необходимо поддерживать изолированную среду ("песочницу"), обеспечивать контроль доступа и многоуровневую аутентификацию на основе политик в отношении подлежащих защите данных. |
Применимо к 13 вариантам использования: N М0006 1), 6, 8, 10, 12, 16-17, 19-21, 29, 40, 43 |
|
Специфические для варианта применения технические требования по обеспечению безопасности и неприкосновенности частной жизни (защите персональных данных) | ||
1 |
А.1.1 Вариант использования N 1: Архивное хранение больших данных переписи населения в США 2010 и 2000 годов Требуется поддерживать исполнение положений части 13 Свода законов США |
|
2 |
А.1.2 Вариант использования N 2: Прием Национальными архивами США государственных данных на архивное хранение, поиск, извлечение и обеспечение долговременной сохранности Требуется поддерживать политику в области безопасности |
|
3 |
А.1.3 Вариант использования N 3: Повышение активности респондентов в статистических обследованиях Требуется поддерживать более совершенные рекомендательные системы, позволяющие снизить затраты и повысить качество, обеспечивая одновременно надежные и публично проверяемые меры защиты конфиденциальности. Требуется обеспечивать безопасность и конфиденциальность всех данных. Согласно требованиям законодательства, должна быть обеспечена возможность аудита всех процессов на предмет обеспечения безопасности и конфиденциальности |
|
4 |
А.1.4 Вариант использования N 4: Использование нетрадиционных данных для повышения активности респондентов в статистических обследованиях Требуется обеспечивать безопасность и конфиденциальность всех данных. Согласно требованиям законодательства, должна быть обеспечена возможность аудита всех процессов на предмет обеспечения безопасности и конфиденциальности |
|
5 |
А.2.1 Вариант использования N 5: Облачные вычисления в секторах финансовой отрасли Требуется поддерживать исполнение строгих требований к обеспечению безопасности и неприкосновенности частной жизни |
|
6 |
А.2.2 Вариант использования N 6: Международная исследовательская сеть Mendeley Требуется поддерживать меры контроля доступа, в частности, отслеживать, кто и к какому контенту получает доступ |
|
7 |
А.2.3 Вариант использования N 7: Сервис кинофильмов Netflix Требуется обеспечивать неприкосновенность частной жизни пользователей и соблюдение цифровых прав на видеоконтент |
|
8 |
А.2.4 Вариант использования N 8: Веб-поиск Требуется поддерживать контроль доступа. Требуется обеспечивать защиту чувствительного контента |
|
9 |
А.2.5 Вариант использования N 9: Обеспечение непрерывности деловой деятельности и восстановления после катастроф для больших данных в облачной экосистеме Требуется обеспечивать высокий уровень безопасности во многих приложениях |
|
10 |
А.2.6 Вариант использования N 10: Грузоперевозки Требуется поддерживать политику в области безопасности |
|
11 |
А.2.7 Вариант использования N 11: Данные о материалах Требуется обеспечивать защиту чувствительных проприетарных данных. Требуется поддерживать инструменты для маскирования проприетарной информации |
|
12 |
А.2.8 Вариант использования N 12: Геномика материалов на основе результатов моделирования Требуется поддерживать возможность работать в изолированной зоне-"песочнице" или же создавать независимые рабочие зоны для заинтересованных в работе с данными сторонами. Требуется поддерживать объединение (федерацию) наборов данных на основе политик |
|
13 |
А.3.1 Вариант использования N 13: Облачный крупномасштабный анализ и визуализация геопространственных данных Требуется обеспечивать полную безопасность чувствительных данных при передаче и при хранении (особенно на портативных/карманных устройствах) |
|
14 |
А.3.2 Вариант использования N 14: Идентификация и отслеживание объектов - Постоянное наблюдение Требуется обеспечивать высокий уровень безопасности и конфиденциальности; нельзя допустить компрометацию источников данных и методов их обработки; враг не должен знать, что именно мы видим |
|
15 |
А.3.3 Вариант использования N 15: Обработка и анализ разведывательных данных Требуется обеспечивать защиту данных от несанкционированного доступа или раскрытия и от несанкционированного вмешательства |
|
16 |
А.4.1 Вариант использования N 16: Данные электронной медицинской документации Требуется поддерживать прямой доступ потребителей к данным, а также ссылки на результаты аналитики, выполненной специалистами в области информатики и исследователями системы здравоохранения. Требуется обеспечивать защиту всех данных о здоровье в соответствии с действующим законодательством. Требуется обеспечивать защиту данных в соответствии с политиками поставщиков данных. Требуется поддерживать политики безопасности и обеспечения неприкосновенности частной жизни, которые могут быть уникальными для конкретных подмножеств данных. Требуется обеспечивать надежную безопасность для предотвращения утечек данных |
|
17 |
А.4.2 Вариант использования N 17: Анализ графических образов в патологии/Цифровая патология Требуется обеспечивать безопасность и защиту неприкосновенности частной жизни в отношении подлежащей защите медицинской информации |
|
18 |
А.4.3 Вариант использования N 18: Вычислительный анализ биоизображений Требуется обеспечивать достаточно высокий, но не являющийся обязательным уровень безопасности и защиты неприкосновенности частной жизни, включая использование защищенных серверов и анонимизацию |
|
19 |
А.4.4 Вариант использования N 19: Геномные измерения Требуется обеспечивать безопасность и защиту персональных данных для медицинских документов и баз данных клинических исследований |
|
20 |
А.4.5 Вариант использования N 20: Сравнительный анализ (мета) геномов Требуется обеспечивать безопасность учетных данных для входа в систему, т.е. логинов и паролей. Требуется поддерживать создания учетных записей пользователей для доступа к наборам данных и представления наборов данных в систему через веб-интерфейс. Требуется поддерживать технологию единого входа (SSO). |
|
21 |
А.4.6 Вариант использования N 21: Индивидуальное управление лечением диабета Требуется обеспечивать защиту медицинских данных в соответствии с политиками защиты неприкосновенности частной жизни и законодательно-нормативными требованиями к безопасности и защите персональных данных, например, имеющимися в американском законе HIPAA. Требуется поддерживать политики безопасности для разных пользовательских ролей |
|
22 |
А.4.7 Вариант использования N 22: Статистический реляционный искусственный интеллект для здравоохранения Требуется поддерживать защищенную обработку данных |
|
23 |
А.4.8 Вариант использования N 23: Эпидемиологическое исследование в масштабе всего населения Земли Требуется обеспечивать защиту используемых в моделировании персональных данных физических лиц. Необходимо поддерживать защиту данных и защищенную платформу для вычислений |
|
24 |
А.4.9 Вариант использования N 24: Моделирование распространения социального влияния Требуется обеспечивать защиту используемых в моделировании персональных данных физических лиц. Необходимо поддерживать защиту данных и защищенную платформу для вычислений |
|
25 |
А.4.10 Вариант использования N 25 Биологическое разнообразие и европейская электронная научно-исследовательская инфраструктура LifeWatch Требуется поддерживать объединенное (федеративное) управление идентификацией для мобильных исследователей и мобильных датчиков. Требуется поддерживать управление доступом и контроль над ним |
|
26 |
А.5.2 Вариант использования N 27: Организация крупномасштабных, неструктурированных коллекций сделанных потребителями фотографий Требуется обеспечивать защиту неприкосновенности частной жизни для пользователей и защиту цифровых прав на контент |
|
27 |
А.5.3 Вариант использования N 28: Truthy - Анализ данных Твиттера Требуется обеспечивать политику в области безопасности и защиты неприкосновенности частной жизни |
|
28 |
А.5.4 Вариант использования N 29: Краудсорсинг в гуманитарных науках Требуется решать вопросы обеспечения неприкосновенности частной жизни, сохраняя анонимность авторов полученных материалов |
|
29 |
А.5.6 Вариант использования N 31: Измерения и оценки эффективности аналитических технологий в Национальном институте стандартов и технологий (NIST) Требуется обеспечивать исполнение требований по безопасности и защите персональных данных в отношении защиты чувствительных данных, обеспечивая при этом возможность проведения содержательной оценки эффективности разработок. Совместно используемые испытательные стенды должны обеспечивать защиту интеллектуальной собственности разработчиков аналитических алгоритмов |
|
30 |
А.6.1 Вариант использования N 32: Консорциум федеративных сетей данных (DFC) Требуется поддерживать объединение (федерацию) существующих сред аутентификации с помощью "Типового API-интерфейса программирования приложений служб защиты данных" (Generic Security Service API) и подключаемых модулей аутентификации (GSI, Kerberos, InCommon, Shibboleth). Требуется поддерживать управление доступом к файлам независимо от места хранения |
|
31 |
А.6.2 Вариант использования N 33: Discinnet-процесс Требуется обеспечивать достаточно высокий, но необязательный уровень безопасности и защиты персональных данных, включая использование защищенных серверов и анонимизацию |
|
32 |
А.6.4 Вариант использования N 35: Анализ больших объемов данных, получаемых в экспериментах на синхротроне Требуется обеспечивать исполнение многочисленных требований к безопасности и защите неприкосновенности частной жизни |
|
33 |
А.7.4 Вариант использования N 39: Анализ данных Большого адронного коллайдера Необходимо обеспечить защиту данных |
|
34 |
А.7.5 Вариант использования N 40: Эксперимент Belle II Требуется поддерживать стандартную аутентификацию в грид-системе |
|
35 |
А.8.2 Вариант использования N 42: Совместная деятельность европейских сетевых инфраструктур в области экологических исследований (ENVRI) Необходимо поддерживать политику открытых данных с небольшими ограничениями |
|
36 |
А.8.3 Вариант использования N 43: Центра дистанционного зондирования ледяного покрова CReSIS Требуется обеспечивать безопасность и неприкосновенность частной жизни, в том числе с учетом деликатности политической ситуации в зоне проведения исследований. Требуется поддерживать динамичные механизмы политик в области безопасности и неприкосновенности частной жизни |
|
37 |
А.9.1 Вариант использования N 51: Прогнозирование потребления электроэнергии в интеллектуальных энергосетях Требуется обеспечивать защиту персональных данных посредством анонимизации и агрегирования данных |
------------------------------
1)Ссылка на несуществующий вариант использования.
------------------------------
Таблица D.6 - Технические проблемы в категории "Управление жизненным циклом"
Общие технические требования | ||
1. Необходимо поддерживать курирование качества данных, включая предварительную обработку, кластеризацию данных, классификацию, редуцирование (преобразование к физическим величинам) и преобразование форматов |
Применимо к 20 вариантам использования: N 1-4, 6, 8, 11, 14-16, 18, 20, 22-25, 28, 39, 42-43 |
|
2. Необходимо поддерживать динамическое обновление данных, профилей пользователей и ссылок |
Применимо к двум вариантам использования: N 7, 38 |
|
3. Необходимо поддерживать жизненный цикл данных и политику обеспечения долговременной сохранности, включая отслеживание происхождения данных |
Применимо к шести вариантам использования: N 1, 7-8, 25, 33, 41 |
|
4. Необходимо поддерживать валидацию данных |
Применимо к четырем вариантам использования: N 5-6, 22, 47 |
|
5. Необходимо поддерживать аннотирование данных человеком для целей их валидации |
Применимо к 4 вариантам использования: N 17, 20-21, 44 |
|
6. Необходимо принимать меры для предотвращения утраты или порчи данных |
Применимо к трем вариантам использования: N 1, 24, 41 |
|
7. Необходимо поддерживать географически распределенные (multi-site) архивы |
Применимо к одному варианту использования: N 42 |
|
8. Необходимо поддерживать постоянные идентификаторы и прослеживаемость данных |
Применимо к двум вариантам использования: N 6, 21 |
|
9. Необходимо поддерживать стандартизацию, агрегирование и нормализацию данных из разнородных источников |
Применимо к одному варианту использования: N 16 |
|
Специфические для варианта применения технические требования к управлению жизненным циклом | ||
1 |
А.1.1 Вариант использования N 1: Архивное хранение больших данных переписи населения в США 2010 и 2000 годов Требуется поддерживать обеспечение долговременной сохранности данных "как есть" в течение 75-летнего ограничительного периода. Требуется поддерживать обеспечение долговременной сохранности на уровне битов. Требуется поддерживать процесс курирования, включая преобразование формата (конверсию). Требуется обеспечивать доступ и аналитическую обработку по истечении 75-летнего ограничительного периода. Требуется обеспечить отсутствие утраты данных |
|
2 |
А.1.2 Вариант использования N 2: Прием Национальными архивами США государственных данных на архивное хранение, поиск, извлечение и обеспечение долговременной сохранности Требуется поддерживать предварительную обработку, в т.ч. сканирование на вирусы. Требуется поддерживать идентификацию файлового формата. Требуется поддерживать индексацию. Требуется поддерживать классификацию документов |
|
3 |
А.1.3 Вариант использования N 3: Повышение активности респондентов в статистических обследованиях Требуется обеспечивать достоверность данных, и системы должны быть очень надежными. Остаются проблемой семантическая целостность концептуальных метаданных, описывающих, что именно измеряется, и вытекающие из этого пределы точности выводов |
|
4 |
А.1.4 Вариант использования N 4: Использование нетрадиционных данных для повышения активности респондентов в статистических обследованиях Требуется обеспечивать достоверность данных, и системы должны быть очень надежными. Остаются проблемой семантическая целостность концептуальных метаданных, описывающих, что именно измеряется, и вытекающие из этого пределы точности выводов |
|
5 |
А.2.2 Вариант использования N 6: Международная исследовательская сеть Mendeley Требуется поддерживать управление метаданными, извлеченными из PDF-файлов. Требуется поддерживать выявление дублирования документов. Требуется поддерживать постоянные идентификаторы. Требуется поддерживать сопоставление метаданных со сведениями в базах данных Crossref, PubMed и arXiv |
|
6 |
А.2.3 Вариант использования N 7: Сервис кинофильмов Netflix Требуется поддерживать постоянное вычисление рейтингов и их обновление на основе профилей пользователей и результатов аналитики |
|
7 |
А.2.4 Вариант использования N 8: Веб-поиск Требуется поддерживать безвозвратное уничтожение данных по истечении определенного интервала времени (несколько месяцев). Требуется поддерживать чистку данных |
|
8 |
А.2.7 Вариант использования N 11: Данные о материалах Требуется поддерживать качество данных, которое, за исключением базовых данных о структурных и тепловых свойствах, является низким или непонятным |
|
9 |
А.2.8 Вариант использования N 12: Геномика материалов на основе результатов моделирования Требуется поддерживать валидацию и количественную оценку неопределенности результатов моделирования путем сопоставления с экспериментальными данными. Требуется поддерживать количественную оценку неопределенности в результатах на основе нескольких наборов данных |
|
10 |
А.3.2 Вариант использования N 14: Идентификация и отслеживание объектов - Постоянное наблюдение Требуется обеспечивать достоверность извлеченных объектов |
|
11 |
А.3.3 Вариант использования N 15: Обработка и анализ разведывательных данных Требуется контролировать происхождение данных (включая, например, отслеживание всех передач и преобразований) в течение жизненного цикла данных |
|
12 |
А.4.1 Вариант использования N 16: Данные электронной медицинской документации Требуется стандартизировать, агрегировать и нормализовать данные из разнородных источников. Требуется уменьшать количество ошибок и устранять систематические погрешности. Требуется поддерживать общую номенклатуру и классификацию контента из разных источников |
|
13 |
А.4.2 Вариант использования N 17: Анализ графических образов в патологии/Цифровая патология Необходимо поддерживать аннотирование материалов человеком для использования при валидации |
|
14 |
А.4.3 Вариант использования N 18: Вычислительный анализ биоизображений Требуется поддерживать компоненты потока рабочих процессов, включающие сбор, хранение, улучшение качества данных и минимизацию шума |
|
15 |
А.4.5 Вариант использования N 20: Сравнительный анализ (мета) геномов Требуется поддерживать методы повышения качества данных. Требуется поддерживать кластеризацию, классификацию и редуцирование данных. Требуется поддерживать интеграцию новых данных/контента в системное хранилище данных и аннотирование данных |
|
16 |
А.4.6 Вариант использования N 21: Индивидуальное управление лечением диабета Требуется поддерживать аннотирование данных на основе онтологии и таксономии. Требуется обеспечивать прослеживаемость данных от источника (начальной точки сбора) и далее на протяжении периода работы с ними. Требуется поддерживать преобразование данных из существующего хранилища данных в триплеты RDF |
|
17 |
А.4.7 Вариант использования N 22: Статистический реляционный искусственный интеллект для здравоохранения Требуется поддерживать объединение нескольких таблиц перед выполнением анализа. Требуется поддерживать методы валидации данных с целью минимизации ошибок |
|
18 |
А.4.8 Вариант использования N 23: Эпидемиологическое исследование в масштабе всего населения Земли Требуется обеспечивать качество данных и отслеживание происхождения данных в ходе вычислений |
|
19 |
А.4.9 Вариант использования N 24: Моделирование распространения социального влияния Требуется поддерживать объединение данных из различных источников данных. Требуется поддерживать согласованность данных и предотвращать их порчу. Требуется поддерживать предварительную обработку первичных данных |
|
20 |
А.4.10 Вариант использования N 25 Биологическое разнообразие и европейская электронная научно-исследовательская инфраструктура LifeWatch Требуется поддерживать хранение и архивацию данных, обмен данными и их интеграцию. Требуется поддерживать управление жизненным циклом данных, включая происхождение данных, ссылочную целостность и идентификацию, прослеживаемость до первоначальных данных наблюдений. Требуется поддерживать обработанные (вторичные) данные (в дополнение к оригинальным исходным данным), которые могут быть сохранены для использования в будущем. Требуется контролировать происхождение с присвоением постоянного идентификатора (PID) данных, алгоритмов и рабочих процессов. Требуется поддерживать курированные (авторизованные) эталонные данные (т.е. списки названий видов), алгоритмы, программные коды и рабочие процессы |
|
21 |
А.5.3 Вариант использования N 28: Truthy - Анализ данных Твиттера Требуется поддерживать стандартизированные структуры данных/форматы и исключительно высокое качество данных |
|
22 |
А.6.2 Вариант использования N 33: Discinnet-процесс Требуется поддерживать интеграцию методов работы с метаданными различных дисциплин |
|
23 |
А.7.3 Вариант использования N 38: Большие данные космологических обзоров неба Требуется поддерживать связи между удаленными телескопами и центрами аналитической обработки |
|
24 |
А.7.4 Вариант использования N 39: Анализ данных Большого адронного коллайдера Требуется поддерживать качество данных на сложных установках |
|
25 |
А.8.1 Вариант использования N 41: Радарная система некогерентного рассеяния EISCAT-3D Требуется обеспечивать долговременную сохранность данных и предотвращать утрату данных в случае сбоев в работе измерительного комплекса |
|
26 |
А.8.2 Вариант использования N 42: Совместная деятельность европейских сетевых инфраструктур в области экологических исследований (ENVRI) Требуется поддерживать высокое качество данных. Требуется поддерживать зеркальные архивы. Требуется поддерживать различные схемы метаданных. Требуется поддерживать разрозненные хранилища и курирование данных |
|
27 |
А.8.3 Вариант использования N 43: Центра дистанционного зондирования ледяного покрова CReSIS Требуется поддерживать уверенность в качестве данных |
|
28 |
А.8.4 Вариант использования N 44: Обработка данных проекта UAVSAR Требуется поддерживать значительное вмешательство человека в конвейер обработки данных. Требуется поддерживать подробные и надежные сведения о происхождении, описывающие сложный процесс обработки компьютером/человеком |
|
29 |
А.8.7 Вариант использования N 47: Атмосферная турбулентность - Обнаружение событий Требуется поддерживать валидацию для выходных продуктов (корреляции) |
Таблица D.7 - Технические проблемы в категории "Иные технические проблемы"
Общие технические требования | ||
1. Необходимо поддерживать пользовательский интерфейс с широкими возможностями для мобильных платформ, с целью обеспечения доступа к обработанным результатам |
Применимо к шести вариантам использования: N 2, 7, 19, 28, 44, 46 |
|
2. Необходимо поддерживать мониторинг, с использованием мобильных платформ, производительности аналитической обработки |
Применимо к двум вариантам использования: N 41, 43 |
|
3. Необходимо поддерживать визуальный поиск по контенту, с широкими функциональными возможностями, и отображение контента на мобильных платформах |
Применимо к 13 вариантам использования: N 3, 6-8, 12, 16-17, 19, 39, 48-51 |
|
4. Необходимо поддерживать сбор данных с использованием мобильных устройств |
Применимо к одному варианту использования: N 42 |
|
5. Необходимо обеспечивать безопасность на мобильных устройствах |
Применимо к одному варианту использования: N 16 |
|
Специфические для варианта применения иные технические требования | ||
1 |
А.1.2 Вариант использования N 2: Прием Национальными архивами США государственных данных на архивное хранение, поиск, извлечение и обеспечение долговременной сохранности Требуется поддержка мобильного поиска, который должен иметь похожий интерфейс и выдавать похожие результаты |
|
2 |
А.1.3 Вариант использования N 3: Повышение активности респондентов в статистических обследованиях Требуется поддержка мобильного доступа |
|
3 |
А.2.1 Вариант использования N 5: Облачные вычисления в секторах финансовой отрасли Требуется поддержка мобильного доступа |
|
4 |
А.2.2 Вариант использования N 6: Международная исследовательская сеть Mendeley Требуется поддержка доставки контента и услуг на различные вычислительные платформы, от настольных компьютеров под Windows до мобильных устройств под ОС Android и iOS |
|
5 |
А.2.3 Вариант использования N 7: Сервис кинофильмов Netflix Требуется поддержка интеллектуальных интерфейсов для доступа к киноконтенту на мобильных платформах |
|
6 |
А.2.4 Вариант использования N 8: Веб-поиск Требуется поддержка мобильного поиска и отображения |
|
7 |
А.2.8 Вариант использования N 12: Геномика материалов на основе результатов моделирования Требуется поддержка мобильных приложений для доступа к информации по геномике материалов |
|
8 |
А.4.1 Вариант использования N 16: Данные электронной медицинской документации Требуется обеспечение безопасности на мобильных устройствах |
|
9 |
А.4.2 Вариант использования N 17: Анализ графических образов в патологии/Цифровая патология Требуется поддержка трехмерной визуализации и отображения на мобильных платформах |
|
10 |
А.4.4 Вариант использования N 19: Геномные измерения Требуется обеспечить доступ врачам к геномным данным на мобильных платформах |
|
11 |
А.4.6 Вариант использования N 21: Индивидуальное управление лечением диабета Требуется обеспечить поддержку мобильного доступа к данным |
|
12 |
А.4.9 Вариант использования N 24: Моделирование распространения социального влияния Требуется перемещение данных ближе к вычислительным ресурсам с целью повышения эффективности |
|
13 |
А.4.10 Вариант использования N 25 Биологическое разнообразие и европейская электронная научно-исследовательская инфраструктура LifeWatch Требуется поддержка доступа для мобильных пользователей |
|
14 |
А.5.3 Вариант использования N 28: Truthy - Анализ данных Твиттера Требуется поддержка низкоуровневых функциональных возможностей инфраструктуры хранения данных с целью обеспечения эффективного мобильного доступа к данным |
|
15 |
А.8.1 Вариант использования N 41: Радарная система некогерентного рассеяния EISCAT-3D Требуется поддержка мониторинга оборудования в режиме реального времени, посредством частичного анализа потока данных |
|
16 |
А.8.2 Вариант использования N 42: Совместная деятельность европейских сетевых инфраструктур в области экологических исследований (ENVRI) Требуется поддержка мобильных датчиков и измерительных устройств различных типов с целью сбора данных |
|
17 |
А.8.3 Вариант использования N 43: Центра дистанционного зондирования ледяного покрова CReSIS Требуется поддержка мониторинга собирающих данные устройств и датчиков |
|
18 |
А.8.4 Вариант использования N 44: Обработка данных проекта UAVSAR Требуется поддержка работающих в полевых условиях пользователей посредством предоставления интерфейсов к смартфонам/планшетам и возможности скачивания данных в низком разрешении |
|
19 |
А.8.6 Вариант использования N 46: Аналитические сервисы MERRA Требуется поддержка доступа со смартфонов и планшетов. Требуется поддержка управления данными посредством iRODS |
|
20 |
А.8.8 Вариант использования N 48: Исследования климата с использованием модели климатической системы Земли (CESM) Требуется поддержка ввода данных и доступа со смартфонов |
|
21 |
А.8.9 Вариант использования N 49: Подповерхностные биогеохимические исследования Требуется поддержка ввода данных и доступа со смартфонов |
|
22 |
А.8.10 Вариант использования N 50: Сети AmeriFlux и FLUXNET Требуется поддержка ввода данных и доступа со смартфонов |
|
23 |
А.9.1 Вариант использования N 51: Прогнозирование потребления электроэнергии в интеллектуальных энергосетях Требуется поддержка мобильного доступа для клиентов |
Если вы являетесь пользователем интернет-версии системы ГАРАНТ, вы можете открыть этот документ прямо сейчас или запросить по Горячей линии в системе.