Приложение А (справочное). Представленные описания вариантов использования

Приложение А
(справочное)

Представленные описания вариантов использования

А.1 Деятельность государственных органов

А.1.1 Вариант использования N 1: Архивное хранение больших данных переписи населения, проведенной в США в 2010 и 2000 гг.

Название	Архивное хранение больших данных: Большие данные переписи населения, проведенной в США в 2010 и 2000 гг. на основании части 13 Свода законов США
Предметная область	Электронные архивы
Автор/организация/эл. почта	Вивек Наваль (Vivek Navale) и Куин Нгуен (Quyen Nguyen), Национальные архивы США (NARA)
Акторы/заинтересованные лица, их роли и ответственность	Архивисты Национальных архивов США, представители общественности (после 75 лет)
Цели	Обеспечить долговременную сохранность данных с целью предоставления к ним доступа и проведения аналитики по истечении 75-летнего ограничительного периода. Часть 13 Свода законов США уполномочивает Бюро переписи населения США (U.S. Census Bureau) собирать и сохранять данные, относящиеся к переписи, и гарантирует защиту персональных и отраслевых данных
Описание варианта использования	В течение ограничительного периода в 75 лет данные должны храниться "как есть", без возможности доступа и анализа, с обеспечением сохранности на уровне битов. Данные курируются, что может включать преобразование формата. Доступ и аналитика должны быть обеспечены через 75 лет
Текущие решения	Вычислительная система	Сервера под ОС Linux
	Хранилище данных	Облачные сервисы NetApp, магнитные ленты
	Сеть связи
	Программное обеспечение
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Централизованное хранение
	Объем (количество)	380 терабайт
	Скорость обработки (например, в реальном времени)	Данные статичны
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Отсканированные документы
	Вариативность (темпы изменения)	Нет
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	Утрата данных недопустима
	Визуализация	Будет определена в будущем
	Качество данных (синтаксис)	Неизвестно
	Типы данных	Отсканированные документы
	Аналитика данных	Только по истечении 75 лет
Иные проблемы больших данных	Обеспечение долговременной сохранности данных
Проблемы пользовательского интерфейса и мобильного доступа	Будут определены в будущем
Технические проблемы обеспечения безопасности и защиты персональных данных	Подпадают под положения части 13 Свода законов США
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)
Дополнительная информация (гиперссылки)

А.1.2 Вариант использования N 2: Прием Национальными архивами США государственных данных на хранение, поиск, извлечение и обеспечение долговременной сохранности

Название	Прием Национальными архивами США (NARA) государственных данных на хранение, поиск, извлечение и обеспечение долговременной сохранности
Предметная область	Электронные архивы
Автор/организация/эл. почта	Куин Нгуен (Quyen Nguyen) и Вивек Наваль (Vivek Navale), Национальные архивы США (NARA)
Акторы/заинтересованные лица, их роли и ответственность	Специалисты по управлению документами федеральных органов исполнительной власти США. Специалисты по комплектованию фондов Национальных архивов США. Архивисты Национальных архивов США. Пользователи архивов - представители общественности
Цели	Прием на архивное хранение, поиск, извлечение и обеспечение долговременной сохранности больших данных
Описание варианта использования	1) Передача данных под физический контроль Национальных архивов и переход к Национальным архивам юридической ответственности за их сохранность. В будущем, если данные хранятся в облаке, при передаче Национальным архивам ответственности за физическую сохранность желательно избегать перемещения больших данных из одного облака в другое либо из облака в центр обработки данных. 2) Предварительная обработка данных, включающая проверки на наличие вирусов, определение файловых форматов и удаления пустых файлов. 3) Индексирование данных. 4) Категоризация документов (чувствительные конфиденциальные, неконфиденциальные, персональные данные и т.д.). 5) Преобразование устаревших файловых форматов в современные (например, WordPerfect в PDF). 6) Электронное раскрытие. 7) Поиск и извлечение данных в рамках исполнения специальных запросов. 8) Поиск и извлечение государственных документов представителями общественности
Текущие решения	Вычислительная система	Сервера под ОС Linux
	Хранилище данных	Облачные сервисы NetApp, система хранения Hitachi, магнитные ленты
	Сеть связи
	Программное обеспечение	Кастомизированное ПО, коммерческие поисковые продукты, коммерческие базы данных
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Распределенные источники данных федеральных органов исполнительной власти США. Используемый в настоящее время подход требует передачи этих данных в централизованное хранилище. В будущем эти источники данных могут находиться в различных облачных средах
	Объем (количество)	Сотни терабайт, постоянно увеличивается
	Скорость обработки (например, в реальном времени)	Скорость поступления данных относительно низкая по сравнению с другими вариантами использования, однако случаются всплески, т.е. данные могут поступать партиями размером от гигабайта до сотен терабайт
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Разнообразные типы данных, неструктурированные и структурированные: текстовые документы, электронная почта, фотографии, отсканированные документы, мультимедийные материалы, материалы из социальных сетей, веб-сайты, базы данных и т.д. Разнообразие прикладных областей, поскольку документы поступают от различных государственных органов. Данные поступают из различных хранилищ, некоторые из которых в будущем могут стать облачными
	Вариативность (темпы изменения)	Темпы могут варьироваться, особенно если источники данных неоднородны: в некоторых больше представлены аудио- и видеоматериалы, в других преобладают текстовые материалы, в-третьих - графические образы и т.д.
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	Результаты поиска должны иметь высокую релевантность и полноту поиска. Требуется высокая точность категоризации документов
	Визуализация	Будет определена в будущем
	Качество данных (синтаксис)	Неизвестно
	Типы данных	Разнообразные типы данных: текстовые документы, электронная почта, фотографии, отсканированные документы, мультимедийные материалы, базы данных и т.д.
	Аналитика данных	Сканирование/ индексирование; поиск; ранжирование; прогностический поиск. Категоризация данных (чувствительные, конфиденциальные и т.д.). Выявление и маркировка персональных данных (Personally Identifiable Information, PII)
Иные проблемы больших данных	Выполнение предварительной обработки и дальнейшее долговременное управление объемными и разнообразными данными. Проведение поиска по огромному объему данных. Обеспечение высокой релевантности и полноты результатов поиска. В будущем источники данных могут быть распределены по различным облакам
Проблемы пользовательского интерфейса и мобильного доступа	Мобильный поиск должен иметь похожий интерфейс и выдавать похожие результаты
Технические проблемы обеспечения безопасности и защиты персональных данных	Необходимо внимательно относиться к имеющимся ограничениям на доступ к данным
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)
Дополнительная информация (гиперссылки)

А.1.3 Вариант использования N 3: Повышение активности респондентов в статистических обследованиях

Название	Повышение активности респондентов в статистических обследованиях (адаптивная схема)
Предметная область	Логистическое обеспечение сбора государственной статистики
Автор/организация/эл. почта	Каван Каппс (Cavan Capps), Бюро переписей населения США (U.S. Census Bureau), cavan.paul.capps@census.gov
Акторы/заинтересованные лица, их роли и ответственность	Задача органов государственной статистики США - быть ведущими авторитетными источниками информации о населении и экономике страны, уважая при этом неприкосновенность персональных данных и строго защищая их конфиденциальность. Эту задачу они решают, взаимодействуя со штатами, местными органами власти и другими федеральными органами исполнительной власти
Цели	Используя открытые и научно объективные передовые методы, органы статистики стремятся повысить качество, конкретность и своевременность выдаваемых статистических данных при одновременном снижении эксплуатационных расходов и обеспечении конфиденциальности респондентов
Описание варианта использования	Затраты на проведение статистических обследований растут, в то время как активность респондентов падает. Целью данной работы является применение усовершенствованных "методов рекомендательных систем", использующих комбинацию данных из нескольких источников, а также вспомогательные данные исторических обследований, - для поддержки процессов оперативной деятельности, направленных на повышение качества и снижение расходов проводимых "на местах" статистических обследований
Текущие решения	Вычислительная система	Системы под ОС Linux
	Хранилище данных	В SAN-сети систем хранения данных (Storage Area Network) и на непосредственно подключаемых к серверу устройствах (Direct Storage)
	Сеть связи	Оптоволоконный кабель, 10-гигабитный Ethernet, 40-гигабитный Infiniband
	Программное обеспечение	Hadoop, Spark, Hive, R, SAS, Mahout, Allegrograph, MySQL, Oracle, Storm, BigMemory, Cassandra, Pig
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Данные обследований, другие государственные административные данные, геопространственные данные из различных источников
	Объем (количество)	Для данного конкретного вида проблем оперативной деятельности, примерно один петабайт
	Скорость обработки (например, в реальном времени)	Варьируется, данные с мест о ходе проведения обследования передаются непрерывно в потоковом режиме. Во время последней всеобщей переписи населения в потоковом режиме были переданы 150 млн документов
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Данные обычно представляют собой заданные текстовые и числовые поля. Данные могут происходить из разных наборов данных, объединенных для достижения целей аналитики
	Вариативность (темпы изменения)	Варьируется в зависимости от обследований, проводимых на местах в данный момент. Высокие темпы поступления во время всеобщей переписи населения
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	Данные должны иметь высокую степень достоверности, а системы должны быть очень надежными. Остается проблемой семантическая целостность концептуальных метаданных, содержащих описание объекта измерения и вытекающие из этого описания ограничений достоверности
	Визуализация	Визуализация полезна для проверки данных, оперативной деятельности и общего анализа. Продолжает развиваться
	Качество данных (синтаксис)	Качество данных должно быть высоким и статистически проверяться на точность и надежность на протяжении всего процесса сбора данных
	Типы данных	Предопределенные ASCII - строки и числовые данные
	Аналитика данных	Аналитика необходима для рекомендательных систем, постоянного мониторинга и для общего совершенствования процесса проведения обследования
Иные проблемы больших данных	Совершенствование рекомендательных систем, позволяющих снизить затраты и повысить качество, обеспечивая одновременно надежные и публично проверяемые меры защиты конфиденциальности
Проблемы пользовательского интерфейса и мобильного доступа	Мобильный доступ важен
Технические проблемы обеспечения безопасности и защиты персональных данных	Необходимо обеспечить безопасность и конфиденциальность всех данных. Согласно требованиям законодательства должна быть обеспечена возможность аудита всех процессов на предмет обеспечения безопасности и конфиденциальности
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)	Рекомендательные системы имеют общие функциональные возможности с системами, используемыми в электронной коммерции такими фирмами, как Amazon, Netflix, UPS и др.
Дополнительная информация (гиперссылки)

А.1.4 Вариант использования N 4: Использование нетрадиционных данных для повышения активности респондентов в статистических обследованиях

Название	Использование нетрадиционных данных для повышения активности респондентов в статистических обследованиях (адаптивная схема)
Предметная область	Логистическое обеспечение сбора государственной статистики
Автор/организация/эл. почта	Каван Каппс (Cavan Capps), Бюро переписи населения США (U.S. Census Bureau), cavan.paul.capps@census.gov
Акторы/заинтересованные лица, их роли и ответственность	Задача органов государственной статистики США - быть ведущими авторитетными источниками информации о населении и экономике страны, уважая при этом неприкосновенность персональных данных и строго защищая их конфиденциальность. Эту задачу они решают, взаимодействуя со штатами, местными органами власти и другими федеральными органами исполнительной власти
Цели	Используя открытые и научно объективные передовые методы, органы статистики стремятся повысить качество, конкретность и своевременность выдаваемых статистических данных при одновременном снижении эксплуатационных расходов и обеспечении конфиденциальности респондентов
Описание варианта использования	Затраты на проведение статистических обследований растут, в то время как активность респондентов падает. В данной работе изучается потенциал использования нетрадиционных коммерческих и публичных источников данных из интернета, беспроводной связи и электронных транзакций, которые в рамках аналитических исследований объединяются с данными традиционных статистических обследований с целью повысить качество статистики для небольших регионов и новых показателей, а также обеспечить своевременность публикуемой статистики
Текущие решения	Вычислительная система	Системы под ОС Linux
	Хранилище данных	В SAN-сети систем хранения данных (Storage Area Network) и на непосредственно подключаемых к серверу устройствах (Direct Storage)
	Сеть связи	Оптоволоконный кабель, 10 - гигабитный Ethernet, 40 - гигабитный Infiniband
	Программное обеспечение	Hadoop, Spark, Hive, R, SAS, Mahout, Allegrograph, MySQL, Oracle, Storm, BigMemory, Cassandra, Pig
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Данные обследований, другие государственные административные данные, данные из интернета, систем беспроводной связи, данные электронных транзакций, возможно, данные из социальных сетей, а также геопространственные данные из различных источников
	Объем (количество)	Будет определен в будущем
	Скорость обработки (например, в реальном времени)	Будет определена в будущем
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Текстовые данные, а также традиционным образом определенные текстовые строки и числовые поля. Данные могут происходить из нескольких наборов данных, объединенных для целей аналитики
	Вариативность (темпы изменения)	Будет определена в будущем
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	Данные должны иметь высокую степень достоверности, а системы должны быть очень надежными. Остается проблемой семантическая целостность концептуальных метаданных, описывающих, что именно измеряется, и вытекающие из этого пределы точности выводов
	Визуализация	Визуализация полезна для проверки данных, оперативной деятельности и общего анализа. Продолжает развиваться
	Качество данных (синтаксис)	Качество данных должно быть высоким и статистически проверяться на точность и надежность на протяжении всего процесса сбора данных
	Типы данных	Текстовые данные, предопределенные ASCII - строки и числовые данные
	Аналитика данных	Аналитика необходима для получения надежных оценок на основе совместного использования данных традиционных обследований, государственных административных данных и данных из нетрадиционных источников сферы цифровой экономики
Иные проблемы больших данных	Совершенствование систем аналитики и моделирования, выдающих надежные и устойчивые статистические оценки с использованием данных из ряда источников и являющихся научно прозрачными, которые одновременно обеспечивают надежные и публично проверяемые меры защиты конфиденциальности
Проблемы пользовательского интерфейса и мобильного доступа	Мобильный доступ важен
Технические проблемы обеспечения безопасности и защиты персональных данных	Необходимо обеспечить безопасность и конфиденциальность всех данных. Согласно требованиям законодательства должна быть обеспечена возможность аудита всех процессов на предмет обеспечения безопасности и конфиденциальности
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)	Процесс получения статистических оценок, способный дать более детальные оценки в режиме почти реального времени и с меньшими затратами. Надежность статистических оценок, полученных на основе комбинирования данных из подобных смешанных источников, пока еще предстоит определить
Дополнительная информация (гиперссылки)

А.2 Коммерческая деятельность

А.2.1 Вариант использования N 5: Облачные вычисления в секторах финансовой отрасли

Название	Данный вариант использования представляет собой один из подходов к внедрению стратегии больших данных в рамках облачной экосистемы для секторов финансовой отрасли, осуществляющих операции в Соединенных Штатах
Предметная область	Включает следующие направления основной деловой деятельности: Банковское дело, в том числе: обслуживание юридических лиц, обслуживание физических лиц, кредитные карты, потребительское кредитование, обслуживание корпоративных клиентов, операционное обслуживание, финансирование торговых операций и глобальные платежи. Ценные бумаги и инвестиции, включая: брокерское обслуживание физических лиц, банковское обслуживание состоятельных физических лиц/управление частным капиталом, брокерское обслуживании институциональных инвесторов, инвестиционно-банковские услуги, трастовые банковские услуги, управление активами, депозитарные и клиринговые услуги Страхование, в том числе: персональное и групповое страхование жизни, персональное и групповое страхование имущества/несчастных случаев, фиксированный и переменный аннуитет и другие виды инвестиций. Для сведения: Любая государственная/частная организация, предоставляющая финансовые услуги и подпадающая под действие законодательства США в плане нормативно-правового риска и обязанности исполнять нормативно-правовые требования, обязана соответствовать сложной многослойной системе стратегического управления, управления рисками и соблюдения требований (GRC), а также конфиденциальности, целостности и доступности (confidentiality, integrity, and availability, CIA), надзор над исполнением которых осуществляется различными юрисдикциями и органами, в том числе федеральными, штатов, местными и трансграничными
Автор/организация/эл. почта	П.Кэри (Pw Carey), Compliance Partners LLC, pwc.pwcarey@email.com
Акторы/заинтересованные лица, их роли и ответственность	Регулирующие и консультативные организации и органы, в том числе Федеральная комиссия по ценным бумагам и биржам (Securities and Exchange Commission, SEC), Федеральная корпорация страхования депозитов (FDIC), Комиссия по торговле товарными фьючерсами (Commodity Futures Trading Commission, CFTC), Казначейство США, Некоммерческая организация по надзору за отчетностью публичных компаний, США (РСАОВ), Комитет спонсорских организаций (COSO), CobiT, лица и организации, участвующие в подготовке отчетности, заинтересованные стороны, инвестиционное сообщество, акционеры, пенсионные фонды, высшее руководство организаций, хранители данных и иные сотрудники. На каждом уровне организации финансовых услуг существует взаимосвязанное и взаимозависимое сочетание обязанностей, обязательств и ответственности тех, кто непосредственно несет ответственность за использование, подготовку и передачу финансовых данных, тем самым соответствуя требованиям стратегического управления, управления рисками и соблюдения требований (GRC), (GRC), так и конфиденциальности, целостности и доступности (CIA) финансовых данных их организаций. Эта же информация напрямую связана с поддержанием репутации, доверия и жизнеспособностью бизнеса организации
Цели	В данном варианте использования представлен один из подходов к разработке работоспособной стратегии внедрения больших данных в сфере финансовых услуг. До начала внедрения и переключения на новые технологии организация должна выполнить ряд действий, следуя базовой методологии использования больших данных в рамках облачной экосистемы, адресованной как государственным, так и частным финансовым учреждениям, предлагающим финансовые услуги в рамках федеральной юрисдикции США, юрисдикции штатов и местных органов власти и/или в иных юрисдикциях, таких как Великобритания, Евросоюз и Китай. Каждая предоставляющая финансовые услуги организация должна подходить к введению последующих мер, поддерживающих их инициативу в области больших данных, с пониманием и осознанием того воздействия, которое каждый из накладывающихся друг на друга и взаимозависимых факторов будет оказывать в реализации. Эти четыре фактора следующие: 1) люди (как ресурсы), 2) процессы (время/расходы/возврат на инвестиции), 3) технологии (различные операционные системы, платформы, а также зоны влияния/масштабы воздействия технологий), и 4) регуляторное управление (зависит от многочисленных различных регулирующих органов). Кроме того, эти четыре фактора должны быть выявлены, проанализированы, оценены, должны быть приняты соответствующие меры, проведены тестирование и анализ результатов в ходе подготовки к переходу на следующие этапы внедрения: 1) инициирование проекта и получение поддержки со стороны руководства, 2) оценка рисков и выбор мер контроля и управления, 3) анализ влияния на деловую активность, 4) проектирование, разработка и тестирование стратегий обеспечения непрерывности деловой активности, 5) реагирование и деятельность в условиях чрезвычайных ситуаций (известное также как "Восстановление после катастроф"), 6) разработка и внедрение планов обеспечения непрерывности деловой активности, 7) программы ознакомления и обучения, 8) реализация мер по обеспечению непрерывности деловой активности (известное также как Maintaining Regulatory Currency - поддержание доверия со стороны регуляторов). Примечание - Где уместно, эти восемь направлений деятельности должны быть адаптированы и модифицированы в соответствии с потребностями каждой организации, ее уникальной корпоративной культурой и видами оказываемых финансовых услуг
Описание варианта использования	Разработанная Google технология больших данных предназначалась для использования в качестве инструмента индексирования веб-сайтов в интернете, помогая компании сортировать, перемешивать, классифицировать и маркировать интернет. Первоначально она не рассматривалась как замена для устаревших ИТ-инфраструктур данных. Благодаря побочным разработкам в рамках OpenGroup и Hadoop, большие данные превратились в надежный инструмент анализа и хранения данных, который все еще продолжает развиваться. В итоге, однако, технологии больших данных по-прежнему разрабатываются в качестве дополнения к существующим ИТ-архитектурам хранилищ данных типа клиент/сервер/суперкомпьютер, что в некоторых отношениях лучше, чем эти самые среды хранилищ данных, но не во всех. В настоящее время в финансовой отрасли большие данные/Hadoop используются для выявления мошенничества, анализа и оценки рисков, а также для расширения своих знаний и понимания клиентов в рамках стратегии, известной как "знай своего клиента? Однако эта стратегия по-прежнему должна следовать хорошо продуманной таксономии, которая удовлетворяет уникальные и индивидуальные потребности субъектов. Одной из таких стратегий является следующая формальная методология, которая дает ответ на два простейших, но крайне важных вопроса: "Что мы делаем?" и "Почему мы это делаем?". 1) Заявление о политике/устав проекта (цель плана, причины и ресурсы - все это следует определить). 2) Анализ воздействия на деловую деятельность (как приложенные усилия улучшают наши деловые услуги). 3) Определение общесистемных политик, процедур и требований. 4) Определение наилучшей практики внедрения (включая управление изменениями/управление конфигурацией) и/или будущих доработок. 5) План "Б" - стратегии восстановления (как и что нужно будет восстанавливать, если это потребуется). 6) Разработка плана (пишется план и определяются его элементы). 7) Обеспечение поддержки плана в организации и его тестирование (важно, чтобы все знали план и знали, что делать). 8) Реализация плана (затем выявляются и устраняются недостатки - после первых 3 мес, после 6 мес и ежегодно с момента первоначальной реализации). 9) Актуализация (постоянный мониторинг и внесение изменений, отражающих текущее состояние корпоративной среды). 10) Наконец, вывод системы из эксплуатации
Текущие решения	Вычислительная система	В настоящее время большие данные/Hadoop в облачной экосистеме в рамках финансовой отрасли работают как часть гибридной системы, причем технология больших данных используется в качестве полезного инструмента для проведения анализа рисков и выявления мошенничества, а также помогает организациям в процессе "знай своего клиента". Три области, в которых большие данные хорошо себя проявили, следующие: 1) выявление мошенничества, 2) взаимосвязанные риски, и 3) стратегия "знай своего клиента". В то же время традиционные клиент/ сервер/ хранилище данных/СУБД используются для управления, обработки, хранения и архивирования финансовых данных субъектов. Недавно SEC одобрила инициативу, согласно которой с 13 мая 2013 г. учреждения финансовой отрасли должны будут представлять документы финансовой отчетности в формате XBRL
	Хранилище данных	Одни и те же федеральные, штатов, местные и трансграничные законодательно-нормативные требования могут оказывать влияние в любых географических точках, затрагивая решения VMware, NetApps, Oracle, IBM, Brocade и т.д. Для сведения Исходя из требований законодательства эти решения для хранения данных финансовой отрасли должны обеспечивать исполнение существующих на данный момент времени американских законодательно-нормативных требований стратегического управления, управления рисками и соблюдения требований (GRC) и конфиденциальности, целостности и доступности (CIA). Чтобы убедиться в этом, необходимо посетить веб-сайты следующих федеральных органов: Федеральной комиссии по ценным бумагам и биржам (Securities and Exchange Commission, SEC), Комиссии по торговле товарными фьючерсами (Commodity Futures Trading Commission, CFTC), Федеральной корпорации страхования депозитов (FDIC), Министерства юстиции США (U.S. Department of Justice), и Некоммерческой организации по надзору за отчетностью публичных компаний, США (РСАОВ)
	Сеть связи	Для сведения Одни и те же федеральные, штатов, местные и трансграничные законодательно-нормативные требования могут оказывать влияние в любых географических точках расположения оборудования и программного обеспечения, включая, но не ограничиваясь системами типа WAN, LAN, MAN, WiFi, оптоволокно, доступ в интернет, через публичные, частные, кооперативные и гибридные облачные среды, с VPN или без него. Исходя из требований законодательства эти сетевые решения для данных финансовой отрасли должны обеспечивать исполнение существующих на данный момент времени американских законодательно-нормативных требований стратегического управления, управления рисками и соблюдения требований (GRC) и конфиденциальности, целостности и доступности (CIA), таких как требования Казначейства США. Чтобы убедиться в этом, пожалуйста, посетите веб-сайты следующих федеральных органов: SEC, CFTC, FDIC, Казначейства США, Министерства юстиции США и Некоммерческой организации по надзору за отчетностью публичных компаний, США (РСАОВ)
	Программное обеспечение	Для сведения Те же федеральные, штатов, местные и трансграничные законодательно-нормативные требования, что оказывают влияние в местах расположения оборудования и программного обеспечения, также ограничивают возможное местоположение для решений с открытым исходным кодом Hadoop, Map/Reduce и проприетарных решений поставщиков, таких как AWS (Amazon Web Services), Google Cloud Services и Microsoft. Исходя из требований законодательства эти программные решения, включающие как протокол SOAP (Simple Object Access Protocol) для веб-разработки, так и программный язык OLAP (online analytical processing) для баз данных, особенно в случае обработки данных финансовой отрасли, должны обеспечивать соответствие этих данных существующим на данный момент времени американским законодательно-нормативным требованиям стратегического управления, управления рисками и соблюдения требований (GRC) и конфиденциальности, целостности и доступности (CIA). Чтобы убедиться в этом, пожалуйста, посетите веб-сайты следующих федеральных органов: SEC, CFTC, Казначейства США, FDIC, Министерства юстиции США и Некоммерческой организации по надзору за отчетностью публичных компаний, США (РСАОВ)
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Для сведения Те же федеральные, штатов, местные и трансграничные законодательно-нормативные требования, что оказывают влияние в местах расположения оборудования и программного обеспечения, также оказывают свое влияние в местах расположения распределенных/ централизованных источников данных, поступающих в среду высокой доступности с обеспечением восстановления после катастроф (HA/DR Environment) и в хостинговый виртуальный сервер (HVS), например, в следующих конфигурациях: DC1 -> VMWare/KVM (кластеры, с виртуальными брандмауэрами), Data link - VMWare Link - Vmotion Link - Network Link, несколько мостовых соединений с поставщиком (РВ) в рамках NaaS (сеть как сервис), DC2 -> VMWare/KVM (кластеры с виртуальными брандмауэрами), DataLink (Vmware Link, Vmotion Link, Network Link), несколько мостовых соединений с поставщиком в рамках NaaS (требуется отказоустойчивая виртуализация), среди прочих соображений. Исходя из требований законодательства эти решения для источников данных, как распределенных, так и/или централизованных, в случае обработки данных финансовой отрасли должны обеспечивать соответствие этих данных существующим на данный момент времени американским законодательно-нормативным требованиям стратегического управления, управления рисками и соблюдения требований (GRC) и конфиденциальности, целостности и доступности (CIA). Чтобы убедиться в этом, пожалуйста, посетите веб-сайты следующих федеральных органов: SEC, CFTC, Казначейства США, FDIC, Министерства юстиции США и Некоммерческой организации по надзору за отчетностью публичных компаний, США (РСАОВ)
	Объем (количество)	От нескольких терабайт до нескольких петабайт. Для сведения Это зона, свободная от флоппи-дисков
	Скорость обработки (например, в реальном времени)	При использовании больших данных в финансовой отрасли скорость обработки более важна для выявления мошенничества, оценки риска и в рамках процесса "знай своего клиента". Для сведения Однако исходя из требований законодательства, скорость обработки не является проблемой для решений на основе технологии больших данных, используемых для обработки данных финансовой отрасли, за исключением задач выявления мошенничества, анализа рисков и анализа клиентов. Исходя из установленных законодательством ограничений, скорость обработки не является проблемой; скорее, главной проблемой при обработке данных финансовой отрасли является необходимость обеспечивать соответствие существующим на данный момент времени американским законодательно-нормативным требованиям стратегического управления, управления рисками и соблюдения требований (GRC) и конфиденциальности, целостности и доступности (CIA)
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Различные виртуальные среды, работающие в рамках архитектуры пакетной обработки или параллельной архитектуры с "горячей" заменой (hot-swappable parallel architecture), поддерживающие выявление мошенничества, оценку риска и решений по обслуживанию клиентов. Для сведения Исходя из требований законодательства, разнообразие не является проблемой для решений на основе технологии больших данных, используемых для обработки данных финансовой отрасли в рамках облачной экосистемы, за исключением задач выявления мошенничества, анализа рисков и анализа клиентов. Исходя из установленных законодательством ограничений, разнообразие не является проблемой; скорее, главной проблемой при обработке данных финансовой отрасли является необходимость обеспечивать соответствие существующим на данный момент времени американским законодательно-нормативным требованиям стратегического управления, управления рисками и соблюдения требований (GRC) и конфиденциальности, целостности и доступности (CIA)
	Вариативность (темпы изменения)	Для сведения Исходя из требований законодательства, вариативность не является проблемой для решений на основе технологии больших данных, используемых для обработки данных финансовой отрасли в рамках облачной экосистемы, за исключением задач выявления мошенничества, анализа рисков и анализа клиентов. Исходя из установленных законодательством ограничений, вариативность не является проблемой; скорее, главной проблемой при обработке данных финансовой отрасли является необходимость обеспечивать соответствие существующим на данный момент времени американским законодательно-нормативным требованиям стратегического управления, управления рисками и соблюдения требований (GRC) и конфиденциальности, целостности и доступности (CIA). Вариативность больших данных финансовой отрасли в облачной экосистеме будет зависеть от силы и полноты соглашений об уровне обслуживания (SLA), от связанных с деловой активностью и зависящих от ее потребностей капитальных затрат (СарЕх)
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	Для сведения Исходя из требований законодательства, достоверность не является проблемой для решений на основе технологии больших данных, используемых для обработки данных финансовой отрасли в рамках облачной экосистемы, за исключением задач выявления мошенничества, анализа рисков и анализа клиентов. Исходя из установленных законодательством ограничений, достоверность не является проблемой; скорее, главной проблемой при обработке данных финансовой отрасли является необходимость обеспечивать соответствие существующим на данный момент времени американским законодательно-нормативным требованиям стратегического управления, управления рисками и соблюдения требований (GRC) и конфиденциальности, целостности и доступности (CIA). В облачной экосистеме больших данных целостность данных важна на протяжении всего жизненного цикла организации, связанных с защитой персональных данных и обеспечением безопасности и законодательно-нормативных требований стратегического управления, управления рисками и соблюдения требований (GRC) и конфиденциальности, целостности и доступности (CIA)
	Визуализация	Для сведения Исходя из требований законодательства, визуализация не является проблемой для решений на основе технологии больших данных, используемых для обработки данных финансовой отрасли, за исключением задач выявления мошенничества, анализа рисков и анализа клиентов; данные обрабатываются традиционными клиент/ сервер/ хранилище данных - серверами на базе суперкомпьютеров. Исходя из установленных законодательством ограничений, визуализация не является проблемой; скорее, главной проблемой при обработке данных финансовой отрасли является необходимость обеспечивать соответствие существующим на данный момент времени американским законодательно-нормативным требованиям стратегического управления, управления рисками и соблюдения требований (GRC) и конфиденциальности, целостности и доступности (CIA). Целостность данных в рамках больших данных играет критически важную роль на протяжении всего жизненного цикла организации ввиду законодательно-нормативных требований стратегического управления, управления рисками и соблюдения требований (GRC) и конфиденциальности, целостности и доступности (CIA)
	Качество данных (синтаксис)	Для сведения Исходя из требований законодательства, качество данных всегда будет серьезным вопросом, вне зависимости от отрасли или платформы. Исходя из установленных законодательством ограничений, качество данных является ключевым для целостности данных; и оно представляет собой главную проблему при обработке данных финансовой отрасли в связи с необходимостью обеспечивать их соответствие существующим на данный момент времени американским законодательно-нормативным требованиям стратегического управления, управления рисками и соблюдения требований (GRC) и конфиденциальности, целостности и доступности (CIA). Для больших данных финансовой отрасли целостность данных играет критически важную, ключевую роль на протяжении всего жизненного цикла организации ввиду, целостности и доступности (CIA)
	Типы данных	Для сведения Исходя из требований законодательства, типы данных важны ввиду того, что они должны обладать определенной степенью согласованности и особенно жизнеспособности во время аудитов и цифровой криминалистической экспертизы, когда деградация формата данных может негативно повлиять как на аудит, так и на криминалистическую экспертизу, когда те проходят через несколько циклов. Многочисленные типы данных и форматов в составе больших данных финансовой отрасли включают (но не ограничиваются ими): плоские файлы, txt, .pdf, файлы приложений для Android, .wav, .jpg и VOIP (передача голоса с использованием протокола IP)
	Аналитика данных	Для сведения Исходя из требований законодательства аналитика данных является серьезным вопросом для решений на основе технологии больших данных, используемых для обработки данных финансовой отрасли, особенно в плане задач выявления мошенничества, анализа рисков и анализа клиентов. В то же время задачи аналитики данных для данных финансовой отрасли в настоящее время обрабатываются традиционными клиент/ сервер/ хранилище данных - серверами на базе суперкомпьютеров, которые должны обеспечивать соответствие существующим на данный момент времени американским законодательно-нормативным требованиям стратегического управления, управления рисками и соблюдения требований (GRC) и конфиденциальности, целостности и доступности (CIA). Для целей аналитики данных на основе больших данных финансовой отрасли, данные должны поддерживаться в формате, исключающем деградацию во время обработки и процедур поиска и анализа
Иные проблемы больших данных	В настоящее время проблемные области, связанные с большими данными финансовой отрасли в рамках облачной экосистемы, включают в себя агрегирование и хранение данных (чувствительных, токсичных и иных) из нескольких источников, что может создавать и создает административные и управленческие проблемы, связанные со следующими аспектами: - контроль доступа, - управление/администрирование, - право на получение данных, и - права собственности на данные. Тем не менее, как показывает текущий анализ, эти вопросы и проблемы широко известны и решаются в данный момент времени поставщиками технологий с помощью методологий управления жизненным циклом программного обеспечения и оборудования (Software Development Life Cycle/Hardware Development Life Cycle, SDLC/HDLC) на стадиях исследований и разработки
Проблемы пользовательского интерфейса и мобильного доступа	Обеспечение мобильного доступа - это постоянно растущий слой технической сложности, однако не все решения для мобильного использования больших данных носят технический характер. Есть две взаимосвязанные и взаимозависимые стороны, которые должны работать вместе над тем, чтобы найти работоспособное и жизнеспособное решение - это представители основной деятельности финансовой отрасли и ИТ. Технические проблемы решаемы, если обе эти стороны согласны использовать общую лексику и таксономию и уважают, и понимают требования, которые каждая из них обязана удовлетворить. Обе стороны в рамках этих совместных усилий столкнутся со следующими существующими и длящимися проблемными вопросами, связанными с данными финансовой отрасли: - несогласованность при отнесении к категориям, - изменения с течением времени в системах классификации, - использование нескольких перекрывающихся или различающихся схем категоризации. Помимо решения задачи, связанной с этими изменяющимися и эволюционирующими несоответствиями, необходимо также обеспечить следующие характеристики данных, связанные с принципом ACID: - атомарность (Atomic) - либо будут полностью выполнены все подоперации в рамках транзакции, либо не будет выполнена ни одна из них. - согласованность (Consistent) - в результате выполнения транзакции база данных переходит из одного согласованного состояния в другое согласованное состояние. Согласованность определяется с точки зрения выполнения ограничений. - изолированность (Isolated) - результаты любых изменений, внесенных в ходе транзакции, не видны до тех пор, пока транзакция не будет полностью завершена. - стойкость (Durable) - изменения, внесенные успешно совершенной транзакцией, должны сохраниться в случае сбоев и отказов системы
Технические проблемы обеспечения безопасности и защиты персональных данных	Никакое количество должной предусмотрительности, проявленной в вопросах безопасности и защиты персональных данных, не способно компенсировать врожденные недостатки, связанные с природой человека и проникающие в любую программу и/или стратегию. В настоящее время при внедрении технологии больших данных в финансовой отрасли приходится иметь дело с растущим числом групп риска, среди которых, в частности, можно назвать такие, как: - борьба с легализацией (отмыванием) незаконных доходов (Anti-Money Laundering), - надлежащая проверка клиентов (Client Due Diligence), - списки наблюдения (Watch lists), - федеральный закон США о борьбе с коррупцией в международной деятельности (Foreign Corrupt Practices Act, FCPA). Для того чтобы получить представление о реальном положении дел, посмотрите на девятилетние усилия Гарри Маркополоса (Harry М. Markopolos), направленные на то, чтобы заставить SEC, среди других федеральных органов исполнительной власти США, выполнить свою работу и закрыть финансовую пирамиду Бернарда Мэдоффа (Bernard Madoff) на сумму в миллиард долларов. Помимо этого, выявление и удовлетворение требований по защите неприкосновенности частной жизни и безопасности для организаций финансовой отрасли, предоставляющих услуги в рамках экосистемы больших данных/облака, благодаря постоянному совершенствованию: 1) технологий, 2) процессов, 3) процедур, 4) кадров и 5) нормативного регулирования, - это гораздо лучший выбор как для отдельного человека, так и для организации, особенно если сравнить с альтернативами. Используя многоуровневый подход, данную стратегию можно разбить на следующие подкатегории: 1) поддержание устойчивости операционной деятельности, 2) защита ценных активов, 3) контроль над учетными записями в системе, 4) эффективное управление сервисами безопасности, и 5) поддержание устойчивости операционной деятельности. За дополнительной информацией о базовых решениях задач безопасности и защиты персональных данных рекомендуется обращаться к двум организациям: - Международная ассоциация аудита и контроля информационных систем (ISACA); - Международный консорциум по сертификации в области безопасности информационных систем (isc2)
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)	Проблемные области включают в себя агрегирование и хранение данных из нескольких источников, где могут возникнуть проблемы, связанные с: - контролем доступа, - управлением/администрированием, - правом на получение данных, и - правами собственности на данные. Каждая из этих областей совершенствуется, но на них, тем не менее, следует обратить внимание и принять меры, используя решения для контроля доступа и инструменты управления информацией о безопасности и событиями безопасности SIEM (Security information and event management). Эта задача пока что не решена, принимая во внимание проблемы безопасности, которые упоминаются всякий раз, когда речь заходит о больших данных/Hadoop в рамках облачной экосистемы. Текущие и длящиеся проблемы внедрения больших данных для финансовой отрасли в рамках облачной экосистемы, а также традиционных архитектур типа клиент/ сервер/ хранилище данных, включают следующие области финансового учета в соответствии как с общепринятыми принципами бухгалтерского учета США (U.S. Generally Accepted Accounting Practices, US GAAP), так и Международными стандартами финансовой отчетности, МСФО (International Financial Reporting Standards, IFRS): - использование расширяемого языка разметки для деловой отчетности (XBRL); - согласованность (терминологии, форматирования, технологий, нормативного регулирования); - предписание Федеральной комиссии по ценным бумагам и биржам SEC использовать XBRL для финансовой отчетности перед регулятором; - меняются требования SEC, принципы бухгалтерской отчетности GAAP/IFRS и еще не полностью завершенное новое финансовое законодательство, влияющее на требования к отчетности, - и эти изменения указывают на попытки усовершенствовать наилучшие практики внедрения, тестирования, обучения, отчетности и информационного обмена, требуемые от независимого аудитора в отношении аудита, аудиторских отчетов, самооценки мер контроля и управления, финансовых аудитов, внутренних аудитов, соблюдения Общепринятых стандартов аудита (Generally Accepted Auditing Standards, GAAS)/Международных стандартов аудита (International Standard on Auditing, ISA), a также Закона Сарбейнса-Оксли 2002 г. (Sarbanes-Oxley Act of 2002, SOX)
Дополнительная информация (гиперссылки)	1) "10 главных проблем обеспечения безопасности и неприкосновенности частной жизни при использовании технологии больших данных" (Тор 10 Challenges in big data Security and Privacy), Рабочая группа по большим данным Альянса облачной безопасности (Cloud Security Alliance), 2012, https://downloads.cloudsecurityalliance.org/initiatives/bdwg/Big_Data_Top_Ten_v1.pdf 2) Рабочая группа "Международная финансовая отчетность, ценные бумаги и рынки" (IFRS, Securities and Markets Working Group) на сайте сообщества XBRL Europe (https://www.xbrleurope.org/), продвигающего использование языка XBLR в Европе, см. https://www.xbrleurope.org/?page_id=357 3) Конференция по большим данным Международной ассоциации специалистов по электротехнике и радиоэлектронике IEEE (IEEE International Conference on Big Data), см. http://bigdataieee.org/ 4) Сайт по технологии Map/Reduce, http://www.mapreduce.org (ссылка неработающая) 5) Некоммерческая организация по надзору за отчетностью публичных компаний, США (РСАОВ), https://pcaobus.org/ 6) Аналитика по вопросам страхования на сайте фирмы "Эрнст и Янг" (Ernst & Young), см. https://www.ey.com/en_gl/insurance 7) Ресурсы по теме финансовых рынков и финансовых институтов на сайте Казначейства США, см. https://www.treasury.gov/resource-center/fin-mkts/Pages/default.aspx 8) Комиссия по торговле товарными фьючерсами (Commodity Futures Trading Commission, CFTC), см. https://www.cftc.gov/ 9) Федеральная комиссия по ценным бумагам и биржам (Securities and Exchange Commission, SEC), см. https://www.sec.gov/ 10) Федеральная корпорация страхования депозитов (FDIC), см. https://www.fdic.gov/ 11) Комитет спонсорских организаций (COSO), см. https://www.coso.org/ 12) Международный консорциум по сертификации в области безопасности информационных систем (isc2), см. https://www.isc2.org/ 13) Международная ассоциация аудита и контроля информационных систем (ISACA), см. https://www.isaca.org/ 14) Фонд IFRS - разработчик Международных стандартов финансовой отчетности, МСФО (International Financial Reporting Standards, IFRS), см. https://www.ifrs.org/ 15) Сайт консорциума Open Group, https://www.opengroup.org/ 16) Джейкумар Виджаян (Jaikumar Vijayan) "ИТ должно подготовиться к проблемам безопасности в Hadoop" (IT must prepare for Hadoop security issues), Computerworld, 9 ноября 2011 года, см. https://www.computerworld.com/article/2498601/it-must-prepare-for-hadoop-security-issues.html 17) Гарри Маркополос "Финансовая пирамида Бернарда Мэдоффа. Расследование самой грандиозной аферы в истории", изд-во Диалектика, 2012, ISBN: 978-5-8459-1686-0, 978-0-470-55373-2 18) "Оценка финансовой пирамиды Мэдоффа и провалов в работе регуляторов" (Assessing the Madoff Ponzi Scheme and Regulatory Failures), слушания подкомитета по рынкам капитала, страхованию и спонсируемым государством предприятиям (Subcommittee on Capital Markets, Insurance, and Government Sponsored Enterprises), 2009 год, https://www.gpo.gov/fdsys/pkg/CHRG-111hhrg48673/pdf/CHRG-111hhrg48673.pdf 19) Сайт ITIL (Библиотека инфраструктуры информационных технологий), см. https://www.axelos.com/best-practice-solutions/itil 20) Стандарт COBIT 2019 CobiT (от Control Objectives for Information and Related Technology - "Цели управления информационными и смежными технологиями) на сайте Международной ассоциации аудита и контроля информационных систем (ISACA), см. https://www.isaca.org/resources/cobit 21) Концепция архитектуры "Открытой группы" (The Open Group Architecture Framework, TOGAF) версии 9.2, http://www.opengroup.org/togaf/ 22) Международный стандарт ИСО/МЭК 27000:2018 "Информационная технология. Методы и средства обеспечения безопасности. Системы менеджмента информационной безопасности. Общий обзор и терминология" (Information technology - Security techniques - Information security management systems - Overview and vocabulary), https://www.iso.org/standard/73906.html, свободно доступен по адресу https://standards.iso.org/ittf/PubliclyAvailableStandards/c073906_ISO_IEC_27000_2018_E.zip ¹⁾

------------------------------

¹⁾_{В России стандарт адаптирован (в более ранней редакции) как ГОСТ Р ИСО/МЭК 27000-2072, см. http://protect.gost.ru/v.aspx?control=8&baseC=6&id=175549}

------------------------------

ГАРАНТ:

По-видимому, в тексте предыдущего абзаца допущена опечатка. Вместо слов "ГОСТ Р ИСО/МЭК 27000-2072" следует читать "ГОСТ Р ИСО/МЭК 27000-2012"

А.2.2 Вариант использования N 6: Международная исследовательская сеть Mendeley

Название	Международная исследовательская сеть Mendeley
Предметная область	Коммерческие облачные услуги для клиентов
Автор/организация/эл. почта	Уильям Ган (William Gunn)/Mendeley/william.gunn@mendeley.com
Акторы/заинтересованные лица, их роли и ответственность	Исследователи, библиотекари, издатели и финансирующие организации
Цели	Содействие более быстрому прогрессу в научных исследованиях, обеспечивая возможность исследователям эффективно сотрудничать, библиотекарям - понимать потребности исследователей, издателям - быстрее и шире распространять результаты исследований, а финансирующим организациям - лучше понимать воздействие финансируемых ими проектов
Описание варианта использования	Международная сеть "Менделей" (Mendeley) создала базу данных научно-исследовательских материалов, которая облегчает создание коллективно используемых библиографий. Менделей использует собранную информацию о закономерностях чтения материалов об исследованиях, а также о других видах деятельности, осуществляемых с помощью программного обеспечения, с целью создания более эффективных инструментов для поиска и анализа научной литературы. Системы интеллектуального анализа и классификации текста позволяют автоматически рекомендовать взаимосвязанные исследования, повышая производительность и экономическую эффективность исследовательских групп, в особенности тех, которые занимаются мониторингом литературы по конкретной теме, таких как группа "Информатика генома мышей" (Mouse Genome Informatics) в некоммерческом научно-исследовательском институте Jackson Laboratory, в которой большая группа специалистов занимается просмотром литературы "вручную". Другие варианты использования включают поддержку более быстрого распространения публикаций издателями, содействие научно-исследовательским учреждениям и библиотекарям в исполнении планов менеджмента данных, а также предоставление спонсорам возможности лучше понять воздействие финансируемой ими работы благодаря доступным в реальном времени данным о доступе и использовании финансируемых исследований
Текущие решения	Вычислительная система	Amazon ЕС2
	Хранилище данных	HDFS Amazon S3
	Сеть связи	Клиент - серверные соединения между компьютерами Mendeley и конечных пользователей, соединения между офисами Mendeley и сервисами Amazon
	Программное обеспечение	Hadoop, Scribe, Hive, Mahout, Python
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Распределенные и централизованные
	Объем (количество)	В настоящее время 15 терабайт, с темпом прироста около 1 терабайта в месяц
	Скорость обработки (например, в реальном времени)	В настоящее время пакетные задания Hadoop планируются раз в день, но началась работа над рекомендациями по выполнению работ в реальном времени
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	PDF-документы, лог-файлы социальной сети и активности клиентов
	Вариативность (темпы изменения)	В настоящее время темпы роста высокие, поскольку все больше исследователей подписываются на данную услугу; темпы роста сильно колеблются в течение года
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	Извлечение метаданных из PDF-файлов осуществляется в различной степени; выявление дубликатов является проблемой; нет универсальной системы идентификаторов для документов и авторов (хотя "Открытый идентификатор исследователя и участника" ORCID (Open Researcher and Contributor ID) обещает решить эту задачу)
	Визуализация	Визуализация сети с использованием программного обеспечения Gephi, диаграммы рассеяния (scatterplots) в плоскости читательская аудитория - цитируемость, и т.д.
	Качество данных (синтаксис)	На основе сопоставления со сведениями в базах данных Crossref, PubMed и arXiv, корректность извлечения метаданных оценивается в 90 %
	Типы данных	В основном PDF-файлы, а также некоторое количество графических образов, электронных таблиц и презентаций
	Аналитика данных	Стандартные библиотеки для проведения машинного обучения и аналитики, выполнения латентного размещения Дирихле (LDA), а также специально разработанные инструменты составления отчетности и визуализации данных для агрегирования сведений о читательской и социальной активности, связанной с каждым документом
Иные проблемы больших данных	База данных содержит примерно 400 миллионов документов, в том числе около 80 миллионов уникальных документов, принимая в рабочие дни от 500 до 700 тысяч новых загрузок. Таким образом, основная проблема заключается в группировке соответствующих друг другу документов вычислительно эффективным (т.е. масштабируемым и распараллеливаемым) способом, когда они загружаются из разных источников и могут быть слегка модифицированы инструментами аннотирования третьих сторон или же путем присоединения титульных страниц или наложения "водяных знаков" издателя
Проблемы пользовательского интерфейса и мобильного доступа	Доставка контента и услуг на различные вычислительные платформы, от настольных компьютеров под Windows до мобильных устройств под ОС Android и iOS
Технические проблемы обеспечения безопасности и защиты персональных данных	Исследователи, особенно отраслевые, часто хотят, чтобы сведения о том, что они читают, оставались конфиденциальными, поэтому доступ к данным о том, кто что читает, контролируется
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)	Данный вариант использования может быть обобщен как предоставление основанных на контенте рекомендаций для различных сценариев потребления информации
Дополнительная информация (гиперссылки)	Сайт Mendeley, https://www.mendeley.com/ Портал Mendeley для разработчиков, https://dev.mendeley.com/

А.2.3 Вариант использования N 7: Сервис кинофильмов Netflix

Название	Сервис кинофильмов Netflix
Предметная область	Коммерческие облачные услуги для клиентов
Автор/организация/эл. почта	Джоффри Фокс (Geoffrey Fox), университет штата Индиана (США), gcf@indiana.edu
Акторы/заинтересованные лица, их роли и ответственность	Компания Netflix (устойчивое развитие бизнеса), провайдер облачных услуг (поддержка потоковой передачи и анализа данных), пользователь-клиент (отбор и просмотр хороших фильмов по требованию)
Цели	Обеспечение потоковой передачи выбранных пользователем фильмов с целью достижения нескольких целей (в интересах различных заинтересованных сторон), - в первую очередь, с целью удержания подписчиков. Определение наилучшей возможной подборки видеоматериалов для пользователя (домохозяйства) в заданном контексте, в режиме реального времени; максимизация потребления фильмов
Описание варианта использования	Цифровые фильмы хранятся в облаке вместе с метаданными, а также с индивидуальными профилями пользователей и рейтингами для небольшой части фильмов. Используется несколько критериев: рекомендательная система на основе контента, рекомендательная система на основе данных пользователей и разнообразие. Алгоритмы постоянно совершенствуются с помощью А/В - тестирования
Текущие решения	Вычислительная система	Amazon Web Services (AWS)
	Хранилище данных	Используется технология Cassandra NoSQL вместе с Hive, Teradata
	Сеть связи	Требуется система доставки контента для поддержки эффективного потокового видео
	Программное обеспечение	Hadoop и Pig, Cassandra, Teradata
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Фильмы добавляются в сервис на основе соглашений с производителями контента. Распределенным образом собираются пользовательские рейтинги и профили
	Объем (количество)	По состоянию на лето 2012 г.: 25 млн подписчиков; 4 млн оценок в день; 3 млн поисковых запросов в день; 1 млрд часов потокового видео в июне 2012 г. Объем облачного хранения 2 петабайта (июнь 2013 г.)
	Скорость обработки (например, в реальном времени)	Контент (видео и характеристики) и рейтинги постоянно обновляются
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Данные варьируются от цифровых мультимедийных материалов до пользовательских рейтингов, профилей пользователей и параметров мультимедиа, используемых для основанных на контенте рекомендаций
	Вариативность (темпы изменения)	Потоковое видео - очень конкурентный бизнес. Необходимо знать о других компаниях, а также о тенденциях, связанных как с контентом (какие фильмы популярны), так и с технологиями. Нужно изучать новые деловые инициативы, такие, как спонсируемый Netflix контент
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	Для успешности бизнеса требуется отличное качество обслуживания
	Визуализация	Потоковое мультимедиа и качественный пользовательский опыт, позволяющий выбирать контент
	Качество данных (синтаксис)	Рейтинги по своей природе являются "непричесанными" данными, и для их обработки требуются надежные и устойчивые алгоритмы обучения
	Типы данных	Мультимедийный контент, профили пользователей, набор пользовательских рейтингов
	Аналитика данных	Рекомендательные системы и доставка потокового видео. Рекомендательные системы всегда персонализированы и используют логистическую/ линейную регрессию, эластичные сети, факторизацию матриц, кластеризацию, латентное размещение Дирихле (LDA), ассоциативные правила, градиентный бустинг деревьев решений и другие инструменты. Победитель конкурса Netflix, в котором ставилась задача повышения рейтинга на 10 %, использовал комбинацию более 100 различных алгоритмов
Иные проблемы больших данных	Аналитика требует постоянного мониторинга и совершенствования
Проблемы пользовательского интерфейса и мобильного доступа	Мобильный доступ важен
Технические проблемы обеспечения безопасности и защиты персональных данных	Необходимо защитить неприкосновенность частной жизни пользователей и цифровые права на контент.
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)	Рекомендательные системы имеют общие черты с системами электронной коммерции типа Amazon. Потоковое видео имеет общие черты с другими сервисами доставки контента, такими как iTunes, Google Play, Pandora и Last.fm
Дополнительная информация (гиперссылки)	Ксавьер Аматрян (Xavier Amatriain) "Создание реальных крупномасштабных рекомендательных систем - Обучающий курс Recsys - 2012" (Building Large - scale Real - world Recommender Systems - Recsys - 2012 Tutorial), конференция по рекомендательным системам 2012 г. Recsys-2012 в Дублине, Ирландия, https://www.slideshare.net/xamat/building-largescale-realworld-recommender-systems-recsys2012-tutorial "Алгоритм надежного выявления аномалий (Robust Anomaly Detection, RAD) - Выявление аномалий в больших данных" (RAD - Outlier Detection on big data), блог Netflix по техническим вопросам, https://netflixtechblog.com/rad-outlier-detection-on-big-data-d6b0494371cc

А.2.4 Вариант использования N 8: Веб-поиск

Название	Веб-поиск (Bing, Google, Yahoo и др.)
Предметная область	Коммерческие облачные услуги для клиентов
Автор/организация/эл. почта	Джоффри Фокс (Geoffrey Fox), университет штата Индиана (США), gcf@indiana.edu
Акторы/заинтересованные лица, их роли и ответственность	Владельцы выложенной в Интернете информации, по которой проводится поиск; компании - поставщики поисковых систем; рекламодатели; пользователи
Цели	Выдать примерно через 0,1 секунды результаты поиска по запросу, включающему в среднем три слова. Важно максимизировать такие метрики, как "точность 10 наилучших результатов" (precision@10), отражающие количество высокоточных/соответствующих запросу ответов в первой десятке лучших ранжированных результатов.
Описание варианта использования	1) Провести сканирование Интернета; 2) провести предварительную обработку данных с целью выделения элементов, по которым можно вести поиск (слова, позиции); 3) сформировать инвертированный индекс, связывающий слова с их местоположением в документах; 4) ранжирование документов по релевантности с использованием алгоритма PageRank; 5) использовать разнообразные рекламно-маркетинговые технологии, обратное проектирование определения моделей ранжирования либо блокирование обратного проектирования; 6) провести кластеризацию документов по темам (как в Google News); 7) обеспечить эффективное обновление результатов
Текущие решения	Вычислительная система	Крупные облачные системы
	Хранилище данных	Инвертированный индекс не является огромным; в то же время собранные в ходе сканирования Интернета материалы представляют собой петабайты текста, а мультимедийные материалы по объемам еще намного больше
	Сеть связи	В плане сетевой инфраструктуры, необходимы отличные внешние сетевые соединения; большинство операций хорошо распараллеливаются и требовательны к скорости ввода/вывода (I/O sensitive). Высокая производительность внутренней сети не требуется
	Программное обеспечение	Map/Reduce + Bigtable; Dryad + Cosmos. PageRank. Последний этап по сути представляет собой рекомендательную систему
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Распределенные веб-сайты
	Объем (количество)	В общей сложности около 45 млрд веб-страниц; ежедневно загружается 500 млн фотографий; и ежеминутно на YouTube закачивается 100 часов видеоматериалов
	Скорость обработки (например, в реальном времени)	Данные постоянно обновляются
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Богатый набор функций. После обработки данные для каждой страницы (кроме мультимедийных объектов) аналогичны
	Вариативность (темпы изменения)	В среднем срок существования веб-страницы составляет несколько месяцев
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	Абсолютная точность результатов не является жизненно необходимой, однако важно, чтобы были найдены соответствующие поисковому запросу основные центры компетенций и авторитетные источники
	Визуализация	Не важна, однако схема расположения выдаваемых результатов (page layout) имеет ключевое по важности значение
	Качество данных (синтаксис)	Огромное количество дублирования и спама
	Типы данных	В основном текст, но растет интерес к быстро растущим объемам графических образов и видеоконтента
	Аналитика данных	Веб-сканирование, поиск (в том числе по тематике), ранжирование, рекомендации
Иные проблемы больших данных	Поиск по "глубинному интернету" (deep web-контент, не индексируемый стандартными поисковыми системами, скрытый за пользовательскими интерфейсами к базам данных и т.д.). Ранжирование результатов, способное учитывать как внутреннюю ценность материалов (как в алгоритме PageRank), так и ценность для маркетинга. Связывание профилей пользователей с данными из социальных сетей
Проблемы пользовательского интерфейса и мобильного доступа	Мобильный поиск должен иметь похожие интерфейсы и выдавать похожие результаты
Технические проблемы обеспечения безопасности и защиты персональных данных	Следует принимать во внимание ограничения на веб-сканирование; избегать спама в результатах поиска
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)	Взаимосвязь с направлением поиска и извлечения информации (information retrieval), например с поиском научных работ
Дополнительная информация (гиперссылки)	Мэри Миикер (Mary Meeker) и Лиан By (Liang Wu) из фирмы Kleiner Perkins Caufield & Byers (KPCB), "Тенденции развития интернета" (Internet Trends - D11 Conference), 29 мая 2013 года, https://www.slideshare.net/betobetico/kpcb-internet-trends-2013-mary-meeker План учебного курса "Введение в технологию поисковых систем" (236621 Introduction to Search Engine Technology), Израильский технологический институт "Технион", 2011-2012, https://webcourse.cs.technion.ac.il/236621/Winter2011-2012/comp/WCFiles/syllabus3p-2011-12.pdf План учебного курса SS 2011 "Поиск и извлечение информации и системы поиска в интернете" (Information Retrieval and Web Search Engines) и Институте информационных систем Технического университета Брауншвейга, Германия, http://www.ifis.cs.tu-bs.de/teaching/ss-11/irws Дипак Агарваль (Deepak Agarwal) и Бичун Чень (Bee-Chung Chen), "Учебный курс ICMUL'1: Проблемы рекомендационных систем для веб-приложений. Часть 1: Введение" (ICML''11 Tutorial: Recommender Problems for Web Applications. Part 1: Introduction), Международная конференция по машинному обучению (International Conference on Machine Learning, ICML) 2011 года, https://www.slideshare.net/beechung/recommender-systems-tutorialpart1intro Сайт "Объем всемирной паутины" (The size of the World Wide Web (The Internet)), https://www.worldwidewebsize.com/

А.2.5 Вариант использования N 9: Обеспечение непрерывности деловой деятельности и восстановления после катастроф для больших данных в облачной экосистеме

Название	Обеспечение непрерывности деловой деятельности и восстановления после катастроф по модели IaaS (инфраструктура как сервис) для больших данных в облачной экосистеме, осуществляемое провайдерами облачного сервиса (CSP) и провайдерами облачного брокерского сервера (CBSP)
Предметная область	Крупномасштабное надежное хранение данных
Автор/организация/эл. почта	П.Кэри (Pw Carey), Compliance Partners LLC, pwc.pwcarey@email.com
Акторы/заинтересованные лица, их роли и ответственность	Высшее руководство, хранители данных и сотрудники, ответственные за целостность, защиту, обеспечение неприкосновенности частной жизни, конфиденциальности, доступности, безопасности, защищенности и живучести деловой деятельности посредством обеспечения трех аспектов доступности данных для сервисов организации: в любое время, в любом месте и на любом устройстве
Цели	Ниже представлен один из подходов к разработке работоспособной стратегии обеспечения непрерывности деловой деятельности и восстановления после катастроф (ВС/DR). Прежде чем отдать данную стратегию организации на аутсорсинг, переложив ее на плечи провайдера облачного сервиса (CSP) или провайдера облачного брокерского сервера (CBSP), организация должна выполнить следующий комплекс работ, обеспечивающий любой организации, как государственной, так и частной, разработку базовой методологии для реализации наилучших практик BC/DR в рамках облачной экосистемы. Каждая организация должна рассмотреть десять сфер деятельности, поддерживающим обеспечение непрерывности деловой деятельности и восстановление после катастроф, с тем, чтобы понять и оценить то влияние, которое каждый из следующих четырех перекрывающихся и взаимозависимых факторов может оказать на обеспечении работоспособности решения по реализации BC/DR - плана организации. Этими четырьмя факторами являются люди (как ресурсы), процессы (например, время/затраты/возврат инвестиций (ROI)), технологии (например, различные операционные системы, платформы, а также зоны влияния/масштабы воздействия технологий) и стратегическое управление (зависит от многочисленных различных регулирующих органов). Данные четыре фактора должны быть выявлены, проанализированы, оценены, должны быть приняты соответствующие меры, проведены тестирование и анализ результатов. Данные факторы должны быть приняты во внимание на следующих десяти этапах: 1) инициирование проекта и получение поддержки со стороны руководства, 2) оценка рисков и выбор мер контроля и управления, 3) анализ влияния на деловую деятельность, 4) проектирование, разработка и тестирование стратегий обеспечения непрерывности деловой деятельности, 5) реагирование и деятельность в условиях чрезвычайных ситуаций (известное также как "Восстановление после катастроф"), 6) разработка и внедрение планов обеспечения непрерывности деловой деятельности, 7) программы ознакомления и обучения, 8) реализация мер по обеспечению непрерывности деловой деятельности (известное также как Maintaining Regulatory Currency - поддержание доверия со стороны регуляторов). 9) подготовка планов взаимодействия с общественностью (Public Relations, PR) и кризисного управления, 10) координация с государственными органами. Примечание - Где это уместно, эти десять направлений деятельности могут быть адаптированы к потребностям организации
Описание варианта использования	Разработанная Google технология больших данных предназначались для использования в качестве инструмента индексирования веб-сайтов в Интернете, помогая компании сортировать, перемешивать, классифицировать и маркировать Интернет. Первоначально она не рассматривалась как замена для устаревших ИТ-инфраструктур данных. Благодаря побочным разработкам в рамках OpenGroup и Hadoop, большие данные превратились в надежный инструмент анализа и хранения данных, который все еще продолжает развиваться. В итоге, однако, технологии больших данных по-прежнему разрабатываются в качестве дополнения к существующим ИТ-архитектурам хранилищ данных типа клиент/сервер/суперкомпьютер, что в некоторых отношениях лучше, чем эти самые среды хранилищ данных, но не во всех. В результате, в рамках настоящего варианта использования, связанного с обеспечением непрерывности деловой деятельности и восстановления после катастроф, необходимо задать правильные вопросы, такие как: Почему мы это делаем и чего мы пытаемся достичь? В чем мы зависим от "ручных" практик, и когда мы можем их использовать? Какие системы (как, например, телефонная связь) были и остаются переданными на аутсорсинг другим организациям, и каковы их функции в плане обеспечения непрерывности деловой деятельности (если есть)? Наконец, мы должны определить функции, которые можно упростить, и понять, какие профилактические меры, не требующие больших затрат, мы можем предпринять, такие как упрощение деловой практики. Мы должны определить, какие деловые функции являются критически важными и требующими восстановления в соответствии с приоритетом в первую, вторую, третью очередь или в более позднее время; какова модель чрезвычайных ситуаций, с которыми мы намерены бороться; каковы типы наиболее вероятных чрезвычайных ситуаций - исходя из понимания того, что нам не нужно рассматривать все возможные виды катастроф. Если резервное копирование данных в облачной экосистеме является хорошим решением, это сократит время восстановления после сбоя и удовлетворит требования к RTO/RPO. Кроме того, должны быть понимание и поддержка усилий по обеспечению непрерывности деловой деятельности в организации, поскольку это не проблема одной лишь службы ИТ; это также проблема оказания деловых услуг; требующая тестирования Плана действий в случае чрезвычайных ситуаций посредством плановой пошаговой проработки и т.д. Должна быть формальная методология разработки плана BC/DR, включающая: 1) заявление о политике (цель плана, обоснование и ресурсы и т.д. - каждый такой элемент следует определить), 2) анализ воздействия на деловую деятельность (как остановка повлияет на деловую деятельность в финансовом и в иных отношениях), 3) определение превентивных мер (можно ли избежать катастрофы, приняв разумные меры предосторожности), 4) стратегии восстановления (как и что нужно будет восстановить), 5) разработка плана (напишите план и реализуйте его элементы), 6) обеспечение поддержки плана в организации и его тестирование (важно, чтобы все знали план и знали, что делать в случае введения его в действие), 7) актуализация (регулярное внесение изменений, отражающих текущее состояние корпоративной среды)
Текущие решения	Вычислительная система	Облачные экосистемы, включающие предоставление инфраструктуры как сервиса (IaaS), поддерживаемые центрами обработки данных уровня Tier3 - защищенными, отказоустойчивыми в случае сбоев питания, отказов системы кондиционирования воздуха и т.д. Географически удаленные центры восстановления данных, обеспечивающие услуги репликации данных. Примечание - Репликация отличается от резервного копирования тем, что воспроизводятся только те изменения, которые произошли после предыдущей репликации, включая изменения на уровне блоков. Репликация может быть выполнена быстро - в рамках пятисекундного "окна", при этом репликация данных может проводиться каждые четыре часа. Соответствующий "снимок" данных сохраняется в течение семи рабочих дней или дольше, если это необходимо. Реплицированные данные могут быть перемещены в запасной центр (т.е. в резервную систему) для удовлетворения требований организации в отношении заданной точка восстановления (recovery point objective, RPO) и заданного времени восстановления (recovery time objective, RTO)
	Хранилище данных	VMware, NetApps, Oracle, IBM, Brocade
	Сеть связи	Сети WAN, LAN, MAN, WiFi, доступ в Интернет, через публичные, частные, кооперативные и гибридные облачные среды, с VPN или без него
	Программное обеспечение	Hadoop, Map/Reduce, Open-source и/или проприетарные решения поставщиков, таких как AWS (Amazon Web Services), Google Cloud Services и Microsoft
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Как распределенные, так и централизованные источники данных, поступающих в среду высокой доступности с обеспечением восстановления после катастроф (НА/DR Environment) и в хостинговый виртуальный сервер (HVS), например, в следующих конфигурациях: DC1 -> VMWare/KVM (кластеры, с виртуальными брандмауэрами), Data link - VMWare Link - Vmotion Link - Network Link, несколько мостовых соединений с поставщиком (РВ) в рамках NaaS (сеть как сервис), DC2 -> VMWare/KVM (кластеры с виртуальными брандмауэрами), DataLink (Vmware Link, Vmotion Link, Network Link), несколько мостовых соединений с поставщиком в рамках NaaS (требуется отказоустойчивая виртуализация)
	Объем (количество)	От нескольких терабайт до нескольких петабайт
	Скорость обработки (например, в реальном времени)	Центры обработки данных уровня Tier3 - защищенные, отказоустойчивые в случае сбоев питания, отказов системы кондиционирования воздуха и т.д. В данном случае инфраструктура как сервис (IaaS) предоставляется на основе NetApps. Репликация отличается от резервного копирования тем, что воспроизводятся только те изменения, которые произошли после предыдущей репликации, включая изменения на уровне блоков. Репликация может быть выполнена быстро - в рамках пятисекундного "окна", при этом репликация данных может проводиться каждые четыре часа. Соответствующий "снимок" данных сохраняется в течение семи рабочих дней или дольше, если это необходимо. Реплицированные данные могут быть перемещены в запасной центр для удовлетворения требований организации в отношении RPO/RTO
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Различные виртуальные среды, работающие в рамках архитектуры пакетной обработки или параллельной архитектуры с "горячей" заменой (hot-swappable parallel architecture)
	Вариативность (темпы изменения)	Капитальные затраты (СарЕх) увеличиваются в зависимости от соглашений об уровне обслуживания (SLA), от требований RTO/RPO и от потребностей деловой деятельности
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	Целостность данных играет критически важную роль на протяжении всего жизненного цикла организации ввиду законодательно-нормативных требований стратегического управления, управления рисками и соблюдения требований (GRC) и конфиденциальности, целостности и доступности (CIA)
	Визуализация	Целостность данных играет критически важную роль на протяжении всего жизненного цикла организации ввиду законодательно-нормативных требований стратегического управления, управления рисками и соблюдения требований (GRC) и конфиденциальности, целостности и доступности (CIA)
	Качество данных (синтаксис)	Целостность данных играет критически важную роль на протяжении всего жизненного цикла организации ввиду законодательно-нормативных требований стратегического управления, управления рисками и соблюдения требований (GRC) и конфиденциальности, целостности и доступности (CIA)
	Типы данных	Многочисленные типы данных и форматов включают (но не ограничиваются ими): плоские файлы, txt, .pdf, файлы приложений для Android, .wav, .jpg и VOIP (передача голоса с использованием протокола IP)
	Аналитика данных	Данные должны поддерживаться в формате, неподверженном деградации во время обработки и процедур поиска и анализа
Иные проблемы больших данных	Сложные операции, связанные с переключением с основного сайта на сайт репликации или на резервный сайт, в настоящее время еще не полностью автоматизированы. Цель заключается в том, чтобы дать пользователю возможность автоматически инициировать последовательность действий по переходу на резервную систему. Перемещение размещенных в облаке данных требует четко определенного и подвергающегося постоянному мониторингу управления конфигурацией сервера. Кроме того, обе организации должны знать, какие серверы должны быть восстановлены, и каковы зависимости и взаимозависимости между серверами основного сайта и серверами репликации и/или резервного сайта. С этой целью необходим постоянный мониторинг обоих сайтов, поскольку в этом процессе задействованы два решения, имеющие дело либо с серверами, на которых хранятся образы, либо с постоянно работающими "боевыми" серверами, как это имеет место в параллельных системах с "горячей" заменой (hot-swappable parallel architecture), - и все это требует точной и актуальной информации от клиента
Проблемы пользовательского интерфейса и мобильного доступа	Обеспечение мобильного доступа - это постоянно растущий слой технической сложности, однако не все решения для обеспечения непрерывности деловой деятельности/восстановления после катастроф (BC/DR) носят технический характер. Есть две взаимосвязанные и взаимозависимые стороны, которые должны работать вместе над тем, чтобы найти работоспособное и жизнеспособное решение - это представители основной деловой деятельности и ИТ. Если обе эти стороны приходят к согласию, эти технические вопросы решаются в стратегии BC/DR, внедрение и поддержание которой обеспечивает вся организация. Один из вопросов, который не сводится к проблемам мобильности, касается фундаментальной проблемы, влияющей на большинство решений BC/DR. Если Ваши основные серверы (А, В, С) понимают X, Y, Z ..., но Ваши вторичные виртуальные серверы репликации/резерва (а, b, с) с течением времени не поддерживаются должным образом (не обеспечивается надлежащее управление конфигурацией) и происходит их рассинхронизация с основными серверами, так что они понимают только X и Y, - когда поступает команда на выполнение репликации или резервного копирования, то ... "Хьюстон, у нас проблемы ..." Обратите внимание: с течением времени все системы могут и будут страдать от ползучей потери синхронизации - и некоторые больше, чем другие, если они полагаются на ручные процессы для обеспечения стабильности системы
Технические проблемы обеспечения безопасности и защиты персональных данных	В зависимости от природы и требований отраслевых вертикалей, таких как финансовая деятельность, страхование и медико-биологические науки (Life Sciences), охватывающих как государственные, так и частные учреждения и организации; и от ограничений, налагаемых законодательно-нормативными требованиями стратегического управления, управления рисками и соблюдения требований (GRC) и конфиденциальности
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)	В число проблем обеспечения непрерывности деловой деятельности/восстановления после катастроф (BC/DR) входят следующие: 1) Признание a) Видение менеджмента BC/DR b) Предполагается, что данная проблема является проблемой ИТ, когда на само деле это не так 2) Люди a) Степень укомплектованности персоналом - многие малые и средние предприятия недоукомплектованы ИТ-персоналом в сравнении с их текущей рабочей нагрузкой b) Видение (руководствуясь подходом сверху - вниз) - Способны ли деловые и ИТ-подразделения увидеть проблему в целом и выработать стратегию типа "Списка вызовов" для использования в случае чрезвычайной ситуации? c) Навыки - Есть ли специалисты, способные спроектировать, внедрить и протестировать BC/DR - решение? d) Время - Есть ли время у специалистов, и есть ли в деловой деятельности "окно" времени для создания и тестирования DR/BC решения, поскольку подобное решение является дополнительным проектом, на который требуется время и ресурсы? 3) Деньги Затраты можно перевести в категорию операционных расходов (ОрЕх), а не в капитальные затраты (СарЕх), варьируя требования RPO/RTO a) Капитал всегда является ограниченным ресурсом b) Решения ВС должны начинаться с вопросов "В чем риск?" и "Как затраты ограничивают решение?" 4) Нарушение привычного порядка Встроить BC/DR в стандартную "облачную" инфраструктуру (IaaS) малых и средних предприятий a) Планирование BC/DR "съедает" деловые ресурсы b) Тестирование ВС также нарушает обычный ход деловой деятельности
Дополнительная информация (гиперссылки)	1. Сайт независимой консультационной организации "Восстановление после катастроф" (DisasterRecovery.org), https://www.disasterrecovery.org/ 2. Вебинар компании dinCloud "Как пережить катастрофы, используя облако" (Surviving Disasters by Leveraging the Cloud), https://www.dincloud.com/webinars/surviving-disasters-by-leveraging-the-cloud 3. Комитет спонсорских организаций (COSO), см. https://www.coso.org/ 4. Сайт ITIL (Библиотека инфраструктуры информационных технологий), см. https://www.axelos.com/best-practice-solutions/itil 5. Стандарт COBIT 2019 CobiT (от Control Objectives for Information and Related Technology - "Цели управления информационными и смежными технологиями) на сайте Международной ассоциации аудита и контроля информационных систем (ISACA), см. https://www.isaca.org/resources/cobit 6. Концепция архитектуры "Открытой группы" (The Open Group Architecture Framework, TOGAF) версии 9.2, http://www.opengroup.org/togaf/ 7. Международный стандарт ИСО/МЭК 27000:2018 "Информационная технология. Методы и средства обеспечения безопасности. Системы менеджмента информационной безопасности. Общий обзор и терминология" (Information technology - Security techniques - Information security management systems - Overview and vocabulary), https://www.iso.org/standard/73906.html, свободно доступен по адресу https://standards.iso.org/ittf/PubliclyAvailableStandards/c073906_ISO_IEC_27000_2018_E.zip. В России стандарт адаптирован (в более ранней редакции) как ГОСТ Р ИСО/МЭК 27000-2012, см. http://protect.gost.ru/v.aspx?control=8&baseC=6&id=175549 8. Некоммерческая организация по надзору за отчетностью публичных компаний, США (РСАОВ), https://pcaobus.org/

А.2.6 Вариант использования N 10: Грузоперевозки

Название	Грузоперевозки
Предметная область	Отрасль грузоперевозок
Автор/организация/эл. почта	Уильям Миллер (William Miller)/компания МаСТ USA/mact-usa@att.net
Акторы/заинтересованные лица, их роли и ответственность	Конечные пользователи (отправители/получатели). Лица, обслуживающие транспортные средства (грузовик/ корабль/ самолет). Операторы связи (сотовая связь/спутниковая связь). Грузоотправители (отправка и получение)
Цели	Хранение и анализ объектов ("вещей") в процессе перевозки
Описание варианта использования	В настоящем варианте использования дается общее представление о приложения "больших данных" для отрасли грузоперевозок, в которой работают такие компании, как FedEx, UPS, DHL и т.д. Отрасль грузоперевозок, вероятно, является самым крупным из широко распространенных сегодня потенциальных вариантов использования больших данных. Он охватывает идентификацию, транспортировку и обработку грузов ("вещей") в цепочке поставок. Идентификация груза начинается с отправителя, и используется получателями и всеми стоящими между ними посредниками, которым необходимо знать место и время прибытия транспортируемых грузов. Новым аспектом станут сведения о статусе и состоянии объекта, включая информацию с датчиков и получаемые от глобальной системы позиционирования (GPS) координаты, а также уникальная схема идентификации, основанная на международном стандарте ИСО/МЭК 29161:2016 "Информационные технологии. Структура данных. Уникальная идентификация для Интернета вещей", разработанном подкомитетом SC31 Объединенного технического комитета ИСО/МЭК СТК1. Данные обновляются в масштабе времени, близком к реальному, когда грузовик прибывает на склад или при доставке товара получателю. Промежуточные состояния в настоящее время неизвестны; данные о местоположении в реальном времени не обновляются; а товары, утерянные на складе или во время транспортировки, могут представлять собой потенциальную проблему для безопасности страны. Сведения хранятся в архиве и остаются доступными в течение хх дней
Текущие решения	Вычислительная система	Неизвестно
	Хранилище данных	Неизвестно
	Сеть связи	LAN/T1/веб-страницы интернета
	Программное обеспечение	Неизвестно
Характеристики больших данных	Источник данных (распределенный/ централизованный)	В настоящее время - централизованный
	Объем (количество)	Большой
	Скорость обработки (например, в реальном времени)	В настоящее время система в реальном масштабе времени не работает
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Данные обновляются, когда водитель прибывает на склад и загружает время и дату принятия груза. Это в настоящее время осуществляется не в режиме реального времени
	Вариативность (темпы изменения)	Сейчас информация обновляется только после сканирования объектов с помощью сканера штрихкода, который отправляет данные на центральный сервер. В настоящее время местоположение объекта в реальном времени не отображается
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)
	Визуализация	Нет
	Качество данных (синтаксис)	Да
	Типы данных	Нет сведений
	Аналитика данных	Да
Иные проблемы больших данных	Обеспечение более быстрой оценки идентичности, местоположения и состояния грузов, предоставление подробной аналитики и локализация проблем в системе в режиме реального времени
Проблемы пользовательского интерфейса и мобильного доступа	В настоящее время мониторинг условий на борту грузовиков, кораблей и самолетов не осуществляется
Технические проблемы обеспечения безопасности и защиты персональных данных	Безопасность должна быть более надежной
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)	В данном варианте использования применяются локальные базы данных, а также существует требование синхронизации с центральным сервером. Эти операции в итоге будут распространены на мобильные устройства и бортовые системы, способные отслеживать местонахождение грузов и обеспечивать обновление информации в режиме реального времени, включая передачу сведений об условиях, протоколирование событий и рассылку оповещений лицам, которым соответствующая информация необходима
Дополнительная информация (гиперссылки)

А.2.7 Вариант использования N 11: Данные о материалах

Название	Данные о материалах
Предметная область	Производство, исследования в области материаловедения
Автор/организация/эл. почта	Джон Рамбл (John Rumble)/компания R&R Data Services/jumbleusa@earthlink.net
Акторы/заинтересованные лица, их роли и ответственность	Разработчики продуктов (вводят данные о материалах в системы автоматизированного проектирования). Исследователи свойств материалов (производят данные о материалах; в некоторых случаях являются пользователями таких данных). Испытатели материалов (производят данные о материалах; разработчики стандартов). Распространители данных (поставщики доступа к данным материалам, часто на коммерческой основе)
Цели	Улучшить доступность, качество и удобство использования данных о материалах, а также преодолеть проприетарные барьеры для обмена такими данными. Создать достаточно крупные хранилища данных о материалах, способствующие поиску и раскрытию этой информации
Описание варианта использования	Каждый физический продукт изготовлен из материалов, которые были выбраны исходя из их свойств, стоимости и доступности. Каждый год принимаются связанные с выбором материалов решения на общие суммы, исчисляемые сотнями миллиардов долларов. Помимо того, как столь убедительно показала инициатива "Геном материала" (Materials Genome Initiative), внедрение новых материалов обычно занимает два-три десятилетия, а не несколько лет, отчасти из-за того, что сведения о новых материалах не являются легкодоступными. Все действующие лица в рамках жизненного цикла материалов сегодня имеют доступ к очень ограниченным объемам данных о материалах, что приводит к принятию неоптимальных, неэффективных и затратных решений, связанных с материалами. В то время, как в рамках инициативы "Геном материала" рассматривается один важный существенный аспект проблемы, а именно, базовые данные о материалах, необходимые для компьютерного проектирования и испытания материалов, - вопросы, связанные с физическими измерениями на физических материалах (от базовых структурных и термических свойств до сложных эксплуатационных свойств и свойства новых наноразмерных материалов) не рассматриваются систематически, широко (междисциплинарно и на международном уровне) или же эффективно (практически отсутствуют встречи по тематике данных о материалах, группы по разработке стандартов и целевые финансируемые программы). Одной из наиболее сложных проблем, которые способны решить методы "больших данных", является предсказание поведения и характеристик реальных материалов (в количествах от грамма до тонны), начиная с описаний на атомном, нано- и/или микрометровом уровнях. По перечисленным выше причинам решения об использовании материалов в настоящее время излишне консервативны, часто основываясь на более старых, а не на последних данных соответствующих исследований и разработок, и не используют достижения в области построения моделей и моделирования. Информатика материалов (materials informatics) - это та область, в которой новые инструменты науки о данных могут оказать существенное влияние
Текущие решения	Вычислительная система	Нет
	Хранилище данных	Широко рассеянное, существует множество препятствий для доступа
	Сеть связи	Практически отсутствует
	Программное обеспечение	Узкие подходы в рамках национальных программ (Япония, Южная Корея и Китай), прикладных программ (ядерная программа Евросоюза); проприетарные решения (Granta, и др.)
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Чрезвычайно сильно распределенный, при этом хранилища данных обеспечивают хранение сведений лишь об очень немногих базовых свойствах
	Объем (количество)	Согласно оценке, сделанной в 1980-х годах, за последние пятьдесят лет появилось более 500 тыс. коммерческих материалов. В последние три десятилетия этот показатель значительно вырос
	Скорость обработки (например, в реальном времени)	С течением времени растет количество материалов, спроектированных с использованием компьютерных средств и разработанных теоретически (примером являются наноматериалы)
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Много наборов данных при практическом отсутствии стандартов, поддерживающих комбинирование этих данных
	Вариативность (темпы изменения)	Материалы постоянно изменяются, и постоянно создаются новые данные, описывающие новые материалы
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	Для точного описания более сложных свойств материалов может потребоваться множество (сотни?) независимых переменных. В настоящее время не предпринимается практически никаких усилий, направленных на выявление этих переменных и систематизацию сбора их значений с целью создания надежных наборов данных
	Визуализация	Важна для отыскания подходящих материалов. Потенциально важна для понимания зависимости свойств материалов от множества независимых переменных. Практически остается без внимания
	Качество данных (синтаксис)	За исключением базовых данных о структурных и тепловых свойствах качество данных является низким или непонятным. См. написанное Мунро (Munro) Руководство NIST по рекомендуемой практике
	Типы данных	Числовая информация, графики, графические образы
	Аналитика данных	Эмпирическая и узкая по сфере охвата
Иные проблемы больших данных	1) Создание хранилищ данных о материалах, помимо существующих, которые ориентированы на хранение лишь базовых данных. 2) Разработка международных стандартов регистрации данных, которые могут использоваться очень многообразным сообществом специалистов по материалам, включающим разработчиков стандартов испытаний материалов (таких, как ассоциация ASTM International и Международная организация по стандартизации ИСО), занимающиеся испытаниями материалов компании, производителей материалов, а также научно-исследовательские и опытно-конструкторские лаборатории. 3) Разработка инструментов и процедур, помогающих организациям, которым требуется депонировать в хранилищах данных сведения о проприетарных материалах, маскировать проприетарную информацию, сохраняя при этом пригодность данных к использованию. 4) Разработка многопараметрических инструментов визуализации данных о материалах, способных работать с достаточно большим количеством переменных
Проблемы пользовательского интерфейса и мобильного доступа	В настоящее время не являются существенными
Технические проблемы обеспечения безопасности и защиты персональных данных	По своей природе многие проприетарные данные являются весьма конфиденциальными и "чувствительными"
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)	Разработка стандартов; создание крупномасштабных хранилищ данных; привлечение отраслевых пользователей; интеграция с системами автоматизированного проектирования (не стоит недооценивать сложность этой работы - специалисты в области материаловедения обычно не столь хорошо разбираются в компьютерах, как химики, специалисты по биоинформатике и инженеры)
Дополнительная информация (гиперссылки)

А.2.8 Вариант использования N 12: Геномика материалов на основе результатов моделирования

Название	Геномика материалов на основе результатов моделирования
Предметная область	Научные исследования, материаловедение
Автор/организация/эл. почта	Дэвид Скиннер (David Skinner)/Национальная лаборатория имени Лоуренса в Беркли (LBNL), deskinner@lbl.gov
Акторы/заинтересованные лица, их роли и ответственность	Поставщики ресурсов В обязанности Национальных лабораторий и энергетических центров входит предоставление расширенных возможностей для работ по геномике материалов, с использованием в качестве инструментов вычислений и данных. Сообщество пользователей Министерство энергетики США, отраслевые и академические исследователи являются сообществом пользователей, ищущих ресурсы и возможности для быстрых инноваций в материалах
Цели	Ускорение разработки материалов с улучшенными свойствами с помощью проектов моделирования, управление которыми осуществляется с использованием искусственного интеллекта
Описание варианта использования	Осуществление инноваций в технологиях электрических батарей и аккумуляторов посредством масштабных проектов моделирования, охватывающих большое количество возможных проектных решений. Систематические вычислительные исследования с целью поиска возможностей для инноваций в фотовольтаике (фотоэлектрических технологиях). Рациональное проектирование материалов на основе поиска и моделирования
Текущие решения	Вычислительная система	Суперкомпьютер Cray ХЕ6 "Hopper" (150 тысяч процессоров); аппаратные ресурсы для аналитики данных аналогичные тем, что используются "омиками" (omics - направлениями биологической науки, такими как геномика, протеомика, метаболомика и др.)
	Хранилище данных	GPFS, MongoDB
	Сеть связи	10 гигабит/с
	Программное обеспечение	PyMatGen, FireWorks, VASP, ABINIT, NWChem, BerkeleyGW; различное ПО, разработанное сообществом
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Потоки данных поступают от проектов моделирования, выполняемых на централизованных пета/экзафлопсных вычислительных системах. Сильно распределенная сеть потоков данных от центрального шлюза до пользователей
	Объем (количество)	100 терабайт (текущий), 500 терабайт через 5 лет. Требуются масштабируемые базы данных для данных типа "ключ-значение" и для библиотек объектов
	Скорость обработки (например, в реальном времени)	Высокопроизводительные вычисления (НТС), детальное управление задачами и очередями. Быстрый старт/остановка для группы задач. Анализ данных в режиме реального времени для оперативного реагирования
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Комбинирование результатов моделирования от разных программ и на различном теоретическом уровне. Форматирование, регистрация и интеграция наборов данных. Комбинирование данных, полученных при различных масштабах моделирования
	Вариативность (темпы изменения)	Цели при проектировании материалов будут в большей степени поисковыми и ориентированными на потребности потребителей. Вычислительная база должна гибко адаптироваться к новым целям
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	Проверка и оценка неопределенностей результатов моделирования путем сопоставления с экспериментальными данными различного качества. Проверка на наличие ошибок и оценка границ путем сопоставления разных результатов моделирования
	Визуализация	Использование программ просмотра данных о материалах ввиду роста объемов, выдаваемых в ходе поиска данных. Визуальное проектирование материалов
	Качество данных (синтаксис)	Количественная оценка неопределенности в результатах на основе нескольких наборов данных. Распространение ошибок в системах знаний
	Типы данных	Пары ключ-значение, JSON, файловые форматы данных о материалах
	Аналитика данных	Технологии Map/Reduce и поиска, позволяющие комбинировать данные моделирования и экспериментальные данные
Иные проблемы больших данных	Масштабное применение высокопроизводительных вычислений для выполнения проектов моделирования. Гибкие методы обработки данных в масштабе для неупорядоченных данных. Системы машинного обучения и управления знаниями, объединяющие данные из публикаций, результаты экспериментов и моделирования для развития направленного на результат мышления при проектировании материалов
Проблемы пользовательского интерфейса и мобильного доступа	Существует потенциал для широкого распространения практически применимых знаний в области материаловедения. Многие программные приложения геномики материалов могут быть перенесены на мобильную платформу
Технические проблемы обеспечения безопасности и защиты персональных данных	Возможность работать в изолированной зоне - "песочнице" или же создавать независимые рабочие зоны для заинтересованных в данных сторонах. Объединение наборов данных на основе политик
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)	Проект Управления администрации президента США по вопросам науки и технической политики (Office of Science and Technology Policy, OSTP) по достижению более масштабных целей в области геномики материалов был опубликован в мае 2013 г.
Дополнительная информация (гиперссылки)	Сайт поддерживаемого Министерством энергетики США проекта "Материалы" (The Materials Project), https://www.materialsproject.org/

А.3 Оборона

А.3.1 Вариант использования N 13: Облачный крупномасштабный анализ и визуализация геопространственных данных

Название	Облачный крупномасштабный анализ и визуализация геопространственных данных
Предметная область	Оборона (но вариант также применим во многих других областях)
Автор/организация/эл. почта	Дэвид Бойд (David Boyd)/компания Data Tactics/dboyd@data-tactics.com
Акторы/заинтересованные лица, их роли и ответственность	Аналитики геопространственных данных Принимающие решения лица Лица, определяющие политику
Цели	Поддержка крупномасштабного анализа и визуализации геопространственных данных
Описание варианта использования	По мере того, как увеличивается количество датчиков и источников данных с географической привязкой, объемы требующих сложного анализа и визуализации геопространственных данных увеличиваются в геометрической прогрессии. Традиционные географические информационные (геоинформационные) системы (ГИС) обычно способны анализировать миллионы и легко визуализируют тысячи объектов. Современные интеллектуальные системы часто содержат триллионы геопространственных объектов и должны быть способны визуализировать и взаимодействовать с миллионами объектов
Текущие решения	Вычислительная система	Системы вычислений и хранения - от ноутбуков до больших серверов (см. примечание о кластерах). Системы визуализации - от карманных устройств до ноутбуков
	Хранилище данных	Системы вычислений и хранения - локальный жесткий диск или сеть хранения данных (SAN). Системы визуализации - локальный жесткий диск, оперативная флеш-память
	Сеть связи	Системы вычислений и хранения - гигабитное или более скоростное сетевое соединение по локальной сети. Системы визуализации - гигабитные беспроводные соединения, беспроводная связь включая WiFi (802.11), сотовую связь (3G/4G) и радиорелейную связь
	Программное обеспечение	Системы вычислений и хранения - обычно Linux или Windows Server с реляционной СУБД с геопространственной поддержкой; геопространственный сервер/ программное обеспечение для анализа - ESRI ArcServer, Geoserver. Системы визуализации - Windows, Android, iOS - браузерная визуализация. На некоторых ноутбуках может быть установлена локальная версия ArcMap
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Сильно распределенный
	Объем (количество)	Растровая графика - сотни терабайт; векторные данные - десятки гигабайт, но при этом миллиарды точек
	Скорость обработки (например, в реальном времени)	Некоторые датчики передают векторные данные в масштабе времени, близком к реальному. Визуализация изменений должна быть в масштабе времени, близком к реальному
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Растровые изображения (различные форматы: NITF, GeoTiff, CADRG). Векторная графика (различные форматы: формат Shapefile, язык разметки Keyhole (Keyhole Markup Language, KML) и текстовые потоки. Типы объектов включают точки, линии, области, ломаные линии (polylines), окружности и эллипсы)
	Вариативность (темпы изменения)	От умеренной до высокой
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	Точность данных имеет критически важное значение и обычно контролируется на основе трех факторов: 1) точность датчика - является большой проблемой, 2) датум (система геодезических координат)/сфероид (двухосного эллипсоид), 3) точность регистрации изображений
	Визуализация	Отображение осмысленным образом больших наборов данных (миллионы точек) на небольших устройствах (карманных устройствах), являющихся оконечными точками сетей с низкой пропускной способностью
	Качество данных (синтаксис)	Типичной проблемой является визуализация в том случае, когда отсутствуют сведения о качестве/точности первичных данных. Все данные должны включать метаданные, указывающие точность или круговое вероятное отклонение
	Типы данных	Растровые изображения (различные форматы: NITF, GeoTiff, CADRG). Векторная графика (различные форматы: формат Shapefile, язык разметки Keyhole (Keyhole Markup Language, KML) и текстовые потоки. Типы объектов включают точки, линии, области, ломаные линии (polylines), окружности и эллипсы)
	Аналитика данных	Ближайшая точка подхода, отклонение от маршрута, плотность точек во времени, метод главных компонентов (principal component analysis, РСА) и метод анализа независимых компонентов (independent component analysis, ICA)
Иные проблемы больших данных	Индексация, поиск/извлечение и распределенный анализ. Формирование и передача визуализации
Проблемы пользовательского интерфейса и мобильного доступа	Визуализация данных на устройствах, являющихся оконечными точками беспроводных сетей с низкой пропускной способностью
Технические проблемы обеспечения безопасности и защиты персональных данных	Данные являются чувствительными, и должна быть обеспечена их полная безопасность при передаче и при хранении (особенно на портативных/карманных устройствах)
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)	Геопространственные данные требуют уникальных подходов к индексации и проведению распределенного анализа
Дополнительная информация (гиперссылки)	Применимые стандарты: - стандарты "Открытого геопространственного консорциума" (Open Geospatial Consortium, OGC), https://www.ogc.org/standards - спецификации формата GeoJSON, https://geojson.org/ - спецификации формата Compressed ARC Digitized Raster Graphics (CADRG), https://earth-info.nga.mil/publications/specs/printed/CADRG/cadrg.html Индексирование геопространственных данных: Quad-деревья; заполняющие пространство кривые (кривые Гильберта) - многочисленные источники можно найти в Интернете
Примечание - В Министерстве обороны США проводилась определенная работа, связанная с этим набором проблем. В частности, стандартное облако (DSC, DCGS-A Standard Cloud) для унифицированной армейской наземной станции с распределенными терминалами (DCGS-A, Distributed Common Ground System - Army) хранит, индексирует и анализирует некоторые источники больших данных. Однако все еще остается много проблем с визуализацией.

A.3.2 Вариант использования N 14: Идентификация и отслеживание объектов - Постоянное наблюдение

Название	Идентификация и отслеживание объектов по данным WALF-формат видео с высоким разрешением (WALF) или FMV-формат высококачественного видео - Постоянное наблюдение
Предметная область	Оборона (разведка)
Автор/организация/эл. почта	Дэвид Бойд (David Boyd)/компания Data Tactics/dboyd@data-tactics.com
Акторы/заинтересованные лица, их роли и ответственность	1) Гражданские и военные лица, принимающие решения. 2) Специалисты по анализу разведданных. 3) Участники боевых действий
Цели	Способность обрабатывать первичные фото/видеоданные и выделять из них/отслеживать во времени объекты (транспортные средства, люди, грузы). В частности, идея заключается в том, чтобы редуцировать петабайты собранных в ходе непрерывного наблюдения данных к разумному размеру (например, векторным путям)
Описание варианта использования	Датчики постоянного наблюдения легко могут за считанные часы собирать петабайты фото- и видеоданных. Человек не способен обработать такие объемы данных в целях предупреждения о событиях или отслеживания. Обработка данных должна осуществляться рядом с датчиком, который, вероятно, развернут на передовой, поскольку объемы данных слишком велики для того, чтобы их можно было легко передать. Данные должны быть редуцированы к набору геопространственных объектов (например, точек, путей), которые можно легко интегрировать с другими данными для формирования общей оперативной картины
Текущие решения	Вычислительная система	Различные, варьируются от простых устройств хранения, соединенных с датчиком, и простых средств отображения и хранения до систем, поддерживающих ограниченное выделение объектов. Типичные системы выделения объектов в настоящее время представляют собой небольшие (от 1 до 20 узлов) кластеры расширенных за счет использования графических процессоров (GPU) компьютерных систем
	Хранилище данных	В настоящее время - плоские файлы, хранимые в большинстве случаев на жестком диске. Иногда индексы реляционных СУБД указывают на файлы или части файлов на основе метаданных/данных телеметрии
	Сеть связи	Обмен информацией с датчиками, как правило, осуществляется или в пределах прямой видимости, или с использованием спутниковой связи
	Программное обеспечение	Широкий спектр специализированного программного обеспечения и инструментов, включая, в том числе, традиционные реляционные СУБД и средства отображения
Характеристики больших данных	Источник данных (распределенный/ централизованный)	В число передающих фото/видеоданные датчиков входят стационарные и установленные на летательных аппаратах оптические и инфракрасные датчики, а также радары с синтезированной апертурой (SAR)
	Объем (количество)	FMV - от 30 до 60 кадров в секунду при полноцветном разрешении 1080 пикселей WALF - от 1 до 10 кадров в секунду при полноцветном разрешении 10 тысяч на 10 тысяч пикселей
	Скорость обработки (например, в реальном времени)	В реальном времени
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Данные обычно представлены в одном или нескольких стандартных форматах для графических изображений или видео
	Вариативность (темпы изменения)	Небольшая
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	Достоверность извлеченных объектов имеет жизненно важное значение. Если система дает сбой или генерирует ложные срабатывания, подвергаются риску жизни людей
	Визуализация	Извлеченные результаты обычно визуализируются путем наложения на отображение геопространственных данных. Наложенные объекты должны отсылать к соответствующему сегменту исходного изображения/ видеопотока
	Качество данных (синтаксис)	Качество данных, как правило, определяется сочетанием характеристик датчиков и погодных условий (маскирующим фактором является пыль/влажность, а фактором стабильности - ветер)
	Типы данных	Исходные данные представлены в стандартных форматах для графических изображений и видео. Выходные данные должны быть в форме веб-функций, соответствующих стандартам "Открытого геопространственного консорциума" (Open Geospatial Consortium, OGC), либо в виде стандартных геопространственных файлов [Shapefile, язык разметки Keyhole (Keyhole Markup Language, KML)]
	Аналитика данных	1) Идентификация объекта (тип, размер, цвет) и его отслеживание. 2) Анализ закономерностей поведения объекта (проходил ли сегодня днем грузовик, который ездит каждую среду после полудня, по иному маршруту; есть ли стандартный маршрут, которому каждый день следует конкретный человек). 3) Групповое поведение/динамика (есть ли небольшая группа, пытающаяся спровоцировать бунт; выделяется ли данный человек в толпе, ведет ли он себя не так, как все?) 4) Хозяйственная деятельность: a) Есть ли очередь в хлебном магазине, мясной лавке или за мороженым? b) Больше ли грузовиков движется с товарами на север, чем на юг? c) Увеличилась или уменьшилась на данном рынке активность лавок и/или их размер за последний год? 5) Объединение (слияние) данных
Иные проблемы больших данных	Обработка больших объемов данных почти в режиме реального времени (NRT) для поддержки оповещения о событиях и осведомленности о ситуации
Проблемы пользовательского интерфейса и мобильного доступа	Доставка данных с мобильного датчика на обработку
Технические проблемы обеспечения безопасности и защиты персональных данных	Значительные - нельзя допустить компрометацию источников данных и методов их обработки; враг не должен знать, что именно мы видим
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)	Как правило, данный тип обработки хорошо вписывается в массово-параллельные вычисления, поддерживаемые, например, графическими процессорами. Типичной проблемой является интеграция этой обработки в более крупный кластер, способный параллельно обрабатывать данные от нескольких датчиков и в масштабе времени, близком к реальному. Передача данных с датчика в систему также является большой проблемой
Дополнительная информация (гиперссылки)	Стандарты по вопросам управления видеоматериалами: Страница Бюро стандартов управления видеоматериалами (Motion Imagery Standards Board, MISB) на сайте Национального агентства геопространственной разведки США (National Geospatial - Intelligence Agency, NGA), https://gwg.nga.mil/misb/index.html Некоторые из многочисленных статей по теме выделения/ отслеживания объектов: Erik Blasch, Haibin Ling, Yi Wu, Guna Seetharaman, Mike Talbert, Li Bai, Genshe Chen "Dismount Tracking and Identification from Electro-Optical Imagery", http://www.dabi.temple.edu/~hbling/publication/SPIE12_Dismount_Formatted_v2_BW.pdf Fang-Hsuan Cheng, Yu-Liang Chen "Real time multiple objects tracking and identification based on discrete wavelet transform", https://www.sciencedirect.com/science/article/abs/pii/S0031320305004863 Статьи о потребностях общего характера: John Keller "Persistent surveillance relies on extracting relevant data points and connecting the dots", 2012, https://www.militaryaerospace.com/computers/article/16719589/persistent-surveillance-relies-on-extracting-relevant-data-points-and-connecting-the-dots "Wide Area Persistent Surveillance Revolutionizes Tactical ISR", by Lexington institute, 2012, https://www.defencetalk.com/wide-area-persistent-surveillance-revolutionizes-tactical-isr-45745/

А.3.3 Вариант использования N 15: Обработка и анализ разведывательных данных

Название	Обработка и анализ разведывательных данных
Предметная область	Оборона (разведка)
Автор/организация/эл. почта	Дэвид Бойд (David Boyd)/компания Data Tactics/dboyd@data-tactics.com
Акторы/заинтересованные лица, их роли и ответственность	Высшее гражданское и военное руководство. Полевые командиры. Специалисты по анализу разведданных. Участники боевых действий
Цели	1) Выдача автоматических оповещений аналитикам, участникам боевых действий, командирам и высшему руководству на основе поступающих разведданных. 2) Предоставление аналитикам разведанных возможностей для выявления по этим данным: a) взаимосвязей между объектами (например, людьми, организациями, местами, оборудованием), b) тенденции в настроениях или намерениях как населения в целом, так и групп лидеров, таких как государственные деятели и представители негосударственных структур, c) определить место и, по возможности, время проведения враждебных действий, включая установку самодельных взрывных устройств, d) отслеживать местоположение и действия (потенциально) враждебных действующих лиц. 3) Способность осмысливать и извлекать знания из многообразных, разрозненных и часто неструктурированных (например, текстовых) источников данных. 4) Способность обрабатывать данные вблизи точки сбора и обеспечивать легкий обмен данными с/между отдельными солдатами, подразделениями, отрядами передового базирования и высшим руководством гарнизонов
Описание варианта использования	1) Ввод/прием данных от широкого спектра датчиков и источников, принадлежащих к различным направлениям разведывательной деятельности, таким, как сбор и анализ изображений, полученных фотографической, оптико-электронной или радиолокационной аппаратурой (imagery intelligence, IMINT), разведка физических полей (measurement and signatures intelligence, MASINT), геопространственная разведка (geospatial intelligence, GEOINT), сбор информации людьми и от людей (human intelligence, HUMINT), радиоэлектронная разведка (signals intelligence, SIGINT), разведка на основе открытых источников (open source intelligence, OSINT) и т.д. 2) Обработка, преобразование или согласование данных из различных источников в разных форматах в единое пространство данных с целью поддержки: а) поиска; b) осмысления; с) сопоставления. 3) Оповещение пользователей о существенных изменениях в состоянии контролируемых объектов или о существенной активности в определенной области. 4) Обеспечение связи с периферией для участников боевых действий (в этом случае понятие периферии будет охватывать даже отдельного солдата в пешем патруле)
Текущие решения	Вычислительная система	Стационарные и мобильные вычислительные кластеры с количеством узлов в диапазоне от 10 до 1000
	Хранилище данных	От десятков терабайт до сотен петабайт в случае периферийных и стационарных кластеров. У пехотинцев, как правило, имеется от одного до сотен гигабайт данных (обычно на портативном/ карманном устройстве с объемом памяти менее 10 гигабайт)
	Сеть связи	Сеть связи внутри и между стационарными гарнизонами является надежной. Связь с передним краем ограничена и часто отличается большими задержками и потерей пакетов. Дистанционная связь может быть спутниковой (с большой задержкой) или даже ограничена радиосвязью на линии прямой видимости
	Программное обеспечение	Основными в настоящее время являются: 1) Hadoop 2) Accumulo (с системой хранения данных BigTable) 3) Solr 4) NLP (несколько вариантов) 5) Puppet (управление жизненным циклом ИТ, обеспечение безопасности) 6) Storm 7) Специализированные приложения и инструменты визуализации
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Сильно распределенный
	Объем (количество)	Некоторые передающие графические изображения/видео (IMINT) датчики способны генерировать более петабайта данных в течение нескольких часов. Другие данные столь же малы, как результаты нечастых срабатываний датчиков или текстовые сообщения
	Скорость обработки (например, в реальном времени)	Большая часть данных с датчиков поступает в реальном времени (полнокадровое видео, данные радиоэлектронной разведки), остальные - в режиме "менее реального" времени. Критически важным аспектом является возможность принимать, обрабатывать и распространять оповещения в масштабе времени, близком к реальному
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Все, что угодно, включая текстовые файлы, первичные данные с датчиков (raw media), графические образы, видео, аудио, электронные данные и данные, созданные человеком
	Вариативность (темпы изменения)	Хотя форматы интерфейсов с датчиками имеют тенденцию быть стабильными, большинство других данных не контролируется, и они могут быть в любом формате. Большая часть данных не структурирована
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	Происхождение данных (включая, например, отслеживание всех передач и преобразований) должно контролироваться в течение жизненного цикла данных. Установление достоверности "мягких" источников данных (как правило, данных, созданных человеком) является критически важным требованием
	Визуализация	Основными видами визуализации будут наложения на геопространственную картину и сетевые графики (network diagrams). Данные могут включать миллионы точек на карте и тысячи узлов на сетевом графике
	Качество данных (синтаксис)	Качество генерируемых датчиком обычно известное (качество изображения, соотношение сигнал/шум) и хорошее. Качество неструктурированных или "захваченных" данных существенно варьируется и зачастую не поддается контролю
	Типы данных	Графические изображения, видео, текст, электронные документы всех типов, аудио, цифровые сигналы
	Аналитика данных	1) Оповещения в масштабе времени, близком к реальному, основанные на закономерностях и изменениях основных параметров, 2) Анализ взаимосвязей, 3) Геопространственный анализ, 4) Аналитика текстов (определение настроений, выделение сущностей и т.д.)
Иные проблемы больших данных	1) Передача больших данных (или даже данных умеренного размера) по тактическим сетям. 2) Данные, которые в настоящее время существуют в разрозненных хранилищах, должны быть доступны через семантически интегрированное пространство данных. 3) Большинство ключевых по важности данных либо являются неструктурированными, либо хранятся в виде графических образов или видеоматериалов, что требует значительной обработки для выделения объектов и извлечения информации
Проблемы пользовательского интерфейса и мобильного доступа	Результаты этого анализа и информация должны передаваться или быть доступными для пехотинцев передовых отрядов
Технические проблемы обеспечения безопасности и защиты персональных данных	Имеют первостепенную важность. Данные должны быть защищены от: 1) несанкционированного доступа или раскрытия, 2) несанкционированного вмешательства
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)	Широкий спектр типов, источников, структур данных различного качества будет охватывать рад предметных областей и требует интегрированного поиска и анализа
Дополнительная информация (гиперссылки)	Чарльз Уэллс (Col. Charles A. Wells) "Обзор программы унифицированной армейской наземной станции с распределенными терминалами" (DCGS-A, Distributed Common Ground System - Army Program Overview), 2012, http://aberdeen.afceachapter.org/files/presentations/AFCEAAberdeen_DCGSA_COLWells_PS.pdf Barry Smith, Tatiana Malyuta, William S. Mandrick, Chia Fu, Kesny Parent, Milan Patel "Horizontal Integration of Warfighter Intelligence Data-A Shared Semantic Resource for the Intelligence Community", 2012, http://stids.c4i.gmu.edu/papers/STIDSPapers/STIDS2012_T14_SmithEtAI_HorizontallntegrationOfWarfighterlntel.pdf Salmen David, Malyuta Tatiana, Hansen Alan, Cronen Shaun, Smith Barry "lntegration of Intelligence Data through Semantic Enhancement", 2011, http://stids.c4i.gmu.edu/STIDS2011/papers/STIDS2011_CR_T1_SalmenEtAl.pdf

А.4 Здравоохранение и медико-биологические науки

А.4.1 Вариант использования N 16: Электронная медицинская карта (EMR)

Название	Электронная медицинская карта (EMR)
Предметная область	Здравоохранение
Автор/организация/эл. почта	Шон Грэнис (Shaun Grannis)/Университет Индианы, США/sgrannis@regenstrief.org
Акторы/заинтересованные лица, их роли и ответственность	Ученые-исследователи в области биомедицинской информатики (внедряют и оценивают усовершенствованные методы для бесшовной интеграции, стандартизации, анализа и практического использования сильно неоднородных, высокообъемных потоков клинических данных); Исследователи в службах здравоохранения (используют интегрированные и стандартизированные данные электронной медицинской документации для получения знаний, поддерживающих внедрение и оценку трансляционных (ориентированных на практическое использование), сопоставительных (comparative effectiveness), ориентированных на интересы пациента исследований результатов деятельности систем здравоохранения); Поставщики медицинских услуг - врачи, медсестры, сотрудники государственных органов здравоохранения (используют информацию и знания, извлеченные из интегрированных и стандартизированных данных электронной медицинской документации, для поддержки непосредственного ухода за пациентами и обеспечения здоровья населения)
Цели	Применение развитых методов для стандартизации выделения понятий (concept identification), связанных с пациентом, поставщиком, учреждением и клинической деятельностью, осуществляемого внутри отдельных организаций сферы здравоохранения и между ними, с целью развития моделей, используемых для определения и извлечения клинических фенотипов (проявлений болезни) из нестандартных, дискретных и представленных в виде свободного текста клинических данных с использованием методов выделения признаков, извлечения информации и моделей принятия решений на основе машинного обучения. Данные клинического фенотипа должны быть использованы для поддержки отбора пациентов в группы (cohort selection), изучения результатов лечения и поддержки принятия клинических решений
Описание варианта использования	По мере того, как системы здравоохранения все в большей степени собирают и потребляют данные электронной медицинской документации, появляются крупные национальные инициативы, направленные на эффективное использование таких данных. В их числе разработка электронной медицинской системы с использованием технологий машинного обучения, поддерживающей принятие клинических решений, все больше основанных на фактических данных, посредством предоставления своевременной, точной и актуальной клинической информации, ориентированной на пациента; использование электронных данных клинических наблюдений для эффективного и быстрого преобразования научных открытий в эффективные клинические методы лечения; и электронный обмен интегрированными данными о здоровье в интересах повышения эффективности и результативности процесса оказания медицинских услуг. Все эти ключевые инициативы опираются на высококачественные, крупномасштабные, стандартизированные и агрегированные данные о здоровье. Несмотря на надежды и обещания, связанные с все более распространенными и вездесущими данными электронной медицинской документации, существует потребность, по целому ряду причин, в развитых методах для интеграции и рационализации этих данных. Данные в клинических системах с течением времени эволюционируют. Это связано с тем, что концептуальное пространство в здравоохранении постоянно развивается: новые научные открытия приводят к выделению новых заболеваний, появлению новых методов диагностики и новых подходов к лечению заболеваний. Это, в свою очередь, приводит к появлению новых клинических понятий, которые являются движущей силой эволюции онтологии для понятий в сфере здравоохранения. Используя неоднородные данные инфраструктуры клинических данных по уходу за пациентами штата Индиана, США (INPC), крупнейшей и старейшей в США системы обмена медицинской информацией, хранящей свыше 4 млрд дискретных закодированных клинических наблюдений данных из более чем 100 больниц для более чем 12 млн пациентов, мы будем использовать методы извлечения информации для выявления высокорелевантных клинических признаков из электронных данных наблюдений. Для извлечения клинических признаков мы будем использовать методы извлечения информации и обработки естественного языка. Проверенные признаки будут использоваться для параметризации моделей принятия решений по клиническим фенотипам на основе метода оценки максимального правдоподобия и Байесовских сетей. Используя эти модели принятия решений, мы намерены выявить ряд клинических фенотипов, таких как диабет, хроническая сердечная недостаточность и рак поджелудочной железы
Текущие решения	Вычислительная система	Новый суперкомпьютер Cray "Big Red II" в Университете Индианы
	Хранилище данных	Teradata, PostgreSQL, MongoDB
	Сеть связи	Разное. Требуется интенсивная обработка ввода/вывода.
	Программное обеспечение	Hadoop, Hive, R. На основе Unix
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Клинические данные из более чем 1100 отдельных оперативных медицинских источников в составе инфраструктуры клинических данных по уходу за пациентами штата Индиана, США (INPC), которая является крупнейшей и старейшей в США системой обмена медицинской информацией
	Объем (количество)	Свыше 12 млн пациентов, более 4 млрд отдельных клинических наблюдений, более 20 терабайт первичных данных
	Скорость обработки (например, в реальном времени)	Ежедневно добавляется от 500 тыс. до 1,5 млн новых клинических транзакций в режиме реального времени
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Мы интегрируем широкий спектр клинических наборов данных из ряда источников: записи поставщиков медицинских услуг в виде свободного текста; сведения о лечении в стационаре, амбулаторном лечении, о лечении в отделении интенсивной терапии, о лабораторных исследованиях; данные хромосомной и молекулярной патологии, химических анализов, кардиологических, гематологических, микробиологических и неврологических исследований, записи поставщиков медицинских услуг, данные специализированных лабораторий (referral labs), серологических исследований, хирургической патологии и цитологии, банков крови и токсикологических исследований
	Вариативность (темпы изменения)	Данные в клинических системах с течением времени эволюционируют, потому что клиническое и биологическое концептуальные пространства постоянно развиваются: новые научные открытия приводят к выделению новых заболеваний, появлению новых методов диагностики и новых подходов к лечению заболеваний. Это, в свою очередь, приводит к появлению новых клинических понятий, которые являются движущей силой эволюции онтологии для понятий в сфере здравоохранения, которые кодируются самыми разнообразными способами
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	Данные каждого клинического источника обычно собираются с использованием отличающихся методов и представлений, что приводит к существенной неоднородности. Это приводит к систематическим ошибкам и отклонениям, требующих применения надежных методов обеспечения семантической совместимости
	Визуализация	Объем, точность и полнота входящих данных должны контролироваться на регулярной основе с использованием нацеленных на это методов визуализации. Внутренне присущие информационные характеристики источников данных должны визуализироваться для выявления неожиданных тенденций
	Качество данных (синтаксис)	Главным препятствием для эффективного использования данных электронной медицинской документации являются сильно различающиеся и уникальные местные названия и коды для одного и того же клинического теста или измерения при выполнении их в разных учреждениях. При интеграции многочисленных источников данных необходимо проводить сопоставление локальных терминов с общей стандартизированной концепцией, с применением, при необходимости, комбинации вероятностных и эвристических методов классификации
	Типы данных	Типы клинических данных весьма разнообразны, включая числовые и структурированные числовые данные, тексты в свободном формате, структурированные тексты, дискретные номинальные данные, дискретные порядковые данные, дискретные структурированные данные, большие двоичные объекты (изображения и видео)
	Аналитика данных	Методы извлечения информации с целью выявления соответствующих клинических признаков (статистическая мера TF-IDF, латентно-семантический анализ и статистическая функция "взаимная информация" (mutual information)). Методы обработки естественного языка (natural language processing, NLP) для извлечения релевантных клинических признаков. Проверенные признаки будут использоваться для параметризации моделей принятия решений по клиническим фенотипам на основе метода оценки максимального правдоподобия и Байесовских сетей. Модели принятия решений будут использоваться для выявления ряда клинических фенотипов, таких как диабет, хроническая сердечная недостаточность и рак поджелудочной железы
Иные проблемы больших данных	Устранение систематических ошибок и отклонений в крупномасштабных неоднородных клинических данных в интересах поддержки принятия решений в отношении проведения исследований, ухода за пациентами и в сфере административного управления требует сложной многоэтапной обработки и аналитики, для чего необходимы значительные вычислительные мощности. Кроме того, появляются оптимальные методы для точного и эффективного вывода знаний из данных клинических наблюдений
Проблемы пользовательского интерфейса и мобильного доступа	В рамках всей экосистемы здравоохранения в целом биологические и клинические данные требуются в различных контекстах. Эффективной доставке клинических данных и знаний в рамках экосистемы здравоохранения будет способствовать мобильная платформа, такая как mHealth
Технические проблемы обеспечения безопасности и защиты персональных данных	Неприкосновенность частной жизни и конфиденциальность данных физических лиц должны быть обеспечены в соответствии с требованиями федерального законодательства и законодательства штатов, в том числе Закона США о переносимости и подотчетности медицинского страхования (Health Insurance Portability and Accountability Act, HIPAA) 1996 г. Разработка аналитических моделей с использованием всесторонних интегрированных клинических данных требует агрегирования и последующей деидентификации (обезличивания) перед применением методов сложной аналитики
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)	Пациенты все чаще получают медицинские услуги в различных местах. Как следствие, данные электронной медицинской документации оказываются фрагментированными и неоднородными. Для того, чтобы реализовать идею самообучающейся медицинской системы (Learning Health Care system), которую продвигает Национальная академия наук и Институт медицины США, данные электронной медицинской документации должны быть рационализированы и интегрированы. Методы, которые мы предлагаем в этом варианте использования, поддерживают интеграцию и рационализацию клинических данных в интересах поддержки принятия решений на различных уровнях
Дополнительная информация (гиперссылки)	Сайт Института Регенстриф (Regenstrief Institute), https://www.regenstrief.org/ Сайт программного обеспечения LOINC (Logical observation identifiers names and codes - "Логичные идентификаторы, имена и коды наблюдений"), https://loinc.org/ Сайт Центра обмена медицинской информацией Индианы (Indiana Health Information Exchange), https://www.ihie.org/ "Самообучающаяся медицинская система. Итоги семинара" (The Learning Healthcare System - Workshop Summary), Круглый стол Института доказательной медицины (медицины, основывающейся на фактах) (IOM roundtable on evidencebased medicine), 2007 год, 375 стр., https://www.nap.edu/catalog/11903/the-learning-healthcare-system-workshop-summary (возможно бесплатное скачивание)

А.4.2 Вариант использования N 17: Анализ графических образов в патологии/Цифровая патология

Название	Анализ графических образов в патологии/Цифровая патология
Предметная область	Здравоохранение
Автор/организация/эл. почта	Ван Фушен (Fusheng Wang)/Университет Эмори (Emory University)/fusheng.wang@emory.edu
Акторы/заинтересованные лица, их роли и ответственность	Исследователи в сфере биомедицины, занимающиеся трансляционными исследованиями; врачи больниц, занимающиеся диагностикой на основе изображений
Цели	Разработка высокоэффективных алгоритмов анализа изображений для извлечения из них пространственной информации; поддержка эффективных пространственных запросов и аналитики, а также кластеризации и классификации признаков
Описание варианта использования	Анализ цифровых графических образов в патологии (digital pathology imaging) является нарождающейся областью, в которой изучение сделанных с высоким разрешением изображений образцов тканей позволяет создавать новые и более эффективные способы диагностики заболеваний. В рамках патологического анализа изображений выделяется огромное (миллионы на изображение) количество пространственных объектов, таких как ядра клеток и кровеносные сосуды, представленные их границами, наряду со многими извлеченными по изображению признаками этих объектов. Полученная информация используется для многих сложных запросов и аналитики, поддерживающих биомедицинские исследования и клиническую диагностику. Недавно стал возможен патологический анализ трехмерных изображений, на основе использования трехмерных лазерных технологий либо последовательного размещения сотен срезов тканей на предметные стекла и их сканирования в цифровые изображения. Выделение трехмерных гистологических объектов на основе серий зафиксированных изображений может породить десятки миллионов трехмерных объектов по одному трехмерному изображению. В результате формируется глубокая "карта" тканей человека для использования в методах диагностики следующего поколения
Текущие решения	Вычислительная система	Суперкомпьютеры; облако
	Хранилище данных	SAN или HDFS
	Сеть связи	Требуется отличное внешнее сетевое соединение
	Программное обеспечение	MPI для анализа изображений; Map/Reduce + Hive с пространственным расширением
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Оцифрованные графические образы образцов человеческих тканей для целей патологического анализа
	Объем (количество)	1 гигабайт первичных данных + 1,5 гигабайта аналитических результатов на двумерное изображение; 1 терабайт первичных данных + 1 терабайт аналитических результатов на трехмерное изображение. 1 петабайт данных в год в средней больнице
	Скорость обработки (например, в реальном времени)	После создания данные не подвергаются изменениям
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Характеристики изображений и виды аналитики зависят от типа заболевания
	Вариативность (темпы изменения)	Изменений нет
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	Важнейшее значение имеет высокое качество результатов, подтвержденное сделанными человеком аннотациями
	Визуализация	Необходима для проверки и обучения
	Качество данных (синтаксис)	Зависит от предварительной обработки предметных стекол, такой, как химическое окрашивание, и от качества алгоритмов анализа изображений
	Типы данных	Первичные изображения представляют собой полные графические образы предметных стекол (в основном на основе BIGTIFF), а аналитические результаты представляют собой структурированные данные (пространственные границы и признаки)
	Аналитика данных	Анализ изображений, пространственные запросы и аналитика, кластеризация и классификация признаков
Иные проблемы больших данных	Экстремально большие объемы; многомерность; аналитика является специфической для конкретных заболеваний; корреляция с данными других типов (клинические данные, данные "омиков" (omics) - таких направлений биологической науки, как геномика, протеомика, метаболомика и др.)
Проблемы пользовательского интерфейса и мобильного доступа	Трехмерная визуализация трехмерных патологических изображений маловероятна на мобильных платформах
Технические проблемы обеспечения безопасности и защиты персональных данных	Следует обеспечить защиту защищаемой информации о здоровье (protected health information); общедоступные данные должны быть деидентифицированы
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)	Данные графических изображений; многомерная пространственная аналитика данных
Дополнительная информация (гиперссылки)	"Digital Pathology: Data-Intensive Frontier in Medical Imaging", Proceedings of the IEEE, Volume 100, Number 4, 2012, https://open.library.emory.edu/publications/emory:tzzn8/ Fusheng Wang et al. "A data model and database for high-resolution pathology analytical image informatics", J.Pathol.Inform., 2011; 2:32, https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3153692/ Fusheng Wang "Hadoop-GIS: A high performance query system for analytical medical imaging with MapReduce", 2011, https://www.researchgate.net/publication/291559237_Hadoop-gis_A_high_performance_query_system_for_ analytical_medical_imaging_with_mapreduce Ablimit Aji, Fusheng Wang, Hoang Vo, Rubao Lee, Qiaoling Liu, Xiaodong Zhang, Joel Saltz "Hadoop-GIS: A High Performance Spatial Data Warehousing System over MapReduce", Proceedings of the VLDB Endowment, Volume 6, Number 11, 2013, https://open.library.emory.edu/publications/emory:v0fvn/

А.4.3 Вариант использования N 18: Вычислительный анализ биоизображений

Название	Вычислительный анализ биоизображений (Computational Bioimaging)
Предметная область	Научные исследования, биология
Автор/организация/эл. почта	Дэвид Скиннер (David Skinner), deskinner@lbl.gov, и Хоакин Корреа (Joaquin Correa), JoaquinCorrea@lbl.gov, - оба из Национального научно-исследовательского вычислительного центра энергетических исследований Министерства энергетики США (NERSC) при Национальной лаборатории имени Лоуренса в Беркли, США (LBNL), Дэниэла Ушидзима (Daniela Ushizima), dushizima@lbl.gov, и Йорг Мейер (Joerg Meyer), joergmeyer@lbl.gov, оба из Отделения вычислительных исследований (Computational Research Division) Национальной лаборатории имени Лоуренса в Беркли, США
Акторы/заинтересованные лица, их роли и ответственность	Поставщики возможностей и ресурсов: операторы оборудования для работы с биоизображениями, разработчики микроскопов, организации и подразделения по обработке графических образов, специалисты в области прикладной математики и кураторы данных. Сообщество пользователей: Министерство энергетики США, представители теоретической и отраслевой науки, стремящиеся совместными усилиями создавать модели на основе данных, содержащихся в графических образах
Цели	Данные биоизображений все более автоматизировано создаются с более высоким разрешением и являются более мультимодальными. В результате возникает узкое место в анализе данных, устранение которого может способствовать новым открытиям в биологических науках посредством применения технологий больших данных. Цель заключается в том, чтобы устранить данное узкое место с помощью экстремально масштабных вычислений. Достижение этой цели потребует не только вычислений. Потребуется создать сообщества вокруг ресурсов данных и разработать продвинутые алгоритмы для массового анализа изображений. Высокопроизводительные вычислительные решения могут использоваться ориентированными на эти сообщества научными шлюзами с целью направлять применение массового анализа данных к огромным наборам данных, полученных из изображений. Компоненты потока рабочих процессов включают сбор, хранение, улучшение качества данных, минимизацию шума, сегментацию представляющих интерес областей, групповой отбор и извлечение признаков, классификацию объектов, а также организацию и поиск
Описание варианта использования	Интернет-точка обслуживания по принципу одного окна, обеспечивающая высокопроизводительную, с высокой пропускной способностью обработку изображений в интересах создателей и потребителей моделей, построенных на основе данных биоизображений
Текущие решения	Вычислительная система	Суперкомпьютер Hopper (150 тысяч процессоров) в Национальном научно-исследовательском вычислительном центре энергетических исследований Министерства энергетики США (NERSC)
	Хранилище данных	База данных и коллекции изображений
	Сеть связи	10 гигабит/с, желательны 100 гигабит/с и расширенные сетевые возможности (программно-конфигурируемая сеть [передачи данных] SDN)
	Программное обеспечение	ImageJ, OMERO, VolRover, разработанные прикладными математиками продвинутые методы сегментации и выявления признаков
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Распределенные экспериментальные источники биоизображений (приборы). Запланированные потоки большого объема от автоматизированных оптических и электронных микроскопов высокого разрешения
	Объем (количество)	Объемы данных растут очень быстро. Необходимы масштабируемые базы данных для данных типа "ключ-значение" и для библиотек объектов. Является актуальной обработка данных и аналитика непосредственно в базах данных. Проект в настоящее время работает с 50 терабайтами, однако в целом объем таких данных превышает петабайт. Объем данных в результате одного сканирования на появляющихся установках составляет 32 терабайта
	Скорость обработки (например, в реальном времени)	Высокопроизводительные вычисления (high throughput computing, НТС), гибкий анализ
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Мультимодальный сбор и анализ изображений (multimodal imaging), по сути, должен обеспечить комбинирование поступающих по разрозненным каналам данных, с акцентом на регистрацию и форматы наборов данных
	Вариативность (темпы изменения)	Биологические образцы сильно различаются, и рабочие процессы их анализа должны с этим справляться
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	Данные в целом неупорядоченные, как и обучение классификаторов
	Визуализация	Очень интенсивно используются трехмерные структурные модели
	Качество данных (синтаксис)
	Типы данных	Файловые форматы изображений
	Аналитика данных	Машинное обучение (метод опорных векторов (Support Vector Machine, SVM) и алгоритм "случайный лес" (random forest, RF) для сервисов классификации и рекомендательных сервисов
Иные проблемы больших данных	Масштабные высокопроизводительные вычисления для программ моделирования. Гибкие методы массовой обработки неупорядоченных данных. Системы машинного обучения и знаний, которые извлекают из данных растровой графики информацию, связанную с биологическими объектами и моделями
Проблемы пользовательского интерфейса и мобильного доступа
Технические проблемы обеспечения безопасности и защиты персональных данных
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)	Существует потенциал для обобщения концепций поиска в контексте обработки биоизображений
Дополнительная информация (гиперссылки)

А.4.4 Вариант использования N 19: Геномные измерения

Название	Геномные измерения
Предметная область	Здравоохранение
Автор/организация/эл. почта	Джастин Зук (Justin Zook)/Национальный институт стандартов и технологий (NIST)/jzook@nist.gov
Акторы/заинтересованные лица, их роли и ответственность	Поддерживаемое американским Национальным институтом стандартов и технологий (NIST) государственно - частно-академическое партнерство "Консорциум "Геном в бутылке"" (Genome in a Bottle Consortium, https://www.nist.gov/programs-projects/genome-bottle)
Цели	Разработка надежных и хорошо изученных эталонных материалов, данных и методов, необходимых для оценки эффективности секвенирования генома
Описание варианта использования	Объединение данных, полученных в результате применения различных технологий и методов секвенирования с целью создания высоконадежных описаний полных геномов человека в качестве эталонных материалов; а также разработка методов использования этих эталонных материалов для оценки эффективности алгоритмов секвенирования генома
Текущие решения	Вычислительная система	72-ядерный кластер нашей группы в NIST, взаимодействие с 1000-ядерными кластерами Управления по контролю за качеством пищевых продуктов и медикаментов (Food and Drug Administration, FDA). Некоторые группы используют облако
	Хранилище данных	Около 40 терабайт в файловой системе NFS в NIST, петабайты геномных данных в Национальных учреждениях здравоохранения (NIH)/Национальном центре биотехнологической информации (NCBI)
	Сеть связи	Разное. Требуется интенсивная обработка ввода/вывода
	Программное обеспечение	Программное обеспечение с открытым исходным кодом для секвенирования в биоинформатике, разработанное академическими группами (на основе UNIX)
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Секвенсоры распределены по многим лабораториям, хотя существует ряд ключевых центров
	Объем (количество)	40-терабайтная файловая система NFS в NIST заполнена. В течение года-двух в NIST потребуется > 100 терабайт. Сообществу здравоохранения в целом потребуется много петабайт для хранения данных
	Скорость обработки (например, в реальном времени)	Секвенсоры ДНК способны генерировать порядка 300 гигабайт сжатых данных в день; рост объемов данных идет намного быстрее закона Мура
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Файловые форматы недостаточно хорошо стандартизированы, хотя некоторые стандарты существуют. Как правило, структурированные данные
	Вариативность (темпы изменения)	Технологии секвенирования развиваются очень быстро, и новые технологии уже появились на горизонте
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	У всех технологий секвенирования имеются значительные систематические ошибки и погрешности, для выявления которых требуются сложные методы анализа и совместное применение ряда технологий, часто с использованием машинного обучения
	Визуализация	Для визуализации обработанных данных были разработаны "браузеры генома"
	Качество данных (синтаксис)	У технологий секвенирования и методов биоинформатики имеются значительные систематические ошибки и погрешности
	Типы данных	В основном, структурированный текст
	Аналитика данных	Обработка первичных данных с целью выделения вариаций (variant calls), а также клиническая интерпретация вариаций, которая в настоящее время является серьезной проблемой
Иные проблемы больших данных	Обработка данных требует значительных вычислительных мощностей, что создает проблемы - особенно для клинических лабораторий, по мере того они начинают проводить широкомасштабное секвенирование. Долговременное хранение данных клинического секвенирования может быть дорогостоящим. Методы анализа быстро эволюционируют. Многие части генома сложно анализировать, а систематические ошибки трудно выявлять
Проблемы пользовательского интерфейса и мобильного доступа	Врачам может понадобиться доступ к геномным данным на мобильных платформах
Технические проблемы обеспечения безопасности и защиты персональных данных	Необходимо обеспечить безопасность и защиту неприкосновенности частной жизни в отношении данных секвенирования, хранимых в составе медицинской документации или в базах данных клинических исследований. В то же время данные Консорциума являются общедоступными
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)	У нас есть ряд идей по обобщению описанных выше работ по секвенированию генома в медицине; однако основное внимание мы уделяем работе в рамках деятельности NIST/Консорциума "Геном в бутылке". В настоящее время наша лаборатории занимается секвенированием разного масштаба, от малого до очень большого. В будущем в состав данных могут входить результаты измерений, сделанных в рамках других направлений биологической науки - "омиков" (omics, например, геномика), объем которых будет даже больше, чем объемы результатов секвенирования ДНК
Дополнительная информация (гиперссылки)	Сайт Консорциума "Геном в бутылке" (Genome in a Bottle Consortium), https://www.nist.gov/programs-projects/genome-bottle

А.4.5 Вариант использования N 20: Сравнительный анализ (мета) геномов

Название	Сравнительный анализ метагеномов и геномов
Предметная область	Научные исследования, геномика
Автор/организация/эл. почта	Эрнест Сзето (Ernest Szeto)/Национальная лаборатория имени Лоуренса в Беркли, США (LBNL), eszeto@lbl.gov
Акторы/заинтересованные лица, их роли и ответственность	Проект "Интегрированные микробные геномы" (IMG) Объединенного института генома (JGI) Министерства энергетики США; руководители Виктор Маркович (Victor М. Markowitz) и Никос Кипридес (Nikos С. Kyrpides). Сообщество пользователей JGI, биологи и специалисты по биоинформатике различных стран
Цели	Создание интегрированной системы сравнительного анализа метагеномов и геномов. Сюда входит разработка интерактивного пользовательского веб-интерфейса к основным данным, предварительные вычисления на сервере (backend precomputations) и отправка пакетных заданий из пользовательского интерфейса
Описание варианта использования	Для метагеномных образцов: (1) Определить состав изучаемой колонии/сообщества с точки зрения присутствия других эталонных изолированных геномов; (2) Охарактеризовать функции его генов; (3) Начать выявление возможных функциональных путей (functional pathways); (4) Охарактеризовать сходство или различие по сравнению с другими метагеномными образцами; (5) Начать характеризацию изменений в составе и функциях сообщества в связи с изменениями воздействием факторов окружающей среды; (6) Выделить подразделы данных на основе показателей качества и состава сообщества
Текущие решения	Вычислительная система	Linux-кластер, сервер реляционной СУБД Oracle, большие системы хранения данных, стандартные интерактивные хосты Linux
	Хранилище данных	Реляционная СУБД Oracle, файлы SQLite, плоские текстовые файлы, Lucy (версия Lucene) для поиска по ключевым словам, базы данных BLAST, базы данных USEARCH
	Сеть связи	Обеспечивается Национальным научно-исследовательским вычислительным центром энергетических исследований Министерства энергетики США (NERSC)
	Программное обеспечение	Стандартные инструменты биоинформатики (BLAST, HMMER, инструменты множественного выравнивания последовательностей и филогенетики, программы поиска/предсказания генов и генных структур (gene callers), программы предсказания свойств по результатам секвенирования (sequence feature predictors) и т.д.), скрипты Perl/Python, планировщик задач Linux-кластера
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Централизованный
	Объем (количество)	50 терабайт
	Скорость обработки (например, в реальном времени)	Веб-интерфейс пользователя должен быть интерактивным в реальном времени. Возможности обработки загружаемых данных на сервере должны соответствовать экспоненциальному росту объемов данных секвенирования из-за быстрого снижения стоимости технологии секвенирования
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Биологические данные по своей природе неоднородны, сложны, структурны и иерархичны - начинается с последовательностей, за которыми следуют свойства последовательностей, таких как гены, мотивы, регуляторные области; далее следует организация находящихся по соседству генов (опероны); и так вплоть до белков и их структурных особенностей; координации и экспрессии генов в путях. Помимо базовых геномных данных, в систему сравнительного анализа должны быть включены новые типы данных таких направлений биологической науки - "омиков" (omics), как транскриптомика, метиломика (methylomics) и протеомика, описывающих экспрессии генов в различных условиях
	Вариативность (темпы изменения)	Размеры метагеномных образцов могут варьироваться на несколько порядков величины - от нескольких сотен тысяч до миллиарда генов (как, например, в сложном образце почвы)
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	Методы отбора и анализа метагеномных проб в настоящее время являются предварительными и экспериментальными. Процедуры оценки набора сильно фрагментированных данных первичных измерений проработаны лучше, но все еще остаются открытой областью исследований
	Визуализация	Проблемой остается быстрота интерактивного пользовательского веб-интерфейса при работе с очень большими наборами данных. Пользовательский веб-интерфейс, судя по всему, по-прежнему является предпочтительным для большинства биологов. Он используется для базовых запросов и просмотра данных. Из него могут быть запущены более специализированные инструменты, например, для просмотра множественных выравниваний. Еще одним требованием к системе является возможность загружать большие объемы данных для анализа в автономном (offline) режиме
	Качество данных (синтаксис)	Улучшение качества метагеномной "сборки" (metagenomic assembly) по-прежнему является ключевой проблемой. Улучшение качества эталонных изолированных геномов, с точки зрения как охвата филогенетического дерева, так и улучшенного поиска/предсказания генов и генных структур и функциональной аннотации - более зрелый процесс, который, однако, постоянно продолжается
	Типы данных	См. выше раздел "Разнообразие"
	Аналитика данных	Описательная статистика, статистическая значимость при проверке гипотез, выявление новых взаимосвязей, кластеризация и классификация данных являются стандартными элементами аналитики. Менее "количественная" часть включает в себя возможность визуализации структурных элементов на разных уровнях разрешения. Редукция данных, устранение избыточности посредством кластеризации, более абстрактные представления, такие как представление группы очень похожих геномов в виде пангенома, - все это стратегии, предназначенные как для управления данными, так и для аналитики
Иные проблемы больших данных	Главным другом и союзником в деле управления неоднородными биологическими данными по-прежнему является реляционная СУБД. К сожалению, она не масштабируется на ныне имеющиеся объемы данных. Решения класса NoSQL (СУБД, существенно отличающиеся от традиционных реляционных) должны были обеспечить альтернативу, но, к сожалению, они не всегда пригодны для интерактивного использования в реальном времени или же для быстрой параллельной массовой загрузки; и иногда у них возникают проблемы с надежностью. Наш текущий подход в настоящее время является нестандартным, специфическим для нашей ситуации, и мы опираемся главным образом на Linux - кластер и файловую систему в качестве дополнения к реляционной СУБД Oracle. Наше решение часто полагается на знание особенностей данных, что позволяет нам разрабатывать схемы горизонтального секционирования, а также осуществлять, когда это уместно, реорганизацию данных
Проблемы пользовательского интерфейса и мобильного доступа	Каких-то особых проблем нет. Требуется лишь доступ в интернет
Технические проблемы обеспечения безопасности и защиты персональных данных	Каких-то особых проблем нет. Данные либо являются общедоступными, либо для доступа к ним требуются обычные логин и пароль
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)	Для всех принесло бы пользу появление альтернативы реляционным СУБД в сфере больших данных. Многие решения типа NoSQL пытаются выполнить эту роль, однако у них есть свои ограничения
Дополнительная информация (гиперссылки)	Страница проекта "Интегрированные микробные геномы и микробиомы" (Integrated Microbial Genomes and Microbioms, IMG/M) на сайте Объединенного института генома (JGI), https://img.jgi.doe.gov/

А.4.6 Вариант использования N 21: Индивидуальное управление лечением диабета

Название	Индивидуальное управление лечением диабета
Предметная область	Здравоохранение
Автор/организация/эл. почта	Питер Ли (Peter Li), Йин Дин (Ying Ding), Филип Юи (Philip Yu), Джоффри Фокс (Geoffrey Fox), Дэвид Уальд (David Wild)/Клиника Мейо (Мауо Clinic), университет Индианы (IU), университет Иллинойса в Чикаго (UIC)/dingying@indiana.edu
Акторы/заинтересованные лица, их роли и ответственность	Клиника Мейо + университет Индианы - семантическая интеграция данных из электронных медицинских документов. Университет Иллинойса в Чикаго - интеллектуальный анализ семантических данных из электронных медицинских документов. Университет Индианы - облачные и параллельные вычисления
Цели	Разработка передовых методов интеллектуального анализа данных, представленных в виде графов, и их применение в отношении электронной медицинской документации, с целью выявления демографических когорт и извлечения из электронных медицинских документов соответствующих данных для оценки результатов лечения. Эти методы расширят границы масштабируемости и технологий интеллектуального анализа данных; будут способствовать развитию знаний и практики в этих областях, а также клиническому управлению лечением сложных заболеваний
Описание варианта использования	Диабет - это болезнь, которая становится все более распространенной среди населения Земли, затрагивая как развивающиеся, так и развитые страны. Современные стратегии управления лечением не учитывают должным образом индивидуальные профили пациентов, в том числе наличие сопутствующих заболеваний и прием соответствующих лекарств - обычное явление у пациентов с хроническими заболеваниями. Мы предлагаем устранить этот недостаток путем выявления похожих пациентов из большой базы данных электронной медицинской документации (т.е. путем формирования индивидуализированной демографической когорты), и оценки результатов их лечения с тем, чтобы выбрать наилучшее решение, подходящее для конкретного больного диабетом. Ниже описаны этапы выполнения проекта: Этап 1: Применение "метода семантического связывания для значений свойств" (Semantic Linking for Property Values) для преобразования данных из хранилищ данных в Клинике Мейо, США (EDT), в триплеты RDF, что дает нам возможность гораздо эффективнее выявлять похожих пациентов за счет связывания как словарных, так и числовых значений. Этап 2: Требуются эффективные параллельные алгоритмы поиска и извлечения, подходящие для облачных и/или высокопроизводительных вычислений. Нереляционная СУБД Hbase с открытым исходным кодом используется для поиска по индексу и настраиваемого поиска с целью выявления потенциально представляющих интерес пациентов. Этап 3: Данные из электронных медицинских документов, представленные в виде RDF-графа, предоставляют собой богатую среду для интеллектуального анализа закономерностей в графе. Требуются новые алгоритмы распределенного интеллектуального анализа графов с целью выполнения анализа закономерностей и применения метода индексации графов в интересах поиска закономерностей в графах на основе триплетов RDF. Этап 4: Учитывая размер и сложность графов, интеллектуальный анализ закономерностей в подграфах может сгенерировать множество ложноположительных и ложноотрицательных результатов. Требуются надежные инструменты статистического анализа для контроля частоты ложных срабатываний, определения истинной значимости подграфа и проверки результатов в рамках нескольких клинических вариантов использования
Текущие решения	Вычислительная система	Суперкомпьютеры, облако
	Хранилище данных	Распределенная файловая система HDFS (Hadoop distributed file system)
	Сеть связи	Разное. Требуется интенсивная обработка ввода/вывода
	Программное обеспечение	Внутреннее хранилище данных в Клинике Мейо, США (EDT)
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Распределенные данные электронной медицинской документации
	Объем (количество)	База данных электронных медицинских документов Клини Мейо (Clinic Mayo) представляет собой очень большой набор данных, охватывающий более 5 млн пациентов с тысячами свойств по каждому, и многие другие сведения, полученные из первичных данных
	Скорость обработки (например, в реальном времени)	Не в режиме реального времени, но данные периодически обновляются
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Структурированные данные. Значения свойств пациента могут быть как из контролируемых словарей (демография, диагностические коды, лекарства, процедуры и т.д.), так и непрерывные числовые величины (лабораторные анализы, количество лекарств, показатели жизненно важных функций и т.д.). Число значений свойств может варьироваться от менее 100 (новый пациент) до более чем 100 тысяч (длительно наблюдаемый пациент), при этом типичным для пациента является около 100 значений свойств из контролируемых словарей и 1000 непрерывных числовых величин. Большинство значений привязаны ко времени, т.е. отметка времени фиксируется вместе со значением в момент наблюдения
	Вариативность (темпы изменения)	Данные обновляются или добавляются при каждом визите пациента
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	Данные аннотируются на основе онтологии или таксономии предметной области. Семантика данных может варьироваться от лаборатории к лаборатории
	Визуализация	Отсутствует
	Качество данных (синтаксис)	Сведения о происхождение (provenance) имеют важное значение для отслеживания происхождения данных и оценки их качества
	Типы данных	Текстовые данные, непрерывные числовые величины
	Аналитика данных	Интеграция данных в семантический граф, использование обхода графа взамен операции join в SQL. Разработка алгоритмов интеллектуального анализа семантических графов с целью выявления закономерностей в графе, индексирования графа и поиска по нему. СУБД Hbase с индексированием. Специализированная программа для выявления новых свойств пациента на основе хранящихся данных
Иные проблемы больших данных	В рамках индивидуализированной демографической когорты, мы по существу создадим информационное табло (datamart) для каждого пациента, поскольку важнейшие свойства и показатели будут индивидуальными для каждого пациента. Из-за количества пациентов создание таких табло в индивидуальном порядке становится непрактичным. По сути, парадигма меняется от поиска строки - столбца в таблицах реляционной базы данных на обход семантического графа
Проблемы пользовательского интерфейса и мобильного доступа	Врачам и пациентам может понадобиться доступ к этим данным на мобильных платформах
Технические проблемы обеспечения безопасности и защиты персональных данных	Должны быть обеспечены безопасность и защита персональных данных в медицинских документах и клинических базах данных
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)	Интеграция данных: непрерывные числовые величины, онтологическая аннотация, таксономия. Поиск по графу: индексирование графа и поиск по нему. Валидация: статистическая валидация
Дополнительная информация (гиперссылки)

А.4.7 Вариант использования N 22: Статистический реляционный искусственный интеллект для здравоохранения

Название	Статистический реляционный искусственный интеллект для здравоохранения
Предметная область	Здравоохранение
Автор/организация/эл. почта	Шрирам Натараджан (Sriraam Natarajan)/Университет Индианы (Indiana University)/natarasr@indiana.edu
Акторы/заинтересованные лица, их роли и ответственность	Исследователи в области информатики и медицины, практики в области медицины
Цели	Целью проекта является анализ больших, мультимодальных данных длительного наблюдения (longitudinal data). Анализ различных типов, таких, как изображения, электронные данные (карта) здоровья (EHR), генетические данные и данные на естественном языке, требует богатых средств представления (rich representation). В рамках данного подхода используются реляционные вероятностные модели, способные работать с богатыми реляционными данными и моделирующие неопределенности на основе теории вероятности. Программное обеспечение обучает модели на основе ряда типов данных, и, возможно, сможет интегрировать информацию и логические рассуждения о сложных запросах
Описание варианта использования	Пользователи могут представить набор сведений, например образы магнитно-резонансной томографии (МРТ) и демографические данные о конкретном субъекте. Затем они могут сделать запрос о начале конкретного заболевания (например, болезни Альцгеймера), и система выдаст распределение вероятностей для возможного возникновения этого заболевания
Текущие решения	Вычислительная система	Для исполнения программы обработки данных нескольких сотен пациентов необходим высокопроизводительный компьютер (48 ГБ ОЗУ). Кластеры нужны в случае обработки больших наборов данных
	Хранилище данных	Обычно тестовые данные хранятся на жестком диске емкостью от 200 гигабайт до 1 терабайта. При выполнении алгоритмов соответствующие данные извлекаются в основную память. Данные на сервере хранятся в базе данных или в хранилищах типа NoSQL
	Сеть связи	Интранет
	Программное обеспечение	В основном на основе Java, для обработки данных используются инструменты собственной разработки
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Все данные о пользователях хранятся в одном файле на диске. Иногда должны быть извлечены из Интернета такие ресурсы, как опубликованные тексты
	Объем (количество)	Объем может варьироваться из-за разного количества собранных данных. Типичный объем измеряется сотнями гигабайт для одной когорты из нескольких сотен человек. Когда речь идет о миллионах пациентов, объем данных может быть порядка 1 петабайта
	Скорость обработки (например, в реальном времени)	Различная. В некоторых случаях электронные медицинские документы постоянно обновляются. В других контролируемых исследованиях данные часто поступают партиями через равные промежутки времени
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Это ключевое свойство наборов медицинских данных. Такие данные обычно содержатся в ряде таблиц, которые необходимо объединить для выполнения анализа
	Вариативность (темпы изменения)	Поступление данных во многих случаях непредсказуемо, поскольку они поступают в режиме реального времени
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	Проблематична, ввиду различной модальности данных, человеческих ошибок при сборе и проверке данных
	Визуализация	Визуализация всей совокупности исходных данных практически невозможна. Обычно данные визуализируются частично. Построенные модели могут быть визуализированы при определенных разумных допущениях
	Качество данных (синтаксис)
	Типы данных	Электронные медицинские документы, графические изображения, генетические данные, которые хранятся в нескольких базах данных
	Аналитика данных
Иные проблемы больших данных	Во многих направлениях медицины данные имеются в изобилии. Ключевой вопрос заключается в том, что данных может быть слишком много (таких как изображения, генетические последовательности и т.д.), что может усложнить анализ. Реальной проблемой является согласование данных и слияние данных из нескольких источников в форме, полезной для их совместного анализа. Еще одна проблема заключается в том, что иногда доступны большие объемы данных об одном субъекте, но число субъектов при этом не очень велико (то есть имеется дисбаланс данных). Это может привести к тому, что в ходе анализа алгоритмы обучения расценят случайные корреляции между данными нескольких типов как важные свойства. Ввиду этого имеют первостепенное значение робастные методы обучения, способные верно моделировать данные. Еще одним аспектом дисбаланса данных является частота позитивных примеров (случаев). Некоторые заболевания могут встречаться редко, что делает отношение позитивных примеров к "контролям" крайне искаженным, и в этом случае алгоритмы обучения могут моделировать шум вместо примеров
Технические проблемы обеспечения безопасности и защиты персональных данных	Обеспечение безопасности при подготовке и обработке данных имеет критически важное значение в медицинских областях
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)	Модели, обученные на одной группе населения, трудно обобщить на другие группы населения с отличающимися характеристиками. Для этого необходимо, чтобы обученные модели можно было обобщать и уточнять в соответствии с изменением характеристик населения
Дополнительная информация (гиперссылки)

А.4.8 Вариант использования N 23: Эпидемиологическое исследование в масштабе всего населения Земли

Название	Эпидемиологическое исследование в масштабе всего населения Земли
Предметная область	Эпидемиология, моделирование в социальных (общественных) науках, вычислительные социальные науки
Автор/организация/эл. почта	Мадхав Марате (Madhav Marathe, mmarathe@vbi.vt.edu), Стивен Юбанк (Stephen Eubank, seubank@vbi.vt.edu) и Крис Барретт (Chris Barrett, cbarrett@vbi.vt.edu)/Институт биосложности (Biocomplexity Institute, ранее Институт биоинформатики) Политехнического университета/университета штата Вирджиния (Virginia Tech)
Акторы/заинтересованные лица, их роли и ответственность	Государственные и некоммерческие учреждения, занимающиеся вопросами здравоохранения, государственной политики и смягчения последствий стихийных бедствий и катастроф. Социологи, желающие изучить взаимодействие между поведением и распространением инфекции
Цели	(a) Сформировать синтетическую глобальную популяцию; и (b) Провести моделирование в масштабе глобальной популяции с тем, чтобы сделать выводы о вспышках заболеваемости и различных стратегиях вмешательства
Описание варианта использования	Прогнозирование и контроль над пандемиями, аналогичными пандемии гриппа H1N1 в 2009 г.
Текущие решения	Вычислительная система	Распределенная на основе использования интерфейса передачи сообщений MPI (Message Passing Interface) система моделирования, написанная на Charm++. Параллелизм достигается за счет использования меры "время присутствия болезни" (disease residence time period)
	Хранилище данных	Сетевая файловая система NFS (Network file system). Изучаются методы на основе баз данных
	Сеть связи	Высокоскоростная коммутируемая компьютерная сеть Infiniband. Топология трехмерного тора с высокой пропускной способностью
	Программное обеспечение	Charm++, MPI
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Данные генерируются с помощью генератора синтетической популяции, в настоящее время - централизованно. Тем не менее генерация может быть сделана распределенной как часть постобработки
	Объем (количество)	100 терабайт
	Скорость обработки (например, в реальном времени)	Взаимодействие с экспертами и процедуры визуализации производят большие объемы данных в реальном времени. Подача данных в программу моделирования мала, однако в ходе моделирования создаются огромные объемы данных
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Разнообразие зависит от сложности используемой в моделировании модели. Модель может быть очень сложной, если принять во внимание иные аспекты мировой популяции, такие как тип деятельности, географические, социально-экономические и культурные различия
	Вариативность (темпы изменения)	Зависит от эволюции модели и соответствующих изменений в программе. Это сложная работа, требующая много времени, - отсюда и низкая скорость изменения
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	Стабильность результатов моделирования зависит от качества модели. В то же время стабильность собственно вычислений - вопрос решаемый, хотя и нетривиальный
	Визуализация	Для подключения визуализации потребуется пересылать очень большие объемы данных
	Качество данных (синтаксис)	Данные согласованы благодаря генерации на основе модели
	Типы данных	В основном сетевые данные
	Аналитика данных	Сводка по различным прогонам и повторам моделирования
Иные проблемы больших данных	Вычисления в процессе моделирования требуют как значительных вычислительных ресурсов, так и обработки больших объемов данных. Более того, из-за неструктурированного и нерегулярного характера обработки графов, проблему сложно решать по частям. По этой причине также требуется широкая полоса пропускания. Следовательно, суперкомпьютер подходит больше, чем кластеры облачного типа
Проблемы пользовательского интерфейса и мобильного доступа	Нет
Технические проблемы обеспечения безопасности и защиты персональных данных	Есть ряд проблем на этапе моделирования синтетической популяции (см. модель распространения социального влияния)
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)	В общем случае можно моделировать и вычислять распространение явлений различного рода: информации, болезней, социальных волнений. Во всех этих случаях применяется модель на основе лиц-агентов (agent-based model), которая использует базовую сеть взаимодействий для изучения эволюции рассматриваемых явлений
Дополнительная информация (гиперссылки)

А.4.9 Вариант использования N 24: Моделирование распространения социального влияния

Название	Моделирование распространения социального влияния
Предметная область	Социальное поведение (включая вопросы национальной безопасности, здравоохранения; вирусный маркетинг, городское планирование, готовность к чрезвычайным ситуациям и катастрофам)
Автор/организация/эл. почта	Мадхав Марате (Madhav Marathe, mmarathe@vbi.vt.edu) и Крис Кульман (Chris Kuhlman, ckuhlman@vbi.vt.edu)/Институт биосложности (Biocomplexity Institute, ранее Институт биоинформатики) Политехнического университета/университета штата Вирджиния (Virginia Tech)
Акторы/заинтересованные лица, их роли и ответственность
Цели	Создать вычислительную инфраструктуру, которая моделирует процессы распространения социального влияния. Эта инфраструктура позволяет моделировать различные типы взаимодействия между людьми (например, лицом к лицу либо через социальные сети; отношения мать - дочь в сравнении с отношениями мать - коллега). Учитываются не только взаимоотношения между людьми, но и взаимоотношения между людьми и сервисами (например, транспорт) либо инфраструктурой (например, Интернет, электроснабжение)
Описание варианта использования	Социальные волнения. Люди выходят на улицы, чтобы выразить свое недовольство либо поддержку руководству государства. Среди граждан есть как те, кто поддерживает правительство, так и те, кто ему противостоит. Ставятся задачи количественно определить степень, в которой нормальная деловая деятельность и активность населения нарушаются из-за страха и гнева; количественно определить вероятность мирных демонстраций и/или насильственных протестов; определить диапазон возможных ответных мер правительства, начиная от умиротворения, разрешения протестов и до угроз в адрес протестующих и действий по срыву протестов. Для решения таких вопросов потребуются модели и наборы данных с высоким разрешением
Текущие решения	Вычислительная система	Программное обеспечение для распределенной обработки, исполняемое на коммерческих кластерах и в более новых архитектурах и системах (например, в облаке)
	Хранилище данных	Файловые серверы (включая архивы), базы данных
	Сеть связи	Ethernet, Infiniband и аналогичные им решения
	Программное обеспечение	Специализированные программы моделирования, программное обеспечение с открытым исходным кодом и проприетарные среды моделирования. Базы данных
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Множество источников данных: сведения о населении, местах работы, типичных маршрутах поездок, коммунальных услугах (например, электросети) и иных созданных человеком инфраструктурах, онлайн-источниках информации и социальных сетях
	Объем (количество)	Десятки терабайт новых данных ежегодно
	Скорость обработки (например, в реальном времени)	Во время социальных волнений взаимодействие между людьми и мобильность являются ключом к пониманию динамики системы. Быстрые изменения в данных, например о том, кто на кого подписан в Твиттере
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Разнообразие данных проявляется в широком диапазоне источников данных. Данные, изменяющиеся с течением времени. Объединение данных. Одной из важных проблем является объединение данных (data fusion). Как комбинировать данные из разных источников и что делать в случае отсутствия или неполноты данных? Многочисленные одновременно протекающие процессы распространения социального влияния
	Вариативность (темпы изменения)	Ввиду стохастической природы событий необходимо выполнить ряд запусков моделирования при различных параметрах модели и исходных данных, чтобы оценить диапазоны разброса результатов
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	В качестве меры обеспечения достоверности результатов проводится анализ поступающих данных в "мягком" реальном времени
	Визуализация	Большие наборы данных; эволюция во времени; моделирование нескольких процессов распространения социального воздействия на нескольких представлениях сети. Различные уровни детализации (например, уровень отдельного человека, микрорайона, города, штата, страны)
	Качество данных (синтаксис)	Проверки с целью обеспечения согласованности данных, на наличие порчи данных. Предварительная обработка первичных данных для использования их в моделях
	Типы данных	Очень разнообразные данные, от характеристик человека до данных о коммунальных и транспортных системах и взаимодействии между ними
	Аналитика данных	Модели поведения людей и физических инфраструктур, а также взаимодействия между ними. Визуализация результатов
Иные проблемы больших данных	Как учесть разнородные особенности сотен миллионов или миллиардов людей и модели культурных различий между странами, которые приписаны отдельным агентам? Как проверить эти большие модели? Различные типы моделей (например, с несколькими процессами распространения социального влияния): болезни, эмоции, поведение. Моделирование различных систем городской инфраструктуры, в условиях которой действуют люди. Поскольку для оценки стохастичности требуется повторное моделирование, создаются большие объемы выходных данных; соответственно, требования к их хранению
Проблемы пользовательского интерфейса и мобильного доступа	Где и как выполнять эти вычисления? Комбинации облачных вычислений и кластеров. Как добиться максимальной эффективности вычислений - переместить данные к вычислительным ресурсам?
Технические проблемы обеспечения безопасности и защиты персональных данных	В данном вопросе есть два аспекта. Во-первых, обеспечение неприкосновенности частной жизни и анонимности людей, сведения о которых использованы при моделировании (это, например, данные о пользователях Twitter и Facebook). Во-вторых, обеспечении защиты данных и вычислительных платформ
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)	Объединение данных различных типов. В зависимости от конкретной рассматриваемой проблемы необходимо комбинировать разные наборы данных. Встает вопрос о том, каким образом обеспечить быструю разработку, проверку и валидацию новых моделей для новых приложений. Проблема выбора надлежащего уровня детализации, позволяющего схватить изучаемое явление, обеспечивая в то же время достаточно быстрое получение результатов, - то есть это вопрос о том, как сделать решение масштабируемым. Визуализация и извлечение данных с разной степенью детализации
Дополнительная информация (гиперссылки)

А.4.10 Вариант использования N 25: Биологическое разнообразие и европейская электронная научно-исследовательская инфраструктура LifeWatch

Название	LifeWatch - европейская электронная инфраструктура для исследований в области экологии и биологического разнообразия
Предметная область	Научные исследования, медико-биологические науки
Автор/организация/эл. почта	Ваутер Лос (Wouter Los), Юрий Демченко (Yuri Demchenko, y.demchenko@uva.nl), университет Амстердама
Акторы/заинтересованные лица, их роли и ответственность	Конечные пользователи (биологи, экологи, полевые исследователи) Аналитики данных, менеджеры архивов данных, менеджеры инфраструктуры электронной науки, национальные представители стран - членов Евросоюза
Цели	Мониторинг и изучение различных экосистем, биологических видов, их динамики и миграции
Описание варианта использования	Целью проекта LifeWatch является обеспечение интегрированного доступ к различным данным, инструментам аналитики и моделирования, предоставленным рядом сотрудничающих с ним проектов. Он также будет предлагать данные и инструменты в составе отдельных рабочих процессов конкретным научным сообществам. Помимо этого, LifeWatch предоставит возможности для создания персонализированных "виртуальных лабораторий", также позволяя вводить/подключать новые данные и аналитические инструменты. Новые данные будут коллективно использоваться сотрудничающими с LifeWatch центрами обработки данных. Конкретные тематические исследования: мониторинг чужеродных видов, мигрирующих птиц и водно-болотных угодий
Текущие решения	Вычислительная система	Полевые объекты: будут определены позднее Центр обработки данных: Типичные ресурсы сетевых параллельных вычислений и облачные ресурсы, предоставляемые национальными центрами электронной науки
	Хранилище данных	Распределенное; архивируются исторические данные и данные о тенденциях
	Сеть связи	Может потребоваться специальная выделенная или оверлейная (наложенная) сенсорная сеть
	Программное обеспечение	Веб-сервисы, грид-сервисы, реляционные базы данных
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Экологическая информация от многочисленных пунктов наблюдения и мониторинга и сенсорной сети, спутниковые изображения/ информация, данные о климате и погоде, вся зарегистрированная информация. Информация от полевых исследователей
	Объем (количество)	Охватывает множество существующих наборов данных/источников. Суммарный объем данных предстоит определить
	Скорость обработки (например, в реальном времени)	Данные анализируются поэтапно, динамика обработки соответствует динамике биологических и экологических процессов. Может, однако, потребоваться обработка и анализ в реальном времени в случае стихийных бедствий или техногенных катастроф. Может потребоваться обработка потоковых данных
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Разнообразие и количество задействованных баз данных и данных наблюдений в настоящее время ограничено возможностями доступных инструментов. В принципе оно является неограниченным, с учетом растущих возможностей для обработки данных с целью выявления экологических изменений, факторов/причин, эволюции видов и тенденций. См. ниже в разделе дополнительной информации
	Вариативность (темпы изменения)	Структура наборов данных и моделей может изменяться в зависимости от этапа обработки данных и поставленных задач
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	В обычном режиме мониторинга данные статистически обрабатываются для достижения надежности результатов. Для некоторых исследований в области биоразнообразия достоверность данных (их надежность и возможность им доверять) имеет критически важное значение. В случае стихийных бедствий и техногенных катастроф достоверность данных имеет критически важное значение
	Визуализация	Требуются развитая и богатая визуализация, средства визуализации высокой четкости, данные визуализации, поддерживающие: - 4D-визуализацию; - визуализацию влияния изменения параметров в (вычислительных) моделях; - сравнение полученных по модели результатов с реальными наблюдениями (многомерное)
	Качество данных (синтаксис)	Качество зависит и является следствием качества исходных данных наблюдений. Качество аналитических результатов зависит от используемых моделей и алгоритмов, которые постоянно совершенствуются. Нужна возможность повторного анализа данных с целью переоценки исходных данных наблюдений. Данные, на основе которых должны приниматься решения, контролируются человеком
	Типы данных	Данные многих типов. Реляционные данные, пары ключ-значение, сложные данные с развитой семантикой
	Аналитика данных	Аналитика параллельных потоков данных и аналитика данных, поступающих в потоковом режиме
Иные проблемы больших данных	Хранение и архивация данных, обмен данными и их интеграция; связь данных: от исходных данных наблюдений до обработанных данных и данных отчетности/визуализированных данных: - уникальные исторические данные; - курированные (авторизованные) эталонные данные (т.е. списки названий видов), алгоритмы, программные коды, рабочие процессы; - обработанные (вторичные) данные, являющиеся исходным материалом для других исследователей; - контроль происхождения с присвоением постоянного идентификатора (PID) данных, алгоритмов и рабочих процессов
Проблемы пользовательского интерфейса и мобильного доступа	Требуется поддержка мобильных датчиков (например, при изучении миграции птиц) и мобильной работы исследователей (как в плане передачи информации, так и в плане поиска в каталоге) - Оснащенные инструментами полевые транспортные средства, корабли, самолеты, подводные лодки, плавучие буи; сенсорные бирки на особях - Фотографии, видео- и звукозаписи
Технические проблемы обеспечения безопасности и защиты персональных данных	Целостность данных, ссылочная целостность наборов данных. Объединенное управление идентификацией для мобильных исследователей и мобильных датчиков Обеспечение конфиденциальности, контроля доступа и учета информации об охраняемых видах, экологической информации, космических снимков, климатической информации
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)	Поддержка распределенной сенсорной сети Комбинирование и установление связей между данными различных типов; потенциально неограниченное разнообразие данных. Управление жизненным циклом данных: происхождение данных, ссылочная целостность и идентификация. Доступ и интеграция нескольких распределенных баз данных
Дополнительная информация (гиперссылки)	Сайт европейского проекта LifeWatch-ERIC, https://www.lifewatch.eu/web/guest/home Сайт реестра веб-сервисов в области биоразнообразия BiodiversityCatalogue, https://www.biodiversitycatalogue.org/
Примечание - Разнообразие данных, используемых в исследованиях по биоразнообразию: Генетическое (геномное) разнообразие: - последовательности ДНК и ДНК - баркодирование; - метаболомические функции. Информация о биологических видах: - названия видов; - сведения о наблюдениях (по времени и месту); - отличительные признаки вида и данные об истории его развития; - взаимоотношения хозяин - паразит; - данных об образцах в коллекции. Экологическая информация: - биомасса, диаметр ствола/корня и другие физические характеристики; - плотность населения и т.п.; - структуры среды обитания; - геохимические циклы углерода, азота, фосфора и т.д. Данные об экосистеме: - видовой состав и динамика сообщества; - данные дистанционного и наземного наблюдения; - потоки СO₂; - характеристики почвы; - цветение водорослей; - температура, соленость, кислотность морской среды, течения и т.д. Эксплуатация экосистемы: - продуктивность (т.е. производство биомассы в единицу времени); - динамика пресной воды; - эрозия; - буферизация тепла и влажности; - генетические пулы. Концепции данных: - концептуальная основа каждого вида данных; - онтологии; - данные о происхождении. Алгоритмы и потоки рабочих процессов: - программный код и происхождение; - протестированные рабочие процессы. Многочисленные источники данных и информации: - данные сбора образцов; - наблюдения (в сделанной человеком интерпретации); - датчики и сенсорные сети (наземные, морские, почвенных организмов), кольцевание птиц и т.д. - спектры воздушного и спутникового наблюдения; - полевые и лабораторные эксперименты; - данные радаров и лазерных радаров (лидаров); - данные о рыболовстве и сельском хозяйстве; - данные о заболеваниях и эпидемиях.

А.5 Облачные вычисления

А.5.1 Вариант использования N 26: Крупномасштабное глубокое обучение

Название	Крупномасштабное глубокое обучение
Предметная область	Машинное обучение, искусственный интеллект
Автор/организация/эл. почта	Адам Коутс (Adam Coates)/Стэнфордский университет (Stanford University)/acoates@cs.stanford.edu
Акторы/заинтересованные лица, их роли и ответственность	Исследователям и практикам в области машинного обучения приходится иметь дело с большими объемами данных и сложными задачами прогнозирования. Данный вариант использования поддерживает новейшие разработки в области компьютерного зрения, управления беспилотным автомобилем, распознавания речи и обработки естественного языка в научно-исследовательских и отраслевых системах
Цели	Увеличение объема наборов данных и размера моделей, с которыми способны работать алгоритмы глубокого обучения. Большие модели (например, нейронные сети с большим количеством нейронов и соединений) в сочетании с большими наборами данных все чаще показывают наилучшие результаты при выполнении эталонных задач в области зрения, речи и обработки естественного языка
Описание варианта использования	Научный сотрудник или специалист-практик в области машинного обучения хочет обучать глубокую нейронную сеть на большом (намного более 1 терабайта) массиве данных, обычно состоящем из изображений, видео-, аудиоматериалов и/или текста. Такие процедуры обучения часто требуют специфической настройки архитектуры нейронной сети, критериев обучения и предварительной обработки набора данных. Помимо вычислительных затрат, которых требуют алгоритмы обучения, чрезвычайно высока потребность в быстрой разработке прототипа и удобстве разработки
Текущие решения	Вычислительная система	Кластер графических процессоров с высокоскоростными соединениями (например, Infiniband, 40 гигабит в секунду)
	Хранилище данных	Файловая система Lustre объемом 100 терабайт
	Сеть связи	В кластере высокопроизводительных вычислений - Infiniband; 1-гигабитный Ethernet для сетевых соединений с внешней инфраструктурой (такой как интернет, файловая система Lustre)
	Программное обеспечение	Программное обеспечение для информационного обмена между ядрами графических профессоров и для взаимодействия на основе MPI, разработанное на факультете вычислительных наук Стэнфордского университета. Исходный код на языках С++/Python
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Централизованная файловая система, содержащая один большой обучающий набор данных. Набор данных может обновляться путем включения новых учебных примеров по мере их появления
	Объем (количество)	Типичный объем наборов данных обычно составляет от 1 до 10 терабайт. С ростом вычислительных мощностей, позволяющим использовать модели гораздо большего размера, могут потребоваться наборы данных объемом 100 терабайт и более для использования в полной мере репрезентативной способности более крупных моделей. Для обучения беспилотного автомобиля могут потребоваться 100 млн изображений
	Скорость обработки (например, в реальном времени)	Требуется намного более быстрая обработка, чем в реальном времени. Современные приложения компьютерного зрения включают обработку сотен кадров в секунду с тем, чтобы обеспечить разумное время обучения. Для требовательных приложений (таких, как управление беспилотным автомобилем) мы предвидим потребность в обработке многих тысяч изображений с высоким разрешением (6 мегапикселей и более) в секунду
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Отдельные приложения могут использовать широкий спектр данных. В настоящее время изучаются, в частности, нейронные сети, которые активно учатся на разнородных задачах, таких как обучение выполнению тегирование, разбивки на фрагменты и разбора текста, или обучение чтению по губам с использованием комбинации видео и аудиозаписей
	Вариативность (темпы изменения)	Вариативность низкая. Большая часть данных поступает в постоянном темпе в потоковом режиме из общего источника. Из-за высоких вычислительных требований нагрузка на сервер может сделать передачу данных неравномерной
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	Наборы данных для приложений машинного обучения часто размечаются и проверяются вручную. При подготовке чрезвычайно больших наборов данных разметка может выполняться с использованием краудсорсинга, тем самым возникает риск неоднозначных ситуаций, когда метка непонятна. Автоматизированные системы разметки по-прежнему требуют проведения человеком проверки результатов на соответствие здравому смыслу. Активной областью исследований являются умные методы построения больших наборов данных
	Визуализация	Визуализация обученных сетей является открытой областью исследований, хотя отчасти рассматривается как метод отладки. Некоторые визуальные приложения включают использование визуализации для прогнозирования (visualization predictions) на основе тестовых изображений
	Качество данных (синтаксис)	Некоторые из собранных данных (например, сжатое видео или аудио) могут быть представлены в неизвестные форматах, использовать неизвестные кодеки или оказаться поврежденными. Автоматическая фильтрация исходных данных удаляет такие данные
	Типы данных	Изображения, видео, аудио, текст (на практике, почти любые)
	Аналитика данных	В небольшой степени выполняется пакетная статистическая предварительная обработка; весь остальной анализ данных выполняется самим алгоритмом обучения
Иные проблемы больших данных	Требования к обработке даже для скромных объемов данных являются чрезвычайно высокими. Хотя обученные представления могут использовать много терабайт данных, основная проблема заключается в обработке всех данных во время обучения. Современные системы глубокого обучения способны использовать нейронные сети с более чем 10 млрд свободных параметров (аналогичных синапсам мозга), что требует триллионов операций с плавающей запятой для каждого учебного примера. Распределение этих вычислений по высокопроизводительной инфраструктуре является серьезной проблемой, для решения которой в настоящее время мы в основном используем специализированную программную систему
Проблемы пользовательского интерфейса и мобильного доступа	После завершения обучения больших нейронных сетей, обученная сеть может быть скопирована на другие устройства с кардинально меньшими вычислительными возможностями для использования в прогнозировании в реальном времени. (Например, при управлении беспилотными автомобилями, процедура обучения выполняется с использованием высокопроизводительного кластера с 64 графическими процессорами. Результатом обучения является нейронная сеть, которая кодирует необходимые знания для принятия решений о пилотировании и обходе препятствий. Эта сеть может быть скопирована во встроенное в транспортные средства оборудование или в датчики.)
Технические проблемы обеспечения безопасности и защиты персональных данных	Нет
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)	Глубокое обучение имеет много общих черт с более широкой областью машинного обучения. Первостепенными требованиями являются высокая вычислительная пропускная способность (computational throughput), главным образом, для операций линейной алгебры с плотными матрицами, а также чрезвычайно высокая продуктивность. Для обеспечения лучшей производительности большинство систем глубокого обучения требуют значительных усилий по настройке на целевое приложение и, следовательно, требуют большого количества экспериментов, с вмешательством проектировщика между экспериментами. В результате ключевое значение имеет минимизация времени на проведение эксперимента и ускорение процесса разработки. Эти два требования - высокая вычислительная пропускная способность и высокая продуктивность - резко противоречат друг другу. Существуют системы высокопроизводительных вычислений (НРС), которые можно использовать для ускорения экспериментов, однако текущую программную НРС-инфраструктуру сложно использовать, что удлиняет время разработки и отладки, а во многих случаях, делает невозможными в остальном посильные в вычислительном плане приложения. В число основных компонент, необходимых для этих приложений (которые в настоящее время являются программами нашей собственной разработки), входят операции линейной алгебры над плотными матрицами, выполняемые в высокопроизводительных вычислительных системах с распределенной памятью. Если библиотеки для вычислений на одной машине или на одном графическом процессоре доступны (например, BLAS, CuBLAS, MAGMA и др.), то распределенные вычисления с плотными матрицами на графических процессорах, подобные тем, что поддерживаются BLAS или LAPACK, остаются слабо развитыми. Существующие решения (например, ScaLapack для центральных процессоров) не очень хорошо интегрированы с языками высокого уровня и требуют низкоуровневого программирования, что удлиняет время эксперимента и процесса разработки
Дополнительная информация (гиперссылки)	Недавние популярные публикации в прессе о технологии глубокого обучения: Джон Марков (John Markoff) "Ученые видят потенциал у программ глубокого обучения" (Scientists See Promise in Deep-Learning Programs), "Нью-Йорк таймс", 23 ноября 2012 г., https://www.nytimes.com/2012/11/24/science/scientists-see-advances-in-deep-learning-a-part-of-artificial-intelligence.html Джон Марков (John Markoff) "Сколько компьютеров нужно, чтобы идентифицировать кошку? 16 тысяч" (How Many Computers to Identify a Cat? 16,000), "Нью-Йорк таймс", 25 июня 2012 г., https://www.nytimes.com/2012/06/26/technology/in-a-big-network-of-comp uters-evidence-of-machine-learning.html Даниэла Эрнандес (Daniela Hernandez) "Теперь Вы можете задешево создать искусственный мозг, который Google обошелся в миллион долларов" (Now You Can Build Google's $1M Artificial Brain on the Cheap), Wired, 17 июня 2013 г., https://www.wired.com/2013/06/andrew-ng/ Недавняя научная статья по использованию высокопроизводительных вычислений при глубоком обучении: Adam Coates, Brody Huval, Tao Wang, David J. Wu, Andrew Y. Ng, Bryan Catanzaro "Deep learning with COTS HPC systems", Proceedings of the 30-th International Conference on Machine Learning, Atlanta, Georgia, USA, 2013, http://proceedings.mlr.press/v28/coates13.pdf Широко используемые учебные пособия и ссылки на ресурсы по глубокому обучению: "Руководство по машинному обучению без учителя и глубокому обучению" (Unsupervised Feature Learning and Deep Learning (UFLDL) Tutorial), Стэнфордский университет, http://deeplearning.stanford.edu/tutorial/ Сайт сообщества специалистов по глубокому обучению (архивный), http://deeplearning.net/

А.5.2 Вариант использования N 27: Организация крупномасштабных, неструктурированных коллекций сделанных потребителями фотографий

Название	Организация крупномасштабных, неструктурированных коллекций сделанных потребителями фотографий
Предметная область	Научные исследования, искусственный интеллект
Автор/организация/эл. почта	Дэвид Крендал (David Crandall), Университет Индианы, djcran@indiana.edu
Акторы/заинтересованные лица, их роли и ответственность	Исследователи в области компьютерного зрения (развитие данного направления), новостные агентства и компании - владельцы социальных сетей (способствование организации крупномасштабных коллекций фотографий), потребители (просмотр как личных, так и публичных коллекций фотографий), исследователи и другие специалисты, заинтересованные в создании дешевых трехмерных моделей (археологи, архитекторы, градостроители, дизайнеры интерьеров и т.д.)
Цели	Создание трехмерных реконструкций сцен с использованием коллекций, содержащих от миллионов до миллиардов сделанных потребителями фотографий, когда ни структура сцены, ни положение камеры заранее не известны. Использование полученных трехмерных моделей для поддержки эффективного и результативного просмотра крупномасштабных коллекций фотографий по географическому положению. Географическая привязка новых изображений осуществляется путем сопоставления с трехмерными моделями. Для каждого изображения может быть выполнено распознавание объектов
Описание варианта использования	Задача трехмерной реконструкции обычно формулируется как задача робастной нелинейной оптимизации с использованием метода наименьших квадратов, в рамках которой наблюдаемые (зашумленные) соответствия между изображениями являются ограничениями, а в число неизвестных входят 6-мерные координаты, задающие положение камеры для каждого изображения и 3-мерные координаты положения каждой точки сцены. Разреженность и большая степень шума в ограничениях обычно приводят к тому, что базовые методы оптимизации сходятся в локальные минимумы, которые далеки от реальной структуры сцены. Типичные конкретные шаги включают: (1) извлечение признаков из изображений, (2) сопоставление изображений для выявления пар с общими структурами сцены, (3) оценку первоначального решения, которое близко к структуре сцены и/или параметрам камеры, (4) непосредственную оптимизация нелинейной целевой функции. Можно отметить, что операции на шаге (1) прекрасно распараллеливаются; шаг (2) - это проблема сопоставления всех пар, обычно с использованием эвристик, которые на ранней стадии отбрасывает маловероятные пары. Шаг (3) выполняется нами путем дискретной оптимизации, использующей вероятностный вывод в графе (марковское случайное поле), после чего применяется робастный алгоритм Левенберга-Марквардта в непрерывном пространстве. Другие выполняют шаг (3), решая задачу шага (4) для небольшого числа изображений, а затем постепенно добавляя новые изображения и используя выходные данные последнего этапа расчетов в качестве начальных условий очередного этапа. Шаг (4) обычно выполняется с помощью алгоритма уравнивания по связкам (bundle adjustment), который является реализацией нелинейного метода наименьших квадратов, оптимизированного под конкретные структуры ограничений, возникающих в задачах трехмерной реконструкции. Решение задачи распознавания образов обычно хорошо распараллеливается, хотя обучения моделей объектов включают в себя обучение классификатора (например, метода опорных векторов) - процесс, который зачастую трудно распараллелить
Текущие решения	Вычислительная система	Кластер Hadoop (около 60 узлов, 480 ядер)
	Хранилище данных	Hadoop DFS и плоские файлы
	Сеть связи	Простой Unix
	Программное обеспечение	Написанные вручную простые многопоточные инструменты (ssh и сокеты для обмена информацией)
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Общедоступные коллекции фотографий, например, на Flickr, Panoramio и др.
	Объем (количество)	Более 500 млрд фотографий на Facebook, более 5 млрд фотографий на Flickr
	Скорость обработки (например, в реальном времени)	Ежедневно в Facebook добавляется более 100 миллионов новых фотографий
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Изображения и метаданные, включая теги EXIF (фокусное расстояние, тип камеры и т.д.).
	Вариативность (темпы изменения)	Темпы поступления фотографий значительно варьируются. Например, на Facebook в Новый год выкладывается примерно в 10 раз больше фотографий, чем в другие дни. Географическое распределение фотографий подчиняется распределению "с длинным хвостом", при этом с 1000 примечательных объектов на местности (общей площадью всего около 100 кв. км) связаны более 20 % фотографий на сайте Flickr
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	Важна максимальная точность, с учетом ограничений технологии компьютерного зрения
	Визуализация	Визуализация крупномасштабных трехмерных реконструкций и навигация по крупномасштабным коллекциям изображений, которые были согласованы с картами
	Качество данных (синтаксис)	Наблюдаемые в изображениях признаки достаточно сильно зашумлены как из-за несовершенного извлечения признаков, так и из-за неидеальных свойств конкретных изображений (дисторсия объектива, шум сенсора, добавленные пользователем к изображению эффекты и т.д.)
	Типы данных	Изображения, метаданные
	Аналитика данных
Иные проблемы больших данных	Аналитика нуждается в постоянном мониторинге и совершенствовании
Проблемы пользовательского интерфейса и мобильного доступа	Многие/большинство изображений захватываются мобильными устройствами. Конечная цель заключается в том, чтобы приблизить процессы реконструкции и организации коллекции к телефону и сделать возможным взаимодействие с пользователем в реальном времени
Технические проблемы обеспечения безопасности и защиты персональных данных	Необходимо обеспечить неприкосновенность частной жизни для пользователей и цифровые права для средств массовой информации
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)	Компоненты этого варианта использования, включая извлечение признаков, сопоставление признаков и крупномасштабную машину вероятностных логических выводов, появляются при решении многих или даже большинства проблем компьютерного зрения и обработки изображений, включая распознавание, разделение по глубине (stereo resolution), устранение шума в изображениях и т.д.
Дополнительная информация (гиперссылки)	Сайт лаборатории компьютерного зрения (Computer Vision Lab) Университета Индианы, http://vision.soic.indiana.edu/projects/disco/

А.5.3 Вариант использования N 28: Truthy - Анализ данных Твиттера

Название	Truthy - Исследование распространения информации на основе данных Твиттера
Предметная область	Научные исследования: Изучение сложных сетей и систем
Автор/организация/эл. почта	Филиппо Менцер (Filippo Menczer), Университет Индианы, fil@indiana.edu Алессандро Фламмини (Alessandro Flammini), Университет Индианы, aflammin@indiana.edu Эмилио Феррара (Emilio Ferrara), Университет Индианы, ferrarae@indiana.edu
Акторы/заинтересованные лица, их роли и ответственность	Исследования финансируются Национальным научным фондом США (National Science Foundation, NSF), Агентством по передовым военным научно-техническим проектам (Defense Advanced Research Projects Agency, DARPA), фондом Макдоннела (James S. McDonnell Foundation)
Цели	Понять, как информация распространяется по социально-техническим сетям. Обнаружение потенциально опасной информации (например, вводящих в заблуждение сообщений, скоординированных кампаний и недостоверной информации и т п.) на ранних стадиях ее распространения
Описание варианта использования	(1) Сбор и хранение большого объема данных, поступающих непрерывным потоком от Твиттера ( 100 млн сообщений в день, темпы роста объемов данных 500 гигабайт данных в день); (2) Анализ таких данных в режиме времени, близком к реальному, с целью выявления аномалий, кластеризации потока, классификации сигналов и онлайн-обучения; (3) Поиск и извлечение данных, визуализация больших данных, интерактивные веб-интерфейсы к данным и общедоступные программные интерфейсы (API) для запросов к данным
Текущие решения	Вычислительная система	В настоящее время: собственный кластер, поддерживаемый Университетом Индианы. Критическое требование: большой кластер для хранения данных, манипулирования ими, выполнения запросов и анализа
	Хранилище данных	В настоящее время: первичные данные (с августа 2010 г.), хранящиеся в больших сжатых плоских файлах. Требуется переход на Hadoop/lndexed HBase и распределенное хранение в файловой системе HDFS. База данных в оперативной памяти под СУБД Redis как буфер для анализа в реальном времени
	Сеть связи	Требуется 10-гигабитный Infiniband
	Программное обеспечение	Hadoop, Hive, Redis для управления данными; Python/SciPy/NumPy/MPI для анализа данных
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Распределенный - с репликацией/ избыточностью
	Объем (количество)	30 терабайт в год сжатых данных
	Скорость обработки (например, в реальном времени)	Хранение данных, выполнение запросов и анализ в масштабе времени, близком к реальному
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Схема данных предоставлена социальной сетью - источником данных. В настоящее время используются только данные Твиттера. Мы планируем расширять проект, охватив Google+ и Facebook
	Вариативность (темпы изменения)	Непрерывный поток данных в реальном времени, поступающий из каждого источника
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	Для получения данных в реальном времени требуется, чтобы система 99,99 % времени находилась в рабочем состоянии. Перебои в работе могут нарушить целостность данных и уменьшить их значимость
	Визуализация	Уже существуют возможности для визуализации распространения информации, кластеризации и для динамической визуализации сети
	Качество данных (синтаксис)	Данные структурированы в стандартизированных форматах, общее качество данных чрезвычайно высокое. Мы генерируем агрегированную статистику; расширяем набор признаков и т.д., производя высококачественные производные данные
	Типы данных	Полностью структурированные данные (формат JSON), обогащенные пользовательскими метаданными данными геолокации и т.д.
	Аналитика данных	Кластеризация потока: данные агрегируются по темам, метаданным и дополнительным признакам с использованием специализированных онлайн-алгоритмов кластеризации. Классификация: используя многомерные временные ряды для генерации сетевых признаков, признаков пользователей, географических, контента и т.д., мы классифицируем производимую на платформе информацию. Обнаружение аномалий: идентификация аномальных событий в реальном времени (например, вызванных внешними факторами). Онлайн-обучение: применение методов машинного обучения/глубокого обучения для анализа в режиме реального времени закономерностей распространения информации, профилирования пользователей и т.д.
Иные проблемы больших данных	Обеспечение анализа в реальном времени большого объема данных. Обеспечение масштабируемой инфраструктуры для выделения по требованию ресурсов, пространства хранения и т.д., если это потребуется ввиду увеличения с течением времени объема данных
Проблемы пользовательского интерфейса и мобильного доступа	Реализация низкоуровневых функциональных возможностей инфраструктуры хранения данных с целью обеспечения эффективного мобильного доступа к данным
Технические проблемы обеспечения безопасности и защиты персональных данных	Твиттер раскрывает в открытом доступе данные, собранные нашей платформой. Поскольку источники данных включают в себя пользовательские метаданные (которых, как правило, недостаточно для однозначной идентификации физических лиц), необходимо реализовать определенную политику обеспечения безопасности хранения данных и защиты неприкосновенности частной жизни
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)	Определение высокоуровневой схемы данных для подключения нескольких источников данных, предоставляющих аналогично структурированные данные
Дополнительная информация (гиперссылки)	Сайт проекта Truthy Университета Индианы, http://truthy.indiana.edu/ Страница проекта Truthy на сайте Центра исследований сложных сетей и систем (Center for Complex Network and System Research, CNetS) Университета Индианы, https://cnets.indiana.edu/groups/nan/truthy/ Страница проекта "Выявление ранних признаков подстрекательства в информационных каскадах" (Detecting Early Signature of Persuasion in Information Cascades, DESPIC) на сайте Центра исследований сложных сетей и систем (Center for Complex Network and System Research, CNetS) Университета Индианы, https://cnets.indiana.edu/groups/nan/despic/

А.5.4 Вариант использования N 29: Краудсорсинг в гуманитарных науках

Название	Краудсорсинг в гуманитарных науках как источник больших и динамических данных
Предметная область	Гуманитарные науки, социальные науки
Автор/организация/эл. почта	Себастьян Друде (Sebastian Drude)/Институт психолингвистики общества Макса Планка (Max Planck Institute for Psycholinguistics, Неймеген, Нидерланды)/Sebastian.Drude@mpi.nl
Акторы/заинтересованные лица, их роли и ответственность	Ученые (социологи, психологи, лингвисты, политологи, историки и т.д.), специалисты по управлению данными и аналитики, архивы данных. Представители широкой общественности как поставщики данных и участники
Цели	Сбор информации (введенные вручную данные, записанные мультимедийные материалы, время реакции, изображения, информация от датчиков) у многих людей и с их устройств. Это позволяет, охватить многообразные индивидуальные, социальные, культурные и лингвистические различия в нескольких измерениях (пространство, социальное пространство, время)
Описание варианта использования	Множество различных возможных вариантов использования: собрав записи, отражающие использование языка (слов, предложений, описаний значений и т.д.), ответы на опросы, информацию о фактах культуры, описания изображений и тексты - соотнести их с другими явлениями, выявить новые культурные практики, поведение, ценности и убеждения, определить индивидуальные вариации
Текущие решения	Вычислительная система	Индивидуальные системы, в которых проводится ручной сбор данных (в основном, веб-сайты)
	Хранилище данных	Традиционные сервера
	Сеть связи	Помимо ввода данных через интернет используется мало
	Программное обеспечение	Язык XML, традиционные реляционные базы данных для хранения изображений. Мультимедийных материалов (соответственно, программного обеспечения для работы с ними) пока еще немного
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Распределенный, отдельные участники передают данные через веб-страницы и мобильные устройства
	Объем (количество)	Варьируется в очень больших масштабах, от сотен до миллионов записей данных. В зависимости от типа данных, объем может варьироваться от нескольких гигабайт (текст, опросы, экспериментальные значения) до сотен терабайт (мультимедиа)
	Скорость обработки (например, в реальном времени)	Очень сильно зависит от проекта: от десятков до тысяч новых записей данных в день. Данные должны анализироваться инкрементально
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	До настоящего времени - в основном однородные небольшие наборы данных; ожидаются большие распределенные неоднородные наборы данных, которые должны быть заархивированы как первичные данные
	Вариативность (темпы изменения)	Структура данных и содержание коллекций меняются на протяжении жизненного цикла данных. Изменения скорости производства данных или их характеристик в процессе сбора не являются критическими
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	Возможны зашумленность данных, ненадежные метаданные, проведение выявления и предварительного отбора соответствующих данных
	Визуализация	Важна для интерпретации; какие-либо специальные методы визуализации не применяются
	Качество данных (синтаксис)	Необходима валидация. Вопросы качества записей, качества контента, спама
	Типы данных	Индивидуальные записи данных (ответы на опросы, время реакции); тексты (например, комментарии, транскрипции и т.п.); мультимедиа (изображения, аудио, видео)
	Аналитика данных	Все виды распознавания закономерностей (например, распознавание речи, автоматический анализ аудиовизуальных материалов, культурные закономерности); выявление структур (лексические единицы, лингвистические правила и т.д.)
Иные проблемы больших данных	Управление данными - метаданные, сведения о происхождении, присвоение постоянного идентификатора (PID). Курирование данных. Оцифровка существующих аудиовизуальных, фото- и документальных архивов
Проблемы пользовательского интерфейса и мобильного доступа	Включение данных с датчиков мобильных устройств (геолокации и т.д.); Сбор данных в ходе экспедиций и полевых исследований
Технические проблемы обеспечения безопасности и защиты персональных данных	Могут возникнуть вопросы защиты неприкосновенности частной жизни (аудиовидеозаписи, поступившие от отдельных лиц); анонимность может быть необходима, но не всегда возможна (анализ аудиовидеозаписей, небольшие речевые сообщества). Целостность архива и метаданных, обеспечение долговременной сохранности
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)	Множество отдельных записей данных, поступающих от многих людей, постоянный поток вводимых данных, присвоение метаданных и т.д. Автономное использование (в сравнении онлайн-использованием), последующая синхронизация с центральной базой данных. Обеспечение авторам существенной обратной связи
Дополнительная информация (гиперссылки)
Примечание - Краудсорсинг только начал использоваться в более широком масштабе. С появлением мобильных устройств появился огромный потенциал для сбора большого количества данных от многочисленных физических лиц, а также для использования датчиков, имеющихся в мобильных устройствах. Эта возможность до настоящего времени в широком масштабе не опробовалась; существующие крауд-сорсинговые проекты обычно имеют ограниченный масштаб и основаны на веб-технологиях.

А.5.5 Вариант использования N 30: Цифровая инфраструктура для исследований и анализа сетей и графов (CINET)

Название	Цифровая инфраструктура для исследований и анализа сетей и графов (CINET)
Предметная область	Теория и методы анализа сетей (network science)
Автор/организация/эл. почта	Группа, возглавляемая Политехническим университетом/университетом штата Вирджиния (Virginia Tech) и включающая исследователей из Университета Индианы, Университета штата Нью-Йорк в Олбани (Albany), сельскохозяйственного и технического университета штата Северная Каролина (North Carolina Agricultural and Technical State University), Университета штата в г. Джексон (штат Миссисипи), Университета центрального Хьюстона (штат Техас) и Аргоннской национальной лаборатории Министерства энергетики США. Контактные лица: Мадхав Марате (Madhav Marathe, mmarathe@vbi.vt.edu) и Кит Биссет (Keith Bisset, kbisset@vbi.vt.edu) из научной лаборатории сетевой динамики и моделирования (Network Dynamics and Simulation Science Laboratory) Института биосложности (Biocomplexity Institute, ранее Институт биоинформатики) Политехнического университета/университета штата Вирджиния (Virginia Tech)
Акторы/заинтересованные лица, их роли и ответственность	Исследователи, практики, преподаватели и студенты, интересующиеся изучением сетей
Цели	Промежуточное программное обеспечение цифровой инфраструктуры для исследований и анализа сетей и графов (CINET) предназначено для поддержки исследований и аналитики сетей. Это промежуточное ПО обеспечит исследователям, практикам, преподавателям и студентам доступ к вычислительно-аналитической среде для проведения исследований, в образовательных целях и в целях обучения. Пользовательский интерфейс предоставляет списки доступных сетей и модулей анализа сетей (реализующих алгоритмы анализа сетей). Пользователь, которым может быть исследователь в области теории сетей и ее приложений, может выбрать одну или несколько сетей и проанализировать их с помощью доступных инструментов и модулей анализа. Пользователь также может генерировать случайные сети, следуя различным моделям случайных графов. Преподаватели и студенты могут использовать CINET в ходе учебных занятий для демонстрации различных теоретических свойств графов и поведения различных алгоритмов. Пользователь также может добавить в систему сеть или модуль анализа сети. Эта функциональная возможность CINET позволяет платформе легко расти, сохраняя актуальность инструментов анализа благодаря добавлению новейших алгоритмов. Цель заключается в том, чтобы предоставить общую веб-платформу, обеспечивающую конечному пользователю бесперебойный доступ: - к различным инструментам анализа сетей и графов, таким как SNAP, NetworkX, Galib и др.; - к созданным для решения реальных задач и к синтезированным сетям; - к вычислительным ресурсам; - к системе управления данными.
Описание варианта использования	Пользователи могут запустить один или несколько вариантов структурного или динамического анализа на наборе выбранных ими сетей. Специальный предметно-ориентированный язык дает пользователям возможность проектировать гибкие высокоуровневые потоки рабочих процессов для организации более сложного анализа сетей
Текущие решения	Вычислительная система	Высокопроизводительный вычислительный кластер Shadowfax (DELL С6100), состоящий из 60 вычислительных узлов с 12 процессорами (Intel Xeon Х5670 2,93 ГГц) в каждом узле, - в общей сложности 720 процессоров с 4 гигабайтами оперативной памяти у каждого процессора. Система с общей памятью; также используются облачные вычисления на основе Amazon Elastic Compute Cloud (Amazon EC2). Некоторые из программ и сетей могут использовать системы с одним узлом, и ввиду этого в настоящее время отображаются на грид-инфраструктуру Open Science Grid ("Открытый научный грид", США, http://www.opensciencegrid.org/)
	Хранение	Общая параллельная файловая система GPFS (ныне IBM Spectrum Scale) фирмы IBM, емкостью 628 терабайт
	Сеть связи	Интернет, Infiniband. Довольно пестрая коллекция суперкомпьютерных ресурсов
	Программное обеспечение	Библиотеки для работы с графами: Galib, NetworkX. Управление распределенными потоками рабочих процессов: Simfrastructure, Базы данных, семантические веб-инструменты
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Сеть хранится в одном файле на диске, доступном для нескольких процессоров. Однако во время выполнения параллельного алгоритма сеть может быть разделена, и ее части загружаются в основную память нескольких процессоров
	Объем (количество)	Может составлять сотни гигабайт для одной сети
	Скорость обработки (например, в реальном времени)	Два типа изменений: (i) сети очень динамичны; и (ii) мы ожидаем быстрое расширение хранилища, в котором примерно через год будет храниться как минимум от тысячи до 5 тыс. сетей и методов
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Наборы данных различны: - ориентированные и неориентированные сети; - статические и динамические сети, - помеченные сети, - могут иметь динамику на этих сетях
	Вариативность (темпы изменения)	Объемы связанных с графами данных увеличиваются возрастающими темпами. Кроме того, в различных областях медико-биологических наук методы на основе графов все чаще используются для решения проблем. В этой связи мы ожидаем, что объемы данных и вычислений будут расти значительными темпами
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	Есть проблемы, связанные с асинхронными распределенными вычислениями. Современные системы спроектированы в расчете на синхронный отклик в реальном времени
	Визуализация	По мере увеличения размера исходного графа нагрузка на систему визуализации на стороне клиента сильно возрастает как с точки зрения данных, так и с точки зрения вычислений
	Качество данных (синтаксис)
	Типы данных
	Аналитика данных
Иные проблемы больших данных	Для анализа больших сетей необходимы параллельные алгоритмы. В отличие от многих структурированных данных сетевые данные трудно разделять на части. Основная сложность при разделении сети заключается в том, что для эффективной работы различных алгоритмов требуются разные схемы разделения. Более того, большинство сетевых метрик имеют глобальный характер и требуют либо: i) огромного дублирования данных в разделах, либо ii) очень больших издержек на пересылку в результате требуемого перемещения данных. Для больших сетей эти трудности перерастают в серьезные проблемы. Вычислять динамику на сетях сложнее, поскольку структура сети часто взаимодействует с изучаемым динамическим процессом. CINET поддерживает большой класс операций для самых разных по структуре и размеру графов. В отличие от других систем, требующих интенсивных вычислений и работы с данными, таких, как параллельные базы данных или методы вычислительной гидродинамики, производительность вычислений на графах чувствительна к базовой архитектуре. Таким образом, уникальной задачей CINET является управление отображением рабочей нагрузки (тип графа + операция) на машину, чья архитектура и время выполнения благоприятны для системы. Манипулирование данными и ведение учета производных данных для пользователей является еще одной большой проблемой, поскольку, в отличие от корпоративных данных, отсутствуют четко определенные и эффективные модели и инструменты для унифицированного управления различными данными графов
Проблемы пользовательского интерфейса и мобильного доступа
Технические проблемы обеспечения безопасности и защиты персональных данных
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)	Высокопроизводительные вычисления как услуга. По мере роста объемов данных, все в большем числе приложений, таких, как приложения биологических наук, приходится использовать высокопроизводительные системы. CINET может использоваться для предоставления необходимых для таких областей вычислительных ресурсов
Дополнительная информация (гиперссылки)	Шериф Абдельхамид (Sherif Abdelhamid) и др. "CINET 2.0: Цифровая инфраструктура для исследований и анализа сетей и графов" (CINET 2.0: A Cyberlnfrastructure for Network Science), 2014, http://grids.ucs.indiana.edu/ptliupages/publications/CINETv2.pdf

А.5.6 Вариант использования N 31: Измерения и оценки эффективности аналитических технологий в Национальном институте стандартов и технологий (NIST)

Название	Измерения, оценки и стандарты эффективности аналитических технологий в отделе доступа к информации NIST
Предметная область	Измерения и стандарты эффективности аналитических технологий для заинтересованных сторон из государственного сектора, промышленности и научных кругов
Автор/организация/эл. почта	Джон Гэрофоло (John Garofolo), Национальный институт стандартов и технологий (NIST), john.garofolo@nist.gov
Акторы/заинтересованные лица, их роли и ответственность	Разработчики методов измерений в NIST, поставщики данных, разработчики аналитических алгоритмов, пользователи аналитических технологий для неструктурированных, полуструктурированных и разнородных данных изо всех секторов
Цели	Ускорение разработки передовых аналитических технологий для неструктурированных, полуструктурированных и разнородных данных с помощью измерения и стандартов эффективности. Привлечение внимания сообществ по интересам к важным проблемам, стоящим перед аналитическими технологиями, создание на основе консенсуса метрик и методов измерения для оценки эффективности, определение эффективности этих метрик и методов посредством проведения их оценки в масштабах сообщества, способствующей обмену знаниями и ускоряющей прогресс, а также формирование консенсуса в отношении широкого используемых стандартов для измерения эффективности
Описание варианта использования	Разработка, с целью создания основ и ускорения дальнейшего развития передовых аналитических технологий в областях обработки речи и языка, видеозаписей и мультимедийных материалов, биометрических изображений и неоднородных данных метрик эффективности, методов измерения и проведение оценок сообществом, а также взаимодействие аналитиков с пользователями. Обычно применяется одна из двух моделей обработки: (1) предоставить участникам тестирования тестовые данные и проанализировать выходные данные систем-участников, и (2) предоставить участникам интерфейсы к тестовой обвязке для алгоритмов, взять их алгоритмы и провести тестирование алгоритмов на внутренних вычислительных кластерах. Разработка подходов для поддержки масштабируемого тестирования на основе облачных вычислений, а также выполнение тестирования на удобство использования и полезность в системах с пользователями в контуре
Текущие решения	Вычислительная система	Кластеры под Linux и OS-10; распределенные вычисления с участием заинтересованных сторон; специализированные архитектуры обработки изображений
	Хранилище данных	RAID-массивы, размещение данных на жестких дисках емкостью 1-2 терабайта, а иногда на FTP-серверах. Распределенное распространение данных с участием заинтересованных сторон
	Сеть связи	Подключение жестких дисков по волоконно-оптическому каналу; гигабитный Ethernet для межсистемного информационного обмена; общие интранет- и интернет-ресурсы NIST и сетевые ресурсы, используемые совместно с заинтересованными сторонами
	Программное обеспечение	Средства разработки PERL, Python, C/C++, Matlab, R. Разработка по принципу "снизу вверх" тестовых и измерительных приложений
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Для целей обучения, испытаний в ходе разработки и итоговых оценок имеются большие аннотированные совокупности неструктурированного/ полуструктурированного текста, аудио и видеозаписей, изображений, мультимедийных материалов и разнородные коллекции вышеперечисленного, включая аннотации о точности и достоверности
	Объем (количество)	В составе совокупности тестовых данных более 900 млн веб-страниц общим объемом 30 терабайт, 100 млн твиттов, 100 млн проверенных биометрических изображений, несколько сотен тысяч частично проверенных видеоклипов и терабайты более мелких полностью проверенных тестовых коллекций. Для будущих оценок аналитики планируются еще более крупные коллекции данных, с использованием нескольких потоков данных и сильно неоднородных данных
	Скорость обработки (например, в реальном времени)	Большинство старых методов оценки было основано на ретроспективной аналитике. В новых методах оценки основное внимание уделяется моделированию проблем анализа в реальном времени на основании данных из нескольких потоков
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Тестовые коллекции охватывают широкий спектр типов аналитических приложений, включая текстовый поиск/извлечение, машинный перевод, распознавание речи, биометрию изображений и голоса, распознавание и отслеживание объектов и людей, анализ документов, диалог между человеком и компьютером и поиск/извлечение мультимедиа. Будущие тестовые коллекции будут включать данные и приложения смешанных типов
	Вариативность (темпы изменения)	Оценка компромиссов между точностью и скоростью передачи данных, а также между числом потоков данных и их качеством
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	Создание и измерение неопределенности, связанной с процессом проверки правильности данных (ground-truthing), особенно когда речь идет о людях, является сложной задачей. Использовавшиеся в прошлом ручные процессы проверки не масштабируются. Измерение эффективности комплексной аналитики, чтобы быть полезным, должно включать измерение внутренней неопределенности, а также погрешности проверки
	Визуализация	Визуализация результатов оценки эффективности и диагностики аналитических технологий, включая значимость и различные формы неопределенности. Оценка методов представления результатов аналитики пользователям на предмет удобства использования, полезности, эффективности и точности
	Качество данных (синтаксис)	На эффективность аналитических технологий сильное влияние оказывает качество данных, с которыми они работают, в отношении множества параметров, специфичных для предметной области и приложения. Количественная оценка этих параметров сама по себе является сложной исследовательской задачей. Смешанные источники данных и измерение эффективности аналитических потоков предъявляют еще большие требования к качеству данных
	Типы данных	Неструктурированный и полуструктурированный текст, неподвижные изображения, видео, аудио, мультимедиа (аудио + видео)
	Аналитика данных	Извлечение информации, фильтрация, поиск и резюмирование; биометрия изображения и голоса; распознавание и понимание речи; машинный перевод; обнаружение и отслеживание людей и объектов в видеозаписях; детектирование событий; сопоставление изображений и документов; обнаружение новизны в данных; разнообразная структурная/ семантическая/ временная аналитика и множество подтипов вышеперечисленного
Иные проблемы больших данных	Масштабирование процесса проверки на большие объемы данных, измерение внутренней неопределенности и неопределенности аннотаций, измерение эффективности для не полностью аннотированных данных, измерение эффективности аналитики для разнородных данных и аналитических потоков с участием пользователей
Проблемы пользовательского интерфейса и мобильного доступа	Перемещение обучения, разработки и тестовых данных на сторону участников оценки либо перемещение аналитических алгоритмов участников оценки в вычислительные испытательные стенды для проведения оценки эффективности. Предоставление инструментов разработки и данных. Поддержка гибких подходов к тестированию в процессе разработки
Технические проблемы обеспечения безопасности и защиты персональных данных	Аналитические алгоритмы, работающие с письменным языком, речью, изображениями людей и т.д., как правило, должны тестироваться на реальных или реалистичных данных. Крайне проблематично создание искусственных данных, которые бы в достаточной степени отражали вариативность реальных данных, связанных с людьми. Искусственно сформированные данные могут создавать искусственные проблемы, которые могут быть прямо или косвенно смоделированы аналитическими алгоритмами, что может приводить к завышенным показателям эффективности.
	Развитие самих аналитических технологий увеличивает риски, связанные с обеспечением неприкосновенности частной жизни. Будущие методы тестирования эффективности должны будут изолировать алгоритмы аналитических технологий от данных, на которых алгоритмы тестируются. Необходимы усовершенствованные архитектуры для поддержки требований по безопасности в отношении защиты чувствительных данных, обеспечивающие при этом возможность проведения содержательной оценки эффективности разработок. Совместно используемые испытательные стенды должны обеспечивать защиту интеллектуальной собственности разработчиков аналитических алгоритмов
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)	Масштабируемость методов тестирования эффективности аналитических технологий, подготовка исходных данных и проведение их проверки; методы и архитектуры, поддерживающие тестирование разработок; защита интеллектуальной собственности в аналитических алгоритмах, персональных данных и иной персональной информации в тестовых данных; измерение неопределенности с использованием частично аннотированных данных; формирование тестовых данных с учетом качеств, влияющих на эффективность, и оценка сложности тестового набора; оценка сложных аналитических потоков с участием ряда видов аналитики, типов данных и взаимодействия с пользователем; многочисленные неоднородные потоки данных и огромное число потоков; смеси структурированных, полуструктурированных и неструктурированных источников данных; гибкие (agile) масштабируемые подходы и механизмы тестирования разработок
Дополнительная информация (гиперссылки)	Страница отдела доступа к информации на сайте NIST, https://www.nist.gov/itl/iad

А.6 Экосистема для исследований

А.6.1 Вариант использования N 32: Консорциум федеративных сетей данных (DFC)

Название	Консорциум федеративных сетей данных (DFC)
Предметная область	Среды совместной работы
Автор/организация/эл. почта	Рейган Мур (Reagan Moore)/Университет Северной Каролины в Чапел-Хилл (University of North Carolina at Chapel Hill)/ rwmoore@renci.org
Акторы/заинтересованные лица, их роли и ответственность	Научно-исследовательские проекты Национального научного фонда США: "Инициатива океанических наблюдательных станций" (архивация показаний датчиков); "Динамика во времени учебного центра" (грид-система управления данными для науки о процессах познания); проект iPlant Collaborative (геномика растений); проект электронной инженерной библиотеки Университета им. Дрекселя; и проект Института социальных наук им. Говарда Одума при Университете Северной Каролины в Чапел-Хилл (объединение грид-системы управления данными с открытым программным обеспечением для управления научно-исследовательскими данными Dataverse)
Цели	Организовать национальную инфраструктуру (среду совместной работы), которая позволит исследователям сотрудничать посредством коллективно используемых коллекций данных и общих рабочих процессов. Предоставить основанные на политике системы управления данными, поддерживающие формирование коллекций, грид-систему управления данными, электронные библиотеки, архивы и конвейеры обработки. Обеспечить механизмы интероперабельности, объединяющие существующие хранилища данных, информационные каталоги и веб-сервисы со средами совместной работы
Описание варианта использования	Содействовать совместным и междисциплинарным исследованиям посредством объединения систем управления данными, используемых федеральными органами и учреждениями США, национальными академическими научно-исследовательскими инициативами, хранилищами учреждений и участниками международного сотрудничества. Эта масштабная среда совместной работы включает петабайты данных, сотни миллионов файлов, сотни миллионов атрибутов метаданных, десятки тысяч пользователей и тысяча ресурсов хранения
Текущие решения	Вычислительная система	Интероперабельность с workflow - системами управления потоками рабочих процессов (NCSA Cyberintegrator, Kepler, Taverna)
	Хранилище данных	Интероперабельность файловых систем, ленточных архивов, облачного хранения, объектно-ориентированного хранения
	Сеть связи	Совместимость с протоколами TCP/IP, параллельный TCP/IP, RBUDP, HTTP
	Программное обеспечение	Интегрированная система управления данными, основанная на использовании правил (iRODS)
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Управление данными, распределенными в международном масштабе
	Объем (количество)	Петабайты данных, сотни миллионов файлов
	Скорость обработки (например, в реальном времени)	Поддержка работы с потоками данных от датчиков, управления спутниковыми изображениями, результатами моделирования, данными наблюдений, экспериментальными данными
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Поддержка логических коллекций, пересекающих границы стран и организаций, агрегирование данных в контейнерах, метаданные и рабочие процессы как объекты
	Вариативность (темпы изменения)	Поддержка активных коллекций (изменяемые данные), управление версиями данных и использование постоянных идентификаторов
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	Обеспечение надежной передачи данных, журналы аудита, отслеживание событий, периодическая проверка соответствия критериям оценки (целостность, подлинность), распределенная отладка
	Визуализация	Поддержка работы внешних систем визуализации посредством автоматизированных рабочих процессов (GRASS)
	Качество данных (синтаксис)	Обеспечение механизмов проверки качества с помощью автоматизированных процедур
	Типы данных	Поддержка синтаксического анализа избранных форматов (NetCDF, HDF5, Dicom) и предоставление механизмов для вызова других методов обработки данных
	Аналитика данных	Поддержка запуска рабочих процессов (workflow) анализа, отслеживания происхождения рабочих процессов, совместное использование рабочих процессов и их повторного выполнение
Иные проблемы больших данных	Предоставление стандартных наборов политик, позволяющих новому сообществу воспользоваться и развивать дальше планы управления данными, отвечающие требованиям федеральных органов исполнительной власти США
Проблемы пользовательского интерфейса и мобильного доступа	Сбор знаний, необходимых для манипулирования данными, и применение созданных в результате процедур либо в месте хранения, либо на компьютерном сервере
Технические проблемы обеспечения безопасности и защиты персональных данных	Объединение существующих сред аутентификации с помощью "Типового API-интерфейса программирования приложений служб защиты данных" (Generic Security Service, интерфейс GSS-API) и подключаемых модулей аутентификации (GSI, Kerberos, InCommon, Shibboleth). Менеджмент мер и средств управления доступом к файлам независимо от места хранения
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)	В настоящее время в 25 областях науки и техники имеются проекты, полагающиеся на интегрированную систему управления данными, основанную на использовании правил (iRODS): - астрофизика: проект поиска сверхновых "Аугер" (Auger); - изучение атмосферы: Научно-исследовательский центр по атмосферным наукам НАСА в Лэнгли (NASA Langley Atmospheric Sciences Center); - биология: проект филогенетики в Вычислительном центре французского Национального института ядерной физики и физики элементарных частиц (L'lnstitut national de physique nucleaire et de physique des particules, IN2P3); - климат: Национальный центр климатических данных США (National Climatic Data Center) Национального управления океанических и атмосферных исследований (National Oceanic and Atmospheric Administration, NOAA); - наука о процессах познания: "Динамика во времени учебного центра" Национального научного фонда (США); - компьютерные науки: виртуальная лаборатория для исследований в области компьютерных сетей и распределенных систем GENI (Global Environment for Network Innovations - "Глобальная среда для сетевых инноваций"); - исследование космического излучения: эксперименты на магнитном альфа-спектрометре (Alpha Magnetic Spectrometer, AMS) на Международной космической станции; - физика темной материи: проект EDELWEISS II (Experience pour DEtecter Les Wimps En Site Souterrain) французской "Подземной лаборатории в Модане" (Laboratoire Souterrain de Modane); - геологические науки: Центр моделирования климата (Center for Climate Simulations) Национального управления по аэронавтике и исследованию космического пространства (NASA); - экология: проект CEED ('Caveat Emptor'' Ecological Data Repository - Хранилище экологических данных "Предостережение покупателю") Университета штата Калифорния в Сан-Диего (San Diego State University) - инженерное дело: совместный проект группы американских университетов CIBER-U (Cyber - Infrastructure - Based Engineering Repositories for Undergraduates - "Инженерные хранилища данных на основе киберинфраструктуры для студентов"); - физика высоких энергий: проект BaBar Стенфордского центра линейных ускорителей (SLAC); - гидрология: Институт окружающей среды им. Вудсов (Institute for the Environment) Стенфордского университета, Университет Северной Каролины в Чапел-Хилл; проект Hydroshare Консорциума Университетов по развитию Гидрологических Наук (Consortium of Universities for the Advancement of Hydrologic Science, CUAHSI); - геномика: Институт Броада (Broad Institute), Институт Сенгера (Wellcome Trust Sanger Institute); - медицина: Госпиталь для больных детей (Sick Kids Hospital), г. Торонто (Канада) - нейробиология: Международная организация по координации научных исследований в области нейроинформатики (International Neuroinformatics Coordinating Facility, INCF); - физика нейтрино: эксперименты по изучению нейтрино Т2К и dChooz; - океанография: "Инициатива океанических наблюдательных станций" Национального научного фонда (США); - оптическая астрономия: Национальная обсерватория оптической астрономии (National Optical Astronomy Observatory, NOAO) в США; - физика элементарных частиц: проект INDRA (Identification de Noyaux et Detection avec Resolutions Accrues - "Идентификация ядер и детектирование с повышенным разрешением") французского центра GANIL (Grand Accelerateur National d'Ions Lourds - "Большой национальный ускоритель тяжелых ионов"); - фитогенетика: проект iPlant Collaborative Национального научного фонда (США) - квантовая хромодинамика: французский Национальный институт ядерной физики и физики элементарных частиц (L'lnstitut national de physique nucleaire et de physique des particules, IN2P3); - радиоастрономия: проект киберинфраструктуры для радиоастрономии Cyber Square Kilometer Array (CyberSKA), проекты TREND, BAOradio; - сейсмология: Центр землетрясений Южной Калифорнии (Southern California Earthquake Center); - социальные науки: Институт социальных наук им. Говарда Одума (Odum Institute for Social Science Research), проект IPUMS Terra (ранее TerraPop)
Дополнительная информация (гиперссылки)	Сайт консорциума DataNet Federation Consortium, http://datafed.org/ Сайт системы управления данными на основе политик iRODS, https://irods.org/
Примечание - Основной проблемой является сбор знаний, необходимых для взаимодействия с результатами обработки данных предметной области. В системах управления данными на основе политик это достигается путем включения знаний в процедуры, которые контролируются с помощью политик. Эти процедуры могут автоматизировать извлечение данных из внешних хранилищ, или же выполнять рабочие процессы обработки, или же обеспечивать исполнение политик управления применительно к полученным результатам обработки данных. Типовым приложением является обеспечение выполнения планов управления данными и проверка того, что план был успешно применен.

А.6.2 Вариант использования N 33: Discinnet-процесс

Название	Discinnet-процесс; глобальный эксперимент метаданные - большие данные
Предметная область	Научные исследования; междисциплинарное сотрудничество
Автор/организация/эл. почта	Филипп Журно (Philippe Journeau)/компания Discinnet Labs, Франция/ phjourneau@discinnet.org
Акторы/заинтересованные лица, их роли и ответственность	Участники: французские компании Richeact и Discinnet Labs, а также некоммерческий фонд I4OpenResearch. Ожидается создание аналогичных американских структур. Компания Richeact занимается вопросами эпистемологии фундаментальных научных исследований и опытно-конструкторских разработок; компания Discinnet Labs работает в области "Веб 2.0"
Цели	Научная цель компании Richeact заключается в разработке прогнозной междисциплинарной модели поведения областей исследований (с соответствующей метаграмматикой). Проводится экспериментирование посредством глобального распространения в настоящее время многодисциплинарного, а позднее междисциплинарного Discinnet-процесса с помощью веб-инструментов, и новой системы для совместного научного общения и публикации. Ожидается сильное влияние на сокращение неопределенности и временных задержек между теоретическими, прикладными, технологическими исследованиями и разработками
Описание варианта использования	В настоящее время активировано 35 кластеров; около 100 ждут, пока будут выделены дополнительные ресурсы; и потенциально еще больше кластеров открыто для сознания, управления и модерирования исследовательскими сообществами. Примеры кластеров варьируются от оптики, космологии, материаловедения, микроводорослей, здравоохранения до прикладной математики, вычислений, резины и других химические продуктов/проблем. Типичный вариант применения работает в настоящее время следующим образом: - исследователь или группа исследователей интересуется тем, как обстоят дела в определенной области исследований, и в течение минуты определяет данную область в Discinnet как "кластер"; - требуется еще от 5 до 10 минут для параметризации первых/основных измерений, в основном посредством указания единиц измерения и категорий (возможно, позднее будет выделено некоторое переменное ограниченное время для большего количества измерений). - кластер затем может быть заполнен сведениями о проектах/прогрессе либо аспирантами, либо занимающимися рецензированием специалистами и/или сообществами/исследователями. Такое решение уже имеет существенную ценность. Теперь его необходимо распространять и рекламировать, хотя максимальная ценность, как ожидается, будет исходить из междисциплинарной/проецирующей следующей версии. Полезность заключается в возможности быстро обнаружить представляющий интерес документ/проект по его результатам, и следующим шагом является построение "траектории" области исследований путем взаимодействия с различного уровня оракулами (субъектами/объектами) + из междисциплинарного контекста
Текущие решения	Вычислительная система	В настоящее время на серверах хостинговой компании OVH (https://www.ovh.co.uk/) - смесь коллективно используемых и выделенных ресурсов
	Хранилище данных	На серверах хостинговой компании OVH
	Сеть связи	Должно быть реализовано в рамках желаемой интеграции с другими участниками
	Программное обеспечение	Текущая версия использует Symfony PHP, Linux, MySQL
Характеристики больших данных	Источник данных (распределенный/ централизованный)	В настоящее время централизованный, вскоре будет распределен по странам и даже по предоставляющим хостинг учреждениям, заинтересованным иметь собственные платформы
	Объем (количество)	Не имеет значения: это база метаданных, а не больших данных
	Скорость обработки (например, в реальном времени)	В реальном времени
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Связь с большими данными еще предстоит установить через взаимоотношения метаданные <-> большие данные, которые пока еще не реализованы (экспериментальные базы данных уже связаны с метаданными 1-го уровня)
	Вариативность (темпы изменения)	В настоящее время - в режиме реального времени; в будущем для других местоположений и распределенных архитектур - периодическая (например, в ночное время)
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	Методы обнаружения общей согласованности, "дыр", ошибок, неверных утверждений известны, но их еще в основном предстоит реализовать
	Визуализация	Многомерная (гиперкуб)
	Качество данных (синтаксис)	Данные априори предполагаются правильными (прямой ввод человеком), частично реализован ряд процессов проверки и оценки
	Типы данных	"Кластерные дисплеи" (изображения), векторы, категории, PDF-файлы
	Аналитика данных
Иные проблемы больших данных	Наша цель заключается в том, чтобы внести свой вклад в проблему генерации метаданных на основе больших данных, путем систематического согласования метаданных на многих уровнях сложности с постоянно поступающими от исследователей данными о продолжающихся процессах исследований. В настоящее время партнерство с компанией Richeact направлено на то, чтобы создать междисциплинарную модель, используя саму метаграмматику для экспериментирования и подтверждения того, что ее степень охвата эффективно преодолевает разрыв между столь сильно отличающимися уровнями сложности, как семантический и уровень самых элементарных сигналов. Пример с космологическими моделями в сравнении с промежуточными моделями различных уровней (частицы, газы, галактики, ядерный уровень, геометрия). Другие примеры с сопоставлением вычислительного и семантического уровней
Проблемы пользовательского интерфейса и мобильного доступа	Соответствующая мощность графического интерфейса
Технические проблемы обеспечения безопасности и защиты персональных данных	Уже доступно несколько уровней, другие запланированы, вплоть до ключей для физического доступа и изолированных серверов. Опциональная анонимность, обычные защищенные соединения
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)	В течение 2011-2013 гг. мы показали на http://www.discinnet.org, что все виды областей исследования легко поддаются отображению типа Discinnet, однако для разработки и заполнения кластера требуются время и/или выделенные сотрудники
Дополнительная информация (гиперссылки)	На сайте http://www.discinnet.org уже созданные или создаваемые кластеры можно просмотреть одним щелчком мыши по названию кластера (полю), и еще больше сведений доступно в случае прохождения бесплатной регистрации [зарегистрированным в качестве исследователей или аспирантов пользователям доступно больше ресурсов (публикации)]. Максимальный уровень детализации является бесплатным для участвующих исследователей в интересах защиты сообществ, но для внешних наблюдателей он доступен за символическую плату: приветствуются все предложения по совершенствованию и улучшению обмена. Мы особенно открыты для поддержки экспериментального использования платформы аспирантурами в целях создания и изучения прошлого и будущего поведения кластеров в области геологических наук, космологии, гидрологии, здравоохранения, вычислений, энергии/аккумуляторов, моделей климата, изучения космоса и т.д.
Примечание - Мы открыты для того, чтобы способствовать широкому использованию как глобальной, так и региональной и локальной версий платформы (например, исследовательскими институтами, издателями, сетями) в интересах максимально широкого обмена данными с целью извлечения наибольшей пользы для развития науки.

А.6.3 Вариант использования N 34: Поиск по графу для научных данных

Название	Обеспечение поиска по семантическому графу в отношении текстовых научных данных по химии, аналогичного поиску в Facebook
Предметная область	Управление информацией из научных статей
Автор/организация/эл. почта	Талапади Бхат (Talapady Bhat), Национальный институт стандартов и технологий (NIST), bhat@nist.gov
Акторы/заинтересованные лица, их роли и ответственность	Химические структуры, "Банк данных белковых структур" (Protein Data Bank, PDB), инициатива "Геном материала" (Materials Genome Initiative), инициатива "Открытое правительство", семантическая паутина, интегрированные графы данных, научные социальные сети
Цели	Создать инфраструктуру, терминологию и семантические графы данных для аннотирования и представления информации о технологиях, используя методы, основанные на корневых морфемах (root-based) и на правилах (rule-based), которые применяются главным образом в отношении индоевропейских языков, таких как санскрит и латынь
Описание варианта использования	Шумиха вокруг социальных сетей Интернет и социальные сети играют важную роль в современном обмене информацией. Каждый день большинство из нас используют социальные сети и для распространения, и для получения информации. Тремя специфическими особенностями многих социальных сетей, таких как Facebook, являются: - члены сообщества одновременно и поставщики данных, и их пользователи; - социальные сети хранят информацию на предопределенной "полке данных" графа данных; - основная инфраструктура социальных сетей для управления информацией в разумной степени независима от языка. Какое это имеет отношение к управлению научной информацией? За последние несколько десятилетий наука действительно эволюционировала, превратившись в общественную деятельность, охватывающую каждую страну и почти каждую семью. Мы регулярно "настраиваемся" на интернет-ресурсы для того, чтобы поделиться и найти научную информацию. Каковы проблемы создания социальных сетей для науки? Создание социальных сетей научной информации требует инфраструктуры, в рамках которой многие ученые из разных частей мира могут принимать участие и размещать результаты своих экспериментов. Перед созданием научной социальной сети необходимо решить некоторые вопросы, включая следующие: - Как минимизировать проблемы, связанные с местным языком и его грамматикой? - Как, не слишком много зная об управлении данными, определить "граф данных" так, чтобы размещать информацию интуитивно понятным способом? - Как найти адекватные научные данные, не проводя чересчур много времени в Интернете? Метод При работе с большинством языков, и особенно с санскритом и латынью, используется новый метод на основе корневых морфем для упрощения создания, когда в этом возникает потребность, хорошо выделяющихся слов для определения понятий. Некоторыми примерами такого рода из английского языка являются "био-логия" (bio-logy), "био-химия" (bio-chemistry). Примерами из санскрита являются Youga, Yogi, Yogendra, Yogesh. Примером на латыни может служить "геноцид" (genocide). Эти слова создаются по требованию на основе ставших "хорошей практикой" терминов и их способности служить узлом с самоочевидным значением в дискриминирующем графе данных
Текущие решения	Вычислительная система	Облако для участия членов сообщества
	Хранилище данных	Требуется расширяемый по требованию ресурс, подходящий с учетом местоположения и требований глобальных пользователей
	Сеть связи	Нужна хорошая сеть для участия членов сообщества
	Программное обеспечение	Нужны хорошие инструменты базы данных и серверы для манипулирования графами данных
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Распределенный ресурс с ограниченными централизованными возможностями
	Объем (количество)	Не определен. Первоначально может составлять несколько терабайт
	Скорость обработки (например, в реальном времени)	Со временем эволюционирует, чтобы соответствовать новым наилучшим практикам
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Очень сильно варьируется в зависимости от типов доступной информации о технологиях
	Вариативность (темпы изменения)	Вероятно, графы данных будут изменяться со временем в зависимости от предпочтений клиентов и наилучших практик
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	Информация о технологиях, вероятно, будет стабильной и надежной
	Визуализация	Требуется эффективная визуализация на основе графа данных
	Качество данных (синтаксис)	Ожидается, что будет хорошим
	Типы данных	Любые типы данных, от изображений до текстов, от структуры до белковых последовательностей
	Аналитика данных	Ожидается, что графы данных будут способствовать появлению надежных методов анализа данных
Иные проблемы больших данных	Эта деятельность сообщества похожая на многие социальные сети. Обеспечение устойчивых, масштабируемых, предоставляемых по требованию инфраструктур таким образом, который был бы дружественным и варианту использования, и пользователю, является реальной проблемой для любых существующих традиционных методов
Проблемы пользовательского интерфейса и мобильного доступа	Сообществу необходим доступ к данным, поэтому доступ должен быть независимым от носителя и местоположения, и, следовательно, также требует высокой мобильности
Технические проблемы обеспечения безопасности и защиты персональных данных	Нет, поскольку изначально усилия были сфокусированы на общедоступных данных, предоставляемых проектами с открытой платформой, такими, как инициатива "Открытое правительство", инициатива "Геном материала" и "Банк данных белковых структур"
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)	Данные усилия охватывают множество локальных и сетевых ресурсов. Разработка инфраструктуры для автоматической интеграции информации из всех этих ресурсов с использованием графов данных является сложной задачей, которую мы стараемся решить
Дополнительная информация (гиперссылки)	Пресс-релиз "Фейсбук для молекул" (Facebook for molecules) Американского института физики (American Institute of Physics), 18 июля 2013 г., https://www.eurekalert.org/pub_releases/2013-07/aiop-ffm071813.php Страница поиска по Банку данных белковых структур и веб-сервиса поиска и визуализации химических структур Chem-BLAST на сайте Национального института стандартов и технологий (США), https://randr.nist.gov/chemblast/default.aspx
Примечание - Во многих отчетах, в том числе в недавнем отчете по проекту "Геном материала" (Materials Genome Initiative), отмечается, что исключительно нисходящие решения, облегчающие обмен данными и интеграцию, нежелательны в случае междисциплинарных усилий. В то же время подход "снизу вверх" может быть хаотичным. По этой причине существует потребность в сбалансированном сочетании двух подходов с целью поддержки простых в использовании методов создания, интеграции и обмена метаданными. Эта проблема очень похожа на проблему, с которой сталкиваются разработчики языка на начальной стадии. Одними из успешных подходов, используемых во многих известных языках, являются методы на основе корневых морфем и на основе правил, которые формируют основу для создания, когда это требуется, новых слов для общения. В этом подходе метод "сверху вниз" используется для выделения ограниченного числа многократно используемых слов, называемых "корневыми морфемами", путем изучения существующих передовых практик построения терминологии. Затем корневые морфемы комбинируются с использованием нескольких "правил" для создания новых терминов, на этапе, выполняемом снизу вверх. Y (uj) ("присоединяться"), О ("создатель", "Бог", "мозг"), Ga ("движение", "посвящение") - ведет к формированию слова "йога", используемого в санскрите, и английском языке. Geno ("род" на греческом) - cide (от латинского occidendum - "убийство") = genocide ("геноцид", убийство по расовым мотивам). Bio-technology ("биотехнология") - английский, латынь. Red-light, red-laser-light - английский. Пресс-релиз Американского института физики об этом подходе см. по адресу https://www.eurekalert.org/pub_releases/2013-07/aiop-ffm071813.php Наши усилия по разработке автоматизированных методов, сочетающих подходы на основе корневых морфем и на основе правил (проект Chem-BLAST, см. https://randr.nist.gov/chemblast/default.aspx) для выявления и использования лучших практик, различающих термины при создании семантических графов данных для науки, начались почти десять лет тому назад с базы данных химических структур. Эта база данных содержит миллионы структур, полученных из используемых во всем мире "Банка данных белковых структур" и базы данных химических соединений и смесей PubChem, используемых по всему миру. Впоследствии мы расширили наши усилия и занялись созданием на основе корневых морфем терминов для текстовых данных, связанных с изображениями клеток. В данной работе мы используем несколько простых правил для определения и расширения терминов, основанных на хорошей практике, идентифицируемой путем изучения миллионов популярных вариантов использования, выбранных из более чем сотни биологических онтологий. В настоящее время мы работаем над распространением этого метода на публикации, представляющие интерес для инициативы "Геном материала", движения "Открытое правительство", а также для "Сети интегрированных знаний NIST - EditorialNet" (NIKE) - архива публикаций американского Национального института стандартов и технологий (NIST). Эти усилия являются частью деятельности рабочей группы "Справочник стандартов метаданных" (Metadata Standards Directory) Альянса научных данных (Research Data Alliance), см. www.rd-alliance.org/filedepot_download/694/160 и https://www.rd-alliance.org/plenary-meetings/second-plenary/poster-session-rda-2nd-plenary-meeting.html

А.6.4 Вариант использования N 35: Анализ больших объемов данных, получаемых в экспериментах на синхротроне

Название	Анализ больших объемов данных, получаемых в экспериментах на синхротроне
Предметная область	Научные исследования (биология, химия, геофизика, материаловедение и ДР)
Автор/организация/эл. почта	Эли Дарт (Eli Dart)/Национальная лаборатория имени Лоуренса в Беркли, США (LBNL), eddart@lbl.gov
Акторы/заинтересованные лица, их роли и ответственность	Научно-исследовательские группы из различных научных дисциплин (см. выше)
Цели	Использование различных экспериментальных методов для определения структуры, состава, поведения и других характеристик образца, имеющих отношение к соответствующему научному исследованию
Описание варианта использования	Образцы подвергаются воздействию рентгеновского излучения в различных конфигурациях, в зависимости от эксперимента. Данные собираются детекторами, которые фактически представляют собой высокоскоростные цифровые фотокамеры. Затем данные анализируются с целью восстановления вида исследуемого образца или процесса. Реконструированные изображения используются учеными для анализа
Текущие решения	Вычислительная система	Диапазон вычислений варьируется от отдельных компьютеров для анализа до вычислительных систем с высокой пропускной способностью в вычислительных центрах
	Хранилище данных	Локальное временное хранение на объекте от одного до 40 терабайт данных на серверах данных под Windows или Linux; более 60 терабайт на жестком диске и более 300 терабайт на ленте в Национальном научно-исследовательском вычислительном центре энергетических исследований Министерства энергетики США (NERSC)
	Сеть связи	Ethernet 10 гигабит/с на объекте, 100 гигабит/с связь с NERSC
	Программное обеспечение	Для анализа данных используется различное программное обеспечение, как коммерческое, так и с открытым исходным кодом, например: - Octopus (см. https://octopusimaging.eu/) для томографической реконструкции; - Avizo и FIJI (дистрибутив открытого программного обеспечения ImageJ, см. http://fiji.sc/) для визуализации и анализа. Передача данных осуществляется посредством физического перемещения портативных носителей информации (что сильно ограничивает производительность); либо с использованием высокопроизводительного протокола GridFTP в реализации компании Globus Online, и систем управления потоками рабочих процессов, таких как программная инфраструктура с открытым исходным кодом SPADE (Support for Provenance Auditing in Distributed Environments - "Поддержка аудита происхождения в распределенных средах")
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Централизованный (фотокамера высокого разрешения на объекте). На объекте имеется несколько каналов отвода излучения к экспериментальным установкам с высокоскоростными детекторами
	Объем (количество)	От 3 до 30 гигабайт на образец, до 15 образцов в день
	Скорость обработки (например, в реальном времени)	Анализ в почти реальном времени необходим для проверки параметров эксперимента (для этого может использоваться низкое разрешение). Автоматизация анализа могла бы резко повысить продуктивность научных исследований
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Многие детекторы выдают однотипные данные (например, файлы формата TIFF), но контекст эксперимента сильно варьируется
	Вариативность (темпы изменения)	Возможности детекторов быстро растут, практически подчиняясь закону Мура. Площадь детектора экспоненциально увеличивается (1000 х 1000, 2000 x 2000, 4000 х 4000, ...), а частота снятия показаний экспоненциально растет (1 Гц, 10 Гц, 100 Гц, 1 кГц, ...). Ожидается, что в течение двух лет скорость передачи данных с одного детектора достигнет 1 гигабайта в секунду
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	Анализ в почти реальном времени необходим для проверки параметров эксперимента. Во многих случаях раннее проведение анализа может резко повысить продуктивность эксперимента, обеспечивая раннюю обратную связь. Это подразумевает повседневную доступность вычислений с высокой пропускной способностью, высокопроизводительную передачу данных и высокоскоростное хранилище
	Визуализация	Визуализация является ключом к широкому спектру экспериментов на всех экспериментальных объектах - генераторах излучения
	Качество данных (синтаксис)	Качество и точность данных имеют решающее значение (особенно в связи с тем, что время работы генератора излучения ограничено, а повторный эксперимент часто невозможен)
	Типы данных	Многие экспериментальные установки производят графические данные (например, файлы формата TIFF)
	Аналитика данных	Объемная реконструкция, идентификация характеристик и т.д.
Иные проблемы больших данных	Быстрое увеличение возможностей фотокамер, необходимость автоматизации передачи данных и анализа в почти реальном времени
Проблемы пользовательского интерфейса и мобильного доступа	Становится необходимой передача данных в крупномасштабные вычислительные центры из-за вычислительной мощности, необходимой для проведения анализа в разумные, с точки зрения эксперимента, сроки. Из-за большого количества каналов отвода излучения к экспериментальным установкам, например, 39 у синхротрона Advanced Light Source (ALS) Национальной лаборатории имени Лоуренса в Беркли, США (LBNL), совокупное производство данных, вероятно, значительно возрастет в ближайшие годы
Технические проблемы обеспечения безопасности и защиты персональных данных	Варьируются в зависимости от проекта
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)	Ожидается значительная потребность в обобщенной инфраструктуре для анализа гигабайт данных в секунду, поступающих от множества детекторов на ряде экспериментальных установок. В настоящее время существуют прототипы, однако развертывание для целей промышленной эксплуатации потребует дополнительных ресурсов
Дополнительная информация (гиперссылки)	Сайт синхротрона ALS (Advanced Light Source) Национальной лаборатории имени Лоуренса в Беркли, США (LBNL), https://als.lbl.gov/ Сайт синхротрона APS (Advanced Photon Source) Аргоннской национальной лаборатории (Argonne National Laboratory), США, https://www.aps.anl.gov/ Сайт рентгеновского лазера на свободных электронах LCLS (Linac Coherent Light Source) в Национальной ускорительной лаборатории SLAC (SLAC National Accelerator Laboratory) Стэнфордского университета, США, https://portal.slac.stanford.edu/sites/lcls_public/Pages/Default.aspx (исторический), https://lcls.slac.stanford.edu/ (действующий)

А.7 Астрономия и физика

А.7.1 Вариант использования N 36: "Каталинский обзор оптических переходных процессов в режиме реального времени" (CRTS)

Название	"Каталинский обзор оптических переходных процессов в режиме реального времени" (CRTS) - цифровой, панорамный, синоптический обзор неба
Предметная область	Научные исследования: астрономия
Автор/организация/эл. почта	Станислав Джорговский (Stanislav G. Djorgovski)/Калифорнийский технологический институт (Caltech)/ george@astro.caltech.edu
Акторы/заинтересованные лица, их роли и ответственность	Исследовательская группа обзора: обработка данных, контроль качества, анализ и интерпретация, публикация и архивирование. Участники сотрудничества - ряд научно-исследовательских групп по всему миру: дальнейшая работа по анализу и интерпретации данных, дополнительные наблюдения и публикационная деятельность. Сообщество пользователей: все вышеперечисленное. Мировое астрономическое сообщество: дальнейшая работа по анализу и интерпретации данных, дополнительные наблюдения и публикационная деятельность
Цели	В рамках обзора проводятся исследования меняющейся Вселенной в диапазоне видимого света, в масштабах времени, варьирующихся от минут до лет, путем поиска переменных и транзиентных (непостоянных, преходящих) источников. Обзор позволяют выявить широкий спектр астрофизических объектов и явлений, включая различные типы космических взрывов (например, сверхновых), переменные звезды, явления, связанные с аккрецией на массивные черные дыры (примером служат активные галактические ядра) и их релятивистские потоки частиц и энергий, звезды с большим собственным движением и т.д.
Описание варианта использования	Данные поступают с трех телескопов (два в Аризоне, США и один в Австралии), и в ближайшем будущем ожидается подключение дополнительных телескопов (в Чили). Первоначальной мотивацией проекта являлся поиск околоземных и потенциально представляющих для Земли угрозу астероидов, финансируемый Национальным управлением по аэронавтике и исследованию космического пространства США (NASA) и проводимый группой из Лаборатории изучения Луны и планет в Университете Аризоны, США (LPL) - это был базовый проект "Каталинский обзор неба" (CSS). CRTS делится данными в целях изучения меняющейся Вселенной за пределами Солнечной системы, эту работу возглавляет группа из Калифорнийского технологического института. С использованием нескольких проходов обозревается приблизительно 83 % всего неба (исключены переполненные области вблизи плоскости Галактики и небольшие области вблизи небесных полюсов). Данные предварительно обрабатываются на телескопе, а затем передаются в Лабораторию изучения Луны и планет в Университете Аризоны, США (LPL) и Калифорнийский технологический институт (Caltech) для дальнейшего анализа, распространения и архивирования. Данные обрабатываются в режиме реального времени, а обнаруженные транзиентные события публикуются с использованием различных электронных механизмов распространения, без использования проприетарного периода отсрочки до широкого распространения данных (CRTS использует политику полностью открытых данных). Дальнейший анализ данных включает автоматическую и полуавтоматическую классификацию обнаруженных транзиентных событий, дополнительные наблюдения с использованием других телескопов, научную интерпретацию и публикацию. В этом процессе интенсивно используются архивные данные из широкого спектра географически распределенных ресурсов, объединенных структурой Виртуальной обсерватории (VO). Кривые блеска (истории потоков) накапливаются для 500 миллионов источников, выявленных в ходе обзора. Для каждого из них в среднем имеется несколько сотен точек данных, охватывающих период до 8 лет, и их объемы продолжают расти. Эти данные предоставляются сообществу из архивов Калифорнийского технологического института, и вскоре - также из архивов Межвузовского центра астрономии и астрофизики (Inter-University Centre for Astronomy and Astrophysics, IUCAA), Индия. Это беспрецедентный по своим масштабам набор данных для исследования измерения времени в астрономии, с точки зрения периода наблюдений, покрытия неба и глубины. Проект CRTS служит научным и методологическим испытательным стендом и является предшественником предстоящих более крупных обзоров, которые будут проводиться, в особенности, Большим синоптическим обзорным телескопом в Обсерватории имени Веры Рубин, Чили (LSST), который, как ожидается, войдет в эксплуатацию в 2020-х гг.
Текущие решения	Вычислительная система	Оборудование и компьютеры для обработки данных: несколько настольных компьютеров и небольших компьютеров серверного класса, хотя для некоторых задач анализа данных требуется более мощное оборудование Данный проект не столько требователен к вычислительным ресурсам, сколько к процессу обработки данных
	Хранилище данных	Несколько многотерабайтных и десятки терабайтных серверов
	Сеть связи	Стандартные интернет-соединения между университетами
	Программное обеспечение	Специализированные "конвейер" обработки данных и программное обеспечение для анализа данных, работающее под ОС Linux. Некоторые архивы располагаются на машинах под ОС Windows, на которых используется СУБД MS SQL
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Распределенными являются: 1) данные обзора, поступающие с трех (впоследствии - с большего числа) телескопов; 2) архивные данные из различных ресурсов, объединенных структурой Виртуальной обсерватории; 3) данные последующих наблюдений с отдельных телескопов
	Объем (количество)	В ходе обзора создается примерно до 0,1 терабайта данных в ясную ночь, а суммарный объем фондов данных составляет в настоящее время около 100 терабайт. Данные последующих дополнительных наблюдений составляют не более нескольких процентов от этого объема. Объем архивных данных во внешних (подключенных к структуре Виртуальной обсерватории) архивах измеряется петабайтами, но используется только небольшая их часть
	Скорость обработки (например, в реальном времени)	До 0,1 терабайта за ночь первичных данных обзора
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Первичные данные обзора представлены в виде изображений, которые обрабатываются с целью каталогизации источников (представлены в таблицах баз данных) и построения временных рядов для отдельных объектов (кривые блеска). Данные последующих дополнительных наблюдений представлены в виде изображений и спектров. Архивные данные из грида данных Виртуальной обсерватории включают все вышеперечисленное из широкого спектра источников, полученное в различных диапазонах длин волн
	Вариативность (темпы изменения)	Ежедневный трафик данных колеблется в диапазоне от 0,01 до 0,1 терабайт в день, не включая крупномасштабную передачу данных между основными архивами (Caltech, Университет Аризоны и Межвузовский центр астрономии и астрофизики IUCAA в Индии).
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	На всех этапах процесса реализованы различные механизмы контроля качества, включающие автоматизированные средства и инспектирование человеком
	Визуализация	Используются стандартные пакеты визуального отображения и построения графиков. Мы исследуем механизмы визуализации для пространств параметров данных высокой размерности
	Качество данных (синтаксис)	Качество варьируется в зависимости от условий наблюдений, и оценивается автоматически: оценки погрешности делаются для всех соответствующих величин
	Типы данных	Изображения, спектры, временные ряды, каталоги
	Аналитика данных	Существует большое количество разнообразных инструментов анализа астрономических данных, а также большое количество специализированных инструментов и программного обеспечения, часть которых является самостоятельными исследовательскими проектами
Иные проблемы больших данных	Разработка инструментов машинного обучения для изучения данных, и в частности для автоматической классификации транзиентных событий в режиме реального времени, с учетом немногочисленности и неоднородности данных. Эффективная визуализация многомерных пространств параметров является для всех нас серьезной проблемой
Проблемы пользовательского интерфейса и мобильного доступа	В настоящее время не является существенным ограничением
Технические проблемы обеспечения безопасности и защиты персональных данных	Нет
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)	Обработка и анализ в реальном времени больших потоков данных, поступающих из распределенной сенсорной сети (в данном случае, с телескопов), когда требуется выявить, охарактеризовать и отреагировать на представляющие интерес транзиентные события в (почти) реальном времени. Использование сильно распределенных архивных ресурсов данных (в данном случае, архивов, объединенных в рамках Виртуальной обсерватории) для анализа и интерпретации данных. Автоматическая классификация с учетом немногочисленности и разнородных данных, динамически эволюционирующая во времени по мере поступления большего количества данных; и принятия решений о проведении дополнительных исследований в условиях немногочисленности и ограниченности ресурсов (в данном случае, проведение последующих наблюдений с использованием других телескопов)
Дополнительная информация (гиперссылки)	Страница проекта CRTS на сайте Калифорнийского технологического института, http://crts.caltech.edu/ Страница проекта CSS на сайте Лаборатории изучения Луны и планет в Университете Аризоны, США (LPL), https://catalina.lpl.arizona.edu/ Более подробные сведения об обзорах неба, их прошлом, настоящем и будущем, а также обзор проблем классификации см., например, в статье S.G. Djorgovski et al "Flashes in a Star Stream: Automated Classification of Astronomical Transient Events", IEEE eScience 2012 conference, October 2012, IEEE Press, https://arxiv.org/abs/1209.1681
Примечание - Проект CRTS можно рассматривать как хорошего предшественника для флагманского проекта астрономии, Большого синоптического обзора неба (Large Synoptic Sky Survey) с использованием Большого синоптического обзорного телескопа в Обсерватории имени Веры Рубин, Чили (LSST), https://www.lsst.org/, который сейчас строится. Его ожидаемые объемы передачи данных (от 20 до 30 терабайт в ясную ночь, десятки петабайт за время проведения обзора в целом) соответствуют росту по закону Мура от текущих скоростей и объемов данных проекта CRTS, и многие технические и методологические проблемы очень похожи. Это также хороший вариант применения для интеллектуального анализа данных в реальном времени и выделения знаний в больших потоках данных, в условиях распределенности источников данных и вычислительных ресурсов

А.7.2 Вариант использования N 37: Космологический обзор неба и моделирование

Название	Проект Министерства энергетики США анализа экстремально больших данных космологических обзоров неба и моделирования
Предметная область	Научные исследования: астрофизика
Автор/организация/эл. почта	Салман Хабиб (Salman Habib), Аргоннская национальная лаборатория (Argonne National Laboratory); Эндрю Конноли (Andrew Connolly), Университет Вашингтона, США
Акторы/заинтересованные лица, их роли и ответственность	Ученые, изучающие темную материю, темную энергию и структуру ранней Вселенной
Цели	Прояснить природу темной материи, темной энергии и инфляции, дав ответ на некоторые из самых волнующих, озадачивающих и проблемных вопросов из тех, что стоят перед современной физикой. Появляющиеся неожиданные результаты измерений указывают на потребность в физике, выходящей за рамки успешной "стандартной модели" физики элементарных частиц
Описание варианта использования	Данное исследование требует тесного взаимодействия между "большими данными" из экспериментов и моделирования, а также огромных объемов вычислений. Сплав всего этого позволит: 1) предоставить прямые методы и средства для космологических открытий, требующие тесной связи между теорией и наблюдениями ("прецизионная космология"); 2) создать ключевой по важности "инструмент выявления" для работы с большими наборами данных, генерируемыми сложными инструментами; 3) производить и обмениваться результатами высокоточного моделирования, которые необходимы для понимания и контроля системы классификации (systematics), особенно астрофизической
Текущие решения	Вычислительная система	Время вычислений: 24 млн часов (NERSC/Berkeley Lab), 190 млн часов (ALCF/Argonne), 10 млн часов (OLCF/Oak Ridge)
	Хранилище данных	180 терабайт (NERSC/Berkeley Lab)
	Сеть связи	На данный момент соединения с национальными лабораториями по высокоскоростной сети ESnet (Energy Sciences Network) Министерства энергетики США являются адекватными
	Программное обеспечение	MPI, OpenMP, С, С++, F90, FFTW, пакеты визуализации, Python, FFTW, Numpy, Boost, OpenMP, ScaLAPCK, СУБД PSQL и MySQL, Eigen, Cfitsio, http://astrometry.net/ и Minuit2
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Данные наблюдений будут получены в ходе обзоров "Темная энергия" (Dark Energy Survey, DES) и Zwicky Transient Factory в 2015 г.; "Большой синоптический обзор неба" (Large Synoptic Sky Survey) начнется с 2019 г. Данные моделирования будут создаваться в суперкомпьютерных центрах Министерства энергетики США
	Объем (количество)	Обзоры DES: 4 петабайта/год, ZTF: 1 петабайт/год, LSST: 7 петабайт/год. Моделирование - более 10 петабайт в 2017 г.
	Скорость обработки (например, в реальном времени)	Обзор LSST: 20 терабайт в день
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	1) Первичные данные обзоров неба. 2) Обработанные данные изображений. 3) Данные моделирования
	Вариативность (темпы изменения)	Наблюдения проводятся по ночам; вспомогательное моделирование проводится в течение года, однако данные могут поступать спорадически в зависимости от доступности ресурсов
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)
	Визуализация	Интерпретация результатов детального моделирования требует развитых методов и средств анализа и визуализации. Ограничения подсистемы ввода/вывода суперкомпьютера вынуждают исследователей изучать идею анализа "по месту" взамен методов постобработки
	Качество данных (синтаксис)
	Типы данных	Данные наблюдений в виде изображений должны быть обработаны и полученные результаты сопоставлены с физическими величинами, полученными по итогам моделирования. Должны быть составлены смоделированные карты неба, соответствующие форматам наблюдений
	Аналитика данных
Иные проблемы больших данных	Хранение, коллективное использование и анализ петабайт данных наблюдений и моделирования
Проблемы пользовательского интерфейса и мобильного доступа	Обзор LSST будет производить 20 терабайт данных в день. Эти данные должны быть заархивированы и сделаны доступными исследователям во всем мире
Технические проблемы обеспечения безопасности и защиты персональных данных
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)
Дополнительная информация (гиперссылки)	Страница, Большого синоптического обзорного телескопа в Обсерватории имени Веры Рубин, Чили (LSST), https://www.lsst.org/lsst Сайт Национального научно-исследовательского вычислительного центра энергетических исследований Министерства энергетики США (NERSC), https://www.nersc.gov/ Презентация к докладу Салмана Хабиба (Salman Habib, Аргоннская национальная лаборатория) на тему "Текущие и будущие вычислительные потребности вычислительной космологии" (Present and Future Computing Requirements for Computational Cosmology), 27-28 ноября 2012 г., https://www.nersc.gov/assets/Uploads/HabibcosmosimV2.pdf Страница программ в области физики высоких энергий сайта Управления науки Министерства энергетики США, https://www.energy.gov/science/hep/high-energy-physics

А.7.3 Вариант использования N 38: Большие данные космологических обзоров неба

Название	Большие данные космологических обзоров неба
Предметная область	Научные исследования: Границы космоса
Автор/организация/эл. почта	Питер Ньюджент (Peter Nugent)/ Национальная лаборатория имени Лоуренса в Беркли, США (LBNL), penugent@lbl.gov
Акторы/заинтересованные лица, их роли и ответственность	Обзор неба "Темная энергия" (Dark Energy Survey, DES), "Спектроскопическая установка для исследования темной энергии" (Dark Energy Spectroscopic Instrument, DESI), Большой синоптический обзорный телескоп в Обсерватории имени Веры Рубин, Чили (LSST), Аргоннская национальная лаборатория (Argonne National Laboratory, ANL), Брукхейвенская национальная лаборатория (BNL), Национальная ускорительная лаборатория имени Ферми, США (FNAL/Fermilab), Национальная лаборатория имени Лоуренса в Беркли, США (LBNL), Национальная ускорительная лаборатория SLAC (SLAC National Accelerator Laboratory) Стэнфордского университета: - Создание установок/телескопов, проведение обзора и выполнение космологического анализа
Цели	Обеспечить возможность обработки фотометрических данных в режиме реального времени для обнаружения и дальнейшего наблюдения сверхновых звезд, а также обработки больших объемов данных наблюдений (совместно с данными моделирования) с целью уменьшения систематических погрешностей в измерении космологических параметров посредством изучения барионных акустических осцилляции, подсчета галактических кластеров и измерений методом слабого гравитационного линзирования
Описание варианта использования	При выполнении обзора "Темная энергия" (Dark Energy Survey, DES), данные с вершины горы передаются по микроволновой связи в чилийский город Ла Серена (La Serena). Оттуда по оптическим каналам связи они поступают в американский Национальный центр компьютерных приложений (National Center for Computing Applications, NCSA) и Национальный научно-исследовательский вычислительный центр энергетических исследований Министерства энергетики США (NERSC) для хранения и "редуцирования". Применяются конвейеры "вычитания" с использованием существующих изображений, с целью найти новые оптические транзиенты при помощи алгоритмов машинного обучения. Затем проводится идентификация и каталогизация галактик и звезд как на отдельных изображениях, так и на сериях изображений; и, наконец, их характеристики измеряются и сохраняются в базе данных
Текущие решения	Вычислительная система	Linux-кластер, сервер реляционной СУБД Oracle, большие машины памяти, стандартные интерактивные хосты Linux. Для моделирования - ресурсы высокопроизводительных вычислений
	Хранилище данных	Реляционная СУБД Oracle, терминальный клиент psql (PostgreSQL interactive terminal) для работы с объектно-реляционной СУБД PostgreSQL, а также файловые системы GPFS и Luster и ленточные архивы
	Сеть связи	Предоставляется Национальным научно-исследовательским вычислительным центром энергетических исследований Министерства энергетики США (NERSC)
	Программное обеспечение	Стандартное астрофизическое программное обеспечение для обработки ("редуцирования") данных, а также сценарии-обертки (wrapper scripts) Perl/Python, планирование Linux Cluster; и сопоставление с большими объемами данных моделирования с помощью таких методов, как разложение Холецкого
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Распределенный, обычно данные делятся на данные наблюдений и результаты моделирования
	Объем (количество)	Телескоп LSST создаст 60 петабайт графических данных и 15 петабайт данных каталога; и также будет создан соответственно большой (или даже больший) объем данных моделирования. В общей сложности за ночь будет создаваться более 20 терабайт данных
	Скорость обработки (например, в реальном времени)	Каждую ночь необходимо будет обрабатывать 20 терабайт данных в режиме, как можно более близком к реальному времени, чтобы максимизировать количество научных данных о сверхновых звездах
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Хотя данные в виде изображений схожи, анализ, выполняемый в интересах четырех различных типов космологических измерений и для сопоставления с данными моделирования, сильно различается
	Вариативность (темпы изменения)	Погодные условия и облачность могут кардинально изменить как качество, так и количество данных
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	Астрофизические данные - это кошмар для статистиков, поскольку погрешности при выполнении конкретных измерений варьируются от ночи к ночи, в дополнение к крайней непредсказуемости частоты наблюдаемых явлений. Кроме того, возможности проведения практически всех космологических измерений ограничены, и, как следствие, как можно лучшее понимание собранных данных имеет наивысший приоритет в рамках каждого обзора неба
	Визуализация	Интерактивная скорость пользовательского веб-интерфейса при работе с большими наборами данных остается проблемой. Обязательной является возможность выполнять основные виды запросов и просмотр данных с целью поиска новых транзиентов, а также для мониторинга качества обзора. Возможность скачивать большие объемы данных для автономного анализа является еще одним требованием к системе. Также необходима способность комбинировать результаты моделирования и данные наблюдений
	Качество данных (синтаксис)	Понимание систематических погрешностей в данных наблюдений является необходимым условием успешности космологических измерений. Для будущих обзоров огромной проблемой является уменьшение погрешностей в результатах моделирования ниже этого уровня
	Типы данных	См. выше подпункт "Разнообразие"
	Аналитика данных
Иные проблемы больших данных	Для понимания ограничений в данных моделирования будут полезны новые статистические методы. Часто случается, что не хватает компьютерного времени для выполнения желаемого количества объемов моделирования, и для закрытия пробелов приходится полагаться на эмуляторы. Необходимы методы для выполнения разложения Холецкого для тысяч моделирований с матрицами порядка миллиона по каждой стороне
Проблемы пользовательского интерфейса и мобильного доступа	Одновременное выполнение анализа как данных моделирования, так и данных наблюдений
Технические проблемы обеспечения безопасности и защиты персональных данных	Никаких особых проблем нет. Данные либо являются общедоступными, либо для доступа к ним требуется стандартный вход с паролем
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)	Интересным направлением будущих исследований могут стать параллельные базы данных, способные работать с данными изображений
Дополнительная информация (гиперссылки)	Страница Большого синоптического обзорного телескопа в Обсерватории имени Веры Рубин, Чили (LSST), https://www.lsst.org/lsst Сайт "Спектроскопической установки для исследования темной энергии" (Dark Energy Spectroscopic Instrument, DESI) Министерства энергетики США, https://www.desi.lbl.gov/ Сайт обзора неба "Темная энергия" (Dark Energy Survey, DES), https://www.darkenergysurvey.org/

А.7.4 Вариант использования N 39: Анализ данных Большого адронного коллайдера

Название	Физика элементарных частиц - Анализ данных Большого адронного коллайдера: открытие бозона Хиггса
Предметная область	Научные исследования: физика
Автор/организация/эл. почта	Майкл Эрнст (Michael Ernst, mernst@bnl.gov) из Брукхейвенской национальной лаборатории (BNL) и Лотар Бауэрдик (Lothar Bauerdick, bauerdick@fnal.gov) из Национальной ускорительной лаборатории именио Ферми, на основе первоначальной версии, написанной Джеффри Фоксом (Geoffrey Fox, gcf@indiana.edu) из Университета Индианы и Эли Дартом (Eli Dart, eddart@lbl.gov) из Национальной лаборатории им. Лоуренса в Беркли, США (LBNL)
Акторы/заинтересованные лица, их роли и ответственность	Физики (проектирование и выявление потребностей в экспериментах, анализ данных). Персонал систем (проектирование, создание и поддержка распределенных вычислительных грид-сетей). Специалисты в области физики ускорителей (проектирование, создание и эксплуатация ускорителя). Правительство (финансирование на основе долгосрочной важности открытий в данной области)
Цели	Понимание свойств элементарных частиц
Описание варианта использования	Детекторы Большого адронного коллайдера в ЦЕРН и моделирование по методу Монте-Карло "выдают" события, отражающие взаимодействие частиц с приборами. Обработанная информация описывает физические свойства событий, и на ее основе создаются списки частиц с указанием их типа и импульса. Эти события анализируются с целью обнаружения новых явлений - как новых частиц (например, бозона Хиггса), так и сбора доказательств того, что предполагаемые частицы (предсказываемые, например, теорией суперсимметрии) не были обнаружены
Текущие решения	Вычислительная система	"Глобальная грид-инфраструктура Большого адронного коллайдера" (WLCG) и, в США, "Грид открытой науки" (Open Science Grid) объединяют во всемирном масштабе предоставляющие вычислительные ресурсы и ресурсы хранения компьютерные центры в единую инфраструктуру, доступную для всех физиков, работающих с данными Большого адронного коллайдера. 350 тысяч ядер, работающих почти непрерывно, организованы в три уровня (сам ЦЕРН, континенты/страны и университеты). Используются распределенные компьютерные вычисления высокой пропускной способности (Distributed High Throughput Computing, DHTC). Объемы хранения данных - 200 петабайт; в день выполняется более двух миллионов заданий
	Хранилище данных	Эксперимент ATLAS: - Tier1-хранение на лентах в Брукхейвенской национальной лаборатории (BNL) - 10 петабайт данных проекта ATLAS на лентах под управлением высокопроизводительной системы хранения (High Performance Storage System, HPSS). С учетом данных эксперимента по ядерной физике на установке BNL "Релятивистский коллайдер тяжелых ионов" (Relativistic Heavy Ion Collider, RHIC), которые хранятся в том же вычислительном центре, общий объем данных составляет 35 петабайт; - Tier1-хранение на дисках в Брукхейвенской национальной лаборатории: 11 петабайт; система dCache используется для виртуализации набора из 60 разнородных серверов хранения с дисковыми системами хранения высокой плотности; - Tier2-центры в США: объем дисковой кэшпамяти 16 петабайт. Эксперимент CMS: - Tier1 - хранение в Национальной ускорительной лаборатории им. Энрико Ферми (Fermilab), США: лента/кэш, 20,4 петабайта; - Tier2 - центры в США, объем дисковой кэш-памяти 7 петабайт; - Tier3 - центры в США, объем дисковой кэш - памяти 1,04 петабайта.
	Сеть связи	Поскольку участие в экспериментах глобальное (в эксперименте CMS насчитывается 3600 участников из 183 учреждений 38 стран), то данные на всех уровнях передаются и являются доступными на всех континентах. По научным сетям идет масштабная автоматизированная передача данных по всему миру. Комбинация сетевых инфраструктур LHCOPN (соединяет ЦЕРН с центрами Tier1) и LHCONE (связь с центрами Tier2) обеспечивает целевое выделение сетевых ресурсов и изоляцию трафика для данных Большого адронного коллайдера. Tier1 - центр хранения данных эксперимента ATLAS в BNL имеет внутренние пути с пропускной способностью 160 гигабит/с (часто полностью загруженные). Внешние соединения на скорости 70 гигабит/с обеспечивается высокоскоростной сетью ESnet (Energy Sciences Network) Министерства энергетики США. Tier1 - центр хранения данных эксперимента CMS в Национальной ускорительной лаборатории имени Ферми (FNAL/Fermilab) располагает внешними подключениями на скорости 90 гигабит/с, обеспечиваемыми сетью ESnet. Стабильный совокупный трафик данных экспериментов на Большом адронном коллайдере по глобальной сети составляет около 25 гигабит/с
	Программное обеспечение	Масштабируемая система управления рабочей нагрузкой/рабочими процессами эксперимента ATLAS PanDA управляет 1 миллионом заданий в сутки на производство данных и их анализ пользователями на глобально распределенных вычислительных ресурсах ( 100 сайтов). Новая распределенная система управления данными эксперимента ATLAS Rucio является основным компонентом, ведущим учет и отслеживающим, в настоящее время, 130 петабайт данных, распределенных по грид-ресурсам. Эта система также используется для организации перемещения данных между сайтами. Ожидается, что объем данных в ближайшие несколько лет увеличится до масштаба экзабайтов. На основе системы xrootd, для эксперимента ATLAS была разработала система федеративного хранения FAX, которая обеспечивает удаленный доступ к данным. Аналогичным образом, в эксперименте CMS используются инфраструктура OSG GlideinWMS для управления потоками рабочих процессов производства и анализа данных, система PhEDEx для управления перемещениями данных, и система AAA/xrootd для обеспечения удаленного доступа к данным. Специфическое для экспериментов физическое программное обеспечение включает пакеты моделирования, средства обработки данных, развитые пакеты статистической обработки и т.д.
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Высокоскоростные детекторы производят большие объемы данных: - детектор ATLAS в ЦЕРНе: первоначальная скорость составляла 1 петабайт/с первичных данных, затем была снижена до 300 мегабайт/с благодаря использованию многоступенчатого триггера, - детектор CMS в ЦЕРНе: аналогично. Данные распространяются глобально Tier1 - центрам, которые выступают в роли источников данных для центров анализа уровней Tier2 и Tier3
	Объем (количество)	15 петабайт в год данных от детекторов и результатов анализа
	Скорость обработки (например, в реальном времени)	В режиме реального времени. Иногда случаются длительные остановки Большого адронного коллайдера (для улучшения ускорителя и детекторов), когда поступают только данные моделирования по методу Монте-Карло. Помимо использования программно- и динамически реплицируемых наборов данных, все чаще при проведении анализа используется удаленный ввод-вывод в режиме реального времени (с использованием XrootD), который требует надежных высокопроизводительных сетевых средств для снижения накладных расходов на копирование файлов и на использование системы хранения
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Множество типов событий, в которых участвуют от двух до нескольких сот конечных элементарных частиц, но все данные - это сведения о частицах после первоначального анализа. События сгруппированы в наборы данных; реальные данные детектора сегментируются на 20 наборов данных (с частичным перекрытием) на основе особенностей событий, определенных с помощью работающей в реальном времени триггер-системы; в то время, как различные наборы данных моделирования характеризуются моделируемым физическим процессом
	Вариативность (темпы изменения)	Данные накапливаются и не меняют свой характер. В зависимости физической интуиции может меняться предмет Вашего поиска. По мере того как растет понимание функционирования детекторов, выполняются масштабные задачи по повторной обработке данных
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	Потеря небольшого количества данных не влечет за собой особых неприятностей, поскольку ошибки пропорциональны обратной величине квадратного корня от числа зафиксированных событий, однако такую потерю данных следует тщательно учитывать. Важно, чтобы ускоритель и экспериментальная установка работали хорошо и понятным образом, в противном случае данные будут слишком "грязными"/ "неисправимыми"
	Визуализация	Умеренное использование визуализации, помимо гистограмм и подгонок модели. Имеется отличная визуализация отдельных событий, но для обнаружения явлений требуется много событий, поэтому такой тип визуализации имеет второстепенное значение
	Качество данных (синтаксис)	Огромные усилия прилагаются для того, чтобы сделать поведение определенных сложных экспериментальных установок вполне понятными (правильные калибровки) и надлежащим образом корректировать систематические ошибки в данных. Часто требует повторного анализа данных
	Типы данных	Необработанные первичные экспериментальные данные в различном двоичном представлении с концептуальным синтаксисом "имя: значение", где "имя" может изменяться в диапазоне от "данных сенсора фотокамеры" до "импульса частицы". Данные выделенных из первичных данных физических сигналов (reconstructed data) обрабатываются для получения оптимизированных для анализа представлений в "плотных" форматах
	Аналитика данных	Первоначальный анализ включает обработку специфических экспериментальных данных каждого эксперимента (ALICE, ATLAS, CMS, LHCb), в результате которой выдается сводная информация. На втором этапе анализа проводится "предварительная разведка" (гистограммы, диаграммы рассеяния) с подбором моделей. Существенные объемы моделирования по методу Монте-Карло необходимы для оценки качества анализа. Большая часть ( 60 %) ресурсов центральных процессоров, доступных для совместной работы в рамках проекта ATLAS на уровнях Tier1 и Tier2, используется для моделирования событий. Требования ATLAS к моделированию полностью определяются физическим сообществом с точки зрения потребностей анализа и соответствующих целей в области физики. В настоящее время в рамках физического анализа рассматриваются реальные данные примерно 2 млрд событий, собранные в 2011 г., и данные 3 млрд событий, собранные в 2012 г. (это составляет 5 петабайт экспериментальных данных). В рамках ATLAS также было произведено примерно 3,5 млрд смоделированных событий в 2011 г., и 2,5 млрд таких событий в 2012 г. (это составляет - 6 петабайт данных моделирования). Учитывая требования к ресурсам для проведения полного моделирования события с использованием пакета Geant4, ATLAS в настоящее время может производить около 4 млн событий в день в случае использования всех вычислительных мощностей, доступных эксперименту для этой цели в мировом масштабе. Из-за высокой стоимости времени центрального процессора результаты полного моделирования с использованием Geant4 ("хитов") хранятся на одной курируемой ленте, среди Tier1-лент, для повторного использования в нескольких повторных пусках моделирования по методу Монте-Карло. "Хиты" от более быстрых программ моделирования будут лишь временно храниться в наборе данных второго периода работы коллайдера
Иные проблемы больших данных	Преобразование научных результатов в новые знания, технические решения, политики и политические решения является основой той научной миссии, которую выполняет как физика высоких энергий в целом, так и, в частности, анализ данных Большого адронного коллайдера. Однако если достижения в области экспериментальных и вычислительных технологий привели к экспоненциальному росту объемов, скорости производства и разнообразия доступных для научных исследований данных, то достижения в технологиях, позволяющих преобразовать эти данные в полезные знания, далеко не соответствуют потребностям сообщества специалистов в области физики высоких энергий обеспечить своевременные и дающие немедленную отдачу результаты. Ускорение процесса отыскания научных знаний абсолютно необходимо, если ученые Министерства энергетики США собираются и впредь вносить большой вклад в развитие физики высоких энергий. Ныне существующий всемирный механизм анализа, обслуживающий несколько тысяч ученых, должен быть соразмерно расширен в плане "умности" своих алгоритмов, автоматизации процессов и сферы охвата вычислений, с тем, чтобы сделать возможным научное осмысление детальной природы бозона Хиггса. Так, например, результаты приблизительно сорока различных методов анализа (многие из которых применяют методы машинного обучения), используемых для изучения подробных характеристик бозона Хиггса, должны быть скомбинированы математически строгим образом, чтобы получить согласованный результат, который можно было бы опубликовать. Специфические проблемы Объединенный (федеративный) семантический поиск: интерфейсы, протоколы и среды, поддерживающие доступ, использование и интероперабельность между объединяемыми наборами ресурсов, - управляемые на стратегическом и оперативном уровне с использованием сочетания различных политик и мер и инструментов контроля и управления, взаимодействующих с потоковыми и "стационарными" источниками данных. К числу таких мер относятся: - модели, алгоритмы, библиотеки и эталонные реализации распределенной неиерархической службы поиска и выявления; - семантика, методы, интерфейсы для управления жизненным циклом (подписка, захват, происхождение, оценка, проверка, отклонение) неоднородного набора распределенных инструментов, сервисов и ресурсов; - глобальная среда, устойчивая к отказам и сбоям; и - гибкие высокопроизводительные хранилища данных (выходящие за рамки управляемых на основе схемы данных), которые масштабируются и являются дружественными к интерактивной аналитике. Описание и понимание ресурсов Распределенные методы и реализации, дающие возможность ресурсам (людям, программному обеспечению, вычислениям, включая данные) публиковать различные состояния и функции для использования разнообразными клиентами. Механизмы для обработки произвольных типов объектов в рамках общей единообразной концепции (включая сложные типы, такие как неоднородные данные, неполная и изменяющаяся информация), - а также быстро меняющаяся доступность вычислительных ресурсов, хранилищ и других ресурсов. Потоковая передача абстрактных данных и перемещение данных на основе файлов по глобальной/локальной сетям и на архитектурах экзабайтного масштаба, поддерживая тем самым возможность совместного принятия в реальном времени решений, касающихся научных процессов
Проблемы пользовательского интерфейса и мобильного доступа	Возможность гибко использовать любые соответствующие доступные ресурсы и обеспечить динамическую доступность всех необходимых данных на этих ресурсах имеет основополагающее значение для будущих открытий в области физики высоких энергий. В данном контексте понятие "ресурс" имеет широкое значение и включает в себя данные и людей, а также вычислительные и некомпьютерные объекты: таким образом, оно охватывает данные любого рода - необработанные данные, информация, знания и т.д.; и ресурсы любого типа - люди, компьютеры, системы хранения, научные инструменты, программное обеспечение, ресурсы, сервисы и т.д. Чтобы эффективно использовать такие ресурсы, необходимо эффективным, безопасным и надежным образом предоставить широкий спектр мер управления, охватывающих, например, сбор, выявление, распределение, перемещение, доступ, использование, выпуск и переназначение. Эти меры управления должны охватывать и контролировать большие ансамбли данных и других ресурсов, которые постоянно меняются и эволюционируют, и часто во многих своих аспектах будут недетерминированными и нечеткими. Специфические проблемы Глобально оптимизированное динамическое распределение ресурсов. Здесь необходимо учитывать отсутствие строгой согласованности знаний в масштабах всей системы. Минимизация времени доставки данных и услуг Это нужно не только для сокращения времени на доставку данных или услуг, но и для поддержки возможности прогнозирования, с тем, чтобы занимающиеся анализом данных физики могли адекватно учитывать погрешности в процессах принятии решений в режиме реального времени
Технические проблемы обеспечения безопасности и защиты персональных данных	Хотя сами по себе данные физики высоких энергий не являются проприетарными, внесение в них неумышленных изменений и/или связанная с проблемами кибербезопасности компрометация сервисов центра обработки потенциально могут быть весьма разрушительными для процесса анализа. Помимо необходимости наличия средств удостоверения личности и соответствующих виртуальных систем управления идентификационными данными в организациях для управления правами доступа к конкретным наборам ресурсов, - немало внимания необходимо уделить разработке и эксплуатации многих программных компонент, которые нужны сообществу для проведения вычислений в этой чрезвычайно распределенной среде. Основная часть разработки программного обеспечения и систем для анализа данных Большого андронного коллайдера выполняется внутри сообщества специалистов в области физики высоких энергий или посредством адаптации компонент программного обеспечения, разработанного другими сторонами, что предполагает многочисленные допущения и проектные решения начиная с ранних этапов проектирования и далее на протяжении всего жизненного цикла программного обеспечения. Программные системы основаны на ряде предположений относительно своей среды применения - как они развертываются, конфигурируются, кто их эксплуатирует, в какой сети они находятся, являются ли их входные или выходные данные чувствительными и конфиденциальными, могут ли они доверять своим входным данным, обеспечивают ли защиту неприкосновенности частной жизни и т.д. В случае, когда несколько программных компонентов взаимосвязаны друг с другом, как, например, в стеках "глубинного" программного обеспечения, используемых в компьютерных вычислениях высокой пропускной способности, - без четкого понимания их предположений о безопасности, общая безопасность получаемой системы становится непонятной. Возможным способом решения этой проблемы является создание доверенной среды (trust framework) для компьютерных вычислений высокой пропускной способности. Такая доверенная среда, посредством описания того, что программное обеспечение, системы и организации предоставляют и чего ожидают от своей среды в отношении обеспечения исполнения политик, безопасности и неприкосновенности частной жизни, - позволяет проанализировать систему на наличие пробелов в отношения доверии, робастности и отказоустойчивости
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)	Крупномасштабный пример анализа на основе событий, с необходимой базовой статистикой. Этот пример также подчеркивает важность виртуальных организаций с точки зрения глобального сотрудничества. Эксперименты на Большом адронном коллайдере являются пионерами в области распределенной инфраструктуры больших данных. Ряд аспектов потока рабочего процессов этих экспериментов высвечивают проблемы, которые другие дисциплины тоже нужно будет решить. В числе этих проблем автоматизацию распределения данных, высокопроизводительная передача данных и крупномасштабные вычисления с большой пропускной способностью
Дополнительная информация (гиперссылки)	Geoffrey Fox, Tony Hey, Anne Trefethen "Where does all the data come from?", 2011, http://cgl.soic.indiana.edu/publications/Where%20does%20all%20the%20data%20come%20from%20v7.pdf William E. Johnston, Eli Dart, Michael Ernst, Brian Tierney "Enabling high throughput in widely distributed data management and analysis systems: Lessons from the LHC", TNC2013 Conference, 2013, https://www.es.net/assets/pubs_presos/High-throughput-lessons-from-the-LHC-experience.Johnston.TNC2013.pdf

Примечание -
Стадии варианта использования	Источники данных	Использование данных	Трансформации (аналитика данных)	Инфраструктура	Безопасность и приватность
Физика элементарных частиц: Анализ данных Большого адронного коллайдера (LHC), открытие бозона Хиггса (Научные исследования: физика)
Регистрация первичных данных	Ускоритель LHC, ЦЕРН	Эти данные размещаются в ЦЕРН и затем распространяются по всему миру для следующего этапа обработки	LHC детектирует 109 столкновений в секунду; аппаратно-программный триггер отбирает "интересные события". Другие утилиты распространяют данные по всему миру по скоростным линиям связи	Ускоритель и сложный процесс отбора данных, использующий 7000 ядер в ЦЕРН для регистрации 100-500 событий в секунду ( 1 мегабайт каждое)	Нет
Обработка первичных данных в информацию	Файлы с первичными данными на диске	Итеративная калибровка и проверка анализа, включающая, например, "эвристические" алгоритмы поиска траекторий. Производит "большие" полные файлы с физическими параметрами и урезанные файлы данных по объекту анализа (AOD), размер которых составляет 10 % от исходного	Программа полного анализа, формирующая всестороннее понимание сложного экспериментального детектора. Также программы моделирования методом Монте-Карло для получения смоделированных данных, используемых для оценки эффективности экспериментального детектирования	300 тысяч ядер, организованных в 3 уровня: Tier0: ЦЕРН; Tier1: "Основные страны"; Tier2: Университеты и лаборатории. Для сведения: обработка требовательна в плане вычислений и объемов данных	Нет
Физический анализ информации. Извлечение знаний/явлений	Дисковые файлы с информацией, включая данные ускорителя и моделирования методом Монте-Карло Учитывает знания многих физиков (публикации) при выборе в ходе анализа	Используются простые статистические методы (такие как гистограммы), методы многомерного анализа и другие методы анализа данных и подбора моделей, для обнаружения новых эффектов (частиц) и установления ограничений на еще не наблюдавшиеся эффекты	Определение на основе первичных данных физических параметров и обработка данных с использованием развитых физических алгоритмов для определения свойств событий, проверки гипотез в отношении элементарных частиц и т.д. Классической программой для интерактивного анализа отобранных наборов обработанных данных является Root (ЦЕРН). Программа считывает файлы ряда событий (AOD, NTUP) из выбранных наборов данных и использует созданный физиком С++ - код для вычисления новых параметров, таких, как предполагаемая масса нестабильной (новой) частицы	В то время, как большая часть обработки данных выполняется на ресурсах уровня Tier1 и Tier2, заключительная стадия анализа обычно выполняется пользователями на локальных объектах уровня Tier3. Масштаб вычислительных ресурсов на узлах уровня Tier3 варьируется от рабочих станций до небольших кластеров. Наиболее распространенным программным стеком, применяемым для анализа компактных форматов данных, генерируемых на распределенных вычислительных ресурсах, является ROOT. Передача данных выполняется с использованием инструментов распределенного управления данными экспериментов ATLAS и CMS, которые в основном полагаются на промежуточное программное обеспечение gridFTP. Прямой доступ к данным на основе XROOTD также приобретает большое значение там, где доступна высокая пропускная способность сети	Физические открытия и результаты являются конфиденциальными до тех пор, пока они не будут подтверждены группой и представлены на встрече/в журнале. Данные сохраняются, поэтому результаты воспроизводимы

А.7.5 Вариант использования N 40: Эксперимент Belle II

Название	Эксперимент Belle II
Предметная область	Научные исследования: физика высоких энергий
Автор/организация/эл. почта	Дэвид Аснер (David Asner, david.asner@pnnl.gov) и Малакай Шрам (Malachi Schram, malachi.schram@pnnl.gov), Тихоокеанская северо-западная национальная лаборатория, США (PNNL)
Акторы/заинтересованные лица, их роли и ответственность	Дэвид Аснер (David Asner) - научный руководитель американского проекта Belle II. Малакай Шрам (Malachi Schram) - координатор сети и передачи данных в проекте Belle II, а также руководитель вычислительного центра Belle II в Тихоокеанской северо-западной национальной лаборатории, США (PNNL)
Цели	Выполнять точные измерения для поиска новых явлений, выходящих за рамки стандартной модели физики элементарных частиц
Описание варианта использования	Изучение многочисленных мод распада в мезонном резонансе Y(4S) с целью обнаружения новых явлений, выходящих за рамки стандартной модели физики элементарных частиц
Текущие решения	Вычислительная система	Распределенные (грид-вычисления на базе инфраструктуры DIRAC (Distributed Infrastructure with Remote Agent Control))
	Хранилище данных	Распределенное (различные технологии)
	Сеть связи	Непрерывная передача первичных данных со скоростью 20 гигабит/с между Японией и США при проектной яркости ускорителя. Дополнительные скорости передачи в настоящее время изучаются
	Программное обеспечение	"Грид Открытой науки" (Open Science Grid), Geant4, DIRAC, FTS, инфраструктура Belle II
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Распределенные центры обработки данных. Центры хранения первичных данных находятся в Японии ("Организация по изучению высокоэнергетических ускорителей" KEK) и США (PNNL)
	Объем (количество)	Объем интегрированных первичных данных составит около 120 петабайт, физических данных - около 15 петабайт, данных моделирования по методу Монте-Карло - около 100 петабайт
	Скорость обработки (например, в реальном времени)	Данные будут перекалибровываться и анализироваться постепенно. Скорость передачи данных будет увеличиваться в зависимости от яркости ускорителя
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Данные будут перекалибровываться и распределяться постепенно
	Вариативность (темпы изменения)	Количество столкновений будет постепенно увеличиваться до тех пор, пока не будет достигнута расчетная яркость (3000 В-В пар в секунду). Ожидаемый объем данных о каждом событии 300 килобайт
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	Валидация будет выполняться с использованием известных эталонных физических процессов
	Визуализация	Нет
	Качество данных (синтаксис)	Выходные данные будут перекалибровываться и проверяться постепенно
	Типы данных	Вывод на основе кортежа
	Аналитика данных	Кластеризация и классификация данных является неотъемлемой частью вычислительной модели. Отдельные ученые определяют, как проводится анализ на уровне событий
Иные проблемы больших данных	Перемещение и учет данных (метаданные на уровне файлов и событий)
Проблемы пользовательского интерфейса и мобильного доступа	Сетевая инфраструктура, необходимая для непрерывной передачи данных между Японией (КЕК) и США (PNNL)
Технические проблемы обеспечения безопасности и защиты персональных данных	Никаких особых проблем нет. Доступ к данным осуществляется с использованием аутентификации в грид-системе
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)
Дополнительная информация (гиперссылки)	Сайт проекта Belle II, https://www.belle2.org/

А.8 Науки о Земле, экологические науки и полярные исследования

А.8.1 Вариант использования N 41: Радарная система некогерентного рассеяния EISCAT-3D

Название	Радарная система некогерентного рассеяния EISCAT-3D
Предметная область	Экологические науки
Автор/организация/эл. почта	Инь Чен (Yin Chen)/Кардиффский университет (Cardiff University), Великобритания/chenY58@cardiff.ac.uk Ингемар Хегстрем (Ingemar , lngemar.Haggstrom@eiscat.se), Ингрид Манн (Ingrid Mann, lngrid.mann@eiscat.se), Крейг Хайнсельман (Craig Heinselman, Craig.Heinselman@eiscat.se)/ Европейская научная ассоциация по некогерентному рассеянию радиоволн EISCAT
Акторы/заинтересованные лица, их роли и ответственность	Научная ассоциация EISCAT является международной научно-исследовательской организацией, эксплуатирующей радиолокационные системы некогерентного рассеяния в Северной Европе. Она финансируется и управляется научно-исследовательскими советами Норвегии, Швеции, Финляндии, Японии, Китая и Великобритании (коллективно именуемыми "партнеры EISCAT"). Помимо радаров некогерентного рассеяния, EISCAT также эксплуатирует ионосферный нагревной стенд, а также два динамических цифровых ионозонда Dynasonde
Цели	Европейская научная ассоциация по некогерентному рассеянию радиоволн EISCAT (European Incoherent Scatter Scientific Association) была создана для проведения исследований нижней, средней и верхней атмосферы и ионосферы с использованием радарных систем некогерентного рассеяния. Эти установки являются наиболее мощными наземными инструментами, используемыми в такого рода исследованиях. EISCAT также использует радар некогерентного рассеяния для изучения нестабильностей в ионосфере; для исследования структуры и динамики средней атмосферы; и в качестве измерительно-диагностического инструмента в экспериментах по модификации ионосферы с использованием нагревного стенда EISCAT/Heating.
Описание варианта использования	Конструкция радарной системы некогерентного рассеяния следующего поколения EISCAT-3D открывает перед физиками возможности для проведения исследований во многих новых областях. С другой стороны, возникают значительные проблемы, связанные с обработкой больших объемов экспериментальных данных, которые будут производиться массово и с высокими темпами. Данная проблема, о которой обычно говорят как о проблеме "больших данных", требует решений, выходящих за рамки возможностей традиционных технологий баз данных
Текущие решения	Вычислительная система	В электронной инфраструктуре данных эксперимента EISCAT-3D планируется использовать высокопроизводительные компьютеры для обработки данных в основном центре и компьютеры с высокой пропускной способностью в зеркальных центрах обработки данных
	Хранилище данных	32 терабайта
	Сеть связи	Согласно оценкам, скорости передачи данных в локальных сетях на центральном посте составляют от 1 до 10 гигабит/с. Аналогичная скорость требуется при подключении постов по выделенным высокоскоростным сетевым соединениям. Операция скачивания всего массива данных не является критичной ко времени, однако для оперативного управления требуется информация в реальном времени о некоторых заранее определенных событиях, которая будет поступать с постов в центр управления; а также связь в реальном времени центра управления с постами для установления в реальном времени режима работы радара
	Программное обеспечение	Распространенные операционные системы, такие как Windows, Linux, Solaris, HP/UX и FreeBSD Простое одноуровневое хранение файлов с поддержкой необходимых функциональных возможностей, таких как сжатие, страйпинг и журналирование файлов Самостоятельно разработанное программное обеспечение: - инструменты управления и мониторинга, включая конфигурирование системы; быстрый просмотр, отчеты об отказах и т.д.; - утилиты распространения данных; - пользовательское программное обеспечение, например, для циклического буфера, очистки данных, обнаружения и удаления радиочастотных помех, автокорреляции, интеграции данных, анализа данных, выявления событий, поиска и извлечения, производства вторичных полезных продуктов данных, приема/извлечения, построения графиков; - ориентированные на пользователя вычисления; - API-интерфейсы к стандартным программным средам; - цепочки и потоки рабочих процессов обработки данных
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Комплекс EISCAT-3D будет состоять из центрального поста с передающими и приемными антенными решетками и четырех постов с приемными антенными решетками на расстоянии около 100 км от центрального поста
	Объем (количество)	Полностью функциональная система из пяти постов будет производить 40 петабайт в год в 2022 г. Ожидается, что комплекс будет эксплуатироваться в течение 30 лет, а результаты обработки данных будут храниться не менее 10 лет
	Скорость обработки (например, в реальном времени)	На каждом из пяти постов: - каждая антенна выполняет 30 миллионов измерений в секунду (120 мегабайт/ с); - каждая группа из 100 антенн формирует поток данных мощностью 2 гигабайта в секунду - эти данные временно хранятся в кольцевом буфере: 160 групп -> 125 терабайт в час
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Измерения: различные версии, форматы, реплики, внешние источники ... Системная информация: конфигурация, мониторинг, журналы аудита. Пользовательские метаданные/данные: эксперименты, анализ, коллективное использование
	Вариативность (темпы изменения)	Во времени: мгновенно или несколько миллисекунд. Вдоль радиолокационных лучей - 100 наносекунд
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	Круглосуточно эксплуатируемый в режиме 24/7 комплекс EISCAT-3D предъявляет очень высокие требования к надежности и отказоустойчивости. Обеспечение надежности данных и стабильной производительности играют важнейшую роль для систем кольцевого буфера и архивного хранения. Эти системы должны обеспечить соответствие требованиям к минимальной скорости приема данных в любое время, иначе научные данные будут потеряны. Аналогичным образом, эти системы должны гарантировать неизменность хранимых данных и отсутствие в них искажений. Последнее требование особенно важно для постоянного архива, в котором научные данные, скорее всего, будут доступны для исследователей, и где их труднее всего проверить; искажение данных в архиве с большой вероятностью окажется неисправимым и способно негативно повлиять на научную литературу
	Визуализация	Визуализация анализируемых данных в режиме реального времени, например, в виде обновляемой диаграммы, на которой показаны концентрация электронов, показания температуры и скорость ионов на основе данным для каждого луча. Не в режиме реального времени (после эксперимента) визуализируются представляющие интерес физические параметры, например: - стандартные графики, используемые в экспериментах EISCAT; - отображение данных нескольких лучей в виде трехмерного "блока" для демонстрации пространственных изменений (в выбранных пользователем разрезах); - использование анимации для отображения изменений во времени; - поддержка визуализации 5-мерных (и более) данных, например, с использования метода "разрезания и складывания стопкой" (cut up and stack) для понижения размерности, когда одна или несколько независимых координат изменяются дискретно; или метод объемного рендеринга для отображения двумерной проекции трехмерного дискретного набора данных. Интерактивная визуализация. Дает пользователям возможность объединять информацию о нескольких спектральных особенностях (используя, в том числе, цветовое кодирование). Предоставляет пользователям возможность в реальном времени связывать или подключать специализированные функции визуализации данных, и, что более важно, функции для сигнализации о специфических условиях наблюдения
	Качество данных (синтаксис)	Будет предоставлено программное обеспечение для мониторинга, которое позволит оператору "видеть" поступающие данные через систему визуализации в режиме реального времени и соответствующим образом реагировать на интересные с научной точки зрения события. Будет разработано управляющее программное обеспечение для временной интеграции сигналов, уменьшения дисперсии шума и увеличения общей пропускной способности системы по передаче данных в архив данных
	Типы данных	HDF-5
	Аналитика данных	Распознавание образов, требовательные процедуры корреляции, извлечение высокоуровневых параметров
Иные проблемы больших данных	Высокая пропускная способность преобразования данных в данные более высокого уровня Для извлечения существенных знаний из малополезных в их исходном виде данных (low value - density data) необходимы новые методы глубокого, сложного анализа, например, с использованием машинного обучения, статистического моделирования, алгоритмов поиска на графе и т.д., выходящих за рамки традиционных подходов к физике космоса
Проблемы пользовательского интерфейса и мобильного доступа	Использование на мобильных платформах маловероятно
Технические проблемы обеспечения безопасности и защиты персональных данных	Доступ к данным нижнего уровня ограничен в странах-партнерах на один год. Все данные раскрываются через три года
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)	Электронная инфраструктура данных проекта EISCAT-3D имеет сходные архитектурные характеристики с другими радарами разведки и наблюдения, и со многими существующими системами, производящими и анализирующими большие данные, такими, как радиоинтерферометр LOFAR голландского института ASTRON, "Большой адронный коллайдер" ЦЕРН и международный проект радиоинтерферометра SKA (Square Kilometer Array)
Дополнительная информация (гиперссылки)	Веб-сайт проекта EISCAT-3D, https://eiscat.se/eiscat3d/

А.8.2 Вариант использования N 42: Совместная деятельность европейских сетевых инфраструктур в области экологических исследований (ENVRI)

Название	Совместная деятельность европейских сетевых инфраструктур в области экологических исследований (ENVRI)
Предметная область	Экологические науки
Автор/организация/эл. почта	Инь Чен (Yin Chen)/Кардиффский университет (Cardiff University), Великобритания/chenY58@cardiff.ac.uk
Акторы/заинтересованные лица, их роли и ответственность	ENVRI - это проект сотрудничества, выполняемый в рамках экологического кластера "Европейского стратегического форума по исследовательским инфраструктурам" (European Strategy Forum on Research Infrastructures, ESFRI). В число участвующих в проекте ENVRI инфраструктур экологических исследований ESFRI входят: - "Интегрированная система наблюдения за выбросами углерода" ICOS (Integrated Carbon Observation System) - европейская распределенная инфраструктура, предназначенная для мониторинга парниковых газов через ее атмосферные, экосистемные и океанские сети наблюдений; - EURO-Argo - европейский вклад в международную систему наблюдений за океаном Argo; - EISCAT-3D (описан в отдельном варианте применения N 41) - европейская исследовательская радарная система некогерентного рассеяния нового поколения для исследований верхней атмосферы; - LifeWatch (описан в отдельном варианте применения N 25) - европейская электронная инфраструктура для исследований в области экологии и биологического разнообразия; - "Европейская исследовательская инфраструктура для слежения за [геологическими] плитами" (EPOS) - это европейская инфраструктура для исследования землетрясений, вулканов, динамики поверхности и тектоники; - "Европейская междисциплинарная обсерватория исследования морского дна и слоев воды" (EMSO) - европейская сеть наблюдательных станций морского дна, предназначенная для мониторинга в долгосрочном масштабе времени экологических процессов, связанных с экосистемами, изменением климата и геологическими опасностями.
Акторы/заинтересованные лица, их роли и ответственность	Проект ENVRI также поддерживает тесные контакты с другими, непосредственно не участвующими в деятельности форума ESFRI, инфраструктурами экологических исследований, приглашая их представителей на совместные обсуждения. Это проекты: - "Использование самолетов в глобальной системе наблюдений" (IAGOS) организует сеть самолетов для глобального наблюдения за атмосферой; - "Интегрированная система наблюдений за Арктикой на Шпицбергене" (SIOS) создает систему наблюдений на Шпицбергене и вокруг него, которая объединяет исследования геофизических, химических и биологических процессов, проводимые на всех платформах исследований и мониторинга. ИТ-сообщество проекта ENVRI разрабатывает общую политику и технические решения для научно-исследовательских инфраструктур, привлекая к этой работе ряд организаций-партнеров, включая Кардиффский Университет (Cardiff University, Великобритания), Институт информационных наук и технологий им. Алессандро Фаедо (Istituto di scienza е tecnologie dell'Informazione "Alessandro Faedo", ISTI) итальянского Национального совета по научным исследованиям (Consiglio Nazionale delle Ricerche, CNR), Национальный центр научных исследований Франции (Centre National de la Recherche Scientifique, CNRS), финскую ИТ-компанию CSC - координатор европейского проекта EUDAT, агентство по защите окружающей среды Австрии (Umweltbundesamt), федерацию европейских грид-инфраструктур (European Grid Infrastructure, EGI), Европейский институт космических исследований (European Space Research Institute, ESRIN) Европейского космического агентства (European Space Agency, ESA), Амстердамский и Эдинбургский университеты
Цели	Проект ENVRI объединяет усилия шести инфраструктур "Европейского стратегического форума по исследовательским инфраструктурам" ESFRI (ICOS, EURO-Argo, EISCAT-3D, LifeWatch, EPOS и EMSO) по разработке общих сервисов данных и программного обеспечения. Результаты проекта ускорят создание этих инфраструктур и улучшат интероперабельность между ними. Основной целью ENVRI является согласование эталонной модели для целей совместной деятельности. Эталонная модель ENVRI RM служит общей онтологической структурой и стандартом для описания и характеризации вычислительной инфраструктуры и инфраструктуры хранения, с целью обеспечения бесперебойной интероперабельности между неоднородными ресурсами различных инфраструктур. Модель ENVRI RM также служит общим языком общения в сообществе, обеспечивая единую концепцию, на основе которой можно классифицировать и сравнивать компоненты инфраструктуры. Модель ENVRI RM также используется для выявления типовых решений общих проблем. Все это позволяет обеспечить повторное использование, совместное использование ресурсов и обмен опытом, а также избежать дублирования усилий
Описание варианта использования	Проект ENVRI реализует гармонизированные решения и разрабатывает руководства и рекомендации в отношении общих потребностей экологических проектов ESFRI, уделяя особое внимание таким вопросам, как архитектура, схемы метаданных, поиск данных в разбросанных хранилищах, визуализация и курирование данных. Это откроет новые возможности для пользователей сотрудничающих инфраструктур экологических исследований и обеспечит участникам междисциплинарных исследований возможность получать, изучать и сопоставлять данные из нескольких областей знаний в интересах исследований системного уровня. В проекте ENVRI изучается репрезентативная выборка научно-исследовательских инфраструктур для экологических исследований, выдавая на выходе прогноз общеевропейских требований, которые эти инфраструктуры предъявляют. В частности, выявляются общие для них требования. На основании данных анализа и с использованием международного стандарта ИСО "Открытая распределенная обработка", разработана эталонная модель ENVRI Reference Model (https://confluence.egi.eu/display/EC/Download+of+ENVRI+Reference+Model).
	По сути, эта модель выполняет роль универсальной эталонной концепции при обсуждении многих общих технических проблем, стоящих перед всеми инфраструктурами ESFRI для экологических исследований. Сопоставляя эталонные компоненты модели и фактические компоненты инфраструктур (или их предлагаемые проекты) в том виде, в котором они существуют в настоящее время, можно выявить различные пробелы и области перекрытия
Текущие решения	Вычислительная система
	Хранилище данных	Файловые системы и реляционные базы данных
	Сеть связи
	Программное обеспечение	Собственное
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Большинство исследовательских инфраструктур ENVRI представляют собой распределенные, рассчитанные на длительную перспективу, дистанционно управляемые сети наблюдений, ориентированные на понимание процессов, тенденций, порогов, взаимодействий и обратных связей, а также на повышение предсказательной способности в интересах решения будущих экологических проблем. Они простираются от арктических районов до самых южных европейских областей и от Атлантики на западе до Черного моря на востоке. Более конкретно: - EMSO, сеть стационарных наблюдательных станций для изучения морского дна и слоев воды, географически распределена по ключевым участкам европейских вод, и в настоящее время состоит из тринадцати станций. Европейская инфраструктура для исследования землетрясений, вулканов, динамики поверхности и тектоники EPOS ставит своей целью интеграцию существующих европейских центров геологических исследований в единую междисциплинарную исследовательскую сеть, а также повышение доступности и удобства использования междисциплинарных данных из сетей сейсмического и геодезического мониторинга, наблюдений за вулканической активностью, лабораторных экспериментов и компьютерного моделирования, повышая в мировом масштабе интероперабельность исследований в области наук о Земле. - Проект ICOS занимается мониторингом парниковых газов через свои сети атмосферных, экосистемных и океанских наблюдений. Сеть ICOS включает в себя более 30 атмосферных и более 30 экосистемных первичных долговременных станций наблюдения, расположенных по всей Европе, и дополнительные вторичные станции. Она также включает три "тематических центра" (Thematic Centres), занимающиеся обработкой данных всех станций каждой сети, и обеспечивающих доступ к этим данным. - LifeWatch - это "виртуальная" европейская инфраструктура для исследований в области экосистем и биологического разнообразия, услуги которой предоставляются в основном через Интернет. Ее центры общего пользования (Common Facilities) координируются и управляются на центрально-европейском уровне; а узлами сети LifeWatch являются специализированные центры стран-участниц (региональные партнерские центры) или исследовательских сообществ. - Проект Eurio-Argo предоставляет, развертывает и эксплуатирует примерно 800 буев, внося свой вклад в глобальные усилия (3000 буев) и, таким образом, обеспечивает расширенное покрытие европейских региональных морей. - Европейская исследовательская радарная система некогерентного рассеяния нового поколения EISCAT-3D проводит непрерывные измерения геопространственной среды и ее взаимосвязи с атмосферой Земли, в точке, расположенной в зоне полярных сияний на южном крае северного полярного вихря, и представляет собой распределенную инфраструктуру
	Объем (количество)	Объемы данных различные, например: - в проекте EMSO, в зависимости от инструментария и конфигурации наблюдательной станции, объем набора данных варьируется от нескольких мегабайт до нескольких гигабайт; - в рамках проекта EPOS сеть EIDA в настоящее время предоставляет доступ к потоку первичных данных, непрерывно поступающему с более чем 1000 станций, регистрирующих в день около 40 гигабайт, т.е. более 15 терабайт в год. EMSC хранит базу данных объемом 1,85 гигабайта с параметрами землетрясений, которая постоянно растет и пополняется уточненной информацией: - событий - 222 705; - мест - 632 327; - магнитуд - 642 555; - в рамках проекта EISCAT-3D, темпы производства первичных данных достигнут 49 петабайт в год в 2023 г.
	Скорость обработки (например, в реальном времени)	Обработка данных в режиме реального времени является распространенным требованием инфраструктур экологических исследований
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Данные очень сложные и неоднородные
	Вариативность (темпы изменения)	Скорость изменений сравнительно низкая
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	Нормальная
	Визуализация	В большинстве проектов методы визуализации еще не доведены до уровня полной работоспособности. В проекте EMSO визуализация не полностью работоспособна; в настоящее время используются только простые инструменты построения графиков. В проекте EPOS методы визуализации еще не определены. В проекте ICOS результаты обработки данных "уровня 1.b", такие, как измерения концентрации парниковых газов в почти реальном времени, доступны пользователям через веб-портал "Атмосферного тематического центра" (Atmospheric Thematic Centre, АТС). Интерактивная линейная временная (на базе Google Chart Tools) для временной последовательности с опциональными аннотациями позволяет пользователю прокручивать и менять увеличение временных последовательностей измерений СO₂ или СН₄ на атмосферной станции ICOS. Диаграмма отображается в браузере с использованием Flash. Также ведущим исследователям станций (principle investigators) доступны для обеспечения мониторинга инструментов некоторые результаты обработки данных "уровня 2". В основном это автоматически создаваемые графики показаний инструментов и сравнительные графики (используются язык R и библиотека построение графиков Python Matplotlib 2D), которые ежедневно помещаются на веб-сервер ICOS. Результаты обработки данных "уровня 3", такие как данные о потоках парниковых газов с географической привязкой, произведенные на основе наблюдений ICOS, способствуют росту научного влияния ICOS. Для этого ICOS поддерживает сообщество пользователей. Ожидается, что портал Carbon станет платформой, которая будет поддерживать визуализацию данных о потоках парниковых газов, включающих данные ICOS. Примером возможных будущих результатов обработки данных ICOS о концентрации парниковых газов "уровня 3" могут, например, служить карты европейских потоков СO₂ или СН₄ с высоким разрешением, полученные европейскими специалистами по моделированию атмосферной инверсии. Визуальные инструменты для сравнения данных будут разработаны порталом Carbon. Приветствуются любые продукты высокого научного качества. Проект LifeWatch предоставит общие методы визуализации, такие как нанесение данных о видах на карты. Новые методы позволят визуализировать эффект изменения данных и/или параметров моделей
	Качество данных (синтаксис)	Очень важно
	Типы данных	Измерения (часто сохраненные в файловых форматах). Метаданные. Онтология. Аннотации
	Аналитика данных	Ассимиляция данных. (Статистический) анализ. Интеллектуальный анализ данных. Извлечение данных. Построение научных моделей и моделирование. Управление потоками научных рабочих процессов
Иные проблемы больших данных	Обработка в реальном времени экстремально больших объемов данных. Резервирование данных в реальном времени в зеркальные архивы. Интегрированный доступ к данным и поиск данных. Обработка и анализ данных
Проблемы пользовательского интерфейса и мобильного доступа	Общей является потребность в эффективных и высокопроизводительных мобильных детекторах, и контрольно-измерительных приборах: - в проекте ICOS различные мобильные инструменты используются для сбора данных океанических и атмосферных наблюдений, и данных мониторинга экосистем; - в проекте Euro-Argo используются тысячи подводных роботов для наблюдения за всеми океанами; - в проекте Lifewatch биологи используют мобильные инструменты для наблюдений и измерений
Технические проблемы обеспечения безопасности и защиты персональных данных	Большинство проектов придерживаются политики открытых данных и их коллективного использования. Например: - Видение проекта EMSO - предоставить ученым всего мира доступ к данным наблюдений по модели открытого доступа. - В проекте EPOS данные в сети EIDA и параметры землетрясений, как правило, открыты и могут свободно использоваться. Некоторые ограничения существуют в отношении отдельных сейсмических сетей, и доступ регулируется в зависимости от аутентификации/авторизации на основе электронной почты. - Данные проекта ICOS будут доступны с лицензией на полный и открытый доступ. Каких-либо ограничений на доступ и возможное использование данных не предвидится; ожидается, что данные будет невозможно распространить дальше. Будут приниматься меры по обеспечению признания происхождения данных от ICOS и их прослеживаемости с использованием специальных мер (например, DOI набора данных). Большая часть соответствующих данных и ресурсов создается с использованием государственного финансирования из национальных и международных источников. - Проект LifeWatch следует соответствующим европейским политикам, таким, как: требования Европейского совета по научным исследованиям (European Research Council, ERC); пилотный проект Европейской комиссии по открытому доступу 2008 года. В отношении публикаций, такие инициативы, как инициированные издателями проект "Дриада" (Dryad) и "Инфраструктура открытого доступа к европейским исследованиям" (Open Access Infrastructure for Research in Europe, OpenAIRE). Частный сектор может размещать свои данные в инфраструктуре LifeWatch. Для управления такими коммерческими контрактами будет создана специальная компания. - В проекте EISCAT-3D доступ к данным более низкого уровня ограничивается на один год в странах-партнерах. Все данные раскрываются через три года
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)	Различные научно-исследовательские инфраструктуры предназначены для разных целей и эволюционируют с течением времени. Проектировщики описывают свои подходы с различных точек зрения, на разных уровнях детализации и с использованием разных типологий. Предоставленная документация часто является неполной и непоследовательной. Необходима единая платформа для интерпретации и обсуждения, которая помогла бы обеспечить единое понимание. В проекте ENVRI мы решили использовать стандартную модель Открытой распределенной обработки (Open Distributed Processing, ODP) для интерпретации проектов и структур исследовательских инфраструктур и для помещения их требования в структуру ODP для дальнейшего анализа и сопоставления
Дополнительная информация (гиперссылки)	Сайт проекта ENVRI: https://envri.eu/ Эталонная модель ENVRI (ENVRI Reference Model), https://confluence.egi.eu/display/EC/Download+of+ENVRI+Reference+Model Инь Чен (Yin Chen) и др. "Анализ общих требований к научно-исследовательским инфраструктурам экологических исследований" (Analysis of Common Requirements for Environmental Science Research Infrastructures), Международный симпозиум по гридам и облакам 2013 (International Symposium on Grids and Clouds, ISGC), 17-22 марта 2013 г., см. https://pos.sissa.it/179/032/pdf Сайт проекта ICOS: http://www.icos-infrastructure.eu/ Сайт проекта Euro-Argo: https://www.euro-argo.eu/ Сайт проекта EISCAT-3D: https://eiscat.se/eiscat3d/ Сайт проекта LifeWatch-ERIC: https://www.lifewatch.eu/web/guest/home Сайт проекта EPOS: https://www.epos-eu.org/ Сайт проекта EMSO-ERIC: http://emso.eu/

А.8.3 Вариант использования N 43: Анализ радиолокационных данных для Центра дистанционного зондирования ледяного покрова CReSIS

Название	Анализ радиолокационных данных для Центра дистанционного зондирования ледяного покрова (CReSIS)
Предметная область	Научные исследования: исследования полярных регионов и дистанционное зондирование ледяного покрова
Автор/организация/эл. почта	Джоффри Фокс (Geoffrey Fox), университет штата Индиана (США), gcf@indiana.edu
Акторы/заинтересованные лица, их роли и ответственность	Исследования, финансируемые Национальным научным фондом (National Science Foundation, NSF) и Национальным управлением по аэронавтике и исследованию космического пространства (NASA), имеют отношение к изменениям климата в краткосрочной и длительной перспективе. Инженеры проектируют новый радар, который будет отправляться в "полевые экспедиции" длительностью 1-2 мес в отдаленные места. Результаты, используются учеными для создания моделей и теорий, учитывающих ледяной покров
Цели	Определение толщины слоя ледяного покрова и слоев снега, с целью использования этих данных в научном анализе более высокого уровня
Описание варианта использования	Создание радара; создание беспилотного летательного аппарата (БПЛА) или использование пилотируемого самолета; облеты отдаленных районов (в Арктике, Антарктиде, Гималаях). Проверка на месте правильности настройки эксперимента, и проведение подробного анализа данных в более позднее время. Транспортировка данных по воздуху - доставка жесткого диска, ввиду плохого интернет-соединения. Использование обработки изображений для определения толщины льда/снежного покрова. Использование полученных данных в научных исследованиях процессов таяния ледяных шапок и т.д.
Текущие решения	Вычислительная система	В поле: кластер с низким энергопотреблением из прочных ноутбуков плюс классические серверы с 2-4 процессорами и съемным дисковым массивом емкостью 40 терабайт. Автономная обработка: кластер из 2500 ядер
	Хранилище данных	В поле: съемный жесткий диск. Диски в полевых условиях подвергаются неблагоприятным воздействиям, поэтому делаются две копии. Автономная обработка: Lustre или эквивалентная система хранения
	Сеть связи	Ужасного качества интернет, связывающий полевые станции с континентальными США
	Программное обеспечение	Обработка радиолокационных сигналов в пакете Matlab. Анализ изображений с использованием Map/Reduce или MPI, плюс C/Java. Пользовательский интерфейс - географическая информационная система
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Самолеты пролетают над ледяными полями по тщательно спланированным маршрутам. Собранные данные записываются на жесткие диски
	Объем (количество)	0,5 петабайт в год необработанных данных
	Скорость обработки (например, в реальном времени)	Все данные собираются в режиме реального времени, однако анализируются постепенно и хранятся в базе данных, интерфейс к которой обеспечивает географическая информационная система
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Множество различных, похожих по своей структуре наборов данных, каждый из которых требует индивидуализированной обработки сигналов. Эти данные необходимо использовать с большим количеством других данных исследований полярных регионов
	Вариативность (темпы изменения)	Данные каждой экспедиции накапливаются блоками объемом примерно по 100 терабайт
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	Крайне важна для мониторинга полевых данных и корректировки проблем с измерительными инструментами. Это означает, что часть данных должна полностью анализироваться в полевых условиях
	Визуализация	Богатый пользовательский интерфейс для моделирования слоев снежного и ледяного покрова и движения ледников
	Качество данных (синтаксис)	Обеспечение получения от измерительного оборудования качественных данных является основным инженерным вопросом
	Типы данных	Радиолокационные изображения
	Аналитика данных	Сложная обработка сигналов; новые методы обработки изображений с целью выделения слоев (которых могут быть сотни - один слой в год)
Иные проблемы больших данных	Объемы данных увеличиваются. Доставка жестких дисков выглядит неуклюже, но другого очевидного решения нет. Алгоритмы обработки изображений по-прежнему являются очень активной областью исследований
Проблемы пользовательского интерфейса и мобильного доступа	Интерфейсы для смартфонов существенного значения не имеют, в то время как технологии с низким энергопотреблением имеют крайне важное значение для полевых исследований
Технические проблемы обеспечения безопасности и защиты персональных данных	Исследования в Гималаях осложняются из-за местных политических проблем, поэтому требуются беспилотные летательные аппараты. Сами данные являются открытыми после первоначального изучения
Перечислите основные характеристики и связанные варианты использования (в интересах эталонной архитектуры)	Слабосвязанные кластеры для обработки сигналов. Необходима поддержка Matlab
Дополнительная информация (гиперссылки)	Сайт проекта Polar Grid, поддерживаемый Университетом Индианы, http://polargrid.org/about.html Сайт проекта CReSIS, https://cresis.ku.edu/ Видеоролик об исследованиях ледяного покрова на сайте проекта Polar Grid, http://polargrid.org/gallery.html#

Примечание -
Стадии варианта использования	Источники данных	Использование данных	Трансформации (аналитика данных)	Инфраструктура	Безопасность и приватность
Анализ радиолокационных данных для Центра дистанционного зондирования ледяного покрова CReSIS (Научные исследования: исследования полярных регионов и дистанционное зондирование ледяного покрова)
Первичные данные: Полевая экспедиция	Первичные данные с радарной системы на самолете/ транспортном средстве	Запись данных на жесткие диски для этапа обработки L1B. Проверка данных для контроля состояния инструментов	Надежные утилиты копирования данных. Вариант полного анализа для проверки данных	Прочные ноутбуки и небольшой сервер ( 2 ЦП с системой съемных жестких дисков емкостью 40 Тб)	Нет
Информация: Автономный анализ L1B	Данные с доставленных жестких дисков копируются в файловую систему (Lustre)	Создание в результате обработки данных радиолокационных изображений	Для каждой выборки данных запускается свой экземпляр программа анализа в Matlab, который работает параллельно и независимо от других экземпляров	2500 ядер, на которых исполняются стандартные инструменты кластера	Нет, за исключением проверки результатов перед раскрытием на веб-сайте CReSIS
Информация: L2/L3 Геолокация и выделение слоев	Радарные изображения с этапа обработки L1B	Вклад в науку - база данных с ГИС-интерфейсом	Средства ГИС и инструменты работы с метаданными. Среда, поддерживающая автоматическое и/или ручное выделение слоев	ГИС (географическая информационная система). Кластер для обработки изображений	См. выше
Знание, мудрость, открытия: Наука	ГИС-интерфейс для данных с этапов обработки L2/L3	Полярные научные исследования, объединяющие многие источники данных, например в интересах изучения изменения климата. Данные о дне ледника, используемые при моделировании течения ледника		Исследования в ГИС облачного стиля, поддерживающей доступ к данным. Моделирование - программа решения трехмерных дифференциальных уравнений в частных производных на большом кластере	Зависит от вида научного использования. Обычно результаты раскрываются после завершения исследования

А.8.4 Вариант использования N 44: Обработка данных проекта UAVSAR

Название	Обработка данных, доставка результатов и сервисы данных проекта UAVSAR
Предметная область	Научные исследования: науки о Земле
Автор/организация/ал. почта	Андреа Доннеллан (Andrea Donnellan, andrea.donnellan@jpl.nasa.gov), Джей Паркер (Jay Parker, jay.w.parker@jpl.nasa.gov), Лаборатория реактивного движения (Jet Propulsion Laboratory, JPL) Национального управления по аэронавтике и исследованию космического пространства США (НАСА)
Акторы/заинтересованные лица, их роли и ответственность	Группа проекта НАСА UAVSAR, группа проекта НАСА QuakeSim, Распределенный активный архивный центр (Distributed Active Archive Center, DAAC) Спутникового центра НАСА на Аляске (Alaska Satellite Facility, ASF), Геологическая служба США (United States Geological Survey, USGS), Геологическая служба штата Калифорния (California Geological Survey)
Цели	Использование радиолокатора с синтезированной апертурой для выявления изменений ландшафта, вызванных сейсмической активностью, оползнями, обезлесением, изменениями растительности, наводнениями и т.д.; повышение удобства его использования и доступности для ученых
Описание варианта использования	Ученый, желающий исследовать последствия землетрясения, изучает несколько стандартных результатов обработки данных радиолокатора с синтезированной апертурой, предоставляемых НАСА. Для ученого может оказаться полезным взаимодействие с сервисами, предоставляемыми проектами-посредниками, которые повышают ценность материалов официального архива результатов обработки данных
Текущие решения	Вычислительная система	Обработка первичных данных в Научно-исследовательском центре НАСА им. Эймса (Ames Research Center, ARC) на суперкомпьютерах Pleiades и Endeavour. Изучается вопрос об использовании коммерческих облачных систем для хранения и в качестве пользовательского интерфейса
	Хранилище данных	На основе файлов
	Сеть связи	Требуется однократная передача данных от измерительного прибора в Лабораторию реактивного движения (Jet Propulsion Laboratory, JPL), из JPL в другие вычислительные центры НАСА (ARC), а также из JPL в Спутниковый центр НАСА на Аляске (ASF). Отдельные файлы данных не слишком велики и могут быть скачаны индивидуальными пользователями, однако передача всего набора данных является неподъемной задачей. Это является проблемой для других проектов, работающих с полученными данными, таких как QuakeSim, которые хотят переформатировать наборы данных и повысить их ценность
	Программное обеспечение	Инструменты ROI_PAC, GeoServer, GDAL, а также инструменты, поддерживающие стандарт метаданных GeoTIFF
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Данные изначально должны собираться беспилотными летательными аппаратами. Первоначальная обработка данных проводится в Лаборатории реактивного движения НАСА (JPL). Архив данных централизованно хранится в Распределенном активном архивном центре Спутникового центра НАСА на Аляске (DAAC ASF), Группа проекта QuakeSim поддерживает отдельные результаты дальнейшей обработки данных (конверсия в GeoTIFF)
	Объем (количество)	Данные многопроходной интерферометрической съемки (Repeat Pass Interferometry, RPI): 3 терабайт. Темпы прироста около 1-2 терабайт в год. Поляриметрические данные: первичные - 100 терабайт, обработанные 40 терабайт. Предлагаемые спутниковые программы радиолокационного зондирования Земли (Earth Radar Mission, ранее DESDynl) способны значительно увеличить объемы производства данных (до нескольких терабайт в день)
	Скорость обработки (например, в реальном времени)	Данные многопроходной интерферометрической съемки: 1-2 терабайта в год. Темпы производства поляриметрических данных еще выше
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Два основных типа: поляриметрические данные и данные RPI. Каждый продукт данных RPI представляет собой набор файлов (файл аннотации, распакованные фалы и т.д.). Поляриметрические продукты данных также состоят из нескольких файлов каждый
	Вариативность (темпы изменения)	Продукты данных изменяются медленно. Данные время от времени обрабатываются повторно: используются новые методы обработки или иные параметры. Возможно использование дополнительных мер обеспечения и контроля качества
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	Следует принимать во внимание вопросы происхождения данных. В прошлом происхождение не было прозрачным для нижестоящих потребителей данных. В настоящее время используется управление версиями; версии описываются на веб-странице UAVSAR в примечаниях
	Визуализация	Используются инструменты, сервисы и стандарта геопространственной информационной системы
	Качество данных (синтаксис)	Многие кадры и коллекции оказались непригодными для использования из-за непредвиденных полетных условий
	Типы данных	GeoTIFF и взаимосвязанные данные изображений
	Аналитика данных	Анализ (такой, как выделение контуров) выполняется нижестоящими потребителями данных: это проблемы исследования
Иные проблемы больших данных	Конвейер обработки данных требует контроля и вмешательства человека. Имеются ограниченные нисходящие конвейеры специализированной обработки данных для отдельных пользователей. Следует изучить и внедрить облачные архитектуры для распространения целых коллекций продуктов данных среди потребителей
Проблемы пользовательского интерфейса и мобильного доступа	Некоторые пользователи изучают данные в полевых условиях на мобильных устройствах, что требует интерактивной переработки больших наборов данных в понятные изображения или статистику
Технические проблемы обеспечения безопасности и защиты персональных данных	Данные делаются публично доступными сразу после обработки (без периода эмбарго)
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)	Данные привязываются к географическим координатам и могут быть указаны в угловых координатах. Категории: ГИС; конвейер обработки данных стандартными средствами для производства стандартных продуктов данных
Дополнительная информация (гиперссылки)	Сайт проекта UAVSAR, https://uavsar.jpl.nasa.gov/ Сайт Спутникового центра НАСА на Аляске (Alaska Satellite Facility, ASF), https://asf.alaska.edu/ Страница Википедии о проекте QuakeSim, https://en.wikipedia.org/wiki/QuakeSim

А.8.5 Вариант использования N 45: Объединенный испытательный стенд iRODS центра НАСА в Лэнгли и Центра космических полетов имени Годдарда

Название	Объединенный испытательный стенд iRODS центра НАСА в Лэнгли и Центра космических полетов имени Годдарда
Предметная область	Исследования и приложения наук о Земле
Автор/организация/эл. почта	Майкл Литтл (Michael Little, M.M.Little@NASA.gov), Роджер Дюбуа (Roger Dubois, Roger.A.Dubois@nasa.gov), Бренди Квам (Brandi Quam, Brandi.M.Quam@NASA.gov), Тиффани Мэтьюз (Tiffany Mathews, Tiffany.J.Mathews@NASA.gov), Андрей Вахнин (Andrei Vakhnin, Andrei.A.Vakhnin@NASA.gov), Бет Хаффер (Beth Huffer), Кристиан Джонсон (Christian Johnson)/Исследовательский центр в Ленгли, НАСА (LaRC) Джон Шнас (John Schnase, John.L.Schnase@NASA.gov), Даниэль Даффи (Daniel Duffy, Daniel.Q.Duffy@NASA.gov), Гленн Тамкин (Glenn Tamkin, Glenn.S.Tamkin@nasa.gov), Скотт Синно (Scott Sinno, Scott.S.Sinno@nasa.gov), Джон Томпсон (John Thompson, John.H.Thompson@nasa.gov) и Марк Макинерни (Mark Mclnerney, Mark.Mcinerney@nasa.gov)/ Центр управления полетами имени Годдарда, США (GSFC)
Акторы/заинтересованные лица, их роли и ответственность	Центр обработки атмосферных данных (ASDC) в Исследовательском центре в Ленгли, НАСА (LaRC) в г. Хэмптоне (Hampton), штат Вирджиния и Центр моделирования климата НАСА (NCCS) в Центре управления полетами имени Годдарда, США (GSFC) принимают, архивируют и распространяют данные, являющиеся ключевыми по важности для заинтересованных сторон, в число которых входят сообщество по исследованиям климата, сообщество по прикладному применению науки и растущее сообщество клиентов из государственного и частного секторов, которым необходимы данные об атмосфере и климате
Цели	Реализация возможности объединения данных с целью совершенствования и автоматизации поиска по неоднородным данным, уменьшения задержек при передаче данных и соответствия индивидуализируемым критериям, касающимся контента данных, их качества, метаданных и производства данных. Поддержка/создание возможностей для приложений и клиентов, которым требуется интеграция ряда неоднородных наборов данных
Описание варианта использования	Центр моделирования климата НАСА (NCCS) и Центр обработки атмосферных данных (ASDC) Национального управления по аэронавтике и исследованию космического пространства, США (NASA) имеют в своем распоряжении взаимодополняющие друг друга наборы данных огромного объема, ввиду чего по этим данным трудно выполнять запросы, и ими сложно обмениваться. Исследователям климата, специалистам по прогнозированию погоды, группам разработки и обслуживания измерительной аппаратуры и другим специалистам нужен доступ к данным из нескольких наборов данных с тем, чтобы сравнивать показания датчиков различных измерительных инструментов, сопоставлять показания датчиков с результатами моделирования, калибровать приборы, искать корреляции между несколькими параметрами и т.д. В настоящее время усилия по анализу, визуализации и иной обработке данных из неоднородных наборов данных требуют много времени. Ученым приходится отдельно получать доступ, искать и загружать данные с каждого из нескольких серверов. Данные часто дублируются, при этом непонятно, какой источник считать авторитетным. Многие ученые отмечают, что они тратят больше времени на получение доступа к данным, чем научные исследования. Потребителям данных нужны механизмы для извлечения неоднородных данных с использованием единой точки доступа. Такую возможность можно реализовать с помощью iRODS - программного обеспечения грида данных, поддерживающего параллельную загрузку наборов данных с выбранных серверов копий (replica servers), которые могут быть географически распределены, но при этом доступны пользователям со всего мира. Используя iRODS в сочетании с семантически обогащенными метаданными, управляемыми на основе высокоточной онтологии НАСА для наук о Земле, данные системы "Онлайновые инструменты работы с данными" () центра ASDC будут объединены с данными NCCS в Центре управления полетами имени Годдарда, США (GSFC). Неоднородные продукты данных этих двух центров НАСА семантически аннотируются на основе общих концепций онтологии НАСА для наук о Земле. Семантические аннотации позволят системе iRODS идентифицировать взаимодополняющие наборы данных и агрегировать данные из этих разрозненных источников, облегчая обмен данными между специалистами по моделированию климата, синоптиками, представителями наук о Земле и учеными из других дисциплин, нуждающимися в данных науки о Земле. Система объединения данных iRODS также будет поддерживать облачные сервисы обработки данных в облаке Amazon Web Services (AWS)
Текущие решения	Вычислительная система	Центр моделирования климата НАСА (NCCS) и Центр обработки атмосферных данных (ASDC): две файловые системы GPFS
	Хранилище данных	Файловая система GPFS решения "Онлайновые инструменты работы с данными" (DPO) центра ASDC состоит из 12 подсистем хранения IBM DC4800 и 6 подсистем IBM DCS3700, 144 ядер Intel 2,4 ГГц и 1400 терабайт располагаемой памяти на жестких дисках. Данные центра NCCS хранятся в кластере NCCS MERRA, который представляет собой кластер Dell с 36 узлами, 576 ядрами Intel 2.6 ГГц SandyBridge, 1300 терабайт дисковой памяти, 1250 гигабайт оперативной памяти, с теоретической пиковой вычислительной мощностью 11,7 терафлопс
	Сеть связи	Комбинация оптоволоконной связи в SAN-сети систем хранения данных (Storage Area Network) и 10 гигабит/с в локальной сети. Узлы кластера NCCS связаны сетью Infiniband FDR с максимальной скоростью TCP/IP соединений более 20 гигабит/с
	Программное обеспечение	SGE Univa Grid Engine версии 8.1, iRODS версии 3.2 и/или 3.3, файловая система IBM General Parallel File System (GPFS) версии 3.4, Cloudera версии 4.5.2-1
Характеристики больших данных	Источник данных (распределенный/ централизованный)	iRODS будет использоваться для обмена данными, собранными из продуктов данных проекта CERES уровня 3В, включая продукты CERES EBAF-ТОА и CERES-Surface. Поверхностные потоки в EBAF-Surface получены на основе двух продуктов данных CERES: 1) CERES SYNIdeg - Month Ed.3, который предоставляет рассчитанные поверхностные потоки, подлежащие корректировке, и 2) CERES EBAF-TOA Ed.2.7, который использует данные наблюдений, чтобы обеспечить полученные из CERES ограничения потока в верхних слоях атмосферы (ТОА). Доступ к этим продуктам позволит центру NCCS использовать данные из продуктов в моделировании для получения "ассимилированного" потока. NCCS представит объединенному стенду iRODS данные из приложения "Система для ретроспективного анализа современной эры для исследований и приложений" (MERRA). MERRA объединяет данные наблюдений с данными численного моделирования для получения глобального, согласованного во времени и в пространстве синтез значений 26 ключевых климатических параметров. Файлы данных MERRA создаются на основе модели "Годдардовская система наблюдения Земли, 5-я версия" (GEOS-5) и хранятся в форматах HDF-EOS и NetCDF (Network Common Data Form). Пространственное разрешение составляет 1/2° широты х 2/3° долготы x 72 вертикальных уровня, охватывающих стратосферу. Временное разрешение составляет 6 часов для трехмерного, полного пространственного разрешения, начиная с 1979 года по настоящее время, т.е. охватывая почти всю спутниковую эпоху. Каждый файл содержит одну сетку с несколькими 2D и 3D-переменными. Все данные хранятся в сетке долгота - широта, с вертикальным измерением, применимым ко всем 3D-переменным. Продукты MERRA на основе модели GEOS-5 разделены на 25 коллекций: 18 стандартных продуктов, химические продукты. Коллекции включают файлы со среднемесячными величинами и ежедневные файлы с шестичасовыми интервалами, начиная с 1979 по 2012 год. Данные MERRA обычно упаковываются как многомерные двоичные данные в самодокументированный файловый формат NetCDF. Иерархические метаданные в заголовке NetCDF содержат информацию о представлении, которая позволяет работать с данными программному обеспечению с поддержкой NetCDF. Они также содержат произвольную информацию о мерах обеспечения долговременной сохранности и о политике, которую можно использовать для обеспечения соответствия установленным требованиям с учетом специфики использования данных
	Объем (количество)	В настоящее время объем данных в продукте EBAF-TOA составляют около 420 мегабайт, а в продукте EBAF-Surface - около 690 мегабайт. Объемы данных увеличиваются с каждым обновлением версии (примерно каждые полгода). Коллекция MERRA в общей сложности содержит около 160 терабайт данных в несжатом виде; в сжатом виде объем составляет 80 терабайт
	Скорость обработки (например, в реальном времени)	Периодически, поскольку обновления выполняются при выпуске каждой новой версии
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Существует потребность во многих типах приложений для объединения данных реанализа MERRA с другими данными повторного анализа и данными наблюдений, такими как данные CERES. NCCS использует эталонный стандарт CMIP5 "Проекта сопоставления связанных климатических моделей" для обеспечения онтологической согласованности нескольких разнородным наборов данных
	Вариативность (темпы изменения)	Объем данных реанализа MERRA увеличивается примерно на 1 терабайт в месяц
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	Валидация и тестирование семантических метаданных и объединенных продуктов данных будут осуществляться производителями данных в Научно-исследовательском центре НАСА в Лэнгли и в Центре космических полетов имени Годдарда посредством регулярного тестирования. Для того чтобы убедиться, что обновления и изменения в системе iRODS, добавленные новые источники данных и/или добавленные новые метаданные не привносят ошибок в объединенные продукты данных, будет реализовано регрессионное тестирование. Валидация данных MERRA обеспечивается производителем данных - Отделом глобального моделирования и ассимиляции Центра управления полетами имени Годдарда, НАСА (GMAO)
	Визуализация	В научном сообществе растет потребность в сервисах управления данными и их визуализации, способных агрегировать данные из нескольких источников и отображать их в рамках единого графического представления. В настоящее время развитию таких возможностей препятствует проблема поиска и скачивания сопоставимых данных с нескольких серверов, а затем преобразования каждого из разнородных наборов данных таким образом, чтобы сделать его пригодным для использования программным обеспечением для визуализации. Объединение наборов данных НАСА посредством системы iRODS даст ученым возможность быстро находить и агрегировать сопоставимые наборы данных для их использования совместно с программным обеспечением для визуализации
	Качество данных (синтаксис)	Для данных MERRA, контроль качества обеспечивается производителем данных - Отделом глобального моделирования и ассимиляции Центра управления полетами имени Годдарда, НАСА (GMAO)
	Типы данных	См. выше
	Аналитика данных	В соответствии с первой целью повышения доступности и удобства выявления данных посредством применения инновационных технологий, Центр обработки атмосферных данных (ASDC) и Центр моделирования климата НАСА (NCCS) изучают пути совершенствования способов доступа к данным. Используя iRODS, данные системы "Онлайновые инструменты работы с данными" (DPO) центра ASDC могут объединяться с данными NCCS в Центре управления полетами имени Годдарда, США (GSFC), формируя систему доступа к данным, способную обслуживать гораздо более широкую клиентскую базу, чем в настоящее время.
	Аналитика данных	Объединение и обмен информацией позволят центрам ASDC и NCCS в полной мере использовать мультиинструментальные данные многолетних наблюдений, а также улучшат и автоматизируют процесс поиска и выявления среди разнородных данных, уменьшат задержки при передаче данных и обеспечат соответствие индивидуализируемым критериям, касающимся контента данных, их качества, метаданных и производства данных
Иные проблемы больших данных
Проблемы пользовательского интерфейса и мобильного доступа	Главная проблема заключается в определении корпоративной архитектуры, способной обеспечить аналитику в режиме реального времени посредством информационного обмена с несколькими API-интерфейсами и системами облачных вычислений. Если исходить из того, что вычислительные ресурсы будут располагаться в облачных системах, то проблема мобильности сводится к тому, чтобы не перегружать мобильные устройства отображением визуализации, требующей интенсивной загрузки центрального процессора, что может понизить эффективность или удобство использования представляемых пользователю данных
Технические проблемы обеспечения безопасности и защиты персональных данных
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)	Это объединение данных опирается на опыт нескольких лет исследований и разработок, связанных с решением iRODS, которые выполнялись в центре NCCS. За это время NCCS проверил функциональные возможности iRODS, одновременно расширяя состав базовых функциональных возможностей решения посредством добавления возможностей, специфических для данной области применения. Например, NCCS создал и установил в iRODS научные инструментальные наборы на основе Python, которые автоматически собирают метаданные при регистрации соответствующей коллекции данных. Один из этих инструментальных наборов был разработан для коллекции MERRA. В сочетании с iRODS он повышает отдачу от объединения данных LaRC/GSFC, предоставляя расширенные возможности поиска. Центр в Ленгли работает над созданием усовершенствованной архитектуры, использующей несколько пилотных технологий и инструментов (для доступа, обнаружения и анализа), и предназначенной для интеграции возможностей всего сообщества специалистов в области наук о Земле. Исследования и разработки, выполненные двумя центрами обработки данных, дополняют друг друга и лишь дальше улучшают данный вариант использования. В число других разработанных научных инструментальных наборов входят наборы для поддержки формата NetCDF и для взаимодействия с "Межправительственной группой экспертов по изменению климата" (IPCC) и проектом "Моделирование динамики океана с усвоением данных наблюдений" (Ocean Modeling and Data Assimilation, ODAS). Комбинация iRODS и этих научных инструментальных наборов позволила создать конфигурируемый технологический стек, так называемый "виртуальный сервер климатических данных" (virtual Climate Data Server, vCDS), - это означает, что данная среда реального времени может быть развернута в различных условиях (например, на "голом железе", виртуальных серверах, в облаке) для удовлетворения различных научных потребностей. Виртуальный сервер vCDS, который можно рассматривать как эталонную архитектуру, способствующую объединению разрозненных хранилищ данных, используется в центрах LaRC и GSFC (и не только в них)
Дополнительная информация (гиперссылки)	Для получения дополнительной информации, пожалуйста, свяжитесь с авторами

А.8.6 Вариант использования N 46: Аналитические сервисы MERRA

Название	Аналитические сервисы MERRA (MERRA/AS)
Предметная область	Научные исследования: науки о Земле
Автор/организация/эл. почта	Джон Шнас (John L. Schnase, John.L.Schnase@NASA.gov) и Дэниел Даффи (Daniel Q. Duffy, Daniel.Q.Duffy@NASA.gov), Центр управления полетами имени Годдарда, США (GSFC), США
Акторы/заинтересованные лица, их роли и ответственность	В рамках проекта Национального управления по аэронавтике и исследованию космического пространства США (НАСА) "Система для ретроспективного анализа современной эры для исследований и приложений" (MERRA) осуществляется глобальный, согласованный во времени и в пространстве синтез значений 26 ключевых климатических параметров путем объединения результатов численного моделирования с данными наблюдений. К числу действующих лиц и заинтересованных сторон проекта MERRA относятся сообщество по исследованиям климата, сообщество по прикладному применению науки и растущее сообщество клиентов из государственного и частного секторов, которым необходимы данные MERRA для их систем поддержки принятия решений
Цели	Повысить удобство и степень использования крупномасштабных коллекций научных данных, таких как MERRA
Описание варианта использования	Аналитические сервисы MERRA (MERRA/AS) дают возможность использовать средства аналитики Map/Reduce для обработки данных коллекции MERRA. MERRA/AS является примером опирающегося на облачные технологии аналитики климата как сервиса (CAaaS), который представляет собой подход к решению связанных с большими данными проблем в области климатологии посредством совместного использования: 1) высокопроизводительной аналитики, осуществляемой близко к месту хранения данных, 2) масштабируемого управления данными, 3) виртуализации программных инструментов, 4) адаптивной аналитики, и 5) API-интерфейсов, гармонизированных с потребностями прикладной области. Эффективность MERRA/AS демонстрируется в ряде приложений, включая публикацию данных в "Федеративной грид-системе обработки данных о Земле" (ESGF) с целью поддержки исследований Межправительственной группы экспертов по изменению климата (IPCC), систем поддержки принятия решений по восстановлению экосистем (RECOVER), поддержки принятия решений НАСА и Министерства внутренних дел США, связанных с предотвращением ущерба от природных пожаров, и работ по оценке тестового стенда для обеспечения интероперабельности данных Центра космических полетов имени Годдарда и Центр обработки атмосферных данных (ASDC) в Лэнгли
Текущие решения	Вычислительная система	Центр моделирования климата НАСА (NCCS) в Центре управления полетами имени Годдарда, США (GSFC)
	Хранилище данных	Файловая система Hadoop (HDFS) "Аналитических сервисов MERRA" (MERRA/AS) (HDFS) представляет собой кластер Dell с 36 узлами, 576 ядрами Intel 2.6 ГГц SandyBridge, 1300 терабайт дисковой памяти, 1250 гигабайт оперативной памяти, с теоретической пиковой вычислительной мощностью 11,7 терафлопс
	Сеть связи	Узлы кластера соединены сетью Infiniband FDR с максимальной скоростью TCP/IP соединений более 20 гигабит/с
	Программное обеспечение	Cloudera, iRODS, Amazon AWS
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Файлы данных MERRA создаются на основе модели "Годдардовская система наблюдения Земли, 5-я версия" (GEOS-5) и хранятся в форматах HDF-EOS и NetCDF (Network Common Data Form). Пространственное разрешение составляет 1/2° широты х 2/3° долготы х 72 вертикальных уровня, охватывающих стратосферу. Временное разрешение составляет 6 часов для трехмерного, полного пространственного разрешения с 1979 г. по настоящее время, т.е. охватывая почти всю спутниковую эпоху. Каждый файл содержит одну сетку с несколькими 2D и 3D - переменными. Все данные хранятся в сетке долгота - широта, с вертикальным измерением, применимым ко всем 3D-переменным. Продукты MERRA на основе модели GEOS5 разделены на 25 коллекций: 18 стандартных продуктов, химические продукты. Коллекции включают файлы со среднемесячными величинами и ежедневные файлы с шестичасовыми интервалами, начиная с 1979 по 2012 год. Данные MERRA обычно упаковываются как многомерные двоичные данные в самодокументированный файловый формат NetCDF. Иерархические метаданные в заголовке NetCDF содержат информацию о представлении, которая позволяет работать с данными по программному обеспечению с поддержкой NetCDF. Они также содержат произвольную информацию о мерах обеспечения долговременной сохранности и о политике, которую можно использовать для обеспечения соответствия установленным требованиям с учетом специфики использования данных
	Объем (количество)	480 терабайт
	Скорость обработки (например, в реальном времени)	Обработка в режиме реального времени либо пакетная, в зависимости от вида анализа. Мы разрабатываем набор "канонических операций", выполняемых на ранней стадии обработки, близко к месту нахождения данных, общих для многих потоков рабочих процессов аналитики. Цель заключается в том, чтобы канонические операции выполнялись в почти реальном времени
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Во многих типах приложений существует потребность для объединения данных реанализа MERRA с другими данными повторного анализа и данными наблюдений, мы используем эталонный стандарт CMIP5 "Проекта сопоставления связанных климатических моделей" для обеспечения онтологической согласованности нескольких разнородным наборов данных
	Вариативность (темпы изменения)	Объем данных реанализа MERRA увеличивается примерно на 1 терабайт в месяц
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	Валидация обеспечивается производителем данных - Отделом глобального моделирования и ассимиляции Центра управления полетами имени Годдарда, НАСА (GMAO)
	Визуализация	Существует растущая потребность в распределенной визуализации результатов аналитики
	Качество данных (синтаксис)	Контроль качества обеспечивается производителем данных - Отделом глобального моделирования и ассимиляции Центра управления полетами имени Годдарда, НАСА (GMAO)
	Типы данных	См. выше
	Аналитика данных	В наших усилиях по решению проблем больших данных в климатологии, мы движемся в сторону концепции аналитики климата как сервиса (CAaaS). Мы концентрируем внимание на аналитике, потому что в итоге приносят пользу обществу именно знания, полученные в результате нашего взаимодействия с большими данными. Мы ориентируемся на CAaaS, поскольку считаем, что эта концепция является полезным способом осмысления проблемы: это специализация концепции бизнес-процесса как услуги, представляющая собой эволюционирующее расширение поддерживаемых облачными вычислениями моделей IaaS, PaaS и SaaS
Иные проблемы больших данных	Большой вопрос заключается в том, как использовать облачные вычисления таким образом, чтобы обеспечить лучшее использование наземных вычислительных ресурсов и ресурсов данных в области климатологии. Облачные вычисления предоставляют нам новый уровень в стеке услуг обработки данных - облачный слой, в котором осуществляется гибкая настройка, и продукты данных корпоративного уровня преобразуются с тем, чтобы удовлетворить специфические потребности приложений и потребителей. Это помогает нам преодолевать разрыв между миром традиционных высокопроизводительных вычислений, который, по крайней мере на данный момент времени, обитает в тонко настроенной среде моделирования климата на корпоративном уровне, - и нашими новыми клиентами, на чьи ожидания и методы работы все сильнее влияет мега-тенденция "умной мобильности"
Проблемы пользовательского интерфейса и мобильного доступа	Большинство современных смартфонов, планшетов и иных устройств фактически состоят лишь из дисплея и компонентов пользовательского интерфейса к сложным приложениям, выполняемым в облачных центрах обработки данных. Концепция CAaaS призвана обеспечить поддержку именно этого стиля работы
Технические проблемы обеспечения безопасности и защиты персональных данных	На данный момент времени каких-либо критичных проблем не выявлено
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)	Инструменты Map/Reduce и iRODS кардинально упрощают проведение анализ и агрегирование данных. Наш подход к виртуализации программных инструментов упрощает предоставление соответствующих возможностей новым пользователям и упрощает для них создание новых приложений. Социальное конструирование расширенных возможностей, поддерживаемое концепцией "канонических операций", обеспечивает адаптивность; а API-интерфейсы к сервисам климатических данных (Climate Data Services), который мы разрабатываем, обеспечивают простоту освоения. Мы считаем, что в совокупности эти базовые технологии, лежащие в основе концепции CAaaS, создают подходящие условия, при которых благодаря вкладу различных людей и групп (действующих как сообща, так и самостоятельно) могут появиться возможности, помогающие решить проблемы больших данных в климатологии
Дополнительная информация (гиперссылки)	Для получения дополнительной информации, пожалуйста, свяжитесь с авторами

А.8.7 Вариант использования N 47: Атмосферная турбулентность - Обнаружение событий

Название	Атмосферная турбулентность - Обнаружение событий и прогностическая аналитика
Предметная область	Научные исследования - науки о Земле
Автор/организация/эл. почта	Майкл Сиблом (Michael Seablom), штаб-квартира Национального управления по аэронавтике и исследованию космического пространства США (НАСА), michael.s.seablom@nasa.gov
Акторы/заинтересованные лица, их роли и ответственность	Исследователи, получившие гранты НАСА или Национального научного фонда (National Science Foundation, NSF), синоптики, представители авиационной отрасли (в общем случае - любой исследователь, который участвует в изучении событий, связанных с погодными явлениями)
Цели	Создать возможности для обнаружения оказывающих сильное воздействие погодных явлений, данные о которых могут быть найдены в объемных хранилищах данных наук о Земле, и которые трудно охарактеризовать с использованием традиционных численных методов (например, турбулентность). Сопоставить такие явления с продуктами глобального ретроспективного анализа атмосферных данных, с целью совершенствования возможностей прогнозирования
Описание варианта использования	Отчеты о турбулентности с летательных аппаратов (из отчетов пилотов, либо из автоматических измерений на летательных аппаратах скорости диссипации вихрей) сопоставляются с недавно завершенным ретроспективным анализом атмосферных данных всей эпохи спутниковых наблюдений. Продукты включают данные Реанализа метеорологических данных для региона Северной Америки (NARR) и "Системы для ретроспективного анализа современной эры для исследований и приложений" (MERRA) - проектов Национального управления по аэронавтике и исследованию космического пространства США (НАСА)
Текущие решения	Вычислительная система	Платформа НАСА для обмена данными о Земле (NEX), в т.ч. суперкомпьютер Pleiades
	Хранилище данных	Объем каждого из продуктов ретроспективного анализа составляет порядка 100 терабайт; по сравнению с этим объем данных о турбулентности незначителен
	Сеть связи	Наборы данных ретроспективного анализа, вероятно, будут слишком большими, чтобы переместить их на предпочтительный суперкомпьютер (в данном случае, NEX), поэтому потребуется максимально быстрая сеть
	Программное обеспечение	Инструмент Map/Reduce или аналогичный; SciDB или другая научная СУБД
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Распределенный
	Объем (количество)	Текущий объем 200 терабайт, через 5 лет - 500 терабайт
	Скорость обработки (например, в реальном времени)	Данные анализируются по частям
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Массивы данных ретроспективного анализа не согласованы по формату, разрешению, семантике и метаданным. Скорее всего, придется интерпретировать/ анализировать каждый из этих входных потоков для включения в общий продукт
	Вариативность (темпы изменения)	Данные наблюдений за турбулентностью будут постоянно обновляться; продукты ретроспективного анализа выпускаются примерно раз в пять лет
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	Валидация будет необходима для итогового продукта (корреляции)
	Визуализация	Полезна для интерпретации результатов
	Качество данных (синтаксис)	Входные потоки уже должны были пройти контроль качества
	Типы данных	Вывод в виде данных на сетке из систем ассимиляции атмосферных данных, и текстовые данные из наблюдений турбулентности
	Аналитика данных	Язык спецификации событий необходим для интеллектуального анализа данных/поиска событий
Иные проблемы больших данных	Семантика (интерпретация множества продуктов ретроспективного анализа); перемещение данных; базы данных с оптимальной структурой для 4-мерного интеллектуального анализа данных
Проблемы пользовательского интерфейса и мобильного доступа	Разработки для мобильных платформ в настоящее время не являются остро необходимыми
Технические проблемы обеспечения безопасности и защиты персональных данных	Критичных проблем не выявлено
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)	Атмосферная турбулентность является лишь одним из многих погодных явлений, которые могут быть полезны для понимания аномалий в атмосфере или океане, взаимосвязанных друг с другом на больших расстояниях в пространстве и во времени. Однако описанный процесс имеет пределы расширяемости, т.е. для каждого явления могут потребоваться совершенно разные процессы для интеллектуального анализа данных и прогнозирования
Дополнительная информация (гиперссылки)	Роберт Стюарт (Robert Stewart) "Океанография в 21-м веке - онлайн-учебник" (Oceanography in the 21-st Century - An Online Textbook), раздел "Телевзаимосвязи Эль-Ниньо" (El Nino Teleconnections), см. http://pro.unibz.it/staff2/fzavatti/corso/teleconnections.htm Тодд Вуди (Todd Woody) "Познакомьтесь с учеными, проводящими интеллектуальный анализ больших данных с целью предсказания погоды" (Meet The Scientists Mining Big Data To Predict The Weather), журнал "Форбс", 21 марта 2012 года, https://www.forbes.com/sites/toddwoody/2012/03/21/meet-the-scientists-mining-big-data-to-predict-the-weather/

А.8.8 Вариант использования N 48: Исследования климата с использованием модели климатической системы Земли (CESM)

Название	Исследования климата с использованием модели климатической системы Земли (CESM) в Национальном научно-исследовательском вычислительном центре энергетических исследований Министерства энергетики США (NERSC)
Предметная область	Научные исследования: климат
Автор/организация/эл. почта	Научный руководитель проекта: Уоррен Вашингтон (Warren Washington), Национальный центр атмосферных исследований (National Center for Atmospheric Research, NCAR), США
Акторы/заинтересованные лица, их роли и ответственность	Климатологи, принимающие решения лица в США
Цели	Цели группы по прогнозированию изменения климата (Climate Change Prediction, ССР) в Национальном центре атмосферных исследований США (National Center for Atmospheric Research, NCAR) заключаются в том, чтобы понять и количественно оценить вклад естественных и антропогенно-обусловленных типовых сценариев изменчивости и изменения климата в 20-м и 21-м столетиях посредством моделирования с использованием модели климатической системы Земли (CESM)
Описание варианта использования	С помощью моделирования исследователи могут изучать механизмы изменчивости и изменения климата, выявлять и атрибутировать изменения климата в прошлом, а также прогнозировать и предсказывать будущие изменения. Проведение моделирования мотивировано интересом со стороны общества, и оно широко используется национальными и международными научно-исследовательскими сообществами
Текущие решения	Вычислительная система	Вычисления в центре NERSC (24 млн часов), в ведущих вычислительных центрах (Leadership Computing Facility, LCF) Министерства энергетики США (41 млн часов), в Лаборатории моделирования климата (Climate Simulation Laboratory, CSL) Национального центра атмосферных исследований США (National Center for Atmospheric Research, NCAR) (17 млн часов)
	Хранилище данных	1,5 петабайта в центре NERSC
	Сеть связи	ESNet
	Программное обеспечение	Разработанные центром NCAR библиотека параллельного ввода-вывода и утилиты "NCAR Командный язык" (NCAR Command Language, NCL) и "NetCDF-операторы" (NetCDF Operators, NCO); параллельные библиотеки NetCDF
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Данные производятся в вычислительных центрах. Грид-система обработки данных о Земле (ESG) - это проект с открытым исходным кодом, обеспечивающий надежную, распределенную платформу для вычислений и хранения данных, а также всемирный доступ к научным данным в масштабе пета/экза ESGF управляет первой в мире децентрализованной базой данных для работы с климатологическими данными, содержащей многие петабайты данных в десятках объединенных в грид-центров по всему миру. Эта инфраструктура считается ведущей в плане управления и обеспечения доступа к большим распределенным объемам данных, используемых в исследованиях в области изменения климата. Она поддерживает "Проект сопоставления связанных климатических моделей" (CMIP), протоколы которого обеспечиваются периодическими оценками, выполняемых "Межправительственной группой экспертов по изменению климата" (IPCC)
	Объем (количество)	30 петабайт в центре NERSC (при условии проведения 15 сквозных экспериментов по теме изменения климата) к 2017 г.; во много раз больше по всему миру
	Скорость обработки (например, в реальном времени)	В ходе моделирований производится 42 гигабайта/с
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Необходимо сопоставлять друг с другом данные наблюдений, данные исторического ретроспективного анализа и результаты ряда независимо выполненных моделирований. В рамках "Программы диагностики и взаимного сопоставления климатических моделей" (Program for Climate Model Diagnosis and Intercomparison, PCMDI) разрабатываются методы и инструменты для диагностики и взаимного сравнения моделей общей циркуляции (general circulation model, GCM), которые моделируют глобальный климат. Потребность в инновационном анализе результатов моделирования климата на основе GCM-моделей очевидна, так как разрабатываются все более сложные модели, в то время, как расхождения между соответствующими результатами моделирования, и этих результатов - с климатическими наблюдениями остаются значительными и плохо понятыми. Характер и причины этих расхождений должны учитываться систематическим образом для того, чтобы уверенно использовать GCM-модели для моделирования предполагаемых глобальных изменений климата
	Вариативность (темпы изменения)	Данные производятся с помощью программ, исполняемых в суперкомпьютерных центрах. Во время исполнения регулярно бывают периоды интенсивного ввода/вывода данных, однако обычно они составляют всего несколько процентов от общего времени вычислений. Прогоны моделирования выполняются регулярно, но их количество подскакивает при приближении окончательных сроков сдачи отчетов
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	Данные, полученные в результате выполнения моделирования климата, существенно влияют на ход дискуссий по вопросам моделирования изменения климата. Следовательно, эти данные должны быть стабильными и надежными как с точки зрения обеспечения научно обоснованного представления влияющих на климат процессов, так и с учетом того, что эти данные хранятся в течение длительного времени и передаются по всему миру партнерам и другим ученым
	Визуализация	Визуализация имеет решающее значение для понимания столь сложной системы, как экосистема Земли
	Качество данных (синтаксис)	См. пункт "Достоверность" выше
	Типы данных	Специалисты по земной системе тонут в стремительно возрастающих объемах данных, рост производства которых вызван постоянно увеличивающимся разрешением как глобальных моделей, так и дистанционных датчиков
	Аналитика данных	Существует потребность в предоставлении через грид-систему обработки данных о Земле (ESG веб-сервисов по редуцированию данных (пересчету в физические величины) и их анализу возникает острая необходимость в развитии средств анализа данных, тесно взаимосвязанных с архивами данных
Иные проблемы больших данных	Быстро растущие объемы наборов данных затрудняют проведение научного анализа. Потребность в регистрации данных моделирования опережает способность суперкомпьютеров удовлетворить эту потребность
Проблемы пользовательского интерфейса и мобильного доступа	Данные, полученные в результате моделирования и наблюдений, должны быть распространены среди большого, широко распределенного сообщества
Технические проблемы обеспечения безопасности и защиты персональных данных
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)	Проект "Федеративная грид-система обработки данных о Земле" (ESGF) находится на ранней стадии адаптации для использования в двух дополнительных областях: биологии (для ускорения проектирования и разработки лекарств) и энергетики (инфраструктура для проекта "Энергетические системы Калифорнии для 21-го века" (California Energy Systems for the 21st Century (CES-21)).
Дополнительная информация (гиперссылки)	Сайт проекта "Объединенный грид данных земной системы" (Earth System Grid Federation, ESGF), https://esgf.llnl.gov/ Сайт "Программы диагностики и взаимного сопоставления климатических моделей" (Program for Climate Model Diagnosis and Intercomparison, PCMDI), https://pcmdi.llnl.gov/index.html Сайт Национального научно-исследовательского вычислительного центра энергетических исследований Министерства энергетики США (NERSC), https://www.nersc.gov/ Раздел биологических и экологических исследований на сайте Министерства энергетики США, https://www.energy.gov/science/ber/biological-and-environmental-research и страница отделения климатологии и экологических наук (Climate and Environmental Sciences Division, CESD) на том же сайте http://science.energy.gov/ber/research/cesd/ Страница лаборатории вычислительных и информационных систем (Computational and Information Systems Laboratory, CISL) на сайте Университетской корпорации атмосферных исследований (University Corporation for Atmospheric Research, UCAR), https://www2.cisl.ucar.edu/

А.8.9 Вариант использования N 49: Подповерхностные биогеохимические исследования

Название	Фокус-область подповерхностных биогеохимических исследований Управления биологических и экологических исследований Министерства энергетики США (BER)
Предметная область	Научные исследования: науки о Земле
Автор/организация/эл. почта	Деб Агарвал (Deb Agarwal)/Национальная лаборатория имени Лоуренса в Беркли (LBNL), daagarwal@lbl.gov
Акторы/заинтересованные лица, их роли и ответственность	Проект Национальной лаборатория им. Лоуренса в Беркли "Природосберегающие системы - научная фокус-область 2.0" (Sustainable Systems Scientific Focus Area 2.0); специалисты в области подповерхностной биогеохимии, гидрологи, геофизики, эксперты по геномике, Объединенный институт генома (JGI) Министерства энергетики США; климатологи и "Программа подповерхностных биогеохимических исследований" (Subsurface Biogeochemical Research, SBR) Министерства энергетики США
Цели	Научный план проекта "Природосберегающие системы - научная фокус-область 2.0" (Sustainable Systems Scientific Focus Area 2.0 (SFA2.0)) был разработан с целью совершенствования понимания и прогнозирования сложных многомасштабных наземных сред, имеющих отношение к миссии Министерства энергетики США, посредством целевого рассмотрения существующих пробелов в научном знании
Описание варианта использования	Выполнение проекта "Моделирование водораздела с использованием генома" (GEWaSC), который обеспечит прогнозирующую структуры для понимания того, как геномная информация, хранящаяся в подповерхностном микробиоме, влияет на функционирование биогеохимического водораздела; как процессы в масштабе водораздела влияют на функционирование микробов, и как эти взаимодействия совместно эволюционируют. Хотя имеющиеся средства моделирования, разработанные нашей группой и другими членами сообщества, позволяют воспроизводить процессы, происходящие во внушительном диапазоне масштабов (от отдельной бактериальной клетки до шлейфа загрязнения), до настоящего времени недостаточно усилий уделялось разработке концепции для систематического соединения явлений различных масштабов, что необходимо для выявления ключевых элементов контроля и управления и для моделирования существенных обратных связей. В рамках проекта GEWaSC основное внимание будет уделено разработке концепция моделирования, которая формально охватит масштабы от геномов до водоразделов
Текущие решения	Вычислительная система	Обеспечивает Национальный научно-исследовательский вычислительный центр энергетических исследований Министерства энергетики США (NERSC)
	Хранилище данных	Обеспечивает центр NERSC
	Сеть связи	ESNet
	Программное обеспечение	PFLOWTran, Postgres, HDF5, Akuna, NEWT и др.
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Терабайтных объемов данные секвенирования (определения первичной структуры макромолекул) из Объединенного института генома (JGI), подповерхностные и поверхностные гидрологические и биогеохимические данные из различных датчиков (включая "плотные" геофизические наборы данных), экспериментальные данные полевых измерений и лабораторного анализа
	Объем (количество)
	Скорость обработки (например, в реальном времени)
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Данные охватывают все масштабы, от геномики микробов в почве до гидробиогеохимии водораздела. Для проекта SFA требуется объединение разнообразных и разрозненных наборов данных полевых, лабораторных измерений и моделирования, охватывая различные семантические, пространственные и временные масштабы посредством GEWaSC. Такие наборы данных будут производиться различными областями исследований и будут включать данные моделирования, данные полевых измерений (гидрологических, геохимических, геофизических), данные биологических наук - "омиков" и данные лабораторных экспериментов
	Вариативность (темпы изменения)	Моделирование и эксперименты
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	Каждый из источников данных изучает разные свойства, оказывающие различное влияние, ввиду чего данные крайне неоднородные. Каждый из источников данных характеризуется различными связанными с ним уровнями неопределенности и точности. Кроме того, перемещение данных по различным масштабам и областям вносит неопределенность, как и интеллектуальный анализ данных. Качество данных имеет решающее значение
	Визуализация	Визуализация крайне важна для понимания данных
	Качество данных (синтаксис)	Качество данных имеет решающее значение
	Типы данных	См. пункт "Разнообразие" выше
	Аналитика данных	Интеллектуальный анализ данных, оценка качества данных, взаимная корреляция между наборами данных, ускорение процесса разработки моделей, статистика, оценка качества, слияние данных и т.д.
Иные проблемы больших данных	Перемещение данных между разнообразными и большими наборами данных, которые охватывают различные предметные области и масштабы
Проблемы пользовательского интерфейса и мобильного доступа	Сбор данных полевых экспериментов будет улучшен за счет доступа к уже имеющимся данным и автоматического ввода новых данных через мобильные устройства
Технические проблемы обеспечения безопасности и защиты персональных данных
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)	Широкий спектр проектов и программ в области наук о Земле работает над проблемами, которые охватывают те же области, что и настоящий проект
Дополнительная информация (гиперссылки)

А.8.10 Вариант использования N 50: Сети AmeriFlux и FLUXNET

Название	Сеть AmeriFlux управления биологических и экологических исследований Министерства энергетики США и сеть FLUXNET
Предметная область	Научные исследования: науки о Земле
Автор/организация/эл. почта	Деб Агарвал (Deb Agarwal)/Национальная лаборатория имени Лоуренса в Беркли, США (LBNL), daagarwal@lbl.gov
Акторы/заинтересованные лица, их роли и ответственность	Участники сети AmeriFlux, группа менеджмента данных (Data Management Team) проекта AmeriFlux, европейская "Интегрированная система наблюдения за выбросами углерода" ICOS (Integrated Carbon Observation System), программа "Исследования экосистемы суши" (Terrestrial Ecosystem Science, TES) Министерства энергетики США, Министерство сельского хозяйства США (U.S. Department of Agriculture, USDA), Национальный научный фонд США (National Science Foundation, NSF) и специалисты по моделированию климата
Цели	Измерения, выполняемые сетями AmeriFlux Network и FLUXNET предоставляют информацию о ключевых по важности взаимосвязях между организмами, экосистемами и исследованиями на уровне процессов, в адекватных для изучения климата масштабах ландшафтов, регионов и континентов, которые могут быть учтены в биогеохимических и климатических моделях. Поступающие от отдельных станций измерения газовых потоков данные являются основой для расширяющихся усилий по обобщающему анализу и анализу на основе моделей
Описание варианта использования	Наблюдения сети AmeriFlux позволяют укрупненно изучать потоки малых газовых составляющих (следовых газов - СО₂, водяной пар) в широком временном (часы, дни, времена года, годы и десятилетия) и пространственном диапазоне. Кроме того, наборы данных AmeriFlux и FLUXNET содержат информацию о важнейших взаимосвязях между организмами, экосистемами и исследованиями на уровне процессов в адекватных для изучения климата масштабах ландшафтов, регионов и континентов, которые следует учитывать в биогеохимических и климатических моделях
Текущие решения	Вычислительная система	Обеспечивает Национальный научно-исследовательский вычислительный центр энергетических исследований Министерства энергетики США (NERSC)
	Хранилище данных	Обеспечивает центр NERSC
	Сеть связи	ESNet
	Программное обеспечение	EddyPro, специализированное аналитическое программное обеспечение, R, Python, нейронные сети, Matlab
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Около 150 вышек для измерения газовых потоков в сети AmeriFlux, и более 500 вышек распределены по всему миру
	Объем (количество)
	Скорость обработки (например, в реальном времени)
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	Данные о газовых потоках относительно однородны, однако биологические данные, данные об атмосферных возмущениях и другие вспомогательные данные, необходимые для обработки и интерпретации основных данных, обширны и сильно варьируются. Объединение этих данных с данными о потоках является сложной задачей для современных систем
	Вариативность (темпы изменения)
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	Каждая измерительная станция использует уникальные методы измерения и обработки данных. Сеть объединяет эти данные и выполняет типовую обработку, заполнение пробелов и оценку качества. В сети тысячи пользователей
	Визуализация	Для визуализации данных используются графики и трехмерные поверхности
	Качество данных (синтаксис)	Сеть выполняет оценку качества данных
	Типы данных	Описаны в пункте "Разнообразие" выше
	Аналитика данных	Интеллектуальный анализ данных, оценка качества данных, взаимная корреляция между наборами данных, ассимиляция данных, интерполяция данных, статистика, оценка качества, слияние данных и т.д.
Иные проблемы больших данных	Перемещение данных между разнообразными и большими наборами данных, которые охватывают различные предметные области и масштабы
Проблемы пользовательского интерфейса и мобильного доступа	Сбор данных полевых экспериментов будет улучшен за счет доступа к уже имеющимся данным и автоматического ввода новых данных через мобильные устройства
Технические проблемы обеспечения безопасности и защиты персональных данных
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)
Дополнительная информация (гиперссылки)	Сайт сети AmeriFlux, https://ameriflux.lbl.gov/ Сайт портала данных Fluxdata, обслуживающего сообщество FLUXNET, https://fluxnet.fluxdata.org/

А.9 Энергетика

А.9.1 Вариант использования N 51: Прогнозирование потребления электроэнергии в интеллектуальных энергосетях

Название	Прогнозирование потребления электроэнергии в интеллектуальных энергосетях
Предметная область	Информатизация энергетической отрасли
Автор/организация/эл. почта	Йогеш Симмхан (Yogesh Simmhan), Университет Южной Калифорнии, США, simmhan@usc.edu
Акторы/заинтересованные лица, их роли и ответственность	Электроэнергетические компании, микроэнергосети университетских кампусов, менеджеры зданий, потребители электроэнергии, рынки электроэнергии
Цели	Разработка масштабируемых и точных моделей прогнозирования, предсказывающих, с различной пространственной и временной детализацией, потребление электроэнергии (в киловатт-часах) в пределах зоны обслуживания электросети с тем, чтобы помочь повысить надежность и эффективность энергосистемы
Описание варианта использования	Развертывание умных счетчиков позволяет получать данные об энергопотреблении (в киловатт-часах) в почти реальном времени - показания поступают каждые 15 минут с точностью до отдельного потребителя в пределах зоны обслуживания интеллектуальных энергосетей. Подобный беспрецедентный и расширяющийся доступ к детальной информации о потреблении энергии позволяет разрабатывать новые аналитические инструменты для прогнозирования энергопотребления для индивидуальных потребителей, трансформаторов, подстанций и зоны обслуживания энергосети. Краткосрочные прогнозы могут использоваться энергетическими компаниями и менеджерами микросетей для принятия предупредительных мер до того, как пики потребления приведут к падению напряжения/отключению электроэнергии, - за счет оптимизации управления спросом путем взаимодействия с потребителями, подключения резервных генераторов или закупки мощностей на энергетических рынках. Эти меры обратной связи образуют цикл "наблюдение, ориентация, решение, действие" (observe - orient - decide - act, OODA). Клиенты также могут использовать такие прогнозы для планирования энергопотребления и составления своего бюджета. Среднесрочные и долгосрочные прогнозы могут помочь энергетическим компаниям и менеджерам зданий планировать генерирующие мощности, портфели возобновляемых источников энергии, контракты на закупку электроэнергии и меры по повышению энергоэффективности зданий. Этапы работы включают: 1) сбор и хранение данных: данные временных рядов от (потенциально) миллионов умных счетчиков в режиме, близком к реальному времени; сведения о потребителях, объектах и регионах; прогнозы погоды. Архивация данных для целей обучения, тестирования и валидации моделей; 2) очистку и нормализацию данных: пространственно-временная нормализация, заполнение пробелов/интерполяция, обнаружение выбросов, семантическое аннотирование; 3) обучение моделей прогнозирования: использование одномерных моделей временных рядов, таких как "Авторегрессионное интегрированное скользящее среднее" (autoregressive integrated moving average, ARIMA), и управляемых данными моделей машинного обучения, таких как дерево регрессии, искусственная нейронная сеть ANN (Artificial Neural Network), с различной пространственной (потребитель, трансформатор) и временной (15-минутной, 24-часовой) разрешающей способностью; 4) прогнозирование: Прогнозирование потребления в различных пространственно-временных разрезах при разных горизонтах прогнозирования, с использованием данных, поступающих в почти реальном времени, и исторических данных, которые подаются на вход прогнозной модели, вместе с ограничениями на время запаздывания прогноза
Текущие решения	Вычислительная система	Многоядерные сервера, коммерческий кластер, рабочие станции
	Хранилище данных	СУБД SQL, CSV-файлы, HDFS, управлении показаниями счетчиков
	Сеть связи	Гигабитный Ethernet
	Программное обеспечение	R/Matlab, Weka, Hadoop
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Данные умных счетчиков (распределенные), служебные базы данных энергетических компаний (информация о клиентах, топология сети - централизованные), данные всеобщей переписи населения США (распределенные), метеорологические данные Национального управления океанических и атмосферных исследований США (National Oceanic and Atmospheric Administration, NOAA) (распределенные), данные информационных систем для построения микроэнергосетей (централизованные) и сенсорных сетей микроэнергосетей (распределенные)
	Объем (количество)	10 гигабайт в день; 4 терабайта в год (масштабы города)
	Скорость обработки (например, в реальном времени)	Лос-Анджелес: передача показаний раз в 15 минут ( 100 тысяч потоков); либо раз в 8 часов ( 1,4 миллиона потоков). Более детальные данные агрегируются в 8-часовые интервалы
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	На основе кортежей: временные ряды, строки баз данных. На основе графов: топология сети, подключение клиентов. Некоторые семантические данные используются для нормализации
	Вариативность (темпы изменения)	Показания счетчиков и данные о погоде изменяются и собираются/ используются ежечасно. Информация о клиентах/ зданиях/ топологии сети изменяется медленно, на еженедельной основе
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)	Необходимы управление версиями и обеспечение воспроизводимости для целей валидации/ сопоставления прошлых и текущих моделей. Устойчивость систем хранения и инструментов аналитики важна для целей оперативного управления. Семантическая нормализация может помочь при выполнении междисциплинарного анализа (например, операторами энергосетей, менеджерами зданий, инженерами-энергетиками, специалистами по поведению)
	Визуализация	Визуализация в привязке к географическим координатам (построение картограмм) топологии энергосети, нагрузки; "тепловые карты" потребления энергии; графики прогнозируемого спроса в сопоставлении с располагаемой мощностью", анализ "что, если"; отображение информации в реальном времени; приложения с push-уведомлениями о предупреждениях
	Качество данных (синтаксис)	Пробелы в данных от умных счетчиков и в погодных данных; проблемы с качеством данных датчиков; проводятся тщательные проверки данных счетчиков, используемых для выставления счетов
	Типы данных	Временные ряды (CSV, кортежи SQL), статическая информация (RDF, XML), топология (файлы форм)
	Аналитика данных	Модели прогнозирования, модели машинного обучения, анализ временных рядов, кластеризация, выявление закономерностей, обработка сложных событий, визуальный анализ сети
Иные проблемы больших данных	Масштабируемая аналитика в реальном времени над большими потоками данных. Аналитика с низкой задержкой для оперативных нужд. Объединенная аналитика на уровне энергетической компании и микроэнергосетей. Надежная аналитика временных рядов по данным об энергопотреблении миллионов клиентов. Моделирование поведения клиентов, целевая выдача требований к крупным потребителям о временном сокращении энергопотребления
Проблемы пользовательского интерфейса и мобильного доступа	Приложения для взаимодействия с клиентами: сбор данных от клиентов/ зданий для моделирования поведения, извлечение признаков; уведомление о требованиях сократить энергопотребления со стороны энергетической компании/менеджеров зданий; предложения по повышению энергоэффективности; отображение объема энергопотребления с географической привязкой
Технические проблемы обеспечения безопасности и защиты персональных данных	Персональные данные клиента требуют осторожного обращения. Данные о потреблении энергии клиентом могут раскрыть закономерности поведения. Анонимизация информации. Агрегирование данных, чтобы избежать идентификации клиентов. Ограничения на распространение данных, установленные федеральными регулирующими органами в области энергетики и регулирующими органами штатов. Обследования, проведенные специалистами по изучению поведения, могут подпадать под ограничения, установленные органами внутреннего контроля этичности научных исследований (в США это "Институциональные наблюдательные советы" - Institutional Review Board, IRB)
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)	Управляемая данных аналитика в реальном времени для киберфизических систем
Дополнительная информация (гиперссылки)	Страница проекта "Интеллектуальная энергосеть" (Smart Grid) на сайте Университета Южной Калифорнии, - https://sites.usc.edu/dslab/projects/smart-grid/ Статья "Умные сети электроснабжения" в Википедии, https://ru.wikipedia.org/wiki/Умные_сети_электроснабжения Страница интеллектуальной энергосети Лос-Анджелеса, https://www.ladwp.com/ladwp/faces/ladwp/aboutus/a-power/a-p-smartgridla Йогеш Симмхан (Yogesh Simmhan) и др. "Облачная программная платформа для аналитики больших данных в интеллектуальных энергосетях" (Cloud-Based Software Platform for Big Data Analytics in Smart Grids), Computing in Science & Engineering, том 15, вып.4, июль-август 2013, https://www.researchgate.net/publication/260585847_Cloud-Based_Software_Platform_for_Big_Data_Analytics_in_Smart_Grids

А.9.2 Вариант использования N 52: Система управления энергией домашнего хозяйства HEMS

Название	Система управления энергией домашнего хозяйства HEMS
Предметная область	Деловая деятельность - оказание услуг
Автор/организация/эл. почта	Японский национальный орган по стандартизации
Акторы/заинтересованные лица, их роли и ответственность	Пользователи являются обычные люди, проживающие в частных домах. "Менеджер энергопотребления" (Energy manager) - это компания, устанавливающая в частные дома ряд датчиков и устройств. Роль "менеджера энергопотребления" может выполнять жилищно-строительная фирма или энергетическая компания. "Информационный менеджер" - это компания, собирающая данные из частных домов и отвечающая за неприкосновенность частной жизни и безопасность пользователей. "Сервисный агент" - это компания, которая анализирует собранные данные и предоставляет пользователям ценную информацию в качестве услуги
Цели	Предоставление пользователям полезных информационных услуг, посредством комбинирования данных об энергопотреблении с другими доступными данными и их анализа
Описание варианта использования	Система управления энергией домашнего хозяйства (Home Energy Management System, HEMS является полезной для энергосбережения в частных домах. В рамках системы HEMS в частных домах устанавливаются различного вида датчики и устройства, такие как "умный" счетчик, электромобиль, панель солнечных батарей, осветительные приборы, кондиционер, топливный элемент, водонагреватель, аккумуляторная батарея. "Менеджер энергопотребления" собирает произведенные в частных домах данные и сохраняет их в облачной базе данных, называемой "большой информационной платформой HEMS". "Информационный менеджер" управляет большой информационной платформой HEMS и осуществляет менеджмент данных. Он также отвечает за обеспечение неприкосновенности частной жизни и безопасность пользователей. "Сервисный агент" анализирует данные и предоставляет пользователям ценную информацию в качестве услуги
Текущие решения	Вычислительная система	-
	Хранилище данных	-
	Сеть связи	-
	Программное обеспечение	-
Характеристики больших данных	Источник данных (распределенный/ централизованный)	Источники данных распределены по отдельным частным домам
	Объем (количество)	Около 14 тысяч домохозяйств. Об объемах данных сведений нет
	Скорость обработки (например, в реальном времени)	В режиме реального времени, потоковая передача данных с датчиков
	Разнообразие (множество наборов данных, комбинация данных из различных источников)	"Умный" счетчик, электромобиль, панель солнечных батарей, осветительные приборы, кондиционер, топливный элемент, водонагреватель, аккумуляторная батарея
	Вариативность (темпы изменения)	Данные могут изменяться в течение секунд, минут или часов
Наука о больших данных (сбор, курирование, анализ, операции)	Достоверность (вопросы надежности, семантика)
	Визуализация	Визуализация показаний датчиков является базовой услугой
	Качество данных (синтаксис)	Качество данных напрямую влияет на качество услуг
	Типы данных	Временные ряды
	Аналитика данных	Прогнозирование, анализ временных рядов
Иные проблемы больших данных
Проблемы пользовательского интерфейса и мобильного доступа
Технические проблемы обеспечения безопасности и защиты персональных данных	Персональные данные должны тщательно обрабатываться для обеспечения защиты неприкосновенности частной жизни пользователя. "Сервисный агент" обязан проинформировать пользователей о том, как будут обрабатываться данные и какие услуги могут быть предоставлены. Пользователи должны выбрать услуги, которые они хотят получить, принимая во внимание сведения, сообщенные "сервисным агентом"
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры)	Несколько игроков участвуют в цепочке поставок для потока больших данных. Игрок А получает данные из источника данных (от поставщика данных). Игрок А предоставляет данные другому игроку В. Оба игрока, А и В, анализируют данные. Таким образом, данные могут поступать, проходя цепочку из нескольких игроков
Дополнительная информация (гиперссылки)	"Участие Министерства экономики, торговли и промышленности Японии в крупномасштабном проекте по развитию информационной инфраструктуры HEMS", пресс релиз Японской телеграфно-телефонной компании NTT-Восток на сайте компании, 28 августа 2014 года, https://www.ntt-east.co.jp/release/detail/20140828_01.html (на японском языке)

<< Назад		Приложение >> В (справочное). Сводка ключевых характеристик
	Содержание Национальный стандарт РФ ГОСТ Р 59926-2021/ISO/IEC TR 20547-2:2018 "Информационные технологии. Эталонная архитектура больших...

Приложение А (справочное). Представленные описания вариантов использования

ГАРАНТ:

Откройте актуальную версию документа прямо сейчас