Вы можете открыть актуальную версию документа прямо сейчас.
Если вы являетесь пользователем интернет-версии системы ГАРАНТ, вы можете открыть этот документ прямо сейчас или запросить по Горячей линии в системе.
Приложение А
(справочное)
Представленные описания вариантов использования
А.1 Деятельность государственных органов
А.1.1 Вариант использования N 1: Архивное хранение больших данных переписи населения, проведенной в США в 2010 и 2000 гг.
Название |
Архивное хранение больших данных: Большие данные переписи населения, проведенной в США в 2010 и 2000 гг. на основании части 13 Свода законов США |
|
Предметная область |
Электронные архивы |
|
Автор/организация/эл. почта |
Вивек Наваль (Vivek Navale) и Куин Нгуен (Quyen Nguyen), Национальные архивы США (NARA) |
|
Акторы/заинтересованные лица, их роли и ответственность |
Архивисты Национальных архивов США, представители общественности (после 75 лет) |
|
Цели |
Обеспечить долговременную сохранность данных с целью предоставления к ним доступа и проведения аналитики по истечении 75-летнего ограничительного периода. Часть 13 Свода законов США уполномочивает Бюро переписи населения США (U.S. Census Bureau) собирать и сохранять данные, относящиеся к переписи, и гарантирует защиту персональных и отраслевых данных |
|
Описание варианта использования |
В течение ограничительного периода в 75 лет данные должны храниться "как есть", без возможности доступа и анализа, с обеспечением сохранности на уровне битов. Данные курируются, что может включать преобразование формата. Доступ и аналитика должны быть обеспечены через 75 лет |
|
Текущие решения |
Вычислительная система |
Сервера под ОС Linux |
Хранилище данных |
Облачные сервисы NetApp, магнитные ленты |
|
Сеть связи |
|
|
Программное обеспечение |
|
|
Характеристики больших данных |
Источник данных (распределенный/ централизованный) |
Централизованное хранение |
Объем (количество) |
380 терабайт |
|
Скорость обработки (например, в реальном времени) |
Данные статичны |
|
Разнообразие (множество наборов данных, комбинация данных из различных источников) |
Отсканированные документы |
|
Вариативность (темпы изменения) |
Нет |
|
Наука о больших данных (сбор, курирование, анализ, операции) |
Достоверность (вопросы надежности, семантика) |
Утрата данных недопустима |
Визуализация |
Будет определена в будущем |
|
Качество данных (синтаксис) |
Неизвестно |
|
Типы данных |
Отсканированные документы |
|
Аналитика данных |
Только по истечении 75 лет |
|
Иные проблемы больших данных |
Обеспечение долговременной сохранности данных |
|
Проблемы пользовательского интерфейса и мобильного доступа |
Будут определены в будущем |
|
Технические проблемы обеспечения безопасности и защиты персональных данных |
Подпадают под положения части 13 Свода законов США |
|
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры) |
|
|
Дополнительная информация (гиперссылки) |
|
А.1.2 Вариант использования N 2: Прием Национальными архивами США государственных данных на хранение, поиск, извлечение и обеспечение долговременной сохранности
Название |
Прием Национальными архивами США (NARA) государственных данных на хранение, поиск, извлечение и обеспечение долговременной сохранности |
|
Предметная область |
Электронные архивы |
|
Автор/организация/эл. почта |
Куин Нгуен (Quyen Nguyen) и Вивек Наваль (Vivek Navale), Национальные архивы США (NARA) |
|
Акторы/заинтересованные лица, их роли и ответственность |
Специалисты по управлению документами федеральных органов исполнительной власти США. Специалисты по комплектованию фондов Национальных архивов США. Архивисты Национальных архивов США. Пользователи архивов - представители общественности |
|
Цели |
Прием на архивное хранение, поиск, извлечение и обеспечение долговременной сохранности больших данных |
|
Описание варианта использования |
1) Передача данных под физический контроль Национальных архивов и переход к Национальным архивам юридической ответственности за их сохранность. В будущем, если данные хранятся в облаке, при передаче Национальным архивам ответственности за физическую сохранность желательно избегать перемещения больших данных из одного облака в другое либо из облака в центр обработки данных. 2) Предварительная обработка данных, включающая проверки на наличие вирусов, определение файловых форматов и удаления пустых файлов. 3) Индексирование данных. 4) Категоризация документов (чувствительные конфиденциальные, неконфиденциальные, персональные данные и т.д.). 5) Преобразование устаревших файловых форматов в современные (например, WordPerfect в PDF). 6) Электронное раскрытие. 7) Поиск и извлечение данных в рамках исполнения специальных запросов. 8) Поиск и извлечение государственных документов представителями общественности |
|
Текущие решения |
Вычислительная система |
Сервера под ОС Linux |
Хранилище данных |
Облачные сервисы NetApp, система хранения Hitachi, магнитные ленты |
|
Сеть связи |
|
|
Программное обеспечение |
Кастомизированное ПО, коммерческие поисковые продукты, коммерческие базы данных |
|
Характеристики больших данных |
Источник данных (распределенный/ централизованный) |
Распределенные источники данных федеральных органов исполнительной власти США. Используемый в настоящее время подход требует передачи этих данных в централизованное хранилище. В будущем эти источники данных могут находиться в различных облачных средах |
Объем (количество) |
Сотни терабайт, постоянно увеличивается |
|
Скорость обработки (например, в реальном времени) |
Скорость поступления данных относительно низкая по сравнению с другими вариантами использования, однако случаются всплески, т.е. данные могут поступать партиями размером от гигабайта до сотен терабайт |
|
Разнообразие (множество наборов данных, комбинация данных из различных источников) |
Разнообразные типы данных, неструктурированные и структурированные: текстовые документы, электронная почта, фотографии, отсканированные документы, мультимедийные материалы, материалы из социальных сетей, веб-сайты, базы данных и т.д. Разнообразие прикладных областей, поскольку документы поступают от различных государственных органов. Данные поступают из различных хранилищ, некоторые из которых в будущем могут стать облачными |
|
Вариативность (темпы изменения) |
Темпы могут варьироваться, особенно если источники данных неоднородны: в некоторых больше представлены аудио- и видеоматериалы, в других преобладают текстовые материалы, в-третьих - графические образы и т.д. |
|
Наука о больших данных (сбор, курирование, анализ, операции) |
Достоверность (вопросы надежности, семантика) |
Результаты поиска должны иметь высокую релевантность и полноту поиска. Требуется высокая точность категоризации документов |
Визуализация |
Будет определена в будущем |
|
Качество данных (синтаксис) |
Неизвестно |
|
Типы данных |
Разнообразные типы данных: текстовые документы, электронная почта, фотографии, отсканированные документы, мультимедийные материалы, базы данных и т.д. |
|
Аналитика данных |
Сканирование/ индексирование; поиск; ранжирование; прогностический поиск. Категоризация данных (чувствительные, конфиденциальные и т.д.). Выявление и маркировка персональных данных (Personally Identifiable Information, PII) |
|
Иные проблемы больших данных |
Выполнение предварительной обработки и дальнейшее долговременное управление объемными и разнообразными данными. Проведение поиска по огромному объему данных. Обеспечение высокой релевантности и полноты результатов поиска. В будущем источники данных могут быть распределены по различным облакам |
|
Проблемы пользовательского интерфейса и мобильного доступа |
Мобильный поиск должен иметь похожий интерфейс и выдавать похожие результаты |
|
Технические проблемы обеспечения безопасности и защиты персональных данных |
Необходимо внимательно относиться к имеющимся ограничениям на доступ к данным |
|
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры) |
|
|
Дополнительная информация (гиперссылки) |
|
А.1.3 Вариант использования N 3: Повышение активности респондентов в статистических обследованиях
Название |
Повышение активности респондентов в статистических обследованиях (адаптивная схема) |
|
Предметная область |
Логистическое обеспечение сбора государственной статистики |
|
Автор/организация/эл. почта |
Каван Каппс (Cavan Capps), Бюро переписей населения США (U.S. Census Bureau), cavan.paul.capps@census.gov |
|
Акторы/заинтересованные лица, их роли и ответственность |
Задача органов государственной статистики США - быть ведущими авторитетными источниками информации о населении и экономике страны, уважая при этом неприкосновенность персональных данных и строго защищая их конфиденциальность. Эту задачу они решают, взаимодействуя со штатами, местными органами власти и другими федеральными органами исполнительной власти |
|
Цели |
Используя открытые и научно объективные передовые методы, органы статистики стремятся повысить качество, конкретность и своевременность выдаваемых статистических данных при одновременном снижении эксплуатационных расходов и обеспечении конфиденциальности респондентов |
|
Описание варианта использования |
Затраты на проведение статистических обследований растут, в то время как активность респондентов падает. Целью данной работы является применение усовершенствованных "методов рекомендательных систем", использующих комбинацию данных из нескольких источников, а также вспомогательные данные исторических обследований, - для поддержки процессов оперативной деятельности, направленных на повышение качества и снижение расходов проводимых "на местах" статистических обследований |
|
Текущие решения |
Вычислительная система |
Системы под ОС Linux |
Хранилище данных |
В SAN-сети систем хранения данных (Storage Area Network) и на непосредственно подключаемых к серверу устройствах (Direct Storage) |
|
Сеть связи |
Оптоволоконный кабель, 10-гигабитный Ethernet, 40-гигабитный Infiniband |
|
Программное обеспечение |
Hadoop, Spark, Hive, R, SAS, Mahout, Allegrograph, MySQL, Oracle, Storm, BigMemory, Cassandra, Pig |
|
Характеристики больших данных |
Источник данных (распределенный/ централизованный) |
Данные обследований, другие государственные административные данные, геопространственные данные из различных источников |
Объем (количество) |
Для данного конкретного вида проблем оперативной деятельности, примерно один петабайт |
|
Скорость обработки (например, в реальном времени) |
Варьируется, данные с мест о ходе проведения обследования передаются непрерывно в потоковом режиме. Во время последней всеобщей переписи населения в потоковом режиме были переданы 150 млн документов |
|
Разнообразие (множество наборов данных, комбинация данных из различных источников) |
Данные обычно представляют собой заданные текстовые и числовые поля. Данные могут происходить из разных наборов данных, объединенных для достижения целей аналитики |
|
Вариативность (темпы изменения) |
Варьируется в зависимости от обследований, проводимых на местах в данный момент. Высокие темпы поступления во время всеобщей переписи населения |
|
Наука о больших данных (сбор, курирование, анализ, операции) |
Достоверность (вопросы надежности, семантика) |
Данные должны иметь высокую степень достоверности, а системы должны быть очень надежными. Остается проблемой семантическая целостность концептуальных метаданных, содержащих описание объекта измерения и вытекающие из этого описания ограничений достоверности |
Визуализация |
Визуализация полезна для проверки данных, оперативной деятельности и общего анализа. Продолжает развиваться |
|
Качество данных (синтаксис) |
Качество данных должно быть высоким и статистически проверяться на точность и надежность на протяжении всего процесса сбора данных |
|
Типы данных |
Предопределенные ASCII - строки и числовые данные |
|
Аналитика данных |
Аналитика необходима для рекомендательных систем, постоянного мониторинга и для общего совершенствования процесса проведения обследования |
|
Иные проблемы больших данных |
Совершенствование рекомендательных систем, позволяющих снизить затраты и повысить качество, обеспечивая одновременно надежные и публично проверяемые меры защиты конфиденциальности |
|
Проблемы пользовательского интерфейса и мобильного доступа |
Мобильный доступ важен |
|
Технические проблемы обеспечения безопасности и защиты персональных данных |
Необходимо обеспечить безопасность и конфиденциальность всех данных. Согласно требованиям законодательства должна быть обеспечена возможность аудита всех процессов на предмет обеспечения безопасности и конфиденциальности |
|
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры) |
Рекомендательные системы имеют общие функциональные возможности с системами, используемыми в электронной коммерции такими фирмами, как Amazon, Netflix, UPS и др. |
|
Дополнительная информация (гиперссылки) |
|
А.1.4 Вариант использования N 4: Использование нетрадиционных данных для повышения активности респондентов в статистических обследованиях
Название |
Использование нетрадиционных данных для повышения активности респондентов в статистических обследованиях (адаптивная схема) |
|
Предметная область |
Логистическое обеспечение сбора государственной статистики |
|
Автор/организация/эл. почта |
Каван Каппс (Cavan Capps), Бюро переписи населения США (U.S. Census Bureau), cavan.paul.capps@census.gov |
|
Акторы/заинтересованные лица, их роли и ответственность |
Задача органов государственной статистики США - быть ведущими авторитетными источниками информации о населении и экономике страны, уважая при этом неприкосновенность персональных данных и строго защищая их конфиденциальность. Эту задачу они решают, взаимодействуя со штатами, местными органами власти и другими федеральными органами исполнительной власти |
|
Цели |
Используя открытые и научно объективные передовые методы, органы статистики стремятся повысить качество, конкретность и своевременность выдаваемых статистических данных при одновременном снижении эксплуатационных расходов и обеспечении конфиденциальности респондентов |
|
Описание варианта использования |
Затраты на проведение статистических обследований растут, в то время как активность респондентов падает. В данной работе изучается потенциал использования нетрадиционных коммерческих и публичных источников данных из интернета, беспроводной связи и электронных транзакций, которые в рамках аналитических исследований объединяются с данными традиционных статистических обследований с целью повысить качество статистики для небольших регионов и новых показателей, а также обеспечить своевременность публикуемой статистики |
|
Текущие решения |
Вычислительная система |
Системы под ОС Linux |
Хранилище данных |
В SAN-сети систем хранения данных (Storage Area Network) и на непосредственно подключаемых к серверу устройствах (Direct Storage) |
|
Сеть связи |
Оптоволоконный кабель, 10 - гигабитный Ethernet, 40 - гигабитный Infiniband |
|
Программное обеспечение |
Hadoop, Spark, Hive, R, SAS, Mahout, Allegrograph, MySQL, Oracle, Storm, BigMemory, Cassandra, Pig |
|
Характеристики больших данных |
Источник данных (распределенный/ централизованный) |
Данные обследований, другие государственные административные данные, данные из интернета, систем беспроводной связи, данные электронных транзакций, возможно, данные из социальных сетей, а также геопространственные данные из различных источников |
Объем (количество) |
Будет определен в будущем |
|
Скорость обработки (например, в реальном времени) |
Будет определена в будущем |
|
Разнообразие (множество наборов данных, комбинация данных из различных источников) |
Текстовые данные, а также традиционным образом определенные текстовые строки и числовые поля. Данные могут происходить из нескольких наборов данных, объединенных для целей аналитики |
|
Вариативность (темпы изменения) |
Будет определена в будущем |
|
Наука о больших данных (сбор, курирование, анализ, операции) |
Достоверность (вопросы надежности, семантика) |
Данные должны иметь высокую степень достоверности, а системы должны быть очень надежными. Остается проблемой семантическая целостность концептуальных метаданных, описывающих, что именно измеряется, и вытекающие из этого пределы точности выводов |
Визуализация |
Визуализация полезна для проверки данных, оперативной деятельности и общего анализа. Продолжает развиваться |
|
Качество данных (синтаксис) |
Качество данных должно быть высоким и статистически проверяться на точность и надежность на протяжении всего процесса сбора данных |
|
Типы данных |
Текстовые данные, предопределенные ASCII - строки и числовые данные |
|
Аналитика данных |
Аналитика необходима для получения надежных оценок на основе совместного использования данных традиционных обследований, государственных административных данных и данных из нетрадиционных источников сферы цифровой экономики |
|
Иные проблемы больших данных |
Совершенствование систем аналитики и моделирования, выдающих надежные и устойчивые статистические оценки с использованием данных из ряда источников и являющихся научно прозрачными, которые одновременно обеспечивают надежные и публично проверяемые меры защиты конфиденциальности |
|
Проблемы пользовательского интерфейса и мобильного доступа |
Мобильный доступ важен |
|
Технические проблемы обеспечения безопасности и защиты персональных данных |
Необходимо обеспечить безопасность и конфиденциальность всех данных. Согласно требованиям законодательства должна быть обеспечена возможность аудита всех процессов на предмет обеспечения безопасности и конфиденциальности |
|
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры) |
Процесс получения статистических оценок, способный дать более детальные оценки в режиме почти реального времени и с меньшими затратами. Надежность статистических оценок, полученных на основе комбинирования данных из подобных смешанных источников, пока еще предстоит определить |
|
Дополнительная информация (гиперссылки) |
|
А.2 Коммерческая деятельность
А.2.1 Вариант использования N 5: Облачные вычисления в секторах финансовой отрасли
Название |
Данный вариант использования представляет собой один из подходов к внедрению стратегии больших данных в рамках облачной экосистемы для секторов финансовой отрасли, осуществляющих операции в Соединенных Штатах |
|
Предметная область |
Включает следующие направления основной деловой деятельности: Банковское дело, в том числе: обслуживание юридических лиц, обслуживание физических лиц, кредитные карты, потребительское кредитование, обслуживание корпоративных клиентов, операционное обслуживание, финансирование торговых операций и глобальные платежи. Ценные бумаги и инвестиции, включая: брокерское обслуживание физических лиц, банковское обслуживание состоятельных физических лиц/управление частным капиталом, брокерское обслуживании институциональных инвесторов, инвестиционно-банковские услуги, трастовые банковские услуги, управление активами, депозитарные и клиринговые услуги Страхование, в том числе: персональное и групповое страхование жизни, персональное и групповое страхование имущества/несчастных случаев, фиксированный и переменный аннуитет и другие виды инвестиций. Для сведения: Любая государственная/частная организация, предоставляющая финансовые услуги и подпадающая под действие законодательства США в плане нормативно-правового риска и обязанности исполнять нормативно-правовые требования, обязана соответствовать сложной многослойной системе стратегического управления, управления рисками и соблюдения требований (GRC), а также конфиденциальности, целостности и доступности (confidentiality, integrity, and availability, CIA), надзор над исполнением которых осуществляется различными юрисдикциями и органами, в том числе федеральными, штатов, местными и трансграничными |
|
Автор/организация/эл. почта |
П.Кэри (Pw Carey), Compliance Partners LLC, pwc.pwcarey@email.com |
|
Акторы/заинтересованные лица, их роли и ответственность |
Регулирующие и консультативные организации и органы, в том числе Федеральная комиссия по ценным бумагам и биржам (Securities and Exchange Commission, SEC), Федеральная корпорация страхования депозитов (FDIC), Комиссия по торговле товарными фьючерсами (Commodity Futures Trading Commission, CFTC), Казначейство США, Некоммерческая организация по надзору за отчетностью публичных компаний, США (РСАОВ), Комитет спонсорских организаций (COSO), CobiT, лица и организации, участвующие в подготовке отчетности, заинтересованные стороны, инвестиционное сообщество, акционеры, пенсионные фонды, высшее руководство организаций, хранители данных и иные сотрудники. На каждом уровне организации финансовых услуг существует взаимосвязанное и взаимозависимое сочетание обязанностей, обязательств и ответственности тех, кто непосредственно несет ответственность за использование, подготовку и передачу финансовых данных, тем самым соответствуя требованиям стратегического управления, управления рисками и соблюдения требований (GRC), (GRC), так и конфиденциальности, целостности и доступности (CIA) финансовых данных их организаций. Эта же информация напрямую связана с поддержанием репутации, доверия и жизнеспособностью бизнеса организации |
|
Цели |
В данном варианте использования представлен один из подходов к разработке работоспособной стратегии внедрения больших данных в сфере финансовых услуг. До начала внедрения и переключения на новые технологии организация должна выполнить ряд действий, следуя базовой методологии использования больших данных в рамках облачной экосистемы, адресованной как государственным, так и частным финансовым учреждениям, предлагающим финансовые услуги в рамках федеральной юрисдикции США, юрисдикции штатов и местных органов власти и/или в иных юрисдикциях, таких как Великобритания, Евросоюз и Китай. Каждая предоставляющая финансовые услуги организация должна подходить к введению последующих мер, поддерживающих их инициативу в области больших данных, с пониманием и осознанием того воздействия, которое каждый из накладывающихся друг на друга и взаимозависимых факторов будет оказывать в реализации. Эти четыре фактора следующие: 1) люди (как ресурсы), 2) процессы (время/расходы/возврат на инвестиции), 3) технологии (различные операционные системы, платформы, а также зоны влияния/масштабы воздействия технологий), и 4) регуляторное управление (зависит от многочисленных различных регулирующих органов). Кроме того, эти четыре фактора должны быть выявлены, проанализированы, оценены, должны быть приняты соответствующие меры, проведены тестирование и анализ результатов в ходе подготовки к переходу на следующие этапы внедрения: 1) инициирование проекта и получение поддержки со стороны руководства, 2) оценка рисков и выбор мер контроля и управления, 3) анализ влияния на деловую активность, 4) проектирование, разработка и тестирование стратегий обеспечения непрерывности деловой активности, 5) реагирование и деятельность в условиях чрезвычайных ситуаций (известное также как "Восстановление после катастроф"), 6) разработка и внедрение планов обеспечения непрерывности деловой активности, 7) программы ознакомления и обучения, 8) реализация мер по обеспечению непрерывности деловой активности (известное также как Maintaining Regulatory Currency - поддержание доверия со стороны регуляторов).
Примечание - Где уместно, эти восемь направлений деятельности должны быть адаптированы и модифицированы в соответствии с потребностями каждой организации, ее уникальной корпоративной культурой и видами оказываемых финансовых услуг |
|
Описание варианта использования |
Разработанная Google технология больших данных предназначалась для использования в качестве инструмента индексирования веб-сайтов в интернете, помогая компании сортировать, перемешивать, классифицировать и маркировать интернет. Первоначально она не рассматривалась как замена для устаревших ИТ-инфраструктур данных. Благодаря побочным разработкам в рамках OpenGroup и Hadoop, большие данные превратились в надежный инструмент анализа и хранения данных, который все еще продолжает развиваться. В итоге, однако, технологии больших данных по-прежнему разрабатываются в качестве дополнения к существующим ИТ-архитектурам хранилищ данных типа клиент/сервер/суперкомпьютер, что в некоторых отношениях лучше, чем эти самые среды хранилищ данных, но не во всех. В настоящее время в финансовой отрасли большие данные/Hadoop используются для выявления мошенничества, анализа и оценки рисков, а также для расширения своих знаний и понимания клиентов в рамках стратегии, известной как "знай своего клиента? Однако эта стратегия по-прежнему должна следовать хорошо продуманной таксономии, которая удовлетворяет уникальные и индивидуальные потребности субъектов. Одной из таких стратегий является следующая формальная методология, которая дает ответ на два простейших, но крайне важных вопроса: "Что мы делаем?" и "Почему мы это делаем?". 1) Заявление о политике/устав проекта (цель плана, причины и ресурсы - все это следует определить). 2) Анализ воздействия на деловую деятельность (как приложенные усилия улучшают наши деловые услуги). 3) Определение общесистемных политик, процедур и требований. 4) Определение наилучшей практики внедрения (включая управление изменениями/управление конфигурацией) и/или будущих доработок. 5) План "Б" - стратегии восстановления (как и что нужно будет восстанавливать, если это потребуется). 6) Разработка плана (пишется план и определяются его элементы). 7) Обеспечение поддержки плана в организации и его тестирование (важно, чтобы все знали план и знали, что делать). 8) Реализация плана (затем выявляются и устраняются недостатки - после первых 3 мес, после 6 мес и ежегодно с момента первоначальной реализации). 9) Актуализация (постоянный мониторинг и внесение изменений, отражающих текущее состояние корпоративной среды). 10) Наконец, вывод системы из эксплуатации |
|
Текущие решения |
Вычислительная система |
В настоящее время большие данные/Hadoop в облачной экосистеме в рамках финансовой отрасли работают как часть гибридной системы, причем технология больших данных используется в качестве полезного инструмента для проведения анализа рисков и выявления мошенничества, а также помогает организациям в процессе "знай своего клиента". Три области, в которых большие данные хорошо себя проявили, следующие: 1) выявление мошенничества, 2) взаимосвязанные риски, и 3) стратегия "знай своего клиента". В то же время традиционные клиент/ сервер/ хранилище данных/СУБД используются для управления, обработки, хранения и архивирования финансовых данных субъектов. Недавно SEC одобрила инициативу, согласно которой с 13 мая 2013 г. учреждения финансовой отрасли должны будут представлять документы финансовой отчетности в формате XBRL |
Хранилище данных |
Одни и те же федеральные, штатов, местные и трансграничные законодательно-нормативные требования могут оказывать влияние в любых географических точках, затрагивая решения VMware, NetApps, Oracle, IBM, Brocade и т.д. Для сведения Исходя из требований законодательства эти решения для хранения данных финансовой отрасли должны обеспечивать исполнение существующих на данный момент времени американских законодательно-нормативных требований стратегического управления, управления рисками и соблюдения требований (GRC) и конфиденциальности, целостности и доступности (CIA). Чтобы убедиться в этом, необходимо посетить веб-сайты следующих федеральных органов: Федеральной комиссии по ценным бумагам и биржам (Securities and Exchange Commission, SEC), Комиссии по торговле товарными фьючерсами (Commodity Futures Trading Commission, CFTC), Федеральной корпорации страхования депозитов (FDIC), Министерства юстиции США (U.S. Department of Justice), и Некоммерческой организации по надзору за отчетностью публичных компаний, США (РСАОВ) |
|
Сеть связи |
Для сведения Одни и те же федеральные, штатов, местные и трансграничные законодательно-нормативные требования могут оказывать влияние в любых географических точках расположения оборудования и программного обеспечения, включая, но не ограничиваясь системами типа WAN, LAN, MAN, WiFi, оптоволокно, доступ в интернет, через публичные, частные, кооперативные и гибридные облачные среды, с VPN или без него. Исходя из требований законодательства эти сетевые решения для данных финансовой отрасли должны обеспечивать исполнение существующих на данный момент времени американских законодательно-нормативных требований стратегического управления, управления рисками и соблюдения требований (GRC) и конфиденциальности, целостности и доступности (CIA), таких как требования Казначейства США. Чтобы убедиться в этом, пожалуйста, посетите веб-сайты следующих федеральных органов: SEC, CFTC, FDIC, Казначейства США, Министерства юстиции США и Некоммерческой организации по надзору за отчетностью публичных компаний, США (РСАОВ) |
|
Программное обеспечение |
Для сведения Те же федеральные, штатов, местные и трансграничные законодательно-нормативные требования, что оказывают влияние в местах расположения оборудования и программного обеспечения, также ограничивают возможное местоположение для решений с открытым исходным кодом Hadoop, Map/Reduce и проприетарных решений поставщиков, таких как AWS (Amazon Web Services), Google Cloud Services и Microsoft. Исходя из требований законодательства эти программные решения, включающие как протокол SOAP (Simple Object Access Protocol) для веб-разработки, так и программный язык OLAP (online analytical processing) для баз данных, особенно в случае обработки данных финансовой отрасли, должны обеспечивать соответствие этих данных существующим на данный момент времени американским законодательно-нормативным требованиям стратегического управления, управления рисками и соблюдения требований (GRC) и конфиденциальности, целостности и доступности (CIA). Чтобы убедиться в этом, пожалуйста, посетите веб-сайты следующих федеральных органов: SEC, CFTC, Казначейства США, FDIC, Министерства юстиции США и Некоммерческой организации по надзору за отчетностью публичных компаний, США (РСАОВ) |
|
Характеристики больших данных |
Источник данных (распределенный/ централизованный) |
Для сведения Те же федеральные, штатов, местные и трансграничные законодательно-нормативные требования, что оказывают влияние в местах расположения оборудования и программного обеспечения, также оказывают свое влияние в местах расположения распределенных/ централизованных источников данных, поступающих в среду высокой доступности с обеспечением восстановления после катастроф (HA/DR Environment) и в хостинговый виртуальный сервер (HVS), например, в следующих конфигурациях: DC1 -> VMWare/KVM (кластеры, с виртуальными брандмауэрами), Data link - VMWare Link - Vmotion Link - Network Link, несколько мостовых соединений с поставщиком (РВ) в рамках NaaS (сеть как сервис), DC2 -> VMWare/KVM (кластеры с виртуальными брандмауэрами), DataLink (Vmware Link, Vmotion Link, Network Link), несколько мостовых соединений с поставщиком в рамках NaaS (требуется отказоустойчивая виртуализация), среди прочих соображений. Исходя из требований законодательства эти решения для источников данных, как распределенных, так и/или централизованных, в случае обработки данных финансовой отрасли должны обеспечивать соответствие этих данных существующим на данный момент времени американским законодательно-нормативным требованиям стратегического управления, управления рисками и соблюдения требований (GRC) и конфиденциальности, целостности и доступности (CIA). Чтобы убедиться в этом, пожалуйста, посетите веб-сайты следующих федеральных органов: SEC, CFTC, Казначейства США, FDIC, Министерства юстиции США и Некоммерческой организации по надзору за отчетностью публичных компаний, США (РСАОВ) |
Объем (количество) |
От нескольких терабайт до нескольких петабайт. Для сведения Это зона, свободная от флоппи-дисков |
|
Скорость обработки (например, в реальном времени) |
При использовании больших данных в финансовой отрасли скорость обработки более важна для выявления мошенничества, оценки риска и в рамках процесса "знай своего клиента". Для сведения Однако исходя из требований законодательства, скорость обработки не является проблемой для решений на основе технологии больших данных, используемых для обработки данных финансовой отрасли, за исключением задач выявления мошенничества, анализа рисков и анализа клиентов. Исходя из установленных законодательством ограничений, скорость обработки не является проблемой; скорее, главной проблемой при обработке данных финансовой отрасли является необходимость обеспечивать соответствие существующим на данный момент времени американским законодательно-нормативным требованиям стратегического управления, управления рисками и соблюдения требований (GRC) и конфиденциальности, целостности и доступности (CIA) |
|
Разнообразие (множество наборов данных, комбинация данных из различных источников) |
Различные виртуальные среды, работающие в рамках архитектуры пакетной обработки или параллельной архитектуры с "горячей" заменой (hot-swappable parallel architecture), поддерживающие выявление мошенничества, оценку риска и решений по обслуживанию клиентов. Для сведения Исходя из требований законодательства, разнообразие не является проблемой для решений на основе технологии больших данных, используемых для обработки данных финансовой отрасли в рамках облачной экосистемы, за исключением задач выявления мошенничества, анализа рисков и анализа клиентов. Исходя из установленных законодательством ограничений, разнообразие не является проблемой; скорее, главной проблемой при обработке данных финансовой отрасли является необходимость обеспечивать соответствие существующим на данный момент времени американским законодательно-нормативным требованиям стратегического управления, управления рисками и соблюдения требований (GRC) и конфиденциальности, целостности и доступности (CIA) |
|
Вариативность (темпы изменения) |
Для сведения Исходя из требований законодательства, вариативность не является проблемой для решений на основе технологии больших данных, используемых для обработки данных финансовой отрасли в рамках облачной экосистемы, за исключением задач выявления мошенничества, анализа рисков и анализа клиентов. Исходя из установленных законодательством ограничений, вариативность не является проблемой; скорее, главной проблемой при обработке данных финансовой отрасли является необходимость обеспечивать соответствие существующим на данный момент времени американским законодательно-нормативным требованиям стратегического управления, управления рисками и соблюдения требований (GRC) и конфиденциальности, целостности и доступности (CIA). Вариативность больших данных финансовой отрасли в облачной экосистеме будет зависеть от силы и полноты соглашений об уровне обслуживания (SLA), от связанных с деловой активностью и зависящих от ее потребностей капитальных затрат (СарЕх) |
|
Наука о больших данных (сбор, курирование, анализ, операции) |
Достоверность (вопросы надежности, семантика) |
Для сведения Исходя из требований законодательства, достоверность не является проблемой для решений на основе технологии больших данных, используемых для обработки данных финансовой отрасли в рамках облачной экосистемы, за исключением задач выявления мошенничества, анализа рисков и анализа клиентов. Исходя из установленных законодательством ограничений, достоверность не является проблемой; скорее, главной проблемой при обработке данных финансовой отрасли является необходимость обеспечивать соответствие существующим на данный момент времени американским законодательно-нормативным требованиям стратегического управления, управления рисками и соблюдения требований (GRC) и конфиденциальности, целостности и доступности (CIA). В облачной экосистеме больших данных целостность данных важна на протяжении всего жизненного цикла организации, связанных с защитой персональных данных и обеспечением безопасности и законодательно-нормативных требований стратегического управления, управления рисками и соблюдения требований (GRC) и конфиденциальности, целостности и доступности (CIA) |
Визуализация |
Для сведения Исходя из требований законодательства, визуализация не является проблемой для решений на основе технологии больших данных, используемых для обработки данных финансовой отрасли, за исключением задач выявления мошенничества, анализа рисков и анализа клиентов; данные обрабатываются традиционными клиент/ сервер/ хранилище данных - серверами на базе суперкомпьютеров. Исходя из установленных законодательством ограничений, визуализация не является проблемой; скорее, главной проблемой при обработке данных финансовой отрасли является необходимость обеспечивать соответствие существующим на данный момент времени американским законодательно-нормативным требованиям стратегического управления, управления рисками и соблюдения требований (GRC) и конфиденциальности, целостности и доступности (CIA). Целостность данных в рамках больших данных играет критически важную роль на протяжении всего жизненного цикла организации ввиду законодательно-нормативных требований стратегического управления, управления рисками и соблюдения требований (GRC) и конфиденциальности, целостности и доступности (CIA) |
|
Качество данных (синтаксис) |
Для сведения Исходя из требований законодательства, качество данных всегда будет серьезным вопросом, вне зависимости от отрасли или платформы. Исходя из установленных законодательством ограничений, качество данных является ключевым для целостности данных; и оно представляет собой главную проблему при обработке данных финансовой отрасли в связи с необходимостью обеспечивать их соответствие существующим на данный момент времени американским законодательно-нормативным требованиям стратегического управления, управления рисками и соблюдения требований (GRC) и конфиденциальности, целостности и доступности (CIA). Для больших данных финансовой отрасли целостность данных играет критически важную, ключевую роль на протяжении всего жизненного цикла организации ввиду, целостности и доступности (CIA) |
|
Типы данных |
Для сведения Исходя из требований законодательства, типы данных важны ввиду того, что они должны обладать определенной степенью согласованности и особенно жизнеспособности во время аудитов и цифровой криминалистической экспертизы, когда деградация формата данных может негативно повлиять как на аудит, так и на криминалистическую экспертизу, когда те проходят через несколько циклов. Многочисленные типы данных и форматов в составе больших данных финансовой отрасли включают (но не ограничиваются ими): плоские файлы, txt, .pdf, файлы приложений для Android, .wav, .jpg и VOIP (передача голоса с использованием протокола IP) |
|
Аналитика данных |
Для сведения Исходя из требований законодательства аналитика данных является серьезным вопросом для решений на основе технологии больших данных, используемых для обработки данных финансовой отрасли, особенно в плане задач выявления мошенничества, анализа рисков и анализа клиентов. В то же время задачи аналитики данных для данных финансовой отрасли в настоящее время обрабатываются традиционными клиент/ сервер/ хранилище данных - серверами на базе суперкомпьютеров, которые должны обеспечивать соответствие существующим на данный момент времени американским законодательно-нормативным требованиям стратегического управления, управления рисками и соблюдения требований (GRC) и конфиденциальности, целостности и доступности (CIA). Для целей аналитики данных на основе больших данных финансовой отрасли, данные должны поддерживаться в формате, исключающем деградацию во время обработки и процедур поиска и анализа |
|
Иные проблемы больших данных |
В настоящее время проблемные области, связанные с большими данными финансовой отрасли в рамках облачной экосистемы, включают в себя агрегирование и хранение данных (чувствительных, токсичных и иных) из нескольких источников, что может создавать и создает административные и управленческие проблемы, связанные со следующими аспектами: - контроль доступа, - управление/администрирование, - право на получение данных, и - права собственности на данные. Тем не менее, как показывает текущий анализ, эти вопросы и проблемы широко известны и решаются в данный момент времени поставщиками технологий с помощью методологий управления жизненным циклом программного обеспечения и оборудования (Software Development Life Cycle/Hardware Development Life Cycle, SDLC/HDLC) на стадиях исследований и разработки |
|
Проблемы пользовательского интерфейса и мобильного доступа |
Обеспечение мобильного доступа - это постоянно растущий слой технической сложности, однако не все решения для мобильного использования больших данных носят технический характер. Есть две взаимосвязанные и взаимозависимые стороны, которые должны работать вместе над тем, чтобы найти работоспособное и жизнеспособное решение - это представители основной деятельности финансовой отрасли и ИТ. Технические проблемы решаемы, если обе эти стороны согласны использовать общую лексику и таксономию и уважают, и понимают требования, которые каждая из них обязана удовлетворить. Обе стороны в рамках этих совместных усилий столкнутся со следующими существующими и длящимися проблемными вопросами, связанными с данными финансовой отрасли: - несогласованность при отнесении к категориям, - изменения с течением времени в системах классификации, - использование нескольких перекрывающихся или различающихся схем категоризации. Помимо решения задачи, связанной с этими изменяющимися и эволюционирующими несоответствиями, необходимо также обеспечить следующие характеристики данных, связанные с принципом ACID: - атомарность (Atomic) - либо будут полностью выполнены все подоперации в рамках транзакции, либо не будет выполнена ни одна из них. - согласованность (Consistent) - в результате выполнения транзакции база данных переходит из одного согласованного состояния в другое согласованное состояние. Согласованность определяется с точки зрения выполнения ограничений. - изолированность (Isolated) - результаты любых изменений, внесенных в ходе транзакции, не видны до тех пор, пока транзакция не будет полностью завершена. - стойкость (Durable) - изменения, внесенные успешно совершенной транзакцией, должны сохраниться в случае сбоев и отказов системы |
|
Технические проблемы обеспечения безопасности и защиты персональных данных |
Никакое количество должной предусмотрительности, проявленной в вопросах безопасности и защиты персональных данных, не способно компенсировать врожденные недостатки, связанные с природой человека и проникающие в любую программу и/или стратегию. В настоящее время при внедрении технологии больших данных в финансовой отрасли приходится иметь дело с растущим числом групп риска, среди которых, в частности, можно назвать такие, как: - борьба с легализацией (отмыванием) незаконных доходов (Anti-Money Laundering), - надлежащая проверка клиентов (Client Due Diligence), - списки наблюдения (Watch lists), - федеральный закон США о борьбе с коррупцией в международной деятельности (Foreign Corrupt Practices Act, FCPA). Для того чтобы получить представление о реальном положении дел, посмотрите на девятилетние усилия Гарри Маркополоса (Harry М. Markopolos), направленные на то, чтобы заставить SEC, среди других федеральных органов исполнительной власти США, выполнить свою работу и закрыть финансовую пирамиду Бернарда Мэдоффа (Bernard Madoff) на сумму в миллиард долларов. Помимо этого, выявление и удовлетворение требований по защите неприкосновенности частной жизни и безопасности для организаций финансовой отрасли, предоставляющих услуги в рамках экосистемы больших данных/облака, благодаря постоянному совершенствованию: 1) технологий, 2) процессов, 3) процедур, 4) кадров и 5) нормативного регулирования, - это гораздо лучший выбор как для отдельного человека, так и для организации, особенно если сравнить с альтернативами. Используя многоуровневый подход, данную стратегию можно разбить на следующие подкатегории: 1) поддержание устойчивости операционной деятельности, 2) защита ценных активов, 3) контроль над учетными записями в системе, 4) эффективное управление сервисами безопасности, и 5) поддержание устойчивости операционной деятельности. За дополнительной информацией о базовых решениях задач безопасности и защиты персональных данных рекомендуется обращаться к двум организациям: - Международная ассоциация аудита и контроля информационных систем (ISACA); - Международный консорциум по сертификации в области безопасности информационных систем (isc2) |
|
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры) |
Проблемные области включают в себя агрегирование и хранение данных из нескольких источников, где могут возникнуть проблемы, связанные с: - контролем доступа, - управлением/администрированием, - правом на получение данных, и - правами собственности на данные. Каждая из этих областей совершенствуется, но на них, тем не менее, следует обратить внимание и принять меры, используя решения для контроля доступа и инструменты управления информацией о безопасности и событиями безопасности SIEM (Security information and event management). Эта задача пока что не решена, принимая во внимание проблемы безопасности, которые упоминаются всякий раз, когда речь заходит о больших данных/Hadoop в рамках облачной экосистемы. Текущие и длящиеся проблемы внедрения больших данных для финансовой отрасли в рамках облачной экосистемы, а также традиционных архитектур типа клиент/ сервер/ хранилище данных, включают следующие области финансового учета в соответствии как с общепринятыми принципами бухгалтерского учета США (U.S. Generally Accepted Accounting Practices, US GAAP), так и Международными стандартами финансовой отчетности, МСФО (International Financial Reporting Standards, IFRS): - использование расширяемого языка разметки для деловой отчетности (XBRL); - согласованность (терминологии, форматирования, технологий, нормативного регулирования); - предписание Федеральной комиссии по ценным бумагам и биржам SEC использовать XBRL для финансовой отчетности перед регулятором; - меняются требования SEC, принципы бухгалтерской отчетности GAAP/IFRS и еще не полностью завершенное новое финансовое законодательство, влияющее на требования к отчетности, - и эти изменения указывают на попытки усовершенствовать наилучшие практики внедрения, тестирования, обучения, отчетности и информационного обмена, требуемые от независимого аудитора в отношении аудита, аудиторских отчетов, самооценки мер контроля и управления, финансовых аудитов, внутренних аудитов, соблюдения Общепринятых стандартов аудита (Generally Accepted Auditing Standards, GAAS)/Международных стандартов аудита (International Standard on Auditing, ISA), a также Закона Сарбейнса-Оксли 2002 г. (Sarbanes-Oxley Act of 2002, SOX) |
|
Дополнительная информация (гиперссылки) |
1) "10 главных проблем обеспечения безопасности и неприкосновенности частной жизни при использовании технологии больших данных" (Тор 10 Challenges in big data Security and Privacy), Рабочая группа по большим данным Альянса облачной безопасности (Cloud Security Alliance), 2012, https://downloads.cloudsecurityalliance.org/initiatives/bdwg/Big_Data_Top_Ten_v1.pdf 2) Рабочая группа "Международная финансовая отчетность, ценные бумаги и рынки" (IFRS, Securities and Markets Working Group) на сайте сообщества XBRL Europe (https://www.xbrleurope.org/), продвигающего использование языка XBLR в Европе, см. https://www.xbrleurope.org/?page_id=357 3) Конференция по большим данным Международной ассоциации специалистов по электротехнике и радиоэлектронике IEEE (IEEE International Conference on Big Data), см. http://bigdataieee.org/ 4) Сайт по технологии Map/Reduce, http://www.mapreduce.org (ссылка неработающая) 5) Некоммерческая организация по надзору за отчетностью публичных компаний, США (РСАОВ), https://pcaobus.org/ 6) Аналитика по вопросам страхования на сайте фирмы "Эрнст и Янг" (Ernst & Young), см. https://www.ey.com/en_gl/insurance 7) Ресурсы по теме финансовых рынков и финансовых институтов на сайте Казначейства США, см. https://www.treasury.gov/resource-center/fin-mkts/Pages/default.aspx 8) Комиссия по торговле товарными фьючерсами (Commodity Futures Trading Commission, CFTC), см. https://www.cftc.gov/ 9) Федеральная комиссия по ценным бумагам и биржам (Securities and Exchange Commission, SEC), см. https://www.sec.gov/ 10) Федеральная корпорация страхования депозитов (FDIC), см. https://www.fdic.gov/ 11) Комитет спонсорских организаций (COSO), см. https://www.coso.org/ 12) Международный консорциум по сертификации в области безопасности информационных систем (isc2), см. https://www.isc2.org/ 13) Международная ассоциация аудита и контроля информационных систем (ISACA), см. https://www.isaca.org/ 14) Фонд IFRS - разработчик Международных стандартов финансовой отчетности, МСФО (International Financial Reporting Standards, IFRS), см. https://www.ifrs.org/ 15) Сайт консорциума Open Group, https://www.opengroup.org/ 16) Джейкумар Виджаян (Jaikumar Vijayan) "ИТ должно подготовиться к проблемам безопасности в Hadoop" (IT must prepare for Hadoop security issues), Computerworld, 9 ноября 2011 года, см. https://www.computerworld.com/article/2498601/it-must-prepare-for-hadoop-security-issues.html 17) Гарри Маркополос "Финансовая пирамида Бернарда Мэдоффа. Расследование самой грандиозной аферы в истории", изд-во Диалектика, 2012, ISBN: 978-5-8459-1686-0, 978-0-470-55373-2 18) "Оценка финансовой пирамиды Мэдоффа и провалов в работе регуляторов" (Assessing the Madoff Ponzi Scheme and Regulatory Failures), слушания подкомитета по рынкам капитала, страхованию и спонсируемым государством предприятиям (Subcommittee on Capital Markets, Insurance, and Government Sponsored Enterprises), 2009 год, https://www.gpo.gov/fdsys/pkg/CHRG-111hhrg48673/pdf/CHRG-111hhrg48673.pdf 19) Сайт ITIL (Библиотека инфраструктуры информационных технологий), см. https://www.axelos.com/best-practice-solutions/itil 20) Стандарт COBIT 21) Концепция архитектуры "Открытой группы" (The Open Group Architecture Framework, TOGAF) версии 9.2, http://www.opengroup.org/togaf/ 22) Международный стандарт ИСО/МЭК 27000:2018 "Информационная технология. Методы и средства обеспечения безопасности. Системы менеджмента информационной безопасности. Общий обзор и терминология" (Information technology - Security techniques - Information security management systems - Overview and vocabulary), https://www.iso.org/standard/73906.html, свободно доступен по адресу https://standards.iso.org/ittf/PubliclyAvailableStandards/c073906_ISO_IEC_27000_2018_E.zip 1) |
------------------------------
1)В России стандарт адаптирован (в более ранней редакции) как ГОСТ Р ИСО/МЭК 27000-2072, см. http://protect.gost.ru/v.aspx?control=8&baseC=6&id=175549
------------------------------
По-видимому, в тексте предыдущего абзаца допущена опечатка. Вместо слов "ГОСТ Р ИСО/МЭК 27000-2072" следует читать "ГОСТ Р ИСО/МЭК 27000-2012"
А.2.2 Вариант использования N 6: Международная исследовательская сеть Mendeley
Название |
Международная исследовательская сеть Mendeley |
|
Предметная область |
Коммерческие облачные услуги для клиентов |
|
Автор/организация/эл. почта |
Уильям Ган (William Gunn)/Mendeley/william.gunn@mendeley.com |
|
Акторы/заинтересованные лица, их роли и ответственность |
Исследователи, библиотекари, издатели и финансирующие организации |
|
Цели |
Содействие более быстрому прогрессу в научных исследованиях, обеспечивая возможность исследователям эффективно сотрудничать, библиотекарям - понимать потребности исследователей, издателям - быстрее и шире распространять результаты исследований, а финансирующим организациям - лучше понимать воздействие финансируемых ими проектов |
|
Описание варианта использования |
Международная сеть "Менделей" (Mendeley) создала базу данных научно-исследовательских материалов, которая облегчает создание коллективно используемых библиографий. Менделей использует собранную информацию о закономерностях чтения материалов об исследованиях, а также о других видах деятельности, осуществляемых с помощью программного обеспечения, с целью создания более эффективных инструментов для поиска и анализа научной литературы. Системы интеллектуального анализа и классификации текста позволяют автоматически рекомендовать взаимосвязанные исследования, повышая производительность и экономическую эффективность исследовательских групп, в особенности тех, которые занимаются мониторингом литературы по конкретной теме, таких как группа "Информатика генома мышей" (Mouse Genome Informatics) в некоммерческом научно-исследовательском институте Jackson Laboratory, в которой большая группа специалистов занимается просмотром литературы "вручную". Другие варианты использования включают поддержку более быстрого распространения публикаций издателями, содействие научно-исследовательским учреждениям и библиотекарям в исполнении планов менеджмента данных, а также предоставление спонсорам возможности лучше понять воздействие финансируемой ими работы благодаря доступным в реальном времени данным о доступе и использовании финансируемых исследований |
|
Текущие решения |
Вычислительная система |
Amazon ЕС2 |
Хранилище данных |
HDFS Amazon S3 |
|
Сеть связи |
Клиент - серверные соединения между компьютерами Mendeley и конечных пользователей, соединения между офисами Mendeley и сервисами Amazon |
|
Программное обеспечение |
Hadoop, Scribe, Hive, Mahout, Python |
|
Характеристики больших данных |
Источник данных (распределенный/ централизованный) |
Распределенные и централизованные |
Объем (количество) |
В настоящее время 15 терабайт, с темпом прироста около 1 терабайта в месяц |
|
Скорость обработки (например, в реальном времени) |
В настоящее время пакетные задания Hadoop планируются раз в день, но началась работа над рекомендациями по выполнению работ в реальном времени |
|
Разнообразие (множество наборов данных, комбинация данных из различных источников) |
PDF-документы, лог-файлы социальной сети и активности клиентов |
|
Вариативность (темпы изменения) |
В настоящее время темпы роста высокие, поскольку все больше исследователей подписываются на данную услугу; темпы роста сильно колеблются в течение года |
|
Наука о больших данных (сбор, курирование, анализ, операции) |
Достоверность (вопросы надежности, семантика) |
Извлечение метаданных из PDF-файлов осуществляется в различной степени; выявление дубликатов является проблемой; нет универсальной системы идентификаторов для документов и авторов (хотя "Открытый идентификатор исследователя и участника" ORCID (Open Researcher and Contributor ID) обещает решить эту задачу) |
Визуализация |
Визуализация сети с использованием программного обеспечения Gephi, диаграммы рассеяния (scatterplots) в плоскости читательская аудитория - цитируемость, и т.д. |
|
Качество данных (синтаксис) |
На основе сопоставления со сведениями в базах данных Crossref, PubMed и arXiv, корректность извлечения метаданных оценивается в 90 % |
|
Типы данных |
В основном PDF-файлы, а также некоторое количество графических образов, электронных таблиц и презентаций |
|
Аналитика данных |
Стандартные библиотеки для проведения машинного обучения и аналитики, выполнения латентного размещения Дирихле (LDA), а также специально разработанные инструменты составления отчетности и визуализации данных для агрегирования сведений о читательской и социальной активности, связанной с каждым документом |
|
Иные проблемы больших данных |
База данных содержит примерно 400 миллионов документов, в том числе около 80 миллионов уникальных документов, принимая в рабочие дни от 500 до 700 тысяч новых загрузок. Таким образом, основная проблема заключается в группировке соответствующих друг другу документов вычислительно эффективным (т.е. масштабируемым и распараллеливаемым) способом, когда они загружаются из разных источников и могут быть слегка модифицированы инструментами аннотирования третьих сторон или же путем присоединения титульных страниц или наложения "водяных знаков" издателя |
|
Проблемы пользовательского интерфейса и мобильного доступа |
Доставка контента и услуг на различные вычислительные платформы, от настольных компьютеров под Windows до мобильных устройств под ОС Android и iOS |
|
Технические проблемы обеспечения безопасности и защиты персональных данных |
Исследователи, особенно отраслевые, часто хотят, чтобы сведения о том, что они читают, оставались конфиденциальными, поэтому доступ к данным о том, кто что читает, контролируется |
|
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры) |
Данный вариант использования может быть обобщен как предоставление основанных на контенте рекомендаций для различных сценариев потребления информации |
|
Дополнительная информация (гиперссылки) |
Сайт Mendeley, https://www.mendeley.com/ Портал Mendeley для разработчиков, https://dev.mendeley.com/ |
А.2.3 Вариант использования N 7: Сервис кинофильмов Netflix
Название |
Сервис кинофильмов Netflix |
|
Предметная область |
Коммерческие облачные услуги для клиентов |
|
Автор/организация/эл. почта |
Джоффри Фокс (Geoffrey Fox), университет штата Индиана (США), gcf@indiana.edu |
|
Акторы/заинтересованные лица, их роли и ответственность |
Компания Netflix (устойчивое развитие бизнеса), провайдер облачных услуг (поддержка потоковой передачи и анализа данных), пользователь-клиент (отбор и просмотр хороших фильмов по требованию) |
|
Цели |
Обеспечение потоковой передачи выбранных пользователем фильмов с целью достижения нескольких целей (в интересах различных заинтересованных сторон), - в первую очередь, с целью удержания подписчиков. Определение наилучшей возможной подборки видеоматериалов для пользователя (домохозяйства) в заданном контексте, в режиме реального времени; максимизация потребления фильмов |
|
Описание варианта использования |
Цифровые фильмы хранятся в облаке вместе с метаданными, а также с индивидуальными профилями пользователей и рейтингами для небольшой части фильмов. Используется несколько критериев: рекомендательная система на основе контента, рекомендательная система на основе данных пользователей и разнообразие. Алгоритмы постоянно совершенствуются с помощью А/В - тестирования |
|
Текущие решения |
Вычислительная система |
Amazon Web Services (AWS) |
Хранилище данных |
Используется технология Cassandra NoSQL вместе с Hive, Teradata |
|
Сеть связи |
Требуется система доставки контента для поддержки эффективного потокового видео |
|
Программное обеспечение |
Hadoop и Pig, Cassandra, Teradata |
|
Характеристики больших данных |
Источник данных (распределенный/ централизованный) |
Фильмы добавляются в сервис на основе соглашений с производителями контента. Распределенным образом собираются пользовательские рейтинги и профили |
Объем (количество) |
По состоянию на лето 2012 г.: 25 млн подписчиков; 4 млн оценок в день; 3 млн поисковых запросов в день; 1 млрд часов потокового видео в июне 2012 г. Объем облачного хранения 2 петабайта (июнь 2013 г.) |
|
Скорость обработки (например, в реальном времени) |
Контент (видео и характеристики) и рейтинги постоянно обновляются |
|
Разнообразие (множество наборов данных, комбинация данных из различных источников) |
Данные варьируются от цифровых мультимедийных материалов до пользовательских рейтингов, профилей пользователей и параметров мультимедиа, используемых для основанных на контенте рекомендаций |
|
Вариативность (темпы изменения) |
Потоковое видео - очень конкурентный бизнес. Необходимо знать о других компаниях, а также о тенденциях, связанных как с контентом (какие фильмы популярны), так и с технологиями. Нужно изучать новые деловые инициативы, такие, как спонсируемый Netflix контент |
|
Наука о больших данных (сбор, курирование, анализ, операции) |
Достоверность (вопросы надежности, семантика) |
Для успешности бизнеса требуется отличное качество обслуживания |
Визуализация |
Потоковое мультимедиа и качественный пользовательский опыт, позволяющий выбирать контент |
|
Качество данных (синтаксис) |
Рейтинги по своей природе являются "непричесанными" данными, и для их обработки требуются надежные и устойчивые алгоритмы обучения |
|
Типы данных |
Мультимедийный контент, профили пользователей, набор пользовательских рейтингов |
|
Аналитика данных |
Рекомендательные системы и доставка потокового видео. Рекомендательные системы всегда персонализированы и используют логистическую/ линейную регрессию, эластичные сети, факторизацию матриц, кластеризацию, латентное размещение Дирихле (LDA), ассоциативные правила, градиентный бустинг деревьев решений и другие инструменты. Победитель конкурса Netflix, в котором ставилась задача повышения рейтинга на 10 %, использовал комбинацию более 100 различных алгоритмов |
|
Иные проблемы больших данных |
Аналитика требует постоянного мониторинга и совершенствования |
|
Проблемы пользовательского интерфейса и мобильного доступа |
Мобильный доступ важен |
|
Технические проблемы обеспечения безопасности и защиты персональных данных |
Необходимо защитить неприкосновенность частной жизни пользователей и цифровые права на контент. |
|
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры) |
Рекомендательные системы имеют общие черты с системами электронной коммерции типа Amazon. Потоковое видео имеет общие черты с другими сервисами доставки контента, такими как iTunes, Google Play, Pandora и Last.fm |
|
Дополнительная информация (гиперссылки) |
Ксавьер Аматрян (Xavier Amatriain) "Создание реальных крупномасштабных рекомендательных систем - Обучающий курс Recsys - 2012" (Building Large - scale Real - world Recommender Systems - Recsys - 2012 Tutorial), конференция по рекомендательным системам 2012 г. Recsys-2012 в Дублине, Ирландия, https://www.slideshare.net/xamat/building-largescale-realworld-recommender-systems-recsys2012-tutorial "Алгоритм надежного выявления аномалий (Robust Anomaly Detection, RAD) - Выявление аномалий в больших данных" (RAD - Outlier Detection on big data), блог Netflix по техническим вопросам, https://netflixtechblog.com/rad-outlier-detection-on-big-data-d6b0494371cc |
А.2.4 Вариант использования N 8: Веб-поиск
Название |
Веб-поиск (Bing, Google, Yahoo и др.) |
|
Предметная область |
Коммерческие облачные услуги для клиентов |
|
Автор/организация/эл. почта |
Джоффри Фокс (Geoffrey Fox), университет штата Индиана (США), gcf@indiana.edu |
|
Акторы/заинтересованные лица, их роли и ответственность |
Владельцы выложенной в Интернете информации, по которой проводится поиск; компании - поставщики поисковых систем; рекламодатели; пользователи |
|
Цели |
Выдать примерно через |
|
Описание варианта использования |
1) Провести сканирование Интернета; 2) провести предварительную обработку данных с целью выделения элементов, по которым можно вести поиск (слова, позиции); 3) сформировать инвертированный индекс, связывающий слова с их местоположением в документах; 4) ранжирование документов по релевантности с использованием алгоритма PageRank; 5) использовать разнообразные рекламно-маркетинговые технологии, обратное проектирование определения моделей ранжирования либо блокирование обратного проектирования; 6) провести кластеризацию документов по темам (как в Google News); 7) обеспечить эффективное обновление результатов |
|
Текущие решения |
Вычислительная система |
Крупные облачные системы |
Хранилище данных |
Инвертированный индекс не является огромным; в то же время собранные в ходе сканирования Интернета материалы представляют собой петабайты текста, а мультимедийные материалы по объемам еще намного больше |
|
Сеть связи |
В плане сетевой инфраструктуры, необходимы отличные внешние сетевые соединения; большинство операций хорошо распараллеливаются и требовательны к скорости ввода/вывода (I/O sensitive). Высокая производительность внутренней сети не требуется |
|
Программное обеспечение |
Map/Reduce + Bigtable; Dryad + Cosmos. PageRank. Последний этап по сути представляет собой рекомендательную систему |
|
Характеристики больших данных |
Источник данных (распределенный/ централизованный) |
Распределенные веб-сайты |
Объем (количество) |
В общей сложности около 45 млрд веб-страниц; ежедневно загружается 500 млн фотографий; и ежеминутно на YouTube закачивается 100 часов видеоматериалов |
|
Скорость обработки (например, в реальном времени) |
Данные постоянно обновляются |
|
Разнообразие (множество наборов данных, комбинация данных из различных источников) |
Богатый набор функций. После обработки данные для каждой страницы (кроме мультимедийных объектов) аналогичны |
|
Вариативность (темпы изменения) |
В среднем срок существования веб-страницы составляет несколько месяцев |
|
Наука о больших данных (сбор, курирование, анализ, операции) |
Достоверность (вопросы надежности, семантика) |
Абсолютная точность результатов не является жизненно необходимой, однако важно, чтобы были найдены соответствующие поисковому запросу основные центры компетенций и авторитетные источники |
Визуализация |
Не важна, однако схема расположения выдаваемых результатов (page layout) имеет ключевое по важности значение |
|
Качество данных (синтаксис) |
Огромное количество дублирования и спама |
|
Типы данных |
В основном текст, но растет интерес к быстро растущим объемам графических образов и видеоконтента |
|
Аналитика данных |
Веб-сканирование, поиск (в том числе по тематике), ранжирование, рекомендации |
|
Иные проблемы больших данных |
Поиск по "глубинному интернету" (deep web-контент, не индексируемый стандартными поисковыми системами, скрытый за пользовательскими интерфейсами к базам данных и т.д.). Ранжирование результатов, способное учитывать как внутреннюю ценность материалов (как в алгоритме PageRank), так и ценность для маркетинга. Связывание профилей пользователей с данными из социальных сетей |
|
Проблемы пользовательского интерфейса и мобильного доступа |
Мобильный поиск должен иметь похожие интерфейсы и выдавать похожие результаты |
|
Технические проблемы обеспечения безопасности и защиты персональных данных |
Следует принимать во внимание ограничения на веб-сканирование; избегать спама в результатах поиска |
|
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры) |
Взаимосвязь с направлением поиска и извлечения информации (information retrieval), например с поиском научных работ |
|
Дополнительная информация (гиперссылки) |
Мэри Миикер (Mary Meeker) и Лиан By (Liang Wu) из фирмы Kleiner Perkins Caufield & Byers (KPCB), "Тенденции развития интернета" (Internet Trends - D11 Conference), 29 мая 2013 года, https://www.slideshare.net/betobetico/kpcb-internet-trends-2013-mary-meeker План учебного курса "Введение в технологию поисковых систем" (236621 Introduction to Search Engine Technology), Израильский технологический институт "Технион", 2011-2012, https://webcourse.cs.technion.ac.il/236621/Winter2011-2012/comp/WCFiles/syllabus3p-2011-12.pdf План учебного курса SS 2011 "Поиск и извлечение информации и системы поиска в интернете" (Information Retrieval and Web Search Engines) и Институте информационных систем Технического университета Брауншвейга, Германия, http://www.ifis.cs.tu-bs.de/teaching/ss-11/irws Дипак Агарваль (Deepak Agarwal) и Бичун Чень (Bee-Chung Chen), "Учебный курс ICMUL'1: Проблемы рекомендационных систем для веб-приложений. Часть 1: Введение" (ICML''11 Tutorial: Recommender Problems for Web Applications. Part 1: Introduction), Международная конференция по машинному обучению (International Conference on Machine Learning, ICML) 2011 года, https://www.slideshare.net/beechung/recommender-systems-tutorialpart1intro Сайт "Объем всемирной паутины" (The size of the World Wide Web (The Internet)), https://www.worldwidewebsize.com/ |
А.2.5 Вариант использования N 9: Обеспечение непрерывности деловой деятельности и восстановления после катастроф для больших данных в облачной экосистеме
Название |
Обеспечение непрерывности деловой деятельности и восстановления после катастроф по модели IaaS (инфраструктура как сервис) для больших данных в облачной экосистеме, осуществляемое провайдерами облачного сервиса (CSP) и провайдерами облачного брокерского сервера (CBSP) |
|
Предметная область |
Крупномасштабное надежное хранение данных |
|
Автор/организация/эл. почта |
П.Кэри (Pw Carey), Compliance Partners LLC, pwc.pwcarey@email.com |
|
Акторы/заинтересованные лица, их роли и ответственность |
Высшее руководство, хранители данных и сотрудники, ответственные за целостность, защиту, обеспечение неприкосновенности частной жизни, конфиденциальности, доступности, безопасности, защищенности и живучести деловой деятельности посредством обеспечения трех аспектов доступности данных для сервисов организации: в любое время, в любом месте и на любом устройстве |
|
Цели |
Ниже представлен один из подходов к разработке работоспособной стратегии обеспечения непрерывности деловой деятельности и восстановления после катастроф (ВС/DR). Прежде чем отдать данную стратегию организации на аутсорсинг, переложив ее на плечи провайдера облачного сервиса (CSP) или провайдера облачного брокерского сервера (CBSP), организация должна выполнить следующий комплекс работ, обеспечивающий любой организации, как государственной, так и частной, разработку базовой методологии для реализации наилучших практик BC/DR в рамках облачной экосистемы. Каждая организация должна рассмотреть десять сфер деятельности, поддерживающим обеспечение непрерывности деловой деятельности и восстановление после катастроф, с тем, чтобы понять и оценить то влияние, которое каждый из следующих четырех перекрывающихся и взаимозависимых факторов может оказать на обеспечении работоспособности решения по реализации BC/DR - плана организации. Этими четырьмя факторами являются люди (как ресурсы), процессы (например, время/затраты/возврат инвестиций (ROI)), технологии (например, различные операционные системы, платформы, а также зоны влияния/масштабы воздействия технологий) и стратегическое управление (зависит от многочисленных различных регулирующих органов). Данные четыре фактора должны быть выявлены, проанализированы, оценены, должны быть приняты соответствующие меры, проведены тестирование и анализ результатов. Данные факторы должны быть приняты во внимание на следующих десяти этапах: 1) инициирование проекта и получение поддержки со стороны руководства, 2) оценка рисков и выбор мер контроля и управления, 3) анализ влияния на деловую деятельность, 4) проектирование, разработка и тестирование стратегий обеспечения непрерывности деловой деятельности, 5) реагирование и деятельность в условиях чрезвычайных ситуаций (известное также как "Восстановление после катастроф"), 6) разработка и внедрение планов обеспечения непрерывности деловой деятельности, 7) программы ознакомления и обучения, 8) реализация мер по обеспечению непрерывности деловой деятельности (известное также как Maintaining Regulatory Currency - поддержание доверия со стороны регуляторов). 9) подготовка планов взаимодействия с общественностью (Public Relations, PR) и кризисного управления, 10) координация с государственными органами.
Примечание - Где это уместно, эти десять направлений деятельности могут быть адаптированы к потребностям организации |
|
Описание варианта использования |
Разработанная Google технология больших данных предназначались для использования в качестве инструмента индексирования веб-сайтов в Интернете, помогая компании сортировать, перемешивать, классифицировать и маркировать Интернет. Первоначально она не рассматривалась как замена для устаревших ИТ-инфраструктур данных. Благодаря побочным разработкам в рамках OpenGroup и Hadoop, большие данные превратились в надежный инструмент анализа и хранения данных, который все еще продолжает развиваться. В итоге, однако, технологии больших данных по-прежнему разрабатываются в качестве дополнения к существующим ИТ-архитектурам хранилищ данных типа клиент/сервер/суперкомпьютер, что в некоторых отношениях лучше, чем эти самые среды хранилищ данных, но не во всех. В результате, в рамках настоящего варианта использования, связанного с обеспечением непрерывности деловой деятельности и восстановления после катастроф, необходимо задать правильные вопросы, такие как: Почему мы это делаем и чего мы пытаемся достичь? В чем мы зависим от "ручных" практик, и когда мы можем их использовать? Какие системы (как, например, телефонная связь) были и остаются переданными на аутсорсинг другим организациям, и каковы их функции в плане обеспечения непрерывности деловой деятельности (если есть)? Наконец, мы должны определить функции, которые можно упростить, и понять, какие профилактические меры, не требующие больших затрат, мы можем предпринять, такие как упрощение деловой практики. Мы должны определить, какие деловые функции являются критически важными и требующими восстановления в соответствии с приоритетом в первую, вторую, третью очередь или в более позднее время; какова модель чрезвычайных ситуаций, с которыми мы намерены бороться; каковы типы наиболее вероятных чрезвычайных ситуаций - исходя из понимания того, что нам не нужно рассматривать все возможные виды катастроф. Если резервное копирование данных в облачной экосистеме является хорошим решением, это сократит время восстановления после сбоя и удовлетворит требования к RTO/RPO. Кроме того, должны быть понимание и поддержка усилий по обеспечению непрерывности деловой деятельности в организации, поскольку это не проблема одной лишь службы ИТ; это также проблема оказания деловых услуг; требующая тестирования Плана действий в случае чрезвычайных ситуаций посредством плановой пошаговой проработки и т.д. Должна быть формальная методология разработки плана BC/DR, включающая: 1) заявление о политике (цель плана, обоснование и ресурсы и т.д. - каждый такой элемент следует определить), 2) анализ воздействия на деловую деятельность (как остановка повлияет на деловую деятельность в финансовом и в иных отношениях), 3) определение превентивных мер (можно ли избежать катастрофы, приняв разумные меры предосторожности), 4) стратегии восстановления (как и что нужно будет восстановить), 5) разработка плана (напишите план и реализуйте его элементы), 6) обеспечение поддержки плана в организации и его тестирование (важно, чтобы все знали план и знали, что делать в случае введения его в действие), 7) актуализация (регулярное внесение изменений, отражающих текущее состояние корпоративной среды) |
|
Текущие решения |
Вычислительная система |
Облачные экосистемы, включающие предоставление инфраструктуры как сервиса (IaaS), поддерживаемые центрами обработки данных уровня Tier3 - защищенными, отказоустойчивыми в случае сбоев питания, отказов системы кондиционирования воздуха и т.д. Географически удаленные центры восстановления данных, обеспечивающие услуги репликации данных.
Примечание - Репликация отличается от резервного копирования тем, что воспроизводятся только те изменения, которые произошли после предыдущей репликации, включая изменения на уровне блоков. Репликация может быть выполнена быстро - в рамках пятисекундного "окна", при этом репликация данных может проводиться каждые четыре часа. Соответствующий "снимок" данных сохраняется в течение семи рабочих дней или дольше, если это необходимо. Реплицированные данные могут быть перемещены в запасной центр (т.е. в резервную систему) для удовлетворения требований организации в отношении заданной точка восстановления (recovery point objective, RPO) и заданного времени восстановления (recovery time objective, RTO) |
Хранилище данных |
VMware, NetApps, Oracle, IBM, Brocade |
|
Сеть связи |
Сети WAN, LAN, MAN, WiFi, доступ в Интернет, через публичные, частные, кооперативные и гибридные облачные среды, с VPN или без него |
|
Программное обеспечение |
Hadoop, Map/Reduce, Open-source и/или проприетарные решения поставщиков, таких как AWS (Amazon Web Services), Google Cloud Services и Microsoft |
|
Характеристики больших данных |
Источник данных (распределенный/ централизованный) |
Как распределенные, так и централизованные источники данных, поступающих в среду высокой доступности с обеспечением восстановления после катастроф (НА/DR Environment) и в хостинговый виртуальный сервер (HVS), например, в следующих конфигурациях: DC1 -> VMWare/KVM (кластеры, с виртуальными брандмауэрами), Data link - VMWare Link - Vmotion Link - Network Link, несколько мостовых соединений с поставщиком (РВ) в рамках NaaS (сеть как сервис), DC2 -> VMWare/KVM (кластеры с виртуальными брандмауэрами), DataLink (Vmware Link, Vmotion Link, Network Link), несколько мостовых соединений с поставщиком в рамках NaaS (требуется отказоустойчивая виртуализация) |
Объем (количество) |
От нескольких терабайт до нескольких петабайт |
|
Скорость обработки (например, в реальном времени) |
Центры обработки данных уровня Tier3 - защищенные, отказоустойчивые в случае сбоев питания, отказов системы кондиционирования воздуха и т.д. В данном случае инфраструктура как сервис (IaaS) предоставляется на основе NetApps. Репликация отличается от резервного копирования тем, что воспроизводятся только те изменения, которые произошли после предыдущей репликации, включая изменения на уровне блоков. Репликация может быть выполнена быстро - в рамках пятисекундного "окна", при этом репликация данных может проводиться каждые четыре часа. Соответствующий "снимок" данных сохраняется в течение семи рабочих дней или дольше, если это необходимо. Реплицированные данные могут быть перемещены в запасной центр для удовлетворения требований организации в отношении RPO/RTO |
|
Разнообразие (множество наборов данных, комбинация данных из различных источников) |
Различные виртуальные среды, работающие в рамках архитектуры пакетной обработки или параллельной архитектуры с "горячей" заменой (hot-swappable parallel architecture) |
|
Вариативность (темпы изменения) |
Капитальные затраты (СарЕх) увеличиваются в зависимости от соглашений об уровне обслуживания (SLA), от требований RTO/RPO и от потребностей деловой деятельности |
|
Наука о больших данных (сбор, курирование, анализ, операции) |
Достоверность (вопросы надежности, семантика) |
Целостность данных играет критически важную роль на протяжении всего жизненного цикла организации ввиду законодательно-нормативных требований стратегического управления, управления рисками и соблюдения требований (GRC) и конфиденциальности, целостности и доступности (CIA) |
Визуализация |
Целостность данных играет критически важную роль на протяжении всего жизненного цикла организации ввиду законодательно-нормативных требований стратегического управления, управления рисками и соблюдения требований (GRC) и конфиденциальности, целостности и доступности (CIA) |
|
Качество данных (синтаксис) |
Целостность данных играет критически важную роль на протяжении всего жизненного цикла организации ввиду законодательно-нормативных требований стратегического управления, управления рисками и соблюдения требований (GRC) и конфиденциальности, целостности и доступности (CIA) |
|
Типы данных |
Многочисленные типы данных и форматов включают (но не ограничиваются ими): плоские файлы, txt, .pdf, файлы приложений для Android, .wav, .jpg и VOIP (передача голоса с использованием протокола IP) |
|
Аналитика данных |
Данные должны поддерживаться в формате, неподверженном деградации во время обработки и процедур поиска и анализа |
|
Иные проблемы больших данных |
Сложные операции, связанные с переключением с основного сайта на сайт репликации или на резервный сайт, в настоящее время еще не полностью автоматизированы. Цель заключается в том, чтобы дать пользователю возможность автоматически инициировать последовательность действий по переходу на резервную систему. Перемещение размещенных в облаке данных требует четко определенного и подвергающегося постоянному мониторингу управления конфигурацией сервера. Кроме того, обе организации должны знать, какие серверы должны быть восстановлены, и каковы зависимости и взаимозависимости между серверами основного сайта и серверами репликации и/или резервного сайта. С этой целью необходим постоянный мониторинг обоих сайтов, поскольку в этом процессе задействованы два решения, имеющие дело либо с серверами, на которых хранятся образы, либо с постоянно работающими "боевыми" серверами, как это имеет место в параллельных системах с "горячей" заменой (hot-swappable parallel architecture), - и все это требует точной и актуальной информации от клиента |
|
Проблемы пользовательского интерфейса и мобильного доступа |
Обеспечение мобильного доступа - это постоянно растущий слой технической сложности, однако не все решения для обеспечения непрерывности деловой деятельности/восстановления после катастроф (BC/DR) носят технический характер. Есть две взаимосвязанные и взаимозависимые стороны, которые должны работать вместе над тем, чтобы найти работоспособное и жизнеспособное решение - это представители основной деловой деятельности и ИТ. Если обе эти стороны приходят к согласию, эти технические вопросы решаются в стратегии BC/DR, внедрение и поддержание которой обеспечивает вся организация. Один из вопросов, который не сводится к проблемам мобильности, касается фундаментальной проблемы, влияющей на большинство решений BC/DR. Если Ваши основные серверы (А, В, С) понимают X, Y, Z ..., но Ваши вторичные виртуальные серверы репликации/резерва (а, b, с) с течением времени не поддерживаются должным образом (не обеспечивается надлежащее управление конфигурацией) и происходит их рассинхронизация с основными серверами, так что они понимают только X и Y, - когда поступает команда на выполнение репликации или резервного копирования, то ... "Хьюстон, у нас проблемы ..." Обратите внимание: с течением времени все системы могут и будут страдать от ползучей потери синхронизации - и некоторые больше, чем другие, если они полагаются на ручные процессы для обеспечения стабильности системы |
|
Технические проблемы обеспечения безопасности и защиты персональных данных |
В зависимости от природы и требований отраслевых вертикалей, таких как финансовая деятельность, страхование и медико-биологические науки (Life Sciences), охватывающих как государственные, так и частные учреждения и организации; и от ограничений, налагаемых законодательно-нормативными требованиями стратегического управления, управления рисками и соблюдения требований (GRC) и конфиденциальности |
|
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры) |
В число проблем обеспечения непрерывности деловой деятельности/восстановления после катастроф (BC/DR) входят следующие: 1) Признание a) Видение менеджмента BC/DR b) Предполагается, что данная проблема является проблемой ИТ, когда на само деле это не так 2) Люди a) Степень укомплектованности персоналом - многие малые и средние предприятия недоукомплектованы ИТ-персоналом в сравнении с их текущей рабочей нагрузкой b) Видение (руководствуясь подходом сверху - вниз) - Способны ли деловые и ИТ-подразделения увидеть проблему в целом и выработать стратегию типа "Списка вызовов" для использования в случае чрезвычайной ситуации? c) Навыки - Есть ли специалисты, способные спроектировать, внедрить и протестировать BC/DR - решение? d) Время - Есть ли время у специалистов, и есть ли в деловой деятельности "окно" времени для создания и тестирования DR/BC решения, поскольку подобное решение является дополнительным проектом, на который требуется время и ресурсы? 3) Деньги Затраты можно перевести в категорию операционных расходов (ОрЕх), а не в капитальные затраты (СарЕх), варьируя требования RPO/RTO a) Капитал всегда является ограниченным ресурсом b) Решения ВС должны начинаться с вопросов "В чем риск?" и "Как затраты ограничивают решение?" 4) Нарушение привычного порядка Встроить BC/DR в стандартную "облачную" инфраструктуру (IaaS) малых и средних предприятий a) Планирование BC/DR "съедает" деловые ресурсы b) Тестирование ВС также нарушает обычный ход деловой деятельности |
|
Дополнительная информация (гиперссылки) |
1. Сайт независимой консультационной организации "Восстановление после катастроф" (DisasterRecovery.org), https://www.disasterrecovery.org/ 2. Вебинар компании dinCloud "Как пережить катастрофы, используя облако" (Surviving Disasters by Leveraging the Cloud), https://www.dincloud.com/webinars/surviving-disasters-by-leveraging-the-cloud 3. Комитет спонсорских организаций (COSO), см. https://www.coso.org/ 4. Сайт ITIL (Библиотека инфраструктуры информационных технологий), см. https://www.axelos.com/best-practice-solutions/itil 5. Стандарт COBIT 6. Концепция архитектуры "Открытой группы" (The Open Group Architecture Framework, TOGAF) версии 9.2, http://www.opengroup.org/togaf/ 7. Международный стандарт ИСО/МЭК 27000:2018 "Информационная технология. Методы и средства обеспечения безопасности. Системы менеджмента информационной безопасности. Общий обзор и терминология" (Information technology - Security techniques - Information security management systems - Overview and vocabulary), https://www.iso.org/standard/73906.html, свободно доступен по адресу https://standards.iso.org/ittf/PubliclyAvailableStandards/c073906_ISO_IEC_27000_2018_E.zip. В России стандарт адаптирован (в более ранней редакции) как ГОСТ Р ИСО/МЭК 27000-2012, см. http://protect.gost.ru/v.aspx?control=8&baseC=6&id=175549 8. Некоммерческая организация по надзору за отчетностью публичных компаний, США (РСАОВ), https://pcaobus.org/ |
А.2.6 Вариант использования N 10: Грузоперевозки
Название |
Грузоперевозки |
|
Предметная область |
Отрасль грузоперевозок |
|
Автор/организация/эл. почта |
Уильям Миллер (William Miller)/компания МаСТ USA/mact-usa@att.net |
|
Акторы/заинтересованные лица, их роли и ответственность |
Конечные пользователи (отправители/получатели). Лица, обслуживающие транспортные средства (грузовик/ корабль/ самолет). Операторы связи (сотовая связь/спутниковая связь). Грузоотправители (отправка и получение) |
|
Цели |
Хранение и анализ объектов ("вещей") в процессе перевозки |
|
Описание варианта использования |
В настоящем варианте использования дается общее представление о приложения "больших данных" для отрасли грузоперевозок, в которой работают такие компании, как FedEx, UPS, DHL и т.д. Отрасль грузоперевозок, вероятно, является самым крупным из широко распространенных сегодня потенциальных вариантов использования больших данных. Он охватывает идентификацию, транспортировку и обработку грузов ("вещей") в цепочке поставок. Идентификация груза начинается с отправителя, и используется получателями и всеми стоящими между ними посредниками, которым необходимо знать место и время прибытия транспортируемых грузов. Новым аспектом станут сведения о статусе и состоянии объекта, включая информацию с датчиков и получаемые от глобальной системы позиционирования (GPS) координаты, а также уникальная схема идентификации, основанная на международном стандарте ИСО/МЭК 29161:2016 "Информационные технологии. Структура данных. Уникальная идентификация для Интернета вещей", разработанном подкомитетом SC31 Объединенного технического комитета ИСО/МЭК СТК1. Данные обновляются в масштабе времени, близком к реальному, когда грузовик прибывает на склад или при доставке товара получателю. Промежуточные состояния в настоящее время неизвестны; данные о местоположении в реальном времени не обновляются; а товары, утерянные на складе или во время транспортировки, могут представлять собой потенциальную проблему для безопасности страны. Сведения хранятся в архиве и остаются доступными в течение хх дней |
|
Текущие решения |
Вычислительная система |
Неизвестно |
Хранилище данных |
Неизвестно |
|
Сеть связи |
LAN/T1/веб-страницы интернета |
|
Программное обеспечение |
Неизвестно |
|
Характеристики больших данных |
Источник данных (распределенный/ централизованный) |
В настоящее время - централизованный |
Объем (количество) |
Большой |
|
Скорость обработки (например, в реальном времени) |
В настоящее время система в реальном масштабе времени не работает |
|
Разнообразие (множество наборов данных, комбинация данных из различных источников) |
Данные обновляются, когда водитель прибывает на склад и загружает время и дату принятия груза. Это в настоящее время осуществляется не в режиме реального времени |
|
Вариативность (темпы изменения) |
Сейчас информация обновляется только после сканирования объектов с помощью сканера штрихкода, который отправляет данные на центральный сервер. В настоящее время местоположение объекта в реальном времени не отображается |
|
Наука о больших данных (сбор, курирование, анализ, операции) |
Достоверность (вопросы надежности, семантика) |
|
Визуализация |
Нет |
|
Качество данных (синтаксис) |
Да |
|
Типы данных |
Нет сведений |
|
Аналитика данных |
Да |
|
Иные проблемы больших данных |
Обеспечение более быстрой оценки идентичности, местоположения и состояния грузов, предоставление подробной аналитики и локализация проблем в системе в режиме реального времени |
|
Проблемы пользовательского интерфейса и мобильного доступа |
В настоящее время мониторинг условий на борту грузовиков, кораблей и самолетов не осуществляется |
|
Технические проблемы обеспечения безопасности и защиты персональных данных |
Безопасность должна быть более надежной |
|
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры) |
В данном варианте использования применяются локальные базы данных, а также существует требование синхронизации с центральным сервером. Эти операции в итоге будут распространены на мобильные устройства и бортовые системы, способные отслеживать местонахождение грузов и обеспечивать обновление информации в режиме реального времени, включая передачу сведений об условиях, протоколирование событий и рассылку оповещений лицам, которым соответствующая информация необходима |
|
Дополнительная информация (гиперссылки) |
|
А.2.7 Вариант использования N 11: Данные о материалах
Название |
Данные о материалах |
|
Предметная область |
Производство, исследования в области материаловедения |
|
Автор/организация/эл. почта |
Джон Рамбл (John Rumble)/компания R&R Data Services/jumbleusa@earthlink.net |
|
Акторы/заинтересованные лица, их роли и ответственность |
Разработчики продуктов (вводят данные о материалах в системы автоматизированного проектирования). Исследователи свойств материалов (производят данные о материалах; в некоторых случаях являются пользователями таких данных). Испытатели материалов (производят данные о материалах; разработчики стандартов). Распространители данных (поставщики доступа к данным материалам, часто на коммерческой основе) |
|
Цели |
Улучшить доступность, качество и удобство использования данных о материалах, а также преодолеть проприетарные барьеры для обмена такими данными. Создать достаточно крупные хранилища данных о материалах, способствующие поиску и раскрытию этой информации |
|
Описание варианта использования |
Каждый физический продукт изготовлен из материалов, которые были выбраны исходя из их свойств, стоимости и доступности. Каждый год принимаются связанные с выбором материалов решения на общие суммы, исчисляемые сотнями миллиардов долларов. Помимо того, как столь убедительно показала инициатива "Геном материала" (Materials Genome Initiative), внедрение новых материалов обычно занимает два-три десятилетия, а не несколько лет, отчасти из-за того, что сведения о новых материалах не являются легкодоступными. Все действующие лица в рамках жизненного цикла материалов сегодня имеют доступ к очень ограниченным объемам данных о материалах, что приводит к принятию неоптимальных, неэффективных и затратных решений, связанных с материалами. В то время, как в рамках инициативы "Геном материала" рассматривается один важный существенный аспект проблемы, а именно, базовые данные о материалах, необходимые для компьютерного проектирования и испытания материалов, - вопросы, связанные с физическими измерениями на физических материалах (от базовых структурных и термических свойств до сложных эксплуатационных свойств и свойства новых наноразмерных материалов) не рассматриваются систематически, широко (междисциплинарно и на международном уровне) или же эффективно (практически отсутствуют встречи по тематике данных о материалах, группы по разработке стандартов и целевые финансируемые программы). Одной из наиболее сложных проблем, которые способны решить методы "больших данных", является предсказание поведения и характеристик реальных материалов (в количествах от грамма до тонны), начиная с описаний на атомном, нано- и/или микрометровом уровнях. По перечисленным выше причинам решения об использовании материалов в настоящее время излишне консервативны, часто основываясь на более старых, а не на последних данных соответствующих исследований и разработок, и не используют достижения в области построения моделей и моделирования. Информатика материалов (materials informatics) - это та область, в которой новые инструменты науки о данных могут оказать существенное влияние |
|
Текущие решения |
Вычислительная система |
Нет |
Хранилище данных |
Широко рассеянное, существует множество препятствий для доступа |
|
Сеть связи |
Практически отсутствует |
|
Программное обеспечение |
Узкие подходы в рамках национальных программ (Япония, Южная Корея и Китай), прикладных программ (ядерная программа Евросоюза); проприетарные решения (Granta, и др.) |
|
Характеристики больших данных |
Источник данных (распределенный/ централизованный) |
Чрезвычайно сильно распределенный, при этом хранилища данных обеспечивают хранение сведений лишь об очень немногих базовых свойствах |
Объем (количество) |
Согласно оценке, сделанной в 1980-х годах, за последние пятьдесят лет появилось более 500 тыс. коммерческих материалов. В последние три десятилетия этот показатель значительно вырос |
|
Скорость обработки (например, в реальном времени) |
С течением времени растет количество материалов, спроектированных с использованием компьютерных средств и разработанных теоретически (примером являются наноматериалы) |
|
Разнообразие (множество наборов данных, комбинация данных из различных источников) |
Много наборов данных при практическом отсутствии стандартов, поддерживающих комбинирование этих данных |
|
Вариативность (темпы изменения) |
Материалы постоянно изменяются, и постоянно создаются новые данные, описывающие новые материалы |
|
Наука о больших данных (сбор, курирование, анализ, операции) |
Достоверность (вопросы надежности, семантика) |
Для точного описания более сложных свойств материалов может потребоваться множество (сотни?) независимых переменных. В настоящее время не предпринимается практически никаких усилий, направленных на выявление этих переменных и систематизацию сбора их значений с целью создания надежных наборов данных |
Визуализация |
Важна для отыскания подходящих материалов. Потенциально важна для понимания зависимости свойств материалов от множества независимых переменных. Практически остается без внимания |
|
Качество данных (синтаксис) |
За исключением базовых данных о структурных и тепловых свойствах качество данных является низким или непонятным. См. написанное Мунро (Munro) Руководство NIST по рекомендуемой практике |
|
Типы данных |
Числовая информация, графики, графические образы |
|
Аналитика данных |
Эмпирическая и узкая по сфере охвата |
|
Иные проблемы больших данных |
1) Создание хранилищ данных о материалах, помимо существующих, которые ориентированы на хранение лишь базовых данных. 2) Разработка международных стандартов регистрации данных, которые могут использоваться очень многообразным сообществом специалистов по материалам, включающим разработчиков стандартов испытаний материалов (таких, как ассоциация ASTM International и Международная организация по стандартизации ИСО), занимающиеся испытаниями материалов компании, производителей материалов, а также научно-исследовательские и опытно-конструкторские лаборатории. 3) Разработка инструментов и процедур, помогающих организациям, которым требуется депонировать в хранилищах данных сведения о проприетарных материалах, маскировать проприетарную информацию, сохраняя при этом пригодность данных к использованию. 4) Разработка многопараметрических инструментов визуализации данных о материалах, способных работать с достаточно большим количеством переменных |
|
Проблемы пользовательского интерфейса и мобильного доступа |
В настоящее время не являются существенными |
|
Технические проблемы обеспечения безопасности и защиты персональных данных |
По своей природе многие проприетарные данные являются весьма конфиденциальными и "чувствительными" |
|
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры) |
Разработка стандартов; создание крупномасштабных хранилищ данных; привлечение отраслевых пользователей; интеграция с системами автоматизированного проектирования (не стоит недооценивать сложность этой работы - специалисты в области материаловедения обычно не столь хорошо разбираются в компьютерах, как химики, специалисты по биоинформатике и инженеры) |
|
Дополнительная информация (гиперссылки) |
|
А.2.8 Вариант использования N 12: Геномика материалов на основе результатов моделирования
Название |
Геномика материалов на основе результатов моделирования |
|
Предметная область |
Научные исследования, материаловедение |
|
Автор/организация/эл. почта |
Дэвид Скиннер (David Skinner)/Национальная лаборатория имени Лоуренса в Беркли (LBNL), deskinner@lbl.gov |
|
Акторы/заинтересованные лица, их роли и ответственность |
Поставщики ресурсов В обязанности Национальных лабораторий и энергетических центров входит предоставление расширенных возможностей для работ по геномике материалов, с использованием в качестве инструментов вычислений и данных. Сообщество пользователей Министерство энергетики США, отраслевые и академические исследователи являются сообществом пользователей, ищущих ресурсы и возможности для быстрых инноваций в материалах |
|
Цели |
Ускорение разработки материалов с улучшенными свойствами с помощью проектов моделирования, управление которыми осуществляется с использованием искусственного интеллекта |
|
Описание варианта использования |
Осуществление инноваций в технологиях электрических батарей и аккумуляторов посредством масштабных проектов моделирования, охватывающих большое количество возможных проектных решений. Систематические вычислительные исследования с целью поиска возможностей для инноваций в фотовольтаике (фотоэлектрических технологиях). Рациональное проектирование материалов на основе поиска и моделирования |
|
Текущие решения |
Вычислительная система |
Суперкомпьютер Cray ХЕ6 "Hopper" (150 тысяч процессоров); аппаратные ресурсы для аналитики данных аналогичные тем, что используются "омиками" (omics - направлениями биологической науки, такими как геномика, протеомика, метаболомика и др.) |
Хранилище данных |
GPFS, MongoDB |
|
Сеть связи |
10 гигабит/с |
|
Программное обеспечение |
PyMatGen, FireWorks, VASP, ABINIT, NWChem, BerkeleyGW; различное ПО, разработанное сообществом |
|
Характеристики больших данных |
Источник данных (распределенный/ централизованный) |
Потоки данных поступают от проектов моделирования, выполняемых на централизованных пета/экзафлопсных вычислительных системах. Сильно распределенная сеть потоков данных от центрального шлюза до пользователей |
Объем (количество) |
100 терабайт (текущий), 500 терабайт через 5 лет. Требуются масштабируемые базы данных для данных типа "ключ-значение" и для библиотек объектов |
|
Скорость обработки (например, в реальном времени) |
Высокопроизводительные вычисления (НТС), детальное управление задачами и очередями. Быстрый старт/остановка для группы задач. Анализ данных в режиме реального времени для оперативного реагирования |
|
Разнообразие (множество наборов данных, комбинация данных из различных источников) |
Комбинирование результатов моделирования от разных программ и на различном теоретическом уровне. Форматирование, регистрация и интеграция наборов данных. Комбинирование данных, полученных при различных масштабах моделирования |
|
Вариативность (темпы изменения) |
Цели при проектировании материалов будут в большей степени поисковыми и ориентированными на потребности потребителей. Вычислительная база должна гибко адаптироваться к новым целям |
|
Наука о больших данных (сбор, курирование, анализ, операции) |
Достоверность (вопросы надежности, семантика) |
Проверка и оценка неопределенностей результатов моделирования путем сопоставления с экспериментальными данными различного качества. Проверка на наличие ошибок и оценка границ путем сопоставления разных результатов моделирования |
Визуализация |
Использование программ просмотра данных о материалах ввиду роста объемов, выдаваемых в ходе поиска данных. Визуальное проектирование материалов |
|
Качество данных (синтаксис) |
Количественная оценка неопределенности в результатах на основе нескольких наборов данных. Распространение ошибок в системах знаний |
|
Типы данных |
Пары ключ-значение, JSON, файловые форматы данных о материалах |
|
Аналитика данных |
Технологии Map/Reduce и поиска, позволяющие комбинировать данные моделирования и экспериментальные данные |
|
Иные проблемы больших данных |
Масштабное применение высокопроизводительных вычислений для выполнения проектов моделирования. Гибкие методы обработки данных в масштабе для неупорядоченных данных. Системы машинного обучения и управления знаниями, объединяющие данные из публикаций, результаты экспериментов и моделирования для развития направленного на результат мышления при проектировании материалов |
|
Проблемы пользовательского интерфейса и мобильного доступа |
Существует потенциал для широкого распространения практически применимых знаний в области материаловедения. Многие программные приложения геномики материалов могут быть перенесены на мобильную платформу |
|
Технические проблемы обеспечения безопасности и защиты персональных данных |
Возможность работать в изолированной зоне - "песочнице" или же создавать независимые рабочие зоны для заинтересованных в данных сторонах. Объединение наборов данных на основе политик |
|
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры) |
Проект Управления администрации президента США по вопросам науки и технической политики (Office of Science and Technology Policy, OSTP) по достижению более масштабных целей в области геномики материалов был опубликован в мае 2013 г. |
|
Дополнительная информация (гиперссылки) |
Сайт поддерживаемого Министерством энергетики США проекта "Материалы" (The Materials Project), https://www.materialsproject.org/ |
А.3 Оборона
А.3.1 Вариант использования N 13: Облачный крупномасштабный анализ и визуализация геопространственных данных
Название |
Облачный крупномасштабный анализ и визуализация геопространственных данных |
|
Предметная область |
Оборона (но вариант также применим во многих других областях) |
|
Автор/организация/эл. почта |
Дэвид Бойд (David Boyd)/компания Data Tactics/dboyd@data-tactics.com |
|
Акторы/заинтересованные лица, их роли и ответственность |
Аналитики геопространственных данных Принимающие решения лица Лица, определяющие политику |
|
Цели |
Поддержка крупномасштабного анализа и визуализации геопространственных данных |
|
Описание варианта использования |
По мере того, как увеличивается количество датчиков и источников данных с географической привязкой, объемы требующих сложного анализа и визуализации геопространственных данных увеличиваются в геометрической прогрессии. Традиционные географические информационные (геоинформационные) системы (ГИС) обычно способны анализировать миллионы и легко визуализируют тысячи объектов. Современные интеллектуальные системы часто содержат триллионы геопространственных объектов и должны быть способны визуализировать и взаимодействовать с миллионами объектов |
|
Текущие решения |
Вычислительная система |
Системы вычислений и хранения - от ноутбуков до больших серверов (см. примечание о кластерах). Системы визуализации - от карманных устройств до ноутбуков |
Хранилище данных |
Системы вычислений и хранения - локальный жесткий диск или сеть хранения данных (SAN). Системы визуализации - локальный жесткий диск, оперативная флеш-память |
|
Сеть связи |
Системы вычислений и хранения - гигабитное или более скоростное сетевое соединение по локальной сети. Системы визуализации - гигабитные беспроводные соединения, беспроводная связь включая WiFi (802.11), сотовую связь (3G/4G) и радиорелейную связь |
|
Программное обеспечение |
Системы вычислений и хранения - обычно Linux или Windows Server с реляционной СУБД с геопространственной поддержкой; геопространственный сервер/ программное обеспечение для анализа - ESRI ArcServer, Geoserver. Системы визуализации - Windows, Android, iOS - браузерная визуализация. На некоторых ноутбуках может быть установлена локальная версия ArcMap |
|
Характеристики больших данных |
Источник данных (распределенный/ централизованный) |
Сильно распределенный |
Объем (количество) |
Растровая графика - сотни терабайт; векторные данные - десятки гигабайт, но при этом миллиарды точек |
|
Скорость обработки (например, в реальном времени) |
Некоторые датчики передают векторные данные в масштабе времени, близком к реальному. Визуализация изменений должна быть в масштабе времени, близком к реальному |
|
Разнообразие (множество наборов данных, комбинация данных из различных источников) |
Растровые изображения (различные форматы: NITF, GeoTiff, CADRG). Векторная графика (различные форматы: формат Shapefile, язык разметки Keyhole (Keyhole Markup Language, KML) и текстовые потоки. Типы объектов включают точки, линии, области, ломаные линии (polylines), окружности и эллипсы) |
|
Вариативность (темпы изменения) |
От умеренной до высокой |
|
Наука о больших данных (сбор, курирование, анализ, операции) |
Достоверность (вопросы надежности, семантика) |
Точность данных имеет критически важное значение и обычно контролируется на основе трех факторов: 1) точность датчика - является большой проблемой, 2) датум (система геодезических координат)/сфероид (двухосного эллипсоид), 3) точность регистрации изображений |
Визуализация |
Отображение осмысленным образом больших наборов данных (миллионы точек) на небольших устройствах (карманных устройствах), являющихся оконечными точками сетей с низкой пропускной способностью |
|
Качество данных (синтаксис) |
Типичной проблемой является визуализация в том случае, когда отсутствуют сведения о качестве/точности первичных данных. Все данные должны включать метаданные, указывающие точность или круговое вероятное отклонение |
|
Типы данных |
Растровые изображения (различные форматы: NITF, GeoTiff, CADRG). Векторная графика (различные форматы: формат Shapefile, язык разметки Keyhole (Keyhole Markup Language, KML) и текстовые потоки. Типы объектов включают точки, линии, области, ломаные линии (polylines), окружности и эллипсы) |
|
Аналитика данных |
Ближайшая точка подхода, отклонение от маршрута, плотность точек во времени, метод главных компонентов (principal component analysis, РСА) и метод анализа независимых компонентов (independent component analysis, ICA) |
|
Иные проблемы больших данных |
Индексация, поиск/извлечение и распределенный анализ. Формирование и передача визуализации |
|
Проблемы пользовательского интерфейса и мобильного доступа |
Визуализация данных на устройствах, являющихся оконечными точками беспроводных сетей с низкой пропускной способностью |
|
Технические проблемы обеспечения безопасности и защиты персональных данных |
Данные являются чувствительными, и должна быть обеспечена их полная безопасность при передаче и при хранении (особенно на портативных/карманных устройствах) |
|
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры) |
Геопространственные данные требуют уникальных подходов к индексации и проведению распределенного анализа |
|
Дополнительная информация (гиперссылки) |
Применимые стандарты: - стандарты "Открытого геопространственного консорциума" (Open Geospatial Consortium, OGC), https://www.ogc.org/standards - спецификации формата GeoJSON, https://geojson.org/ - спецификации формата Compressed ARC Digitized Raster Graphics (CADRG), https://earth-info.nga.mil/publications/specs/printed/CADRG/cadrg.html Индексирование геопространственных данных: Quad-деревья; заполняющие пространство кривые (кривые Гильберта) - многочисленные источники можно найти в Интернете |
|
Примечание - В Министерстве обороны США проводилась определенная работа, связанная с этим набором проблем. В частности, стандартное облако (DSC, DCGS-A Standard Cloud) для унифицированной армейской наземной станции с распределенными терминалами (DCGS-A, Distributed Common Ground System - Army) хранит, индексирует и анализирует некоторые источники больших данных. Однако все еще остается много проблем с визуализацией. |
A.3.2 Вариант использования N 14: Идентификация и отслеживание объектов - Постоянное наблюдение
Название |
Идентификация и отслеживание объектов по данным WALF-формат видео с высоким разрешением (WALF) или FMV-формат высококачественного видео - Постоянное наблюдение |
|
Предметная область |
Оборона (разведка) |
|
Автор/организация/эл. почта |
Дэвид Бойд (David Boyd)/компания Data Tactics/dboyd@data-tactics.com |
|
Акторы/заинтересованные лица, их роли и ответственность |
1) Гражданские и военные лица, принимающие решения. 2) Специалисты по анализу разведданных. 3) Участники боевых действий |
|
Цели |
Способность обрабатывать первичные фото/видеоданные и выделять из них/отслеживать во времени объекты (транспортные средства, люди, грузы). В частности, идея заключается в том, чтобы редуцировать петабайты собранных в ходе непрерывного наблюдения данных к разумному размеру (например, векторным путям) |
|
Описание варианта использования |
Датчики постоянного наблюдения легко могут за считанные часы собирать петабайты фото- и видеоданных. Человек не способен обработать такие объемы данных в целях предупреждения о событиях или отслеживания. Обработка данных должна осуществляться рядом с датчиком, который, вероятно, развернут на передовой, поскольку объемы данных слишком велики для того, чтобы их можно было легко передать. Данные должны быть редуцированы к набору геопространственных объектов (например, точек, путей), которые можно легко интегрировать с другими данными для формирования общей оперативной картины |
|
Текущие решения |
Вычислительная система |
Различные, варьируются от простых устройств хранения, соединенных с датчиком, и простых средств отображения и хранения до систем, поддерживающих ограниченное выделение объектов. Типичные системы выделения объектов в настоящее время представляют собой небольшие (от 1 до 20 узлов) кластеры расширенных за счет использования графических процессоров (GPU) компьютерных систем |
Хранилище данных |
В настоящее время - плоские файлы, хранимые в большинстве случаев на жестком диске. Иногда индексы реляционных СУБД указывают на файлы или части файлов на основе метаданных/данных телеметрии |
|
Сеть связи |
Обмен информацией с датчиками, как правило, осуществляется или в пределах прямой видимости, или с использованием спутниковой связи |
|
Программное обеспечение |
Широкий спектр специализированного программного обеспечения и инструментов, включая, в том числе, традиционные реляционные СУБД и средства отображения |
|
Характеристики больших данных |
Источник данных (распределенный/ централизованный) |
В число передающих фото/видеоданные датчиков входят стационарные и установленные на летательных аппаратах оптические и инфракрасные датчики, а также радары с синтезированной апертурой (SAR) |
Объем (количество) |
FMV - от 30 до 60 кадров в секунду при полноцветном разрешении 1080 пикселей WALF - от 1 до 10 кадров в секунду при полноцветном разрешении 10 тысяч на 10 тысяч пикселей |
|
Скорость обработки (например, в реальном времени) |
В реальном времени |
|
Разнообразие (множество наборов данных, комбинация данных из различных источников) |
Данные обычно представлены в одном или нескольких стандартных форматах для графических изображений или видео |
|
Вариативность (темпы изменения) |
Небольшая |
|
Наука о больших данных (сбор, курирование, анализ, операции) |
Достоверность (вопросы надежности, семантика) |
Достоверность извлеченных объектов имеет жизненно важное значение. Если система дает сбой или генерирует ложные срабатывания, подвергаются риску жизни людей |
Визуализация |
Извлеченные результаты обычно визуализируются путем наложения на отображение геопространственных данных. Наложенные объекты должны отсылать к соответствующему сегменту исходного изображения/ видеопотока |
|
Качество данных (синтаксис) |
Качество данных, как правило, определяется сочетанием характеристик датчиков и погодных условий (маскирующим фактором является пыль/влажность, а фактором стабильности - ветер) |
|
Типы данных |
Исходные данные представлены в стандартных форматах для графических изображений и видео. Выходные данные должны быть в форме веб-функций, соответствующих стандартам "Открытого геопространственного консорциума" (Open Geospatial Consortium, OGC), либо в виде стандартных геопространственных файлов [Shapefile, язык разметки Keyhole (Keyhole Markup Language, KML)] |
|
Аналитика данных |
1) Идентификация объекта (тип, размер, цвет) и его отслеживание. 2) Анализ закономерностей поведения объекта (проходил ли сегодня днем грузовик, который ездит каждую среду после полудня, по иному маршруту; есть ли стандартный маршрут, которому каждый день следует конкретный человек). 3) Групповое поведение/динамика (есть ли небольшая группа, пытающаяся спровоцировать бунт; выделяется ли данный человек в толпе, ведет ли он себя не так, как все?) 4) Хозяйственная деятельность: a) Есть ли очередь в хлебном магазине, мясной лавке или за мороженым? b) Больше ли грузовиков движется с товарами на север, чем на юг? c) Увеличилась или уменьшилась на данном рынке активность лавок и/или их размер за последний год? 5) Объединение (слияние) данных |
|
Иные проблемы больших данных |
Обработка больших объемов данных почти в режиме реального времени (NRT) для поддержки оповещения о событиях и осведомленности о ситуации |
|
Проблемы пользовательского интерфейса и мобильного доступа |
Доставка данных с мобильного датчика на обработку |
|
Технические проблемы обеспечения безопасности и защиты персональных данных |
Значительные - нельзя допустить компрометацию источников данных и методов их обработки; враг не должен знать, что именно мы видим |
|
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры) |
Как правило, данный тип обработки хорошо вписывается в массово-параллельные вычисления, поддерживаемые, например, графическими процессорами. Типичной проблемой является интеграция этой обработки в более крупный кластер, способный параллельно обрабатывать данные от нескольких датчиков и в масштабе времени, близком к реальному. Передача данных с датчика в систему также является большой проблемой |
|
Дополнительная информация (гиперссылки) |
Стандарты по вопросам управления видеоматериалами: Страница Бюро стандартов управления видеоматериалами (Motion Imagery Standards Board, MISB) на сайте Национального агентства геопространственной разведки США (National Geospatial - Intelligence Agency, NGA), https://gwg.nga.mil/misb/index.html Некоторые из многочисленных статей по теме выделения/ отслеживания объектов: Erik Blasch, Haibin Ling, Yi Wu, Guna Seetharaman, Mike Talbert, Li Bai, Genshe Chen "Dismount Tracking and Identification from Electro-Optical Imagery", http://www.dabi.temple.edu/~hbling/publication/SPIE12_Dismount_Formatted_v2_BW.pdf Fang-Hsuan Cheng, Yu-Liang Chen "Real time multiple objects tracking and identification based on discrete wavelet transform", https://www.sciencedirect.com/science/article/abs/pii/S0031320305004863 Статьи о потребностях общего характера: John Keller "Persistent surveillance relies on extracting relevant data points and connecting the dots", 2012, https://www.militaryaerospace.com/computers/article/16719589/persistent-surveillance-relies-on-extracting-relevant-data-points-and-connecting-the-dots "Wide Area Persistent Surveillance Revolutionizes Tactical ISR", by Lexington institute, 2012, https://www.defencetalk.com/wide-area-persistent-surveillance-revolutionizes-tactical-isr-45745/ |
А.3.3 Вариант использования N 15: Обработка и анализ разведывательных данных
Название |
Обработка и анализ разведывательных данных |
|
Предметная область |
Оборона (разведка) |
|
Автор/организация/эл. почта |
Дэвид Бойд (David Boyd)/компания Data Tactics/dboyd@data-tactics.com |
|
Акторы/заинтересованные лица, их роли и ответственность |
Высшее гражданское и военное руководство. Полевые командиры. Специалисты по анализу разведданных. Участники боевых действий |
|
Цели |
1) Выдача автоматических оповещений аналитикам, участникам боевых действий, командирам и высшему руководству на основе поступающих разведданных. 2) Предоставление аналитикам разведанных возможностей для выявления по этим данным: a) взаимосвязей между объектами (например, людьми, организациями, местами, оборудованием), b) тенденции в настроениях или намерениях как населения в целом, так и групп лидеров, таких как государственные деятели и представители негосударственных структур, c) определить место и, по возможности, время проведения враждебных действий, включая установку самодельных взрывных устройств, d) отслеживать местоположение и действия (потенциально) враждебных действующих лиц. 3) Способность осмысливать и извлекать знания из многообразных, разрозненных и часто неструктурированных (например, текстовых) источников данных. 4) Способность обрабатывать данные вблизи точки сбора и обеспечивать легкий обмен данными с/между отдельными солдатами, подразделениями, отрядами передового базирования и высшим руководством гарнизонов |
|
Описание варианта использования |
1) Ввод/прием данных от широкого спектра датчиков и источников, принадлежащих к различным направлениям разведывательной деятельности, таким, как сбор и анализ изображений, полученных фотографической, оптико-электронной или радиолокационной аппаратурой (imagery intelligence, IMINT), разведка физических полей (measurement and signatures intelligence, MASINT), геопространственная разведка (geospatial intelligence, GEOINT), сбор информации людьми и от людей (human intelligence, HUMINT), радиоэлектронная разведка (signals intelligence, SIGINT), разведка на основе открытых источников (open source intelligence, OSINT) и т.д. 2) Обработка, преобразование или согласование данных из различных источников в разных форматах в единое пространство данных с целью поддержки: а) поиска; b) осмысления; с) сопоставления. 3) Оповещение пользователей о существенных изменениях в состоянии контролируемых объектов или о существенной активности в определенной области. 4) Обеспечение связи с периферией для участников боевых действий (в этом случае понятие периферии будет охватывать даже отдельного солдата в пешем патруле) |
|
Текущие решения |
Вычислительная система |
Стационарные и мобильные вычислительные кластеры с количеством узлов в диапазоне от 10 до 1000 |
Хранилище данных |
От десятков терабайт до сотен петабайт в случае периферийных и стационарных кластеров. У пехотинцев, как правило, имеется от одного до сотен гигабайт данных (обычно на портативном/ карманном устройстве с объемом памяти менее 10 гигабайт) |
|
Сеть связи |
Сеть связи внутри и между стационарными гарнизонами является надежной. Связь с передним краем ограничена и часто отличается большими задержками и потерей пакетов. Дистанционная связь может быть спутниковой (с большой задержкой) или даже ограничена радиосвязью на линии прямой видимости |
|
Программное обеспечение |
Основными в настоящее время являются: 1) Hadoop 2) Accumulo (с системой хранения данных BigTable) 3) Solr 4) NLP (несколько вариантов) 5) Puppet (управление жизненным циклом ИТ, обеспечение безопасности) 6) Storm 7) Специализированные приложения и инструменты визуализации |
|
Характеристики больших данных |
Источник данных (распределенный/ централизованный) |
Сильно распределенный |
Объем (количество) |
Некоторые передающие графические изображения/видео (IMINT) датчики способны генерировать более петабайта данных в течение нескольких часов. Другие данные столь же малы, как результаты нечастых срабатываний датчиков или текстовые сообщения |
|
Скорость обработки (например, в реальном времени) |
Большая часть данных с датчиков поступает в реальном времени (полнокадровое видео, данные радиоэлектронной разведки), остальные - в режиме "менее реального" времени. Критически важным аспектом является возможность принимать, обрабатывать и распространять оповещения в масштабе времени, близком к реальному |
|
Разнообразие (множество наборов данных, комбинация данных из различных источников) |
Все, что угодно, включая текстовые файлы, первичные данные с датчиков (raw media), графические образы, видео, аудио, электронные данные и данные, созданные человеком |
|
Вариативность (темпы изменения) |
Хотя форматы интерфейсов с датчиками имеют тенденцию быть стабильными, большинство других данных не контролируется, и они могут быть в любом формате. Большая часть данных не структурирована |
|
Наука о больших данных (сбор, курирование, анализ, операции) |
Достоверность (вопросы надежности, семантика) |
Происхождение данных (включая, например, отслеживание всех передач и преобразований) должно контролироваться в течение жизненного цикла данных. Установление достоверности "мягких" источников данных (как правило, данных, созданных человеком) является критически важным требованием |
Визуализация |
Основными видами визуализации будут наложения на геопространственную картину и сетевые графики (network diagrams). Данные могут включать миллионы точек на карте и тысячи узлов на сетевом графике |
|
Качество данных (синтаксис) |
Качество генерируемых датчиком обычно известное (качество изображения, соотношение сигнал/шум) и хорошее. Качество неструктурированных или "захваченных" данных существенно варьируется и зачастую не поддается контролю |
|
Типы данных |
Графические изображения, видео, текст, электронные документы всех типов, аудио, цифровые сигналы |
|
Аналитика данных |
1) Оповещения в масштабе времени, близком к реальному, основанные на закономерностях и изменениях основных параметров, 2) Анализ взаимосвязей, 3) Геопространственный анализ, 4) Аналитика текстов (определение настроений, выделение сущностей и т.д.) |
|
Иные проблемы больших данных |
1) Передача больших данных (или даже данных умеренного размера) по тактическим сетям. 2) Данные, которые в настоящее время существуют в разрозненных хранилищах, должны быть доступны через семантически интегрированное пространство данных. 3) Большинство ключевых по важности данных либо являются неструктурированными, либо хранятся в виде графических образов или видеоматериалов, что требует значительной обработки для выделения объектов и извлечения информации |
|
Проблемы пользовательского интерфейса и мобильного доступа |
Результаты этого анализа и информация должны передаваться или быть доступными для пехотинцев передовых отрядов |
|
Технические проблемы обеспечения безопасности и защиты персональных данных |
Имеют первостепенную важность. Данные должны быть защищены от: 1) несанкционированного доступа или раскрытия, 2) несанкционированного вмешательства |
|
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры) |
Широкий спектр типов, источников, структур данных различного качества будет охватывать рад предметных областей и требует интегрированного поиска и анализа |
|
Дополнительная информация (гиперссылки) |
Чарльз Уэллс (Col. Charles A. Wells) "Обзор программы унифицированной армейской наземной станции с распределенными терминалами" (DCGS-A, Distributed Common Ground System - Army Program Overview), 2012, http://aberdeen.afceachapter.org/files/presentations/AFCEAAberdeen_DCGSA_COLWells_PS.pdf Barry Smith, Tatiana Malyuta, William S. Mandrick, Chia Fu, Kesny Parent, Milan Patel "Horizontal Integration of Warfighter Intelligence Data-A Shared Semantic Resource for the Intelligence Community", 2012, http://stids.c4i.gmu.edu/papers/STIDSPapers/STIDS2012_T14_SmithEtAI_HorizontallntegrationOfWarfighterlntel.pdf Salmen David, Malyuta Tatiana, Hansen Alan, Cronen Shaun, Smith Barry "lntegration of Intelligence Data through Semantic Enhancement", 2011, http://stids.c4i.gmu.edu/STIDS2011/papers/STIDS2011_CR_T1_SalmenEtAl.pdf |
А.4 Здравоохранение и медико-биологические науки
А.4.1 Вариант использования N 16: Электронная медицинская карта (EMR)
Название |
Электронная медицинская карта (EMR) |
|
Предметная область |
Здравоохранение |
|
Автор/организация/эл. почта |
Шон Грэнис (Shaun Grannis)/Университет Индианы, США/sgrannis@regenstrief.org |
|
Акторы/заинтересованные лица, их роли и ответственность |
Ученые-исследователи в области биомедицинской информатики (внедряют и оценивают усовершенствованные методы для бесшовной интеграции, стандартизации, анализа и практического использования сильно неоднородных, высокообъемных потоков клинических данных); Исследователи в службах здравоохранения (используют интегрированные и стандартизированные данные электронной медицинской документации для получения знаний, поддерживающих внедрение и оценку трансляционных (ориентированных на практическое использование), сопоставительных (comparative effectiveness), ориентированных на интересы пациента исследований результатов деятельности систем здравоохранения); Поставщики медицинских услуг - врачи, медсестры, сотрудники государственных органов здравоохранения (используют информацию и знания, извлеченные из интегрированных и стандартизированных данных электронной медицинской документации, для поддержки непосредственного ухода за пациентами и обеспечения здоровья населения) |
|
Цели |
Применение развитых методов для стандартизации выделения понятий (concept identification), связанных с пациентом, поставщиком, учреждением и клинической деятельностью, осуществляемого внутри отдельных организаций сферы здравоохранения и между ними, с целью развития моделей, используемых для определения и извлечения клинических фенотипов (проявлений болезни) из нестандартных, дискретных и представленных в виде свободного текста клинических данных с использованием методов выделения признаков, извлечения информации и моделей принятия решений на основе машинного обучения. Данные клинического фенотипа должны быть использованы для поддержки отбора пациентов в группы (cohort selection), изучения результатов лечения и поддержки принятия клинических решений |
|
Описание варианта использования |
По мере того, как системы здравоохранения все в большей степени собирают и потребляют данные электронной медицинской документации, появляются крупные национальные инициативы, направленные на эффективное использование таких данных. В их числе разработка электронной медицинской системы с использованием технологий машинного обучения, поддерживающей принятие клинических решений, все больше основанных на фактических данных, посредством предоставления своевременной, точной и актуальной клинической информации, ориентированной на пациента; использование электронных данных клинических наблюдений для эффективного и быстрого преобразования научных открытий в эффективные клинические методы лечения; и электронный обмен интегрированными данными о здоровье в интересах повышения эффективности и результативности процесса оказания медицинских услуг. Все эти ключевые инициативы опираются на высококачественные, крупномасштабные, стандартизированные и агрегированные данные о здоровье. Несмотря на надежды и обещания, связанные с все более распространенными и вездесущими данными электронной медицинской документации, существует потребность, по целому ряду причин, в развитых методах для интеграции и рационализации этих данных. Данные в клинических системах с течением времени эволюционируют. Это связано с тем, что концептуальное пространство в здравоохранении постоянно развивается: новые научные открытия приводят к выделению новых заболеваний, появлению новых методов диагностики и новых подходов к лечению заболеваний. Это, в свою очередь, приводит к появлению новых клинических понятий, которые являются движущей силой эволюции онтологии для понятий в сфере здравоохранения. Используя неоднородные данные инфраструктуры клинических данных по уходу за пациентами штата Индиана, США (INPC), крупнейшей и старейшей в США системы обмена медицинской информацией, хранящей свыше 4 млрд дискретных закодированных клинических наблюдений данных из более чем 100 больниц для более чем 12 млн пациентов, мы будем использовать методы извлечения информации для выявления высокорелевантных клинических признаков из электронных данных наблюдений. Для извлечения клинических признаков мы будем использовать методы извлечения информации и обработки естественного языка. Проверенные признаки будут использоваться для параметризации моделей принятия решений по клиническим фенотипам на основе метода оценки максимального правдоподобия и Байесовских сетей. Используя эти модели принятия решений, мы намерены выявить ряд клинических фенотипов, таких как диабет, хроническая сердечная недостаточность и рак поджелудочной железы |
|
Текущие решения |
Вычислительная система |
Новый суперкомпьютер Cray "Big Red II" в Университете Индианы |
Хранилище данных |
Teradata, PostgreSQL, MongoDB |
|
Сеть связи |
Разное. Требуется интенсивная обработка ввода/вывода. |
|
Программное обеспечение |
Hadoop, Hive, R. На основе Unix |
|
Характеристики больших данных |
Источник данных (распределенный/ централизованный) |
Клинические данные из более чем 1100 отдельных оперативных медицинских источников в составе инфраструктуры клинических данных по уходу за пациентами штата Индиана, США (INPC), которая является крупнейшей и старейшей в США системой обмена медицинской информацией |
Объем (количество) |
Свыше 12 млн пациентов, более 4 млрд отдельных клинических наблюдений, более 20 терабайт первичных данных |
|
Скорость обработки (например, в реальном времени) |
Ежедневно добавляется от 500 тыс. до 1,5 млн новых клинических транзакций в режиме реального времени |
|
Разнообразие (множество наборов данных, комбинация данных из различных источников) |
Мы интегрируем широкий спектр клинических наборов данных из ряда источников: записи поставщиков медицинских услуг в виде свободного текста; сведения о лечении в стационаре, амбулаторном лечении, о лечении в отделении интенсивной терапии, о лабораторных исследованиях; данные хромосомной и молекулярной патологии, химических анализов, кардиологических, гематологических, микробиологических и неврологических исследований, записи поставщиков медицинских услуг, данные специализированных лабораторий (referral labs), серологических исследований, хирургической патологии и цитологии, банков крови и токсикологических исследований |
|
Вариативность (темпы изменения) |
Данные в клинических системах с течением времени эволюционируют, потому что клиническое и биологическое концептуальные пространства постоянно развиваются: новые научные открытия приводят к выделению новых заболеваний, появлению новых методов диагностики и новых подходов к лечению заболеваний. Это, в свою очередь, приводит к появлению новых клинических понятий, которые являются движущей силой эволюции онтологии для понятий в сфере здравоохранения, которые кодируются самыми разнообразными способами |
|
Наука о больших данных (сбор, курирование, анализ, операции) |
Достоверность (вопросы надежности, семантика) |
Данные каждого клинического источника обычно собираются с использованием отличающихся методов и представлений, что приводит к существенной неоднородности. Это приводит к систематическим ошибкам и отклонениям, требующих применения надежных методов обеспечения семантической совместимости |
Визуализация |
Объем, точность и полнота входящих данных должны контролироваться на регулярной основе с использованием нацеленных на это методов визуализации. Внутренне присущие информационные характеристики источников данных должны визуализироваться для выявления неожиданных тенденций |
|
Качество данных (синтаксис) |
Главным препятствием для эффективного использования данных электронной медицинской документации являются сильно различающиеся и уникальные местные названия и коды для одного и того же клинического теста или измерения при выполнении их в разных учреждениях. При интеграции многочисленных источников данных необходимо проводить сопоставление локальных терминов с общей стандартизированной концепцией, с применением, при необходимости, комбинации вероятностных и эвристических методов классификации |
|
Типы данных |
Типы клинических данных весьма разнообразны, включая числовые и структурированные числовые данные, тексты в свободном формате, структурированные тексты, дискретные номинальные данные, дискретные порядковые данные, дискретные структурированные данные, большие двоичные объекты (изображения и видео) |
|
Аналитика данных |
Методы извлечения информации с целью выявления соответствующих клинических признаков (статистическая мера TF-IDF, латентно-семантический анализ и статистическая функция "взаимная информация" (mutual information)). Методы обработки естественного языка (natural language processing, NLP) для извлечения релевантных клинических признаков. Проверенные признаки будут использоваться для параметризации моделей принятия решений по клиническим фенотипам на основе метода оценки максимального правдоподобия и Байесовских сетей. Модели принятия решений будут использоваться для выявления ряда клинических фенотипов, таких как диабет, хроническая сердечная недостаточность и рак поджелудочной железы |
|
Иные проблемы больших данных |
Устранение систематических ошибок и отклонений в крупномасштабных неоднородных клинических данных в интересах поддержки принятия решений в отношении проведения исследований, ухода за пациентами и в сфере административного управления требует сложной многоэтапной обработки и аналитики, для чего необходимы значительные вычислительные мощности. Кроме того, появляются оптимальные методы для точного и эффективного вывода знаний из данных клинических наблюдений |
|
Проблемы пользовательского интерфейса и мобильного доступа |
В рамках всей экосистемы здравоохранения в целом биологические и клинические данные требуются в различных контекстах. Эффективной доставке клинических данных и знаний в рамках экосистемы здравоохранения будет способствовать мобильная платформа, такая как mHealth |
|
Технические проблемы обеспечения безопасности и защиты персональных данных |
Неприкосновенность частной жизни и конфиденциальность данных физических лиц должны быть обеспечены в соответствии с требованиями федерального законодательства и законодательства штатов, в том числе Закона США о переносимости и подотчетности медицинского страхования (Health Insurance Portability and Accountability Act, HIPAA) 1996 г. Разработка аналитических моделей с использованием всесторонних интегрированных клинических данных требует агрегирования и последующей деидентификации (обезличивания) перед применением методов сложной аналитики |
|
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры) |
Пациенты все чаще получают медицинские услуги в различных местах. Как следствие, данные электронной медицинской документации оказываются фрагментированными и неоднородными. Для того, чтобы реализовать идею самообучающейся медицинской системы (Learning Health Care system), которую продвигает Национальная академия наук и Институт медицины США, данные электронной медицинской документации должны быть рационализированы и интегрированы. Методы, которые мы предлагаем в этом варианте использования, поддерживают интеграцию и рационализацию клинических данных в интересах поддержки принятия решений на различных уровнях |
|
Дополнительная информация (гиперссылки) |
Сайт Института Регенстриф (Regenstrief Institute), https://www.regenstrief.org/ Сайт программного обеспечения LOINC (Logical observation identifiers names and codes - "Логичные идентификаторы, имена и коды наблюдений"), https://loinc.org/ Сайт Центра обмена медицинской информацией Индианы (Indiana Health Information Exchange), https://www.ihie.org/ "Самообучающаяся медицинская система. Итоги семинара" (The Learning Healthcare System - Workshop Summary), Круглый стол Института доказательной медицины (медицины, основывающейся на фактах) (IOM roundtable on evidencebased medicine), 2007 год, 375 стр., https://www.nap.edu/catalog/11903/the-learning-healthcare-system-workshop-summary (возможно бесплатное скачивание) |
А.4.2 Вариант использования N 17: Анализ графических образов в патологии/Цифровая патология
Название |
Анализ графических образов в патологии/Цифровая патология |
|
Предметная область |
Здравоохранение |
|
Автор/организация/эл. почта |
Ван Фушен (Fusheng Wang)/Университет Эмори (Emory University)/fusheng.wang@emory.edu |
|
Акторы/заинтересованные лица, их роли и ответственность |
Исследователи в сфере биомедицины, занимающиеся трансляционными исследованиями; врачи больниц, занимающиеся диагностикой на основе изображений |
|
Цели |
Разработка высокоэффективных алгоритмов анализа изображений для извлечения из них пространственной информации; поддержка эффективных пространственных запросов и аналитики, а также кластеризации и классификации признаков |
|
Описание варианта использования |
Анализ цифровых графических образов в патологии (digital pathology imaging) является нарождающейся областью, в которой изучение сделанных с высоким разрешением изображений образцов тканей позволяет создавать новые и более эффективные способы диагностики заболеваний. В рамках патологического анализа изображений выделяется огромное (миллионы на изображение) количество пространственных объектов, таких как ядра клеток и кровеносные сосуды, представленные их границами, наряду со многими извлеченными по изображению признаками этих объектов. Полученная информация используется для многих сложных запросов и аналитики, поддерживающих биомедицинские исследования и клиническую диагностику. Недавно стал возможен патологический анализ трехмерных изображений, на основе использования трехмерных лазерных технологий либо последовательного размещения сотен срезов тканей на предметные стекла и их сканирования в цифровые изображения. Выделение трехмерных гистологических объектов на основе серий зафиксированных изображений может породить десятки миллионов трехмерных объектов по одному трехмерному изображению. В результате формируется глубокая "карта" тканей человека для использования в методах диагностики следующего поколения |
|
Текущие решения |
Вычислительная система |
Суперкомпьютеры; облако |
Хранилище данных |
SAN или HDFS |
|
Сеть связи |
Требуется отличное внешнее сетевое соединение |
|
Программное обеспечение |
MPI для анализа изображений; Map/Reduce + Hive с пространственным расширением |
|
Характеристики больших данных |
Источник данных (распределенный/ централизованный) |
Оцифрованные графические образы образцов человеческих тканей для целей патологического анализа |
Объем (количество) |
1 гигабайт первичных данных + 1,5 гигабайта аналитических результатов на двумерное изображение; 1 терабайт первичных данных + 1 терабайт аналитических результатов на трехмерное изображение. 1 петабайт данных в год в средней больнице |
|
Скорость обработки (например, в реальном времени) |
После создания данные не подвергаются изменениям |
|
Разнообразие (множество наборов данных, комбинация данных из различных источников) |
Характеристики изображений и виды аналитики зависят от типа заболевания |
|
Вариативность (темпы изменения) |
Изменений нет |
|
Наука о больших данных (сбор, курирование, анализ, операции) |
Достоверность (вопросы надежности, семантика) |
Важнейшее значение имеет высокое качество результатов, подтвержденное сделанными человеком аннотациями |
Визуализация |
Необходима для проверки и обучения |
|
Качество данных (синтаксис) |
Зависит от предварительной обработки предметных стекол, такой, как химическое окрашивание, и от качества алгоритмов анализа изображений |
|
Типы данных |
Первичные изображения представляют собой полные графические образы предметных стекол (в основном на основе BIGTIFF), а аналитические результаты представляют собой структурированные данные (пространственные границы и признаки) |
|
Аналитика данных |
Анализ изображений, пространственные запросы и аналитика, кластеризация и классификация признаков |
|
Иные проблемы больших данных |
Экстремально большие объемы; многомерность; аналитика является специфической для конкретных заболеваний; корреляция с данными других типов (клинические данные, данные "омиков" (omics) - таких направлений биологической науки, как геномика, протеомика, метаболомика и др.) |
|
Проблемы пользовательского интерфейса и мобильного доступа |
Трехмерная визуализация трехмерных патологических изображений маловероятна на мобильных платформах |
|
Технические проблемы обеспечения безопасности и защиты персональных данных |
Следует обеспечить защиту защищаемой информации о здоровье (protected health information); общедоступные данные должны быть деидентифицированы |
|
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры) |
Данные графических изображений; многомерная пространственная аналитика данных |
|
Дополнительная информация (гиперссылки) |
"Digital Pathology: Data-Intensive Frontier in Medical Imaging", Proceedings of the IEEE, Volume 100, Number 4, 2012, https://open.library.emory.edu/publications/emory:tzzn8/ Fusheng Wang et al. "A data model and database for high-resolution pathology analytical image informatics", J.Pathol.Inform., 2011; 2:32, https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3153692/ Fusheng Wang "Hadoop-GIS: A high performance query system for analytical medical imaging with MapReduce", 2011, https://www.researchgate.net/publication/291559237_Hadoop-gis_A_high_performance_query_system_for_ analytical_medical_imaging_with_mapreduce Ablimit Aji, Fusheng Wang, Hoang Vo, Rubao Lee, Qiaoling Liu, Xiaodong Zhang, Joel Saltz "Hadoop-GIS: A High Performance Spatial Data Warehousing System over MapReduce", Proceedings of the VLDB Endowment, Volume 6, Number 11, 2013, https://open.library.emory.edu/publications/emory:v0fvn/ |
А.4.3 Вариант использования N 18: Вычислительный анализ биоизображений
Название |
Вычислительный анализ биоизображений (Computational Bioimaging) |
|
Предметная область |
Научные исследования, биология |
|
Автор/организация/эл. почта |
Дэвид Скиннер (David Skinner), deskinner@lbl.gov, и Хоакин Корреа (Joaquin Correa), JoaquinCorrea@lbl.gov, - оба из Национального научно-исследовательского вычислительного центра энергетических исследований Министерства энергетики США (NERSC) при Национальной лаборатории имени Лоуренса в Беркли, США (LBNL), Дэниэла Ушидзима (Daniela Ushizima), dushizima@lbl.gov, и Йорг Мейер (Joerg Meyer), joergmeyer@lbl.gov, оба из Отделения вычислительных исследований (Computational Research Division) Национальной лаборатории имени Лоуренса в Беркли, США |
|
Акторы/заинтересованные лица, их роли и ответственность |
Поставщики возможностей и ресурсов: операторы оборудования для работы с биоизображениями, разработчики микроскопов, организации и подразделения по обработке графических образов, специалисты в области прикладной математики и кураторы данных. Сообщество пользователей: Министерство энергетики США, представители теоретической и отраслевой науки, стремящиеся совместными усилиями создавать модели на основе данных, содержащихся в графических образах |
|
Цели |
Данные биоизображений все более автоматизировано создаются с более высоким разрешением и являются более мультимодальными. В результате возникает узкое место в анализе данных, устранение которого может способствовать новым открытиям в биологических науках посредством применения технологий больших данных. Цель заключается в том, чтобы устранить данное узкое место с помощью экстремально масштабных вычислений. Достижение этой цели потребует не только вычислений. Потребуется создать сообщества вокруг ресурсов данных и разработать продвинутые алгоритмы для массового анализа изображений. Высокопроизводительные вычислительные решения могут использоваться ориентированными на эти сообщества научными шлюзами с целью направлять применение массового анализа данных к огромным наборам данных, полученных из изображений. Компоненты потока рабочих процессов включают сбор, хранение, улучшение качества данных, минимизацию шума, сегментацию представляющих интерес областей, групповой отбор и извлечение признаков, классификацию объектов, а также организацию и поиск |
|
Описание варианта использования |
Интернет-точка обслуживания по принципу одного окна, обеспечивающая высокопроизводительную, с высокой пропускной способностью обработку изображений в интересах создателей и потребителей моделей, построенных на основе данных биоизображений |
|
Текущие решения |
Вычислительная система |
Суперкомпьютер Hopper (150 тысяч процессоров) в Национальном научно-исследовательском вычислительном центре энергетических исследований Министерства энергетики США (NERSC) |
Хранилище данных |
База данных и коллекции изображений |
|
Сеть связи |
10 гигабит/с, желательны 100 гигабит/с и расширенные сетевые возможности (программно-конфигурируемая сеть [передачи данных] SDN) |
|
Программное обеспечение |
ImageJ, OMERO, VolRover, разработанные прикладными математиками продвинутые методы сегментации и выявления признаков |
|
Характеристики больших данных |
Источник данных (распределенный/ централизованный) |
Распределенные экспериментальные источники биоизображений (приборы). Запланированные потоки большого объема от автоматизированных оптических и электронных микроскопов высокого разрешения |
Объем (количество) |
Объемы данных растут очень быстро. Необходимы масштабируемые базы данных для данных типа "ключ-значение" и для библиотек объектов. Является актуальной обработка данных и аналитика непосредственно в базах данных. Проект в настоящее время работает с 50 терабайтами, однако в целом объем таких данных превышает петабайт. Объем данных в результате одного сканирования на появляющихся установках составляет 32 терабайта |
|
Скорость обработки (например, в реальном времени) |
Высокопроизводительные вычисления (high throughput computing, НТС), гибкий анализ |
|
Разнообразие (множество наборов данных, комбинация данных из различных источников) |
Мультимодальный сбор и анализ изображений (multimodal imaging), по сути, должен обеспечить комбинирование поступающих по разрозненным каналам данных, с акцентом на регистрацию и форматы наборов данных |
|
Вариативность (темпы изменения) |
Биологические образцы сильно различаются, и рабочие процессы их анализа должны с этим справляться |
|
Наука о больших данных (сбор, курирование, анализ, операции) |
Достоверность (вопросы надежности, семантика) |
Данные в целом неупорядоченные, как и обучение классификаторов |
Визуализация |
Очень интенсивно используются трехмерные структурные модели |
|
Качество данных (синтаксис) |
|
|
Типы данных |
Файловые форматы изображений |
|
Аналитика данных |
Машинное обучение (метод опорных векторов (Support Vector Machine, SVM) и алгоритм "случайный лес" (random forest, RF) для сервисов классификации и рекомендательных сервисов |
|
Иные проблемы больших данных |
Масштабные высокопроизводительные вычисления для программ моделирования. Гибкие методы массовой обработки неупорядоченных данных. Системы машинного обучения и знаний, которые извлекают из данных растровой графики информацию, связанную с биологическими объектами и моделями |
|
Проблемы пользовательского интерфейса и мобильного доступа |
|
|
Технические проблемы обеспечения безопасности и защиты персональных данных |
|
|
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры) |
Существует потенциал для обобщения концепций поиска в контексте обработки биоизображений |
|
Дополнительная информация (гиперссылки) |
|
А.4.4 Вариант использования N 19: Геномные измерения
Название |
Геномные измерения |
|
Предметная область |
Здравоохранение |
|
Автор/организация/эл. почта |
Джастин Зук (Justin Zook)/Национальный институт стандартов и технологий (NIST)/jzook@nist.gov |
|
Акторы/заинтересованные лица, их роли и ответственность |
Поддерживаемое американским Национальным институтом стандартов и технологий (NIST) государственно - частно-академическое партнерство "Консорциум "Геном в бутылке"" (Genome in a Bottle Consortium, https://www.nist.gov/programs-projects/genome-bottle) |
|
Цели |
Разработка надежных и хорошо изученных эталонных материалов, данных и методов, необходимых для оценки эффективности секвенирования генома |
|
Описание варианта использования |
Объединение данных, полученных в результате применения различных технологий и методов секвенирования с целью создания высоконадежных описаний полных геномов человека в качестве эталонных материалов; а также разработка методов использования этих эталонных материалов для оценки эффективности алгоритмов секвенирования генома |
|
Текущие решения |
Вычислительная система |
72-ядерный кластер нашей группы в NIST, взаимодействие с |
Хранилище данных |
Около 40 терабайт в файловой системе NFS в NIST, петабайты геномных данных в Национальных учреждениях здравоохранения (NIH)/Национальном центре биотехнологической информации (NCBI) |
|
Сеть связи |
Разное. Требуется интенсивная обработка ввода/вывода |
|
Программное обеспечение |
Программное обеспечение с открытым исходным кодом для секвенирования в биоинформатике, разработанное академическими группами (на основе UNIX) |
|
Характеристики больших данных |
Источник данных (распределенный/ централизованный) |
Секвенсоры распределены по многим лабораториям, хотя существует ряд ключевых центров |
Объем (количество) |
40-терабайтная файловая система NFS в NIST заполнена. В течение года-двух в NIST потребуется > 100 терабайт. Сообществу здравоохранения в целом потребуется много петабайт для хранения данных |
|
Скорость обработки (например, в реальном времени) |
Секвенсоры ДНК способны генерировать порядка |
|
Разнообразие (множество наборов данных, комбинация данных из различных источников) |
Файловые форматы недостаточно хорошо стандартизированы, хотя некоторые стандарты существуют. Как правило, структурированные данные |
|
Вариативность (темпы изменения) |
Технологии секвенирования развиваются очень быстро, и новые технологии уже появились на горизонте |
|
Наука о больших данных (сбор, курирование, анализ, операции) |
Достоверность (вопросы надежности, семантика) |
У всех технологий секвенирования имеются значительные систематические ошибки и погрешности, для выявления которых требуются сложные методы анализа и совместное применение ряда технологий, часто с использованием машинного обучения |
Визуализация |
Для визуализации обработанных данных были разработаны "браузеры генома" |
|
Качество данных (синтаксис) |
У технологий секвенирования и методов биоинформатики имеются значительные систематические ошибки и погрешности |
|
Типы данных |
В основном, структурированный текст |
|
Аналитика данных |
Обработка первичных данных с целью выделения вариаций (variant calls), а также клиническая интерпретация вариаций, которая в настоящее время является серьезной проблемой |
|
Иные проблемы больших данных |
Обработка данных требует значительных вычислительных мощностей, что создает проблемы - особенно для клинических лабораторий, по мере того они начинают проводить широкомасштабное секвенирование. Долговременное хранение данных клинического секвенирования может быть дорогостоящим. Методы анализа быстро эволюционируют. Многие части генома сложно анализировать, а систематические ошибки трудно выявлять |
|
Проблемы пользовательского интерфейса и мобильного доступа |
Врачам может понадобиться доступ к геномным данным на мобильных платформах |
|
Технические проблемы обеспечения безопасности и защиты персональных данных |
Необходимо обеспечить безопасность и защиту неприкосновенности частной жизни в отношении данных секвенирования, хранимых в составе медицинской документации или в базах данных клинических исследований. В то же время данные Консорциума являются общедоступными |
|
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры) |
У нас есть ряд идей по обобщению описанных выше работ по секвенированию генома в медицине; однако основное внимание мы уделяем работе в рамках деятельности NIST/Консорциума "Геном в бутылке". В настоящее время наша лаборатории занимается секвенированием разного масштаба, от малого до очень большого. В будущем в состав данных могут входить результаты измерений, сделанных в рамках других направлений биологической науки - "омиков" (omics, например, геномика), объем которых будет даже больше, чем объемы результатов секвенирования ДНК |
|
Дополнительная информация (гиперссылки) |
Сайт Консорциума "Геном в бутылке" (Genome in a Bottle Consortium), https://www.nist.gov/programs-projects/genome-bottle |
А.4.5 Вариант использования N 20: Сравнительный анализ (мета) геномов
Название |
Сравнительный анализ метагеномов и геномов |
|
Предметная область |
Научные исследования, геномика |
|
Автор/организация/эл. почта |
Эрнест Сзето (Ernest Szeto)/Национальная лаборатория имени Лоуренса в Беркли, США (LBNL), eszeto@lbl.gov |
|
Акторы/заинтересованные лица, их роли и ответственность |
Проект "Интегрированные микробные геномы" (IMG) Объединенного института генома (JGI) Министерства энергетики США; руководители Виктор Маркович (Victor М. Markowitz) и Никос Кипридес (Nikos С. Kyrpides). Сообщество пользователей JGI, биологи и специалисты по биоинформатике различных стран |
|
Цели |
Создание интегрированной системы сравнительного анализа метагеномов и геномов. Сюда входит разработка интерактивного пользовательского веб-интерфейса к основным данным, предварительные вычисления на сервере (backend precomputations) и отправка пакетных заданий из пользовательского интерфейса |
|
Описание варианта использования |
Для метагеномных образцов: (1) Определить состав изучаемой колонии/сообщества с точки зрения присутствия других эталонных изолированных геномов; (2) Охарактеризовать функции его генов; (3) Начать выявление возможных функциональных путей (functional pathways); (4) Охарактеризовать сходство или различие по сравнению с другими метагеномными образцами; (5) Начать характеризацию изменений в составе и функциях сообщества в связи с изменениями воздействием факторов окружающей среды; (6) Выделить подразделы данных на основе показателей качества и состава сообщества |
|
Текущие решения |
Вычислительная система |
Linux-кластер, сервер реляционной СУБД Oracle, большие системы хранения данных, стандартные интерактивные хосты Linux |
Хранилище данных |
Реляционная СУБД Oracle, файлы SQLite, плоские текстовые файлы, Lucy (версия Lucene) для поиска по ключевым словам, базы данных BLAST, базы данных USEARCH |
|
Сеть связи |
Обеспечивается Национальным научно-исследовательским вычислительным центром энергетических исследований Министерства энергетики США (NERSC) |
|
Программное обеспечение |
Стандартные инструменты биоинформатики (BLAST, HMMER, инструменты множественного выравнивания последовательностей и филогенетики, программы поиска/предсказания генов и генных структур (gene callers), программы предсказания свойств по результатам секвенирования (sequence feature predictors) и т.д.), скрипты Perl/Python, планировщик задач Linux-кластера |
|
Характеристики больших данных |
Источник данных (распределенный/ централизованный) |
Централизованный |
Объем (количество) |
50 терабайт |
|
Скорость обработки (например, в реальном времени) |
Веб-интерфейс пользователя должен быть интерактивным в реальном времени. Возможности обработки загружаемых данных на сервере должны соответствовать экспоненциальному росту объемов данных секвенирования из-за быстрого снижения стоимости технологии секвенирования |
|
Разнообразие (множество наборов данных, комбинация данных из различных источников) |
Биологические данные по своей природе неоднородны, сложны, структурны и иерархичны - начинается с последовательностей, за которыми следуют свойства последовательностей, таких как гены, мотивы, регуляторные области; далее следует организация находящихся по соседству генов (опероны); и так вплоть до белков и их структурных особенностей; координации и экспрессии генов в путях. Помимо базовых геномных данных, в систему сравнительного анализа должны быть включены новые типы данных таких направлений биологической науки - "омиков" (omics), как транскриптомика, метиломика (methylomics) и протеомика, описывающих экспрессии генов в различных условиях |
|
Вариативность (темпы изменения) |
Размеры метагеномных образцов могут варьироваться на несколько порядков величины - от нескольких сотен тысяч до миллиарда генов (как, например, в сложном образце почвы) |
|
Наука о больших данных (сбор, курирование, анализ, операции) |
Достоверность (вопросы надежности, семантика) |
Методы отбора и анализа метагеномных проб в настоящее время являются предварительными и экспериментальными. Процедуры оценки набора сильно фрагментированных данных первичных измерений проработаны лучше, но все еще остаются открытой областью исследований |
Визуализация |
Проблемой остается быстрота интерактивного пользовательского веб-интерфейса при работе с очень большими наборами данных. Пользовательский веб-интерфейс, судя по всему, по-прежнему является предпочтительным для большинства биологов. Он используется для базовых запросов и просмотра данных. Из него могут быть запущены более специализированные инструменты, например, для просмотра множественных выравниваний. Еще одним требованием к системе является возможность загружать большие объемы данных для анализа в автономном (offline) режиме |
|
Качество данных (синтаксис) |
Улучшение качества метагеномной "сборки" (metagenomic assembly) по-прежнему является ключевой проблемой. Улучшение качества эталонных изолированных геномов, с точки зрения как охвата филогенетического дерева, так и улучшенного поиска/предсказания генов и генных структур и функциональной аннотации - более зрелый процесс, который, однако, постоянно продолжается |
|
Типы данных |
См. выше раздел "Разнообразие" |
|
Аналитика данных |
Описательная статистика, статистическая значимость при проверке гипотез, выявление новых взаимосвязей, кластеризация и классификация данных являются стандартными элементами аналитики. Менее "количественная" часть включает в себя возможность визуализации структурных элементов на разных уровнях разрешения. Редукция данных, устранение избыточности посредством кластеризации, более абстрактные представления, такие как представление группы очень похожих геномов в виде пангенома, - все это стратегии, предназначенные как для управления данными, так и для аналитики |
|
Иные проблемы больших данных |
Главным другом и союзником в деле управления неоднородными биологическими данными по-прежнему является реляционная СУБД. К сожалению, она не масштабируется на ныне имеющиеся объемы данных. Решения класса NoSQL (СУБД, существенно отличающиеся от традиционных реляционных) должны были обеспечить альтернативу, но, к сожалению, они не всегда пригодны для интерактивного использования в реальном времени или же для быстрой параллельной массовой загрузки; и иногда у них возникают проблемы с надежностью. Наш текущий подход в настоящее время является нестандартным, специфическим для нашей ситуации, и мы опираемся главным образом на Linux - кластер и файловую систему в качестве дополнения к реляционной СУБД Oracle. Наше решение часто полагается на знание особенностей данных, что позволяет нам разрабатывать схемы горизонтального секционирования, а также осуществлять, когда это уместно, реорганизацию данных |
|
Проблемы пользовательского интерфейса и мобильного доступа |
Каких-то особых проблем нет. Требуется лишь доступ в интернет |
|
Технические проблемы обеспечения безопасности и защиты персональных данных |
Каких-то особых проблем нет. Данные либо являются общедоступными, либо для доступа к ним требуются обычные логин и пароль |
|
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры) |
Для всех принесло бы пользу появление альтернативы реляционным СУБД в сфере больших данных. Многие решения типа NoSQL пытаются выполнить эту роль, однако у них есть свои ограничения |
|
Дополнительная информация (гиперссылки) |
Страница проекта "Интегрированные микробные геномы и микробиомы" (Integrated Microbial Genomes and Microbioms, IMG/M) на сайте Объединенного института генома (JGI), https://img.jgi.doe.gov/ |
А.4.6 Вариант использования N 21: Индивидуальное управление лечением диабета
Название |
Индивидуальное управление лечением диабета |
|
Предметная область |
Здравоохранение |
|
Автор/организация/эл. почта |
Питер Ли (Peter Li), Йин Дин (Ying Ding), Филип Юи (Philip Yu), Джоффри Фокс (Geoffrey Fox), Дэвид Уальд (David Wild)/Клиника Мейо (Мауо Clinic), университет Индианы (IU), университет Иллинойса в Чикаго (UIC)/dingying@indiana.edu |
|
Акторы/заинтересованные лица, их роли и ответственность |
Клиника Мейо + университет Индианы - семантическая интеграция данных из электронных медицинских документов. Университет Иллинойса в Чикаго - интеллектуальный анализ семантических данных из электронных медицинских документов. Университет Индианы - облачные и параллельные вычисления |
|
Цели |
Разработка передовых методов интеллектуального анализа данных, представленных в виде графов, и их применение в отношении электронной медицинской документации, с целью выявления демографических когорт и извлечения из электронных медицинских документов соответствующих данных для оценки результатов лечения. Эти методы расширят границы масштабируемости и технологий интеллектуального анализа данных; будут способствовать развитию знаний и практики в этих областях, а также клиническому управлению лечением сложных заболеваний |
|
Описание варианта использования |
Диабет - это болезнь, которая становится все более распространенной среди населения Земли, затрагивая как развивающиеся, так и развитые страны. Современные стратегии управления лечением не учитывают должным образом индивидуальные профили пациентов, в том числе наличие сопутствующих заболеваний и прием соответствующих лекарств - обычное явление у пациентов с хроническими заболеваниями. Мы предлагаем устранить этот недостаток путем выявления похожих пациентов из большой базы данных электронной медицинской документации (т.е. путем формирования индивидуализированной демографической когорты), и оценки результатов их лечения с тем, чтобы выбрать наилучшее решение, подходящее для конкретного больного диабетом. Ниже описаны этапы выполнения проекта: Этап 1: Применение "метода семантического связывания для значений свойств" (Semantic Linking for Property Values) для преобразования данных из хранилищ данных в Клинике Мейо, США (EDT), в триплеты RDF, что дает нам возможность гораздо эффективнее выявлять похожих пациентов за счет связывания как словарных, так и числовых значений. Этап 2: Требуются эффективные параллельные алгоритмы поиска и извлечения, подходящие для облачных и/или высокопроизводительных вычислений. Нереляционная СУБД Hbase с открытым исходным кодом используется для поиска по индексу и настраиваемого поиска с целью выявления потенциально представляющих интерес пациентов. Этап 3: Данные из электронных медицинских документов, представленные в виде RDF-графа, предоставляют собой богатую среду для интеллектуального анализа закономерностей в графе. Требуются новые алгоритмы распределенного интеллектуального анализа графов с целью выполнения анализа закономерностей и применения метода индексации графов в интересах поиска закономерностей в графах на основе триплетов RDF. Этап 4: Учитывая размер и сложность графов, интеллектуальный анализ закономерностей в подграфах может сгенерировать множество ложноположительных и ложноотрицательных результатов. Требуются надежные инструменты статистического анализа для контроля частоты ложных срабатываний, определения истинной значимости подграфа и проверки результатов в рамках нескольких клинических вариантов использования |
|
Текущие решения |
Вычислительная система |
Суперкомпьютеры, облако |
Хранилище данных |
Распределенная файловая система HDFS (Hadoop distributed file system) |
|
Сеть связи |
Разное. Требуется интенсивная обработка ввода/вывода |
|
Программное обеспечение |
Внутреннее хранилище данных в Клинике Мейо, США (EDT) |
|
Характеристики больших данных |
Источник данных (распределенный/ централизованный) |
Распределенные данные электронной медицинской документации |
Объем (количество) |
База данных электронных медицинских документов Клини Мейо (Clinic Mayo) представляет собой очень большой набор данных, охватывающий более 5 млн пациентов с тысячами свойств по каждому, и многие другие сведения, полученные из первичных данных |
|
Скорость обработки (например, в реальном времени) |
Не в режиме реального времени, но данные периодически обновляются |
|
Разнообразие (множество наборов данных, комбинация данных из различных источников) |
Структурированные данные. Значения свойств пациента могут быть как из контролируемых словарей (демография, диагностические коды, лекарства, процедуры и т.д.), так и непрерывные числовые величины (лабораторные анализы, количество лекарств, показатели жизненно важных функций и т.д.). Число значений свойств может варьироваться от менее 100 (новый пациент) до более чем 100 тысяч (длительно наблюдаемый пациент), при этом типичным для пациента является около 100 значений свойств из контролируемых словарей и 1000 непрерывных числовых величин. Большинство значений привязаны ко времени, т.е. отметка времени фиксируется вместе со значением в момент наблюдения |
|
Вариативность (темпы изменения) |
Данные обновляются или добавляются при каждом визите пациента |
|
Наука о больших данных (сбор, курирование, анализ, операции) |
Достоверность (вопросы надежности, семантика) |
Данные аннотируются на основе онтологии или таксономии предметной области. Семантика данных может варьироваться от лаборатории к лаборатории |
Визуализация |
Отсутствует |
|
Качество данных (синтаксис) |
Сведения о происхождение (provenance) имеют важное значение для отслеживания происхождения данных и оценки их качества |
|
Типы данных |
Текстовые данные, непрерывные числовые величины |
|
Аналитика данных |
Интеграция данных в семантический граф, использование обхода графа взамен операции join в SQL. Разработка алгоритмов интеллектуального анализа семантических графов с целью выявления закономерностей в графе, индексирования графа и поиска по нему. СУБД Hbase с индексированием. Специализированная программа для выявления новых свойств пациента на основе хранящихся данных |
|
Иные проблемы больших данных |
В рамках индивидуализированной демографической когорты, мы по существу создадим информационное табло (datamart) для каждого пациента, поскольку важнейшие свойства и показатели будут индивидуальными для каждого пациента. Из-за количества пациентов создание таких табло в индивидуальном порядке становится непрактичным. По сути, парадигма меняется от поиска строки - столбца в таблицах реляционной базы данных на обход семантического графа |
|
Проблемы пользовательского интерфейса и мобильного доступа |
Врачам и пациентам может понадобиться доступ к этим данным на мобильных платформах |
|
Технические проблемы обеспечения безопасности и защиты персональных данных |
Должны быть обеспечены безопасность и защита персональных данных в медицинских документах и клинических базах данных |
|
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры) |
Интеграция данных: непрерывные числовые величины, онтологическая аннотация, таксономия. Поиск по графу: индексирование графа и поиск по нему. Валидация: статистическая валидация |
|
Дополнительная информация (гиперссылки) |
|
А.4.7 Вариант использования N 22: Статистический реляционный искусственный интеллект для здравоохранения
Название |
Статистический реляционный искусственный интеллект для здравоохранения |
|
Предметная область |
Здравоохранение |
|
Автор/организация/эл. почта |
Шрирам Натараджан (Sriraam Natarajan)/Университет Индианы (Indiana University)/natarasr@indiana.edu |
|
Акторы/заинтересованные лица, их роли и ответственность |
Исследователи в области информатики и медицины, практики в области медицины |
|
Цели |
Целью проекта является анализ больших, мультимодальных данных длительного наблюдения (longitudinal data). Анализ различных типов, таких, как изображения, электронные данные (карта) здоровья (EHR), генетические данные и данные на естественном языке, требует богатых средств представления (rich representation). В рамках данного подхода используются реляционные вероятностные модели, способные работать с богатыми реляционными данными и моделирующие неопределенности на основе теории вероятности. Программное обеспечение обучает модели на основе ряда типов данных, и, возможно, сможет интегрировать информацию и логические рассуждения о сложных запросах |
|
Описание варианта использования |
Пользователи могут представить набор сведений, например образы магнитно-резонансной томографии (МРТ) и демографические данные о конкретном субъекте. Затем они могут сделать запрос о начале конкретного заболевания (например, болезни Альцгеймера), и система выдаст распределение вероятностей для возможного возникновения этого заболевания |
|
Текущие решения |
Вычислительная система |
Для исполнения программы обработки данных нескольких сотен пациентов необходим высокопроизводительный компьютер (48 ГБ ОЗУ). Кластеры нужны в случае обработки больших наборов данных |
Хранилище данных |
Обычно тестовые данные хранятся на жестком диске емкостью от 200 гигабайт до 1 терабайта. При выполнении алгоритмов соответствующие данные извлекаются в основную память. Данные на сервере хранятся в базе данных или в хранилищах типа NoSQL |
|
Сеть связи |
Интранет |
|
Программное обеспечение |
В основном на основе Java, для обработки данных используются инструменты собственной разработки |
|
Характеристики больших данных |
Источник данных (распределенный/ централизованный) |
Все данные о пользователях хранятся в одном файле на диске. Иногда должны быть извлечены из Интернета такие ресурсы, как опубликованные тексты |
Объем (количество) |
Объем может варьироваться из-за разного количества собранных данных. Типичный объем измеряется сотнями гигабайт для одной когорты из нескольких сотен человек. Когда речь идет о миллионах пациентов, объем данных может быть порядка 1 петабайта |
|
Скорость обработки (например, в реальном времени) |
Различная. В некоторых случаях электронные медицинские документы постоянно обновляются. В других контролируемых исследованиях данные часто поступают партиями через равные промежутки времени |
|
Разнообразие (множество наборов данных, комбинация данных из различных источников) |
Это ключевое свойство наборов медицинских данных. Такие данные обычно содержатся в ряде таблиц, которые необходимо объединить для выполнения анализа |
|
Вариативность (темпы изменения) |
Поступление данных во многих случаях непредсказуемо, поскольку они поступают в режиме реального времени |
|
Наука о больших данных (сбор, курирование, анализ, операции) |
Достоверность (вопросы надежности, семантика) |
Проблематична, ввиду различной модальности данных, человеческих ошибок при сборе и проверке данных |
Визуализация |
Визуализация всей совокупности исходных данных практически невозможна. Обычно данные визуализируются частично. Построенные модели могут быть визуализированы при определенных разумных допущениях |
|
Качество данных (синтаксис) |
|
|
Типы данных |
Электронные медицинские документы, графические изображения, генетические данные, которые хранятся в нескольких базах данных |
|
Аналитика данных |
|
|
Иные проблемы больших данных |
Во многих направлениях медицины данные имеются в изобилии. Ключевой вопрос заключается в том, что данных может быть слишком много (таких как изображения, генетические последовательности и т.д.), что может усложнить анализ. Реальной проблемой является согласование данных и слияние данных из нескольких источников в форме, полезной для их совместного анализа. Еще одна проблема заключается в том, что иногда доступны большие объемы данных об одном субъекте, но число субъектов при этом не очень велико (то есть имеется дисбаланс данных). Это может привести к тому, что в ходе анализа алгоритмы обучения расценят случайные корреляции между данными нескольких типов как важные свойства. Ввиду этого имеют первостепенное значение робастные методы обучения, способные верно моделировать данные. Еще одним аспектом дисбаланса данных является частота позитивных примеров (случаев). Некоторые заболевания могут встречаться редко, что делает отношение позитивных примеров к "контролям" крайне искаженным, и в этом случае алгоритмы обучения могут моделировать шум вместо примеров |
|
Технические проблемы обеспечения безопасности и защиты персональных данных |
Обеспечение безопасности при подготовке и обработке данных имеет критически важное значение в медицинских областях |
|
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры) |
Модели, обученные на одной группе населения, трудно обобщить на другие группы населения с отличающимися характеристиками. Для этого необходимо, чтобы обученные модели можно было обобщать и уточнять в соответствии с изменением характеристик населения |
|
Дополнительная информация (гиперссылки) |
|
А.4.8 Вариант использования N 23: Эпидемиологическое исследование в масштабе всего населения Земли
Название |
Эпидемиологическое исследование в масштабе всего населения Земли |
|
Предметная область |
Эпидемиология, моделирование в социальных (общественных) науках, вычислительные социальные науки |
|
Автор/организация/эл. почта |
Мадхав Марате (Madhav Marathe, mmarathe@vbi.vt.edu), Стивен Юбанк (Stephen Eubank, seubank@vbi.vt.edu) и Крис Барретт (Chris Barrett, cbarrett@vbi.vt.edu)/Институт биосложности (Biocomplexity Institute, ранее Институт биоинформатики) Политехнического университета/университета штата Вирджиния (Virginia Tech) |
|
Акторы/заинтересованные лица, их роли и ответственность |
Государственные и некоммерческие учреждения, занимающиеся вопросами здравоохранения, государственной политики и смягчения последствий стихийных бедствий и катастроф. Социологи, желающие изучить взаимодействие между поведением и распространением инфекции |
|
Цели |
(a) Сформировать синтетическую глобальную популяцию; и (b) Провести моделирование в масштабе глобальной популяции с тем, чтобы сделать выводы о вспышках заболеваемости и различных стратегиях вмешательства |
|
Описание варианта использования |
Прогнозирование и контроль над пандемиями, аналогичными пандемии гриппа H1N1 в 2009 г. |
|
Текущие решения |
Вычислительная система |
Распределенная на основе использования интерфейса передачи сообщений MPI (Message Passing Interface) система моделирования, написанная на Charm++. Параллелизм достигается за счет использования меры "время присутствия болезни" (disease residence time period) |
Хранилище данных |
Сетевая файловая система NFS (Network file system). Изучаются методы на основе баз данных |
|
Сеть связи |
Высокоскоростная коммутируемая компьютерная сеть Infiniband. Топология трехмерного тора с высокой пропускной способностью |
|
Программное обеспечение |
Charm++, MPI |
|
Характеристики больших данных |
Источник данных (распределенный/ централизованный) |
Данные генерируются с помощью генератора синтетической популяции, в настоящее время - централизованно. Тем не менее генерация может быть сделана распределенной как часть постобработки |
Объем (количество) |
100 терабайт |
|
Скорость обработки (например, в реальном времени) |
Взаимодействие с экспертами и процедуры визуализации производят большие объемы данных в реальном времени. Подача данных в программу моделирования мала, однако в ходе моделирования создаются огромные объемы данных |
|
Разнообразие (множество наборов данных, комбинация данных из различных источников) |
Разнообразие зависит от сложности используемой в моделировании модели. Модель может быть очень сложной, если принять во внимание иные аспекты мировой популяции, такие как тип деятельности, географические, социально-экономические и культурные различия |
|
Вариативность (темпы изменения) |
Зависит от эволюции модели и соответствующих изменений в программе. Это сложная работа, требующая много времени, - отсюда и низкая скорость изменения |
|
Наука о больших данных (сбор, курирование, анализ, операции) |
Достоверность (вопросы надежности, семантика) |
Стабильность результатов моделирования зависит от качества модели. В то же время стабильность собственно вычислений - вопрос решаемый, хотя и нетривиальный |
Визуализация |
Для подключения визуализации потребуется пересылать очень большие объемы данных |
|
Качество данных (синтаксис) |
Данные согласованы благодаря генерации на основе модели |
|
Типы данных |
В основном сетевые данные |
|
Аналитика данных |
Сводка по различным прогонам и повторам моделирования |
|
Иные проблемы больших данных |
Вычисления в процессе моделирования требуют как значительных вычислительных ресурсов, так и обработки больших объемов данных. Более того, из-за неструктурированного и нерегулярного характера обработки графов, проблему сложно решать по частям. По этой причине также требуется широкая полоса пропускания. Следовательно, суперкомпьютер подходит больше, чем кластеры облачного типа |
|
Проблемы пользовательского интерфейса и мобильного доступа |
Нет |
|
Технические проблемы обеспечения безопасности и защиты персональных данных |
Есть ряд проблем на этапе моделирования синтетической популяции (см. модель распространения социального влияния) |
|
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры) |
В общем случае можно моделировать и вычислять распространение явлений различного рода: информации, болезней, социальных волнений. Во всех этих случаях применяется модель на основе лиц-агентов (agent-based model), которая использует базовую сеть взаимодействий для изучения эволюции рассматриваемых явлений |
|
Дополнительная информация (гиперссылки) |
|
А.4.9 Вариант использования N 24: Моделирование распространения социального влияния
Название |
Моделирование распространения социального влияния |
|
Предметная область |
Социальное поведение (включая вопросы национальной безопасности, здравоохранения; вирусный маркетинг, городское планирование, готовность к чрезвычайным ситуациям и катастрофам) |
|
Автор/организация/эл. почта |
Мадхав Марате (Madhav Marathe, mmarathe@vbi.vt.edu) и Крис Кульман (Chris Kuhlman, ckuhlman@vbi.vt.edu)/Институт биосложности (Biocomplexity Institute, ранее Институт биоинформатики) Политехнического университета/университета штата Вирджиния (Virginia Tech) |
|
Акторы/заинтересованные лица, их роли и ответственность |
|
|
Цели |
Создать вычислительную инфраструктуру, которая моделирует процессы распространения социального влияния. Эта инфраструктура позволяет моделировать различные типы взаимодействия между людьми (например, лицом к лицу либо через социальные сети; отношения мать - дочь в сравнении с отношениями мать - коллега). Учитываются не только взаимоотношения между людьми, но и взаимоотношения между людьми и сервисами (например, транспорт) либо инфраструктурой (например, Интернет, электроснабжение) |
|
Описание варианта использования |
Социальные волнения. Люди выходят на улицы, чтобы выразить свое недовольство либо поддержку руководству государства. Среди граждан есть как те, кто поддерживает правительство, так и те, кто ему противостоит. Ставятся задачи количественно определить степень, в которой нормальная деловая деятельность и активность населения нарушаются из-за страха и гнева; количественно определить вероятность мирных демонстраций и/или насильственных протестов; определить диапазон возможных ответных мер правительства, начиная от умиротворения, разрешения протестов и до угроз в адрес протестующих и действий по срыву протестов. Для решения таких вопросов потребуются модели и наборы данных с высоким разрешением |
|
Текущие решения |
Вычислительная система |
Программное обеспечение для распределенной обработки, исполняемое на коммерческих кластерах и в более новых архитектурах и системах (например, в облаке) |
Хранилище данных |
Файловые серверы (включая архивы), базы данных |
|
Сеть связи |
Ethernet, Infiniband и аналогичные им решения |
|
Программное обеспечение |
Специализированные программы моделирования, программное обеспечение с открытым исходным кодом и проприетарные среды моделирования. Базы данных |
|
Характеристики больших данных |
Источник данных (распределенный/ централизованный) |
Множество источников данных: сведения о населении, местах работы, типичных маршрутах поездок, коммунальных услугах (например, электросети) и иных созданных человеком инфраструктурах, онлайн-источниках информации и социальных сетях |
Объем (количество) |
Десятки терабайт новых данных ежегодно |
|
Скорость обработки (например, в реальном времени) |
Во время социальных волнений взаимодействие между людьми и мобильность являются ключом к пониманию динамики системы. Быстрые изменения в данных, например о том, кто на кого подписан в Твиттере |
|
Разнообразие (множество наборов данных, комбинация данных из различных источников) |
Разнообразие данных проявляется в широком диапазоне источников данных. Данные, изменяющиеся с течением времени. Объединение данных. Одной из важных проблем является объединение данных (data fusion). Как комбинировать данные из разных источников и что делать в случае отсутствия или неполноты данных? Многочисленные одновременно протекающие процессы распространения социального влияния |
|
Вариативность (темпы изменения) |
Ввиду стохастической природы событий необходимо выполнить ряд запусков моделирования при различных параметрах модели и исходных данных, чтобы оценить диапазоны разброса результатов |
|
Наука о больших данных (сбор, курирование, анализ, операции) |
Достоверность (вопросы надежности, семантика) |
В качестве меры обеспечения достоверности результатов проводится анализ поступающих данных в "мягком" реальном времени |
Визуализация |
Большие наборы данных; эволюция во времени; моделирование нескольких процессов распространения социального воздействия на нескольких представлениях сети. Различные уровни детализации (например, уровень отдельного человека, микрорайона, города, штата, страны) |
|
Качество данных (синтаксис) |
Проверки с целью обеспечения согласованности данных, на наличие порчи данных. Предварительная обработка первичных данных для использования их в моделях |
|
Типы данных |
Очень разнообразные данные, от характеристик человека до данных о коммунальных и транспортных системах и взаимодействии между ними |
|
Аналитика данных |
Модели поведения людей и физических инфраструктур, а также взаимодействия между ними. Визуализация результатов |
|
Иные проблемы больших данных |
Как учесть разнородные особенности сотен миллионов или миллиардов людей и модели культурных различий между странами, которые приписаны отдельным агентам? Как проверить эти большие модели? Различные типы моделей (например, с несколькими процессами распространения социального влияния): болезни, эмоции, поведение. Моделирование различных систем городской инфраструктуры, в условиях которой действуют люди. Поскольку для оценки стохастичности требуется повторное моделирование, создаются большие объемы выходных данных; соответственно, требования к их хранению |
|
Проблемы пользовательского интерфейса и мобильного доступа |
Где и как выполнять эти вычисления? Комбинации облачных вычислений и кластеров. Как добиться максимальной эффективности вычислений - переместить данные к вычислительным ресурсам? |
|
Технические проблемы обеспечения безопасности и защиты персональных данных |
В данном вопросе есть два аспекта. Во-первых, обеспечение неприкосновенности частной жизни и анонимности людей, сведения о которых использованы при моделировании (это, например, данные о пользователях Twitter и Facebook). Во-вторых, обеспечении защиты данных и вычислительных платформ |
|
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры) |
Объединение данных различных типов. В зависимости от конкретной рассматриваемой проблемы необходимо комбинировать разные наборы данных. Встает вопрос о том, каким образом обеспечить быструю разработку, проверку и валидацию новых моделей для новых приложений. Проблема выбора надлежащего уровня детализации, позволяющего схватить изучаемое явление, обеспечивая в то же время достаточно быстрое получение результатов, - то есть это вопрос о том, как сделать решение масштабируемым. Визуализация и извлечение данных с разной степенью детализации |
|
Дополнительная информация (гиперссылки) |
|
А.4.10 Вариант использования N 25: Биологическое разнообразие и европейская электронная научно-исследовательская инфраструктура LifeWatch
Название |
LifeWatch - европейская электронная инфраструктура для исследований в области экологии и биологического разнообразия |
|
Предметная область |
Научные исследования, медико-биологические науки |
|
Автор/организация/эл. почта |
Ваутер Лос (Wouter Los), Юрий Демченко (Yuri Demchenko, y.demchenko@uva.nl), университет Амстердама |
|
Акторы/заинтересованные лица, их роли и ответственность |
Конечные пользователи (биологи, экологи, полевые исследователи) Аналитики данных, менеджеры архивов данных, менеджеры инфраструктуры электронной науки, национальные представители стран - членов Евросоюза |
|
Цели |
Мониторинг и изучение различных экосистем, биологических видов, их динамики и миграции |
|
Описание варианта использования |
Целью проекта LifeWatch является обеспечение интегрированного доступ к различным данным, инструментам аналитики и моделирования, предоставленным рядом сотрудничающих с ним проектов. Он также будет предлагать данные и инструменты в составе отдельных рабочих процессов конкретным научным сообществам. Помимо этого, LifeWatch предоставит возможности для создания персонализированных "виртуальных лабораторий", также позволяя вводить/подключать новые данные и аналитические инструменты. Новые данные будут коллективно использоваться сотрудничающими с LifeWatch центрами обработки данных. Конкретные тематические исследования: мониторинг чужеродных видов, мигрирующих птиц и водно-болотных угодий |
|
Текущие решения |
Вычислительная система |
Полевые объекты: будут определены позднее Центр обработки данных: Типичные ресурсы сетевых параллельных вычислений и облачные ресурсы, предоставляемые национальными центрами электронной науки |
Хранилище данных |
Распределенное; архивируются исторические данные и данные о тенденциях |
|
Сеть связи |
Может потребоваться специальная выделенная или оверлейная (наложенная) сенсорная сеть |
|
Программное обеспечение |
Веб-сервисы, грид-сервисы, реляционные базы данных |
|
Характеристики больших данных |
Источник данных (распределенный/ централизованный) |
Экологическая информация от многочисленных пунктов наблюдения и мониторинга и сенсорной сети, спутниковые изображения/ информация, данные о климате и погоде, вся зарегистрированная информация. Информация от полевых исследователей |
Объем (количество) |
Охватывает множество существующих наборов данных/источников. Суммарный объем данных предстоит определить |
|
Скорость обработки (например, в реальном времени) |
Данные анализируются поэтапно, динамика обработки соответствует динамике биологических и экологических процессов. Может, однако, потребоваться обработка и анализ в реальном времени в случае стихийных бедствий или техногенных катастроф. Может потребоваться обработка потоковых данных |
|
Разнообразие (множество наборов данных, комбинация данных из различных источников) |
Разнообразие и количество задействованных баз данных и данных наблюдений в настоящее время ограничено возможностями доступных инструментов. В принципе оно является неограниченным, с учетом растущих возможностей для обработки данных с целью выявления экологических изменений, факторов/причин, эволюции видов и тенденций. См. ниже в разделе дополнительной информации |
|
Вариативность (темпы изменения) |
Структура наборов данных и моделей может изменяться в зависимости от этапа обработки данных и поставленных задач |
|
Наука о больших данных (сбор, курирование, анализ, операции) |
Достоверность (вопросы надежности, семантика) |
В обычном режиме мониторинга данные статистически обрабатываются для достижения надежности результатов. Для некоторых исследований в области биоразнообразия достоверность данных (их надежность и возможность им доверять) имеет критически важное значение. В случае стихийных бедствий и техногенных катастроф достоверность данных имеет критически важное значение |
Визуализация |
Требуются развитая и богатая визуализация, средства визуализации высокой четкости, данные визуализации, поддерживающие: - 4D-визуализацию; - визуализацию влияния изменения параметров в (вычислительных) моделях; - сравнение полученных по модели результатов с реальными наблюдениями (многомерное) |
|
Качество данных (синтаксис) |
Качество зависит и является следствием качества исходных данных наблюдений. Качество аналитических результатов зависит от используемых моделей и алгоритмов, которые постоянно совершенствуются. Нужна возможность повторного анализа данных с целью переоценки исходных данных наблюдений. Данные, на основе которых должны приниматься решения, контролируются человеком |
|
Типы данных |
Данные многих типов. Реляционные данные, пары ключ-значение, сложные данные с развитой семантикой |
|
Аналитика данных |
Аналитика параллельных потоков данных и аналитика данных, поступающих в потоковом режиме |
|
Иные проблемы больших данных |
Хранение и архивация данных, обмен данными и их интеграция; связь данных: от исходных данных наблюдений до обработанных данных и данных отчетности/визуализированных данных: - уникальные исторические данные; - курированные (авторизованные) эталонные данные (т.е. списки названий видов), алгоритмы, программные коды, рабочие процессы; - обработанные (вторичные) данные, являющиеся исходным материалом для других исследователей; - контроль происхождения с присвоением постоянного идентификатора (PID) данных, алгоритмов и рабочих процессов |
|
Проблемы пользовательского интерфейса и мобильного доступа |
Требуется поддержка мобильных датчиков (например, при изучении миграции птиц) и мобильной работы исследователей (как в плане передачи информации, так и в плане поиска в каталоге) - Оснащенные инструментами полевые транспортные средства, корабли, самолеты, подводные лодки, плавучие буи; сенсорные бирки на особях - Фотографии, видео- и звукозаписи |
|
Технические проблемы обеспечения безопасности и защиты персональных данных |
Целостность данных, ссылочная целостность наборов данных. Объединенное управление идентификацией для мобильных исследователей и мобильных датчиков Обеспечение конфиденциальности, контроля доступа и учета информации об охраняемых видах, экологической информации, космических снимков, климатической информации |
|
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры) |
Поддержка распределенной сенсорной сети Комбинирование и установление связей между данными различных типов; потенциально неограниченное разнообразие данных. Управление жизненным циклом данных: происхождение данных, ссылочная целостность и идентификация. Доступ и интеграция нескольких распределенных баз данных |
|
Дополнительная информация (гиперссылки) |
Сайт европейского проекта LifeWatch-ERIC, https://www.lifewatch.eu/web/guest/home Сайт реестра веб-сервисов в области биоразнообразия BiodiversityCatalogue, https://www.biodiversitycatalogue.org/ |
|
Примечание - Разнообразие данных, используемых в исследованиях по биоразнообразию: Генетическое (геномное) разнообразие: - последовательности ДНК и ДНК - баркодирование; - метаболомические функции. Информация о биологических видах: - названия видов; - сведения о наблюдениях (по времени и месту); - отличительные признаки вида и данные об истории его развития; - взаимоотношения хозяин - паразит; - данных об образцах в коллекции. Экологическая информация: - биомасса, диаметр ствола/корня и другие физические характеристики; - плотность населения и т.п.; - структуры среды обитания; - геохимические циклы углерода, азота, фосфора и т.д. Данные об экосистеме: - видовой состав и динамика сообщества; - данные дистанционного и наземного наблюдения; - потоки СO 2; - характеристики почвы; - цветение водорослей; - температура, соленость, кислотность морской среды, течения и т.д. Эксплуатация экосистемы: - продуктивность (т.е. производство биомассы в единицу времени); - динамика пресной воды; - эрозия; - буферизация тепла и влажности; - генетические пулы. Концепции данных: - концептуальная основа каждого вида данных; - онтологии; - данные о происхождении. Алгоритмы и потоки рабочих процессов: - программный код и происхождение; - протестированные рабочие процессы. Многочисленные источники данных и информации: - данные сбора образцов; - наблюдения (в сделанной человеком интерпретации); - датчики и сенсорные сети (наземные, морские, почвенных организмов), кольцевание птиц и т.д. - спектры воздушного и спутникового наблюдения; - полевые и лабораторные эксперименты; - данные радаров и лазерных радаров (лидаров); - данные о рыболовстве и сельском хозяйстве; - данные о заболеваниях и эпидемиях. |
А.5 Облачные вычисления
А.5.1 Вариант использования N 26: Крупномасштабное глубокое обучение
Название |
Крупномасштабное глубокое обучение |
|
Предметная область |
Машинное обучение, искусственный интеллект |
|
Автор/организация/эл. почта |
Адам Коутс (Adam Coates)/Стэнфордский университет (Stanford University)/acoates@cs.stanford.edu |
|
Акторы/заинтересованные лица, их роли и ответственность |
Исследователям и практикам в области машинного обучения приходится иметь дело с большими объемами данных и сложными задачами прогнозирования. Данный вариант использования поддерживает новейшие разработки в области компьютерного зрения, управления беспилотным автомобилем, распознавания речи и обработки естественного языка в научно-исследовательских и отраслевых системах |
|
Цели |
Увеличение объема наборов данных и размера моделей, с которыми способны работать алгоритмы глубокого обучения. Большие модели (например, нейронные сети с большим количеством нейронов и соединений) в сочетании с большими наборами данных все чаще показывают наилучшие результаты при выполнении эталонных задач в области зрения, речи и обработки естественного языка |
|
Описание варианта использования |
Научный сотрудник или специалист-практик в области машинного обучения хочет обучать глубокую нейронную сеть на большом (намного более 1 терабайта) массиве данных, обычно состоящем из изображений, видео-, аудиоматериалов и/или текста. Такие процедуры обучения часто требуют специфической настройки архитектуры нейронной сети, критериев обучения и предварительной обработки набора данных. Помимо вычислительных затрат, которых требуют алгоритмы обучения, чрезвычайно высока потребность в быстрой разработке прототипа и удобстве разработки |
|
Текущие решения |
Вычислительная система |
Кластер графических процессоров с высокоскоростными соединениями (например, Infiniband, 40 гигабит в секунду) |
Хранилище данных |
Файловая система Lustre объемом 100 терабайт |
|
Сеть связи |
В кластере высокопроизводительных вычислений - Infiniband; 1-гигабитный Ethernet для сетевых соединений с внешней инфраструктурой (такой как интернет, файловая система Lustre) |
|
Программное обеспечение |
Программное обеспечение для информационного обмена между ядрами графических профессоров и для взаимодействия на основе MPI, разработанное на факультете вычислительных наук Стэнфордского университета. Исходный код на языках С++/Python |
|
Характеристики больших данных |
Источник данных (распределенный/ централизованный) |
Централизованная файловая система, содержащая один большой обучающий набор данных. Набор данных может обновляться путем включения новых учебных примеров по мере их появления |
Объем (количество) |
Типичный объем наборов данных обычно составляет от 1 до 10 терабайт. С ростом вычислительных мощностей, позволяющим использовать модели гораздо большего размера, могут потребоваться наборы данных объемом 100 терабайт и более для использования в полной мере репрезентативной способности более крупных моделей. Для обучения беспилотного автомобиля могут потребоваться 100 млн изображений |
|
Скорость обработки (например, в реальном времени) |
Требуется намного более быстрая обработка, чем в реальном времени. Современные приложения компьютерного зрения включают обработку сотен кадров в секунду с тем, чтобы обеспечить разумное время обучения. Для требовательных приложений (таких, как управление беспилотным автомобилем) мы предвидим потребность в обработке многих тысяч изображений с высоким разрешением (6 мегапикселей и более) в секунду |
|
Разнообразие (множество наборов данных, комбинация данных из различных источников) |
Отдельные приложения могут использовать широкий спектр данных. В настоящее время изучаются, в частности, нейронные сети, которые активно учатся на разнородных задачах, таких как обучение выполнению тегирование, разбивки на фрагменты и разбора текста, или обучение чтению по губам с использованием комбинации видео и аудиозаписей |
|
Вариативность (темпы изменения) |
Вариативность низкая. Большая часть данных поступает в постоянном темпе в потоковом режиме из общего источника. Из-за высоких вычислительных требований нагрузка на сервер может сделать передачу данных неравномерной |
|
Наука о больших данных (сбор, курирование, анализ, операции) |
Достоверность (вопросы надежности, семантика) |
Наборы данных для приложений машинного обучения часто размечаются и проверяются вручную. При подготовке чрезвычайно больших наборов данных разметка может выполняться с использованием краудсорсинга, тем самым возникает риск неоднозначных ситуаций, когда метка непонятна. Автоматизированные системы разметки по-прежнему требуют проведения человеком проверки результатов на соответствие здравому смыслу. Активной областью исследований являются умные методы построения больших наборов данных |
Визуализация |
Визуализация обученных сетей является открытой областью исследований, хотя отчасти рассматривается как метод отладки. Некоторые визуальные приложения включают использование визуализации для прогнозирования (visualization predictions) на основе тестовых изображений |
|
Качество данных (синтаксис) |
Некоторые из собранных данных (например, сжатое видео или аудио) могут быть представлены в неизвестные форматах, использовать неизвестные кодеки или оказаться поврежденными. Автоматическая фильтрация исходных данных удаляет такие данные |
|
Типы данных |
Изображения, видео, аудио, текст (на практике, почти любые) |
|
Аналитика данных |
В небольшой степени выполняется пакетная статистическая предварительная обработка; весь остальной анализ данных выполняется самим алгоритмом обучения |
|
Иные проблемы больших данных |
Требования к обработке даже для скромных объемов данных являются чрезвычайно высокими. Хотя обученные представления могут использовать много терабайт данных, основная проблема заключается в обработке всех данных во время обучения. Современные системы глубокого обучения способны использовать нейронные сети с более чем 10 млрд свободных параметров (аналогичных синапсам мозга), что требует триллионов операций с плавающей запятой для каждого учебного примера. Распределение этих вычислений по высокопроизводительной инфраструктуре является серьезной проблемой, для решения которой в настоящее время мы в основном используем специализированную программную систему |
|
Проблемы пользовательского интерфейса и мобильного доступа |
После завершения обучения больших нейронных сетей, обученная сеть может быть скопирована на другие устройства с кардинально меньшими вычислительными возможностями для использования в прогнозировании в реальном времени. (Например, при управлении беспилотными автомобилями, процедура обучения выполняется с использованием высокопроизводительного кластера с 64 графическими процессорами. Результатом обучения является нейронная сеть, которая кодирует необходимые знания для принятия решений о пилотировании и обходе препятствий. Эта сеть может быть скопирована во встроенное в транспортные средства оборудование или в датчики.) |
|
Технические проблемы обеспечения безопасности и защиты персональных данных |
Нет |
|
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры) |
Глубокое обучение имеет много общих черт с более широкой областью машинного обучения. Первостепенными требованиями являются высокая вычислительная пропускная способность (computational throughput), главным образом, для операций линейной алгебры с плотными матрицами, а также чрезвычайно высокая продуктивность. Для обеспечения лучшей производительности большинство систем глубокого обучения требуют значительных усилий по настройке на целевое приложение и, следовательно, требуют большого количества экспериментов, с вмешательством проектировщика между экспериментами. В результате ключевое значение имеет минимизация времени на проведение эксперимента и ускорение процесса разработки. Эти два требования - высокая вычислительная пропускная способность и высокая продуктивность - резко противоречат друг другу. Существуют системы высокопроизводительных вычислений (НРС), которые можно использовать для ускорения экспериментов, однако текущую программную НРС-инфраструктуру сложно использовать, что удлиняет время разработки и отладки, а во многих случаях, делает невозможными в остальном посильные в вычислительном плане приложения. В число основных компонент, необходимых для этих приложений (которые в настоящее время являются программами нашей собственной разработки), входят операции линейной алгебры над плотными матрицами, выполняемые в высокопроизводительных вычислительных системах с распределенной памятью. Если библиотеки для вычислений на одной машине или на одном графическом процессоре доступны (например, BLAS, CuBLAS, MAGMA и др.), то распределенные вычисления с плотными матрицами на графических процессорах, подобные тем, что поддерживаются BLAS или LAPACK, остаются слабо развитыми. Существующие решения (например, ScaLapack для центральных процессоров) не очень хорошо интегрированы с языками высокого уровня и требуют низкоуровневого программирования, что удлиняет время эксперимента и процесса разработки |
|
Дополнительная информация (гиперссылки) |
Недавние популярные публикации в прессе о технологии глубокого обучения: Джон Марков (John Markoff) "Ученые видят потенциал у программ глубокого обучения" (Scientists See Promise in Deep-Learning Programs), "Нью-Йорк таймс", 23 ноября 2012 г., https://www.nytimes.com/2012/11/24/science/scientists-see-advances-in-deep-learning-a-part-of-artificial-intelligence.html Джон Марков (John Markoff) "Сколько компьютеров нужно, чтобы идентифицировать кошку? 16 тысяч" (How Many Computers to Identify a Cat? 16,000), "Нью-Йорк таймс", 25 июня 2012 г., https://www.nytimes.com/2012/06/26/technology/in-a-big-network-of-comp uters-evidence-of-machine-learning.html Даниэла Эрнандес (Daniela Hernandez) "Теперь Вы можете задешево создать искусственный мозг, который Google обошелся в миллион долларов" (Now You Can Build Google's $1M Artificial Brain on the Cheap), Wired, 17 июня 2013 г., https://www.wired.com/2013/06/andrew-ng/ Недавняя научная статья по использованию высокопроизводительных вычислений при глубоком обучении: Adam Coates, Brody Huval, Tao Wang, David J. Wu, Andrew Y. Ng, Bryan Catanzaro "Deep learning with COTS HPC systems", Proceedings of the 30-th International Conference on Machine Learning, Atlanta, Georgia, USA, 2013, http://proceedings.mlr.press/v28/coates13.pdf Широко используемые учебные пособия и ссылки на ресурсы по глубокому обучению: "Руководство по машинному обучению без учителя и глубокому обучению" (Unsupervised Feature Learning and Deep Learning (UFLDL) Tutorial), Стэнфордский университет, http://deeplearning.stanford.edu/tutorial/ Сайт сообщества специалистов по глубокому обучению (архивный), http://deeplearning.net/ |
А.5.2 Вариант использования N 27: Организация крупномасштабных, неструктурированных коллекций сделанных потребителями фотографий
Название |
Организация крупномасштабных, неструктурированных коллекций сделанных потребителями фотографий |
|
Предметная область |
Научные исследования, искусственный интеллект |
|
Автор/организация/эл. почта |
Дэвид Крендал (David Crandall), Университет Индианы, djcran@indiana.edu |
|
Акторы/заинтересованные лица, их роли и ответственность |
Исследователи в области компьютерного зрения (развитие данного направления), новостные агентства и компании - владельцы социальных сетей (способствование организации крупномасштабных коллекций фотографий), потребители (просмотр как личных, так и публичных коллекций фотографий), исследователи и другие специалисты, заинтересованные в создании дешевых трехмерных моделей (археологи, архитекторы, градостроители, дизайнеры интерьеров и т.д.) |
|
Цели |
Создание трехмерных реконструкций сцен с использованием коллекций, содержащих от миллионов до миллиардов сделанных потребителями фотографий, когда ни структура сцены, ни положение камеры заранее не известны. Использование полученных трехмерных моделей для поддержки эффективного и результативного просмотра крупномасштабных коллекций фотографий по географическому положению. Географическая привязка новых изображений осуществляется путем сопоставления с трехмерными моделями. Для каждого изображения может быть выполнено распознавание объектов |
|
Описание варианта использования |
Задача трехмерной реконструкции обычно формулируется как задача робастной нелинейной оптимизации с использованием метода наименьших квадратов, в рамках которой наблюдаемые (зашумленные) соответствия между изображениями являются ограничениями, а в число неизвестных входят 6-мерные координаты, задающие положение камеры для каждого изображения и 3-мерные координаты положения каждой точки сцены. Разреженность и большая степень шума в ограничениях обычно приводят к тому, что базовые методы оптимизации сходятся в локальные минимумы, которые далеки от реальной структуры сцены. Типичные конкретные шаги включают: (1) извлечение признаков из изображений, (2) сопоставление изображений для выявления пар с общими структурами сцены, (3) оценку первоначального решения, которое близко к структуре сцены и/или параметрам камеры, (4) непосредственную оптимизация нелинейной целевой функции. Можно отметить, что операции на шаге (1) прекрасно распараллеливаются; шаг (2) - это проблема сопоставления всех пар, обычно с использованием эвристик, которые на ранней стадии отбрасывает маловероятные пары. Шаг (3) выполняется нами путем дискретной оптимизации, использующей вероятностный вывод в графе (марковское случайное поле), после чего применяется робастный алгоритм Левенберга-Марквардта в непрерывном пространстве. Другие выполняют шаг (3), решая задачу шага (4) для небольшого числа изображений, а затем постепенно добавляя новые изображения и используя выходные данные последнего этапа расчетов в качестве начальных условий очередного этапа. Шаг (4) обычно выполняется с помощью алгоритма уравнивания по связкам (bundle adjustment), который является реализацией нелинейного метода наименьших квадратов, оптимизированного под конкретные структуры ограничений, возникающих в задачах трехмерной реконструкции. Решение задачи распознавания образов обычно хорошо распараллеливается, хотя обучения моделей объектов включают в себя обучение классификатора (например, метода опорных векторов) - процесс, который зачастую трудно распараллелить |
|
Текущие решения |
Вычислительная система |
Кластер Hadoop (около 60 узлов, 480 ядер) |
Хранилище данных |
Hadoop DFS и плоские файлы |
|
Сеть связи |
Простой Unix |
|
Программное обеспечение |
Написанные вручную простые многопоточные инструменты (ssh и сокеты для обмена информацией) |
|
Характеристики больших данных |
Источник данных (распределенный/ централизованный) |
Общедоступные коллекции фотографий, например, на Flickr, Panoramio и др. |
Объем (количество) |
Более 500 млрд фотографий на Facebook, более 5 млрд фотографий на Flickr |
|
Скорость обработки (например, в реальном времени) |
Ежедневно в Facebook добавляется более 100 миллионов новых фотографий |
|
Разнообразие (множество наборов данных, комбинация данных из различных источников) |
Изображения и метаданные, включая теги EXIF (фокусное расстояние, тип камеры и т.д.). |
|
Вариативность (темпы изменения) |
Темпы поступления фотографий значительно варьируются. Например, на Facebook в Новый год выкладывается примерно в 10 раз больше фотографий, чем в другие дни. Географическое распределение фотографий подчиняется распределению "с длинным хвостом", при этом с 1000 примечательных объектов на местности (общей площадью всего около 100 кв. км) связаны более 20 % фотографий на сайте Flickr |
|
Наука о больших данных (сбор, курирование, анализ, операции) |
Достоверность (вопросы надежности, семантика) |
Важна максимальная точность, с учетом ограничений технологии компьютерного зрения |
Визуализация |
Визуализация крупномасштабных трехмерных реконструкций и навигация по крупномасштабным коллекциям изображений, которые были согласованы с картами |
|
Качество данных (синтаксис) |
Наблюдаемые в изображениях признаки достаточно сильно зашумлены как из-за несовершенного извлечения признаков, так и из-за неидеальных свойств конкретных изображений (дисторсия объектива, шум сенсора, добавленные пользователем к изображению эффекты и т.д.) |
|
Типы данных |
Изображения, метаданные |
|
Аналитика данных |
|
|
Иные проблемы больших данных |
Аналитика нуждается в постоянном мониторинге и совершенствовании |
|
Проблемы пользовательского интерфейса и мобильного доступа |
Многие/большинство изображений захватываются мобильными устройствами. Конечная цель заключается в том, чтобы приблизить процессы реконструкции и организации коллекции к телефону и сделать возможным взаимодействие с пользователем в реальном времени |
|
Технические проблемы обеспечения безопасности и защиты персональных данных |
Необходимо обеспечить неприкосновенность частной жизни для пользователей и цифровые права для средств массовой информации |
|
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры) |
Компоненты этого варианта использования, включая извлечение признаков, сопоставление признаков и крупномасштабную машину вероятностных логических выводов, появляются при решении многих или даже большинства проблем компьютерного зрения и обработки изображений, включая распознавание, разделение по глубине (stereo resolution), устранение шума в изображениях и т.д. |
|
Дополнительная информация (гиперссылки) |
Сайт лаборатории компьютерного зрения (Computer Vision Lab) Университета Индианы, http://vision.soic.indiana.edu/projects/disco/ |
А.5.3 Вариант использования N 28: Truthy - Анализ данных Твиттера
Название |
Truthy - Исследование распространения информации на основе данных Твиттера |
|
Предметная область |
Научные исследования: Изучение сложных сетей и систем |
|
Автор/организация/эл. почта |
Филиппо Менцер (Filippo Menczer), Университет Индианы, fil@indiana.edu Алессандро Фламмини (Alessandro Flammini), Университет Индианы, aflammin@indiana.edu Эмилио Феррара (Emilio Ferrara), Университет Индианы, ferrarae@indiana.edu |
|
Акторы/заинтересованные лица, их роли и ответственность |
Исследования финансируются Национальным научным фондом США (National Science Foundation, NSF), Агентством по передовым военным научно-техническим проектам (Defense Advanced Research Projects Agency, DARPA), фондом Макдоннела (James S. McDonnell Foundation) |
|
Цели |
Понять, как информация распространяется по социально-техническим сетям. Обнаружение потенциально опасной информации (например, вводящих в заблуждение сообщений, скоординированных кампаний и недостоверной информации и т п.) на ранних стадиях ее распространения |
|
Описание варианта использования |
(1) Сбор и хранение большого объема данных, поступающих непрерывным потоком от Твиттера ( (2) Анализ таких данных в режиме времени, близком к реальному, с целью выявления аномалий, кластеризации потока, классификации сигналов и онлайн-обучения; (3) Поиск и извлечение данных, визуализация больших данных, интерактивные веб-интерфейсы к данным и общедоступные программные интерфейсы (API) для запросов к данным |
|
Текущие решения |
Вычислительная система |
В настоящее время: собственный кластер, поддерживаемый Университетом Индианы. Критическое требование: большой кластер для хранения данных, манипулирования ими, выполнения запросов и анализа |
Хранилище данных |
В настоящее время: первичные данные (с августа 2010 г.), хранящиеся в больших сжатых плоских файлах. Требуется переход на Hadoop/lndexed HBase и распределенное хранение в файловой системе HDFS. База данных в оперативной памяти под СУБД Redis как буфер для анализа в реальном времени |
|
Сеть связи |
Требуется 10-гигабитный Infiniband |
|
Программное обеспечение |
Hadoop, Hive, Redis для управления данными; Python/SciPy/NumPy/MPI для анализа данных |
|
Характеристики больших данных |
Источник данных (распределенный/ централизованный) |
Распределенный - с репликацией/ избыточностью |
Объем (количество) |
|
|
Скорость обработки (например, в реальном времени) |
Хранение данных, выполнение запросов и анализ в масштабе времени, близком к реальному |
|
Разнообразие (множество наборов данных, комбинация данных из различных источников) |
Схема данных предоставлена социальной сетью - источником данных. В настоящее время используются только данные Твиттера. Мы планируем расширять проект, охватив Google+ и Facebook |
|
Вариативность (темпы изменения) |
Непрерывный поток данных в реальном времени, поступающий из каждого источника |
|
Наука о больших данных (сбор, курирование, анализ, операции) |
Достоверность (вопросы надежности, семантика) |
Для получения данных в реальном времени требуется, чтобы система 99,99 % времени находилась в рабочем состоянии. Перебои в работе могут нарушить целостность данных и уменьшить их значимость |
Визуализация |
Уже существуют возможности для визуализации распространения информации, кластеризации и для динамической визуализации сети |
|
Качество данных (синтаксис) |
Данные структурированы в стандартизированных форматах, общее качество данных чрезвычайно высокое. Мы генерируем агрегированную статистику; расширяем набор признаков и т.д., производя высококачественные производные данные |
|
Типы данных |
Полностью структурированные данные (формат JSON), обогащенные пользовательскими метаданными данными геолокации и т.д. |
|
Аналитика данных |
Кластеризация потока: данные агрегируются по темам, метаданным и дополнительным признакам с использованием специализированных онлайн-алгоритмов кластеризации. Классификация: используя многомерные временные ряды для генерации сетевых признаков, признаков пользователей, географических, контента и т.д., мы классифицируем производимую на платформе информацию. Обнаружение аномалий: идентификация аномальных событий в реальном времени (например, вызванных внешними факторами). Онлайн-обучение: применение методов машинного обучения/глубокого обучения для анализа в режиме реального времени закономерностей распространения информации, профилирования пользователей и т.д. |
|
Иные проблемы больших данных |
Обеспечение анализа в реальном времени большого объема данных. Обеспечение масштабируемой инфраструктуры для выделения по требованию ресурсов, пространства хранения и т.д., если это потребуется ввиду увеличения с течением времени объема данных |
|
Проблемы пользовательского интерфейса и мобильного доступа |
Реализация низкоуровневых функциональных возможностей инфраструктуры хранения данных с целью обеспечения эффективного мобильного доступа к данным |
|
Технические проблемы обеспечения безопасности и защиты персональных данных |
Твиттер раскрывает в открытом доступе данные, собранные нашей платформой. Поскольку источники данных включают в себя пользовательские метаданные (которых, как правило, недостаточно для однозначной идентификации физических лиц), необходимо реализовать определенную политику обеспечения безопасности хранения данных и защиты неприкосновенности частной жизни |
|
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры) |
Определение высокоуровневой схемы данных для подключения нескольких источников данных, предоставляющих аналогично структурированные данные |
|
Дополнительная информация (гиперссылки) |
Сайт проекта Truthy Университета Индианы, http://truthy.indiana.edu/ Страница проекта Truthy на сайте Центра исследований сложных сетей и систем (Center for Complex Network and System Research, CNetS) Университета Индианы, https://cnets.indiana.edu/groups/nan/truthy/ Страница проекта "Выявление ранних признаков подстрекательства в информационных каскадах" (Detecting Early Signature of Persuasion in Information Cascades, DESPIC) на сайте Центра исследований сложных сетей и систем (Center for Complex Network and System Research, CNetS) Университета Индианы, https://cnets.indiana.edu/groups/nan/despic/ |
А.5.4 Вариант использования N 29: Краудсорсинг в гуманитарных науках
Название |
Краудсорсинг в гуманитарных науках как источник больших и динамических данных |
|
Предметная область |
Гуманитарные науки, социальные науки |
|
Автор/организация/эл. почта |
Себастьян Друде (Sebastian Drude)/Институт психолингвистики общества Макса Планка (Max Planck Institute for Psycholinguistics, Неймеген, Нидерланды)/Sebastian.Drude@mpi.nl |
|
Акторы/заинтересованные лица, их роли и ответственность |
Ученые (социологи, психологи, лингвисты, политологи, историки и т.д.), специалисты по управлению данными и аналитики, архивы данных. Представители широкой общественности как поставщики данных и участники |
|
Цели |
Сбор информации (введенные вручную данные, записанные мультимедийные материалы, время реакции, изображения, информация от датчиков) у многих людей и с их устройств. Это позволяет, охватить многообразные индивидуальные, социальные, культурные и лингвистические различия в нескольких измерениях (пространство, социальное пространство, время) |
|
Описание варианта использования |
Множество различных возможных вариантов использования: собрав записи, отражающие использование языка (слов, предложений, описаний значений и т.д.), ответы на опросы, информацию о фактах культуры, описания изображений и тексты - соотнести их с другими явлениями, выявить новые культурные практики, поведение, ценности и убеждения, определить индивидуальные вариации |
|
Текущие решения |
Вычислительная система |
Индивидуальные системы, в которых проводится ручной сбор данных (в основном, веб-сайты) |
Хранилище данных |
Традиционные сервера |
|
Сеть связи |
Помимо ввода данных через интернет используется мало |
|
Программное обеспечение |
Язык XML, традиционные реляционные базы данных для хранения изображений. Мультимедийных материалов (соответственно, программного обеспечения для работы с ними) пока еще немного |
|
Характеристики больших данных |
Источник данных (распределенный/ централизованный) |
Распределенный, отдельные участники передают данные через веб-страницы и мобильные устройства |
Объем (количество) |
Варьируется в очень больших масштабах, от сотен до миллионов записей данных. В зависимости от типа данных, объем может варьироваться от нескольких гигабайт (текст, опросы, экспериментальные значения) до сотен терабайт (мультимедиа) |
|
Скорость обработки (например, в реальном времени) |
Очень сильно зависит от проекта: от десятков до тысяч новых записей данных в день. Данные должны анализироваться инкрементально |
|
Разнообразие (множество наборов данных, комбинация данных из различных источников) |
До настоящего времени - в основном однородные небольшие наборы данных; ожидаются большие распределенные неоднородные наборы данных, которые должны быть заархивированы как первичные данные |
|
Вариативность (темпы изменения) |
Структура данных и содержание коллекций меняются на протяжении жизненного цикла данных. Изменения скорости производства данных или их характеристик в процессе сбора не являются критическими |
|
Наука о больших данных (сбор, курирование, анализ, операции) |
Достоверность (вопросы надежности, семантика) |
Возможны зашумленность данных, ненадежные метаданные, проведение выявления и предварительного отбора соответствующих данных |
Визуализация |
Важна для интерпретации; какие-либо специальные методы визуализации не применяются |
|
Качество данных (синтаксис) |
Необходима валидация. Вопросы качества записей, качества контента, спама |
|
Типы данных |
Индивидуальные записи данных (ответы на опросы, время реакции); тексты (например, комментарии, транскрипции и т.п.); мультимедиа (изображения, аудио, видео) |
|
Аналитика данных |
Все виды распознавания закономерностей (например, распознавание речи, автоматический анализ аудиовизуальных материалов, культурные закономерности); выявление структур (лексические единицы, лингвистические правила и т.д.) |
|
Иные проблемы больших данных |
Управление данными - метаданные, сведения о происхождении, присвоение постоянного идентификатора (PID). Курирование данных. Оцифровка существующих аудиовизуальных, фото- и документальных архивов |
|
Проблемы пользовательского интерфейса и мобильного доступа |
Включение данных с датчиков мобильных устройств (геолокации и т.д.); Сбор данных в ходе экспедиций и полевых исследований |
|
Технические проблемы обеспечения безопасности и защиты персональных данных |
Могут возникнуть вопросы защиты неприкосновенности частной жизни (аудиовидеозаписи, поступившие от отдельных лиц); анонимность может быть необходима, но не всегда возможна (анализ аудиовидеозаписей, небольшие речевые сообщества). Целостность архива и метаданных, обеспечение долговременной сохранности |
|
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры) |
Множество отдельных записей данных, поступающих от многих людей, постоянный поток вводимых данных, присвоение метаданных и т.д. Автономное использование (в сравнении онлайн-использованием), последующая синхронизация с центральной базой данных. Обеспечение авторам существенной обратной связи |
|
Дополнительная информация (гиперссылки) |
|
|
Примечание - Краудсорсинг только начал использоваться в более широком масштабе. С появлением мобильных устройств появился огромный потенциал для сбора большого количества данных от многочисленных физических лиц, а также для использования датчиков, имеющихся в мобильных устройствах. Эта возможность до настоящего времени в широком масштабе не опробовалась; существующие крауд-сорсинговые проекты обычно имеют ограниченный масштаб и основаны на веб-технологиях. |
А.5.5 Вариант использования N 30: Цифровая инфраструктура для исследований и анализа сетей и графов (CINET)
Название |
Цифровая инфраструктура для исследований и анализа сетей и графов (CINET) |
|
Предметная область |
Теория и методы анализа сетей (network science) |
|
Автор/организация/эл. почта |
Группа, возглавляемая Политехническим университетом/университетом штата Вирджиния (Virginia Tech) и включающая исследователей из Университета Индианы, Университета штата Нью-Йорк в Олбани (Albany), сельскохозяйственного и технического университета штата Северная Каролина (North Carolina Agricultural and Technical State University), Университета штата в г. Джексон (штат Миссисипи), Университета центрального Хьюстона (штат Техас) и Аргоннской национальной лаборатории Министерства энергетики США. Контактные лица: Мадхав Марате (Madhav Marathe, mmarathe@vbi.vt.edu) и Кит Биссет (Keith Bisset, kbisset@vbi.vt.edu) из научной лаборатории сетевой динамики и моделирования (Network Dynamics and Simulation Science Laboratory) Института биосложности (Biocomplexity Institute, ранее Институт биоинформатики) Политехнического университета/университета штата Вирджиния (Virginia Tech) |
|
Акторы/заинтересованные лица, их роли и ответственность |
Исследователи, практики, преподаватели и студенты, интересующиеся изучением сетей |
|
Цели |
Промежуточное программное обеспечение цифровой инфраструктуры для исследований и анализа сетей и графов (CINET) предназначено для поддержки исследований и аналитики сетей. Это промежуточное ПО обеспечит исследователям, практикам, преподавателям и студентам доступ к вычислительно-аналитической среде для проведения исследований, в образовательных целях и в целях обучения. Пользовательский интерфейс предоставляет списки доступных сетей и модулей анализа сетей (реализующих алгоритмы анализа сетей). Пользователь, которым может быть исследователь в области теории сетей и ее приложений, может выбрать одну или несколько сетей и проанализировать их с помощью доступных инструментов и модулей анализа. Пользователь также может генерировать случайные сети, следуя различным моделям случайных графов. Преподаватели и студенты могут использовать CINET в ходе учебных занятий для демонстрации различных теоретических свойств графов и поведения различных алгоритмов. Пользователь также может добавить в систему сеть или модуль анализа сети. Эта функциональная возможность CINET позволяет платформе легко расти, сохраняя актуальность инструментов анализа благодаря добавлению новейших алгоритмов. Цель заключается в том, чтобы предоставить общую веб-платформу, обеспечивающую конечному пользователю бесперебойный доступ: - к различным инструментам анализа сетей и графов, таким как SNAP, NetworkX, Galib и др.; - к созданным для решения реальных задач и к синтезированным сетям; - к вычислительным ресурсам; - к системе управления данными. |
|
Описание варианта использования |
Пользователи могут запустить один или несколько вариантов структурного или динамического анализа на наборе выбранных ими сетей. Специальный предметно-ориентированный язык дает пользователям возможность проектировать гибкие высокоуровневые потоки рабочих процессов для организации более сложного анализа сетей |
|
Текущие решения |
Вычислительная система |
Высокопроизводительный вычислительный кластер Shadowfax (DELL С6100), состоящий из 60 вычислительных узлов с 12 процессорами (Intel Xeon Х5670 2,93 ГГц) в каждом узле, - в общей сложности 720 процессоров с 4 гигабайтами оперативной памяти у каждого процессора. Система с общей памятью; также используются облачные вычисления на основе Amazon Elastic Compute Cloud (Amazon EC2). Некоторые из программ и сетей могут использовать системы с одним узлом, и ввиду этого в настоящее время отображаются на грид-инфраструктуру Open Science Grid ("Открытый научный грид", США, http://www.opensciencegrid.org/) |
Хранение |
Общая параллельная файловая система GPFS (ныне IBM Spectrum Scale) фирмы IBM, емкостью 628 терабайт |
|
Сеть связи |
Интернет, Infiniband. Довольно пестрая коллекция суперкомпьютерных ресурсов |
|
Программное обеспечение |
Библиотеки для работы с графами: Galib, NetworkX. Управление распределенными потоками рабочих процессов: Simfrastructure, Базы данных, семантические веб-инструменты |
|
Характеристики больших данных |
Источник данных (распределенный/ централизованный) |
Сеть хранится в одном файле на диске, доступном для нескольких процессоров. Однако во время выполнения параллельного алгоритма сеть может быть разделена, и ее части загружаются в основную память нескольких процессоров |
Объем (количество) |
Может составлять сотни гигабайт для одной сети |
|
Скорость обработки (например, в реальном времени) |
Два типа изменений: (i) сети очень динамичны; и (ii) мы ожидаем быстрое расширение хранилища, в котором примерно через год будет храниться как минимум от тысячи до 5 тыс. сетей и методов |
|
Разнообразие (множество наборов данных, комбинация данных из различных источников) |
Наборы данных различны: - ориентированные и неориентированные сети; - статические и динамические сети, - помеченные сети, - могут иметь динамику на этих сетях |
|
Вариативность (темпы изменения) |
Объемы связанных с графами данных увеличиваются возрастающими темпами. Кроме того, в различных областях медико-биологических наук методы на основе графов все чаще используются для решения проблем. В этой связи мы ожидаем, что объемы данных и вычислений будут расти значительными темпами |
|
Наука о больших данных (сбор, курирование, анализ, операции) |
Достоверность (вопросы надежности, семантика) |
Есть проблемы, связанные с асинхронными распределенными вычислениями. Современные системы спроектированы в расчете на синхронный отклик в реальном времени |
Визуализация |
По мере увеличения размера исходного графа нагрузка на систему визуализации на стороне клиента сильно возрастает как с точки зрения данных, так и с точки зрения вычислений |
|
Качество данных (синтаксис) |
|
|
Типы данных |
|
|
Аналитика данных |
|
|
Иные проблемы больших данных |
Для анализа больших сетей необходимы параллельные алгоритмы. В отличие от многих структурированных данных сетевые данные трудно разделять на части. Основная сложность при разделении сети заключается в том, что для эффективной работы различных алгоритмов требуются разные схемы разделения. Более того, большинство сетевых метрик имеют глобальный характер и требуют либо: i) огромного дублирования данных в разделах, либо ii) очень больших издержек на пересылку в результате требуемого перемещения данных. Для больших сетей эти трудности перерастают в серьезные проблемы. Вычислять динамику на сетях сложнее, поскольку структура сети часто взаимодействует с изучаемым динамическим процессом. CINET поддерживает большой класс операций для самых разных по структуре и размеру графов. В отличие от других систем, требующих интенсивных вычислений и работы с данными, таких, как параллельные базы данных или методы вычислительной гидродинамики, производительность вычислений на графах чувствительна к базовой архитектуре. Таким образом, уникальной задачей CINET является управление отображением рабочей нагрузки (тип графа + операция) на машину, чья архитектура и время выполнения благоприятны для системы. Манипулирование данными и ведение учета производных данных для пользователей является еще одной большой проблемой, поскольку, в отличие от корпоративных данных, отсутствуют четко определенные и эффективные модели и инструменты для унифицированного управления различными данными графов |
|
Проблемы пользовательского интерфейса и мобильного доступа |
|
|
Технические проблемы обеспечения безопасности и защиты персональных данных |
|
|
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры) |
Высокопроизводительные вычисления как услуга. По мере роста объемов данных, все в большем числе приложений, таких, как приложения биологических наук, приходится использовать высокопроизводительные системы. CINET может использоваться для предоставления необходимых для таких областей вычислительных ресурсов |
|
Дополнительная информация (гиперссылки) |
Шериф Абдельхамид (Sherif Abdelhamid) и др. "CINET 2.0: Цифровая инфраструктура для исследований и анализа сетей и графов" (CINET 2.0: A Cyberlnfrastructure for Network Science), 2014, http://grids.ucs.indiana.edu/ptliupages/publications/CINETv2.pdf |
А.5.6 Вариант использования N 31: Измерения и оценки эффективности аналитических технологий в Национальном институте стандартов и технологий (NIST)
Название |
Измерения, оценки и стандарты эффективности аналитических технологий в отделе доступа к информации NIST |
|
Предметная область |
Измерения и стандарты эффективности аналитических технологий для заинтересованных сторон из государственного сектора, промышленности и научных кругов |
|
Автор/организация/эл. почта |
Джон Гэрофоло (John Garofolo), Национальный институт стандартов и технологий (NIST), john.garofolo@nist.gov |
|
Акторы/заинтересованные лица, их роли и ответственность |
Разработчики методов измерений в NIST, поставщики данных, разработчики аналитических алгоритмов, пользователи аналитических технологий для неструктурированных, полуструктурированных и разнородных данных изо всех секторов |
|
Цели |
Ускорение разработки передовых аналитических технологий для неструктурированных, полуструктурированных и разнородных данных с помощью измерения и стандартов эффективности. Привлечение внимания сообществ по интересам к важным проблемам, стоящим перед аналитическими технологиями, создание на основе консенсуса метрик и методов измерения для оценки эффективности, определение эффективности этих метрик и методов посредством проведения их оценки в масштабах сообщества, способствующей обмену знаниями и ускоряющей прогресс, а также формирование консенсуса в отношении широкого используемых стандартов для измерения эффективности |
|
Описание варианта использования |
Разработка, с целью создания основ и ускорения дальнейшего развития передовых аналитических технологий в областях обработки речи и языка, видеозаписей и мультимедийных материалов, биометрических изображений и неоднородных данных метрик эффективности, методов измерения и проведение оценок сообществом, а также взаимодействие аналитиков с пользователями. Обычно применяется одна из двух моделей обработки: (1) предоставить участникам тестирования тестовые данные и проанализировать выходные данные систем-участников, и (2) предоставить участникам интерфейсы к тестовой обвязке для алгоритмов, взять их алгоритмы и провести тестирование алгоритмов на внутренних вычислительных кластерах. Разработка подходов для поддержки масштабируемого тестирования на основе облачных вычислений, а также выполнение тестирования на удобство использования и полезность в системах с пользователями в контуре |
|
Текущие решения |
Вычислительная система |
Кластеры под Linux и OS-10; распределенные вычисления с участием заинтересованных сторон; специализированные архитектуры обработки изображений |
Хранилище данных |
RAID-массивы, размещение данных на жестких дисках емкостью 1-2 терабайта, а иногда на FTP-серверах. Распределенное распространение данных с участием заинтересованных сторон |
|
Сеть связи |
Подключение жестких дисков по волоконно-оптическому каналу; гигабитный Ethernet для межсистемного информационного обмена; общие интранет- и интернет-ресурсы NIST и сетевые ресурсы, используемые совместно с заинтересованными сторонами |
|
Программное обеспечение |
Средства разработки PERL, Python, C/C++, Matlab, R. Разработка по принципу "снизу вверх" тестовых и измерительных приложений |
|
Характеристики больших данных |
Источник данных (распределенный/ централизованный) |
Для целей обучения, испытаний в ходе разработки и итоговых оценок имеются большие аннотированные совокупности неструктурированного/ полуструктурированного текста, аудио и видеозаписей, изображений, мультимедийных материалов и разнородные коллекции вышеперечисленного, включая аннотации о точности и достоверности |
Объем (количество) |
В составе совокупности тестовых данных более 900 млн веб-страниц общим объемом 30 терабайт, 100 млн твиттов, 100 млн проверенных биометрических изображений, несколько сотен тысяч частично проверенных видеоклипов и терабайты более мелких полностью проверенных тестовых коллекций. Для будущих оценок аналитики планируются еще более крупные коллекции данных, с использованием нескольких потоков данных и сильно неоднородных данных |
|
Скорость обработки (например, в реальном времени) |
Большинство старых методов оценки было основано на ретроспективной аналитике. В новых методах оценки основное внимание уделяется моделированию проблем анализа в реальном времени на основании данных из нескольких потоков |
|
Разнообразие (множество наборов данных, комбинация данных из различных источников) |
Тестовые коллекции охватывают широкий спектр типов аналитических приложений, включая текстовый поиск/извлечение, машинный перевод, распознавание речи, биометрию изображений и голоса, распознавание и отслеживание объектов и людей, анализ документов, диалог между человеком и компьютером и поиск/извлечение мультимедиа. Будущие тестовые коллекции будут включать данные и приложения смешанных типов |
|
Вариативность (темпы изменения) |
Оценка компромиссов между точностью и скоростью передачи данных, а также между числом потоков данных и их качеством |
|
Наука о больших данных (сбор, курирование, анализ, операции) |
Достоверность (вопросы надежности, семантика) |
Создание и измерение неопределенности, связанной с процессом проверки правильности данных (ground-truthing), особенно когда речь идет о людях, является сложной задачей. Использовавшиеся в прошлом ручные процессы проверки не масштабируются. Измерение эффективности комплексной аналитики, чтобы быть полезным, должно включать измерение внутренней неопределенности, а также погрешности проверки |
Визуализация |
Визуализация результатов оценки эффективности и диагностики аналитических технологий, включая значимость и различные формы неопределенности. Оценка методов представления результатов аналитики пользователям на предмет удобства использования, полезности, эффективности и точности |
|
Качество данных (синтаксис) |
На эффективность аналитических технологий сильное влияние оказывает качество данных, с которыми они работают, в отношении множества параметров, специфичных для предметной области и приложения. Количественная оценка этих параметров сама по себе является сложной исследовательской задачей. Смешанные источники данных и измерение эффективности аналитических потоков предъявляют еще большие требования к качеству данных |
|
Типы данных |
Неструктурированный и полуструктурированный текст, неподвижные изображения, видео, аудио, мультимедиа (аудио + видео) |
|
Аналитика данных |
Извлечение информации, фильтрация, поиск и резюмирование; биометрия изображения и голоса; распознавание и понимание речи; машинный перевод; обнаружение и отслеживание людей и объектов в видеозаписях; детектирование событий; сопоставление изображений и документов; обнаружение новизны в данных; разнообразная структурная/ семантическая/ временная аналитика и множество подтипов вышеперечисленного |
|
Иные проблемы больших данных |
Масштабирование процесса проверки на большие объемы данных, измерение внутренней неопределенности и неопределенности аннотаций, измерение эффективности для не полностью аннотированных данных, измерение эффективности аналитики для разнородных данных и аналитических потоков с участием пользователей |
|
Проблемы пользовательского интерфейса и мобильного доступа |
Перемещение обучения, разработки и тестовых данных на сторону участников оценки либо перемещение аналитических алгоритмов участников оценки в вычислительные испытательные стенды для проведения оценки эффективности. Предоставление инструментов разработки и данных. Поддержка гибких подходов к тестированию в процессе разработки |
|
Технические проблемы обеспечения безопасности и защиты персональных данных |
Аналитические алгоритмы, работающие с письменным языком, речью, изображениями людей и т.д., как правило, должны тестироваться на реальных или реалистичных данных. Крайне проблематично создание искусственных данных, которые бы в достаточной степени отражали вариативность реальных данных, связанных с людьми. Искусственно сформированные данные могут создавать искусственные проблемы, которые могут быть прямо или косвенно смоделированы аналитическими алгоритмами, что может приводить к завышенным показателям эффективности. |
|
Развитие самих аналитических технологий увеличивает риски, связанные с обеспечением неприкосновенности частной жизни. Будущие методы тестирования эффективности должны будут изолировать алгоритмы аналитических технологий от данных, на которых алгоритмы тестируются. Необходимы усовершенствованные архитектуры для поддержки требований по безопасности в отношении защиты чувствительных данных, обеспечивающие при этом возможность проведения содержательной оценки эффективности разработок. Совместно используемые испытательные стенды должны обеспечивать защиту интеллектуальной собственности разработчиков аналитических алгоритмов | ||
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры) |
Масштабируемость методов тестирования эффективности аналитических технологий, подготовка исходных данных и проведение их проверки; методы и архитектуры, поддерживающие тестирование разработок; защита интеллектуальной собственности в аналитических алгоритмах, персональных данных и иной персональной информации в тестовых данных; измерение неопределенности с использованием частично аннотированных данных; формирование тестовых данных с учетом качеств, влияющих на эффективность, и оценка сложности тестового набора; оценка сложных аналитических потоков с участием ряда видов аналитики, типов данных и взаимодействия с пользователем; многочисленные неоднородные потоки данных и огромное число потоков; смеси структурированных, полуструктурированных и неструктурированных источников данных; гибкие (agile) масштабируемые подходы и механизмы тестирования разработок |
|
Дополнительная информация (гиперссылки) |
Страница отдела доступа к информации на сайте NIST, https://www.nist.gov/itl/iad |
А.6 Экосистема для исследований
А.6.1 Вариант использования N 32: Консорциум федеративных сетей данных (DFC)
Название |
Консорциум федеративных сетей данных (DFC) |
|
Предметная область |
Среды совместной работы |
|
Автор/организация/эл. почта |
Рейган Мур (Reagan Moore)/Университет Северной Каролины в Чапел-Хилл (University of North Carolina at Chapel Hill)/ rwmoore@renci.org |
|
Акторы/заинтересованные лица, их роли и ответственность |
Научно-исследовательские проекты Национального научного фонда США: "Инициатива океанических наблюдательных станций" (архивация показаний датчиков); "Динамика во времени учебного центра" (грид-система управления данными для науки о процессах познания); проект iPlant Collaborative (геномика растений); проект электронной инженерной библиотеки Университета им. Дрекселя; и проект Института социальных наук им. Говарда Одума при Университете Северной Каролины в Чапел-Хилл (объединение грид-системы управления данными с открытым программным обеспечением для управления научно-исследовательскими данными Dataverse) |
|
Цели |
Организовать национальную инфраструктуру (среду совместной работы), которая позволит исследователям сотрудничать посредством коллективно используемых коллекций данных и общих рабочих процессов. Предоставить основанные на политике системы управления данными, поддерживающие формирование коллекций, грид-систему управления данными, электронные библиотеки, архивы и конвейеры обработки. Обеспечить механизмы интероперабельности, объединяющие существующие хранилища данных, информационные каталоги и веб-сервисы со средами совместной работы |
|
Описание варианта использования |
Содействовать совместным и междисциплинарным исследованиям посредством объединения систем управления данными, используемых федеральными органами и учреждениями США, национальными академическими научно-исследовательскими инициативами, хранилищами учреждений и участниками международного сотрудничества. Эта масштабная среда совместной работы включает петабайты данных, сотни миллионов файлов, сотни миллионов атрибутов метаданных, десятки тысяч пользователей и тысяча ресурсов хранения |
|
Текущие решения |
Вычислительная система |
Интероперабельность с workflow - системами управления потоками рабочих процессов (NCSA Cyberintegrator, Kepler, Taverna) |
Хранилище данных |
Интероперабельность файловых систем, ленточных архивов, облачного хранения, объектно-ориентированного хранения |
|
Сеть связи |
Совместимость с протоколами TCP/IP, параллельный TCP/IP, RBUDP, HTTP |
|
Программное обеспечение |
Интегрированная система управления данными, основанная на использовании правил (iRODS) |
|
Характеристики больших данных |
Источник данных (распределенный/ централизованный) |
Управление данными, распределенными в международном масштабе |
Объем (количество) |
Петабайты данных, сотни миллионов файлов |
|
Скорость обработки (например, в реальном времени) |
Поддержка работы с потоками данных от датчиков, управления спутниковыми изображениями, результатами моделирования, данными наблюдений, экспериментальными данными |
|
Разнообразие (множество наборов данных, комбинация данных из различных источников) |
Поддержка логических коллекций, пересекающих границы стран и организаций, агрегирование данных в контейнерах, метаданные и рабочие процессы как объекты |
|
Вариативность (темпы изменения) |
Поддержка активных коллекций (изменяемые данные), управление версиями данных и использование постоянных идентификаторов |
|
Наука о больших данных (сбор, курирование, анализ, операции) |
Достоверность (вопросы надежности, семантика) |
Обеспечение надежной передачи данных, журналы аудита, отслеживание событий, периодическая проверка соответствия критериям оценки (целостность, подлинность), распределенная отладка |
Визуализация |
Поддержка работы внешних систем визуализации посредством автоматизированных рабочих процессов (GRASS) |
|
Качество данных (синтаксис) |
Обеспечение механизмов проверки качества с помощью автоматизированных процедур |
|
Типы данных |
Поддержка синтаксического анализа избранных форматов (NetCDF, HDF5, Dicom) и предоставление механизмов для вызова других методов обработки данных |
|
Аналитика данных |
Поддержка запуска рабочих процессов (workflow) анализа, отслеживания происхождения рабочих процессов, совместное использование рабочих процессов и их повторного выполнение |
|
Иные проблемы больших данных |
Предоставление стандартных наборов политик, позволяющих новому сообществу воспользоваться и развивать дальше планы управления данными, отвечающие требованиям федеральных органов исполнительной власти США |
|
Проблемы пользовательского интерфейса и мобильного доступа |
Сбор знаний, необходимых для манипулирования данными, и применение созданных в результате процедур либо в месте хранения, либо на компьютерном сервере |
|
Технические проблемы обеспечения безопасности и защиты персональных данных |
Объединение существующих сред аутентификации с помощью "Типового API-интерфейса программирования приложений служб защиты данных" (Generic Security Service, интерфейс GSS-API) и подключаемых модулей аутентификации (GSI, Kerberos, InCommon, Shibboleth). Менеджмент мер и средств управления доступом к файлам независимо от места хранения |
|
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры) |
В настоящее время в 25 областях науки и техники имеются проекты, полагающиеся на интегрированную систему управления данными, основанную на использовании правил (iRODS): - астрофизика: проект поиска сверхновых "Аугер" (Auger); - изучение атмосферы: Научно-исследовательский центр по атмосферным наукам НАСА в Лэнгли (NASA Langley Atmospheric Sciences Center); - биология: проект филогенетики в Вычислительном центре французского Национального института ядерной физики и физики элементарных частиц (L'lnstitut national de physique nucleaire et de physique des particules, IN2P3); - климат: Национальный центр климатических данных США (National Climatic Data Center) Национального управления океанических и атмосферных исследований (National Oceanic and Atmospheric Administration, NOAA); - наука о процессах познания: "Динамика во времени учебного центра" Национального научного фонда (США); - компьютерные науки: виртуальная лаборатория для исследований в области компьютерных сетей и распределенных систем GENI (Global Environment for Network Innovations - "Глобальная среда для сетевых инноваций"); - исследование космического излучения: эксперименты на магнитном альфа-спектрометре (Alpha Magnetic Spectrometer, AMS) на Международной космической станции; - физика темной материи: проект EDELWEISS II (Experience pour DEtecter Les Wimps En Site Souterrain) французской "Подземной лаборатории в Модане" (Laboratoire Souterrain de Modane); - геологические науки: Центр моделирования климата (Center for Climate Simulations) Национального управления по аэронавтике и исследованию космического пространства (NASA); - экология: проект CEED ('Caveat Emptor'' Ecological Data Repository - Хранилище экологических данных "Предостережение покупателю") Университета штата Калифорния в Сан-Диего (San Diego State University) - инженерное дело: совместный проект группы американских университетов CIBER-U (Cyber - Infrastructure - Based Engineering Repositories for Undergraduates - "Инженерные хранилища данных на основе киберинфраструктуры для студентов"); - физика высоких энергий: проект BaBar Стенфордского центра линейных ускорителей (SLAC); - гидрология: Институт окружающей среды им. Вудсов (Institute for the Environment) Стенфордского университета, Университет Северной Каролины в Чапел-Хилл; проект Hydroshare Консорциума Университетов по развитию Гидрологических Наук (Consortium of Universities for the Advancement of Hydrologic Science, CUAHSI); - геномика: Институт Броада (Broad Institute), Институт Сенгера (Wellcome Trust Sanger Institute); - медицина: Госпиталь для больных детей (Sick Kids Hospital), г. Торонто (Канада) - нейробиология: Международная организация по координации научных исследований в области нейроинформатики (International Neuroinformatics Coordinating Facility, INCF); - физика нейтрино: эксперименты по изучению нейтрино Т2К и dChooz; - океанография: "Инициатива океанических наблюдательных станций" Национального научного фонда (США); - оптическая астрономия: Национальная обсерватория оптической астрономии (National Optical Astronomy Observatory, NOAO) в США; - физика элементарных частиц: проект INDRA (Identification de Noyaux et Detection avec Resolutions Accrues - "Идентификация ядер и детектирование с повышенным разрешением") французского центра GANIL (Grand Accelerateur National d'Ions Lourds - "Большой национальный ускоритель тяжелых ионов"); - фитогенетика: проект iPlant Collaborative Национального научного фонда (США) - квантовая хромодинамика: французский Национальный институт ядерной физики и физики элементарных частиц (L'lnstitut national de physique nucleaire et de physique des particules, IN2P3); - радиоастрономия: проект киберинфраструктуры для радиоастрономии Cyber Square Kilometer Array (CyberSKA), проекты TREND, BAOradio; - сейсмология: Центр землетрясений Южной Калифорнии (Southern California Earthquake Center); - социальные науки: Институт социальных наук им. Говарда Одума (Odum Institute for Social Science Research), проект IPUMS Terra (ранее TerraPop) |
|
Дополнительная информация (гиперссылки) |
Сайт консорциума DataNet Federation Consortium, http://datafed.org/ Сайт системы управления данными на основе политик iRODS, https://irods.org/ |
|
Примечание - Основной проблемой является сбор знаний, необходимых для взаимодействия с результатами обработки данных предметной области. В системах управления данными на основе политик это достигается путем включения знаний в процедуры, которые контролируются с помощью политик. Эти процедуры могут автоматизировать извлечение данных из внешних хранилищ, или же выполнять рабочие процессы обработки, или же обеспечивать исполнение политик управления применительно к полученным результатам обработки данных. Типовым приложением является обеспечение выполнения планов управления данными и проверка того, что план был успешно применен. |
А.6.2 Вариант использования N 33: Discinnet-процесс
Название |
Discinnet-процесс; глобальный эксперимент метаданные - большие данные |
|
Предметная область |
Научные исследования; междисциплинарное сотрудничество |
|
Автор/организация/эл. почта |
Филипп Журно (Philippe Journeau)/компания Discinnet Labs, Франция/ phjourneau@discinnet.org |
|
Акторы/заинтересованные лица, их роли и ответственность |
Участники: французские компании Richeact и Discinnet Labs, а также некоммерческий фонд I4OpenResearch. Ожидается создание аналогичных американских структур. Компания Richeact занимается вопросами эпистемологии фундаментальных научных исследований и опытно-конструкторских разработок; компания Discinnet Labs работает в области "Веб 2.0" |
|
Цели |
Научная цель компании Richeact заключается в разработке прогнозной междисциплинарной модели поведения областей исследований (с соответствующей метаграмматикой). Проводится экспериментирование посредством глобального распространения в настоящее время многодисциплинарного, а позднее междисциплинарного Discinnet-процесса с помощью веб-инструментов, и новой системы для совместного научного общения и публикации. Ожидается сильное влияние на сокращение неопределенности и временных задержек между теоретическими, прикладными, технологическими исследованиями и разработками |
|
Описание варианта использования |
В настоящее время активировано 35 кластеров; около 100 ждут, пока будут выделены дополнительные ресурсы; и потенциально еще больше кластеров открыто для сознания, управления и модерирования исследовательскими сообществами. Примеры кластеров варьируются от оптики, космологии, материаловедения, микроводорослей, здравоохранения до прикладной математики, вычислений, резины и других химические продуктов/проблем. Типичный вариант применения работает в настоящее время следующим образом: - исследователь или группа исследователей интересуется тем, как обстоят дела в определенной области исследований, и в течение минуты определяет данную область в Discinnet как "кластер"; - требуется еще от 5 до 10 минут для параметризации первых/основных измерений, в основном посредством указания единиц измерения и категорий (возможно, позднее будет выделено некоторое переменное ограниченное время для большего количества измерений). - кластер затем может быть заполнен сведениями о проектах/прогрессе либо аспирантами, либо занимающимися рецензированием специалистами и/или сообществами/исследователями. Такое решение уже имеет существенную ценность. Теперь его необходимо распространять и рекламировать, хотя максимальная ценность, как ожидается, будет исходить из междисциплинарной/проецирующей следующей версии. Полезность заключается в возможности быстро обнаружить представляющий интерес документ/проект по его результатам, и следующим шагом является построение "траектории" области исследований путем взаимодействия с различного уровня оракулами (субъектами/объектами) + из междисциплинарного контекста |
|
Текущие решения |
Вычислительная система |
В настоящее время на серверах хостинговой компании OVH (https://www.ovh.co.uk/) - смесь коллективно используемых и выделенных ресурсов |
Хранилище данных |
На серверах хостинговой компании OVH |
|
Сеть связи |
Должно быть реализовано в рамках желаемой интеграции с другими участниками |
|
Программное обеспечение |
Текущая версия использует Symfony PHP, Linux, MySQL |
|
Характеристики больших данных |
Источник данных (распределенный/ централизованный) |
В настоящее время централизованный, вскоре будет распределен по странам и даже по предоставляющим хостинг учреждениям, заинтересованным иметь собственные платформы |
Объем (количество) |
Не имеет значения: это база метаданных, а не больших данных |
|
Скорость обработки (например, в реальном времени) |
В реальном времени |
|
Разнообразие (множество наборов данных, комбинация данных из различных источников) |
Связь с большими данными еще предстоит установить через взаимоотношения метаданные <-> большие данные, которые пока еще не реализованы (экспериментальные базы данных уже связаны с метаданными 1-го уровня) |
|
Вариативность (темпы изменения) |
В настоящее время - в режиме реального времени; в будущем для других местоположений и распределенных архитектур - периодическая (например, в ночное время) |
|
Наука о больших данных (сбор, курирование, анализ, операции) |
Достоверность (вопросы надежности, семантика) |
Методы обнаружения общей согласованности, "дыр", ошибок, неверных утверждений известны, но их еще в основном предстоит реализовать |
Визуализация |
Многомерная (гиперкуб) |
|
Качество данных (синтаксис) |
Данные априори предполагаются правильными (прямой ввод человеком), частично реализован ряд процессов проверки и оценки |
|
Типы данных |
"Кластерные дисплеи" (изображения), векторы, категории, PDF-файлы |
|
Аналитика данных |
|
|
Иные проблемы больших данных |
Наша цель заключается в том, чтобы внести свой вклад в проблему генерации метаданных на основе больших данных, путем систематического согласования метаданных на многих уровнях сложности с постоянно поступающими от исследователей данными о продолжающихся процессах исследований. В настоящее время партнерство с компанией Richeact направлено на то, чтобы создать междисциплинарную модель, используя саму метаграмматику для экспериментирования и подтверждения того, что ее степень охвата эффективно преодолевает разрыв между столь сильно отличающимися уровнями сложности, как семантический и уровень самых элементарных сигналов. Пример с космологическими моделями в сравнении с промежуточными моделями различных уровней (частицы, газы, галактики, ядерный уровень, геометрия). Другие примеры с сопоставлением вычислительного и семантического уровней |
|
Проблемы пользовательского интерфейса и мобильного доступа |
Соответствующая мощность графического интерфейса |
|
Технические проблемы обеспечения безопасности и защиты персональных данных |
Уже доступно несколько уровней, другие запланированы, вплоть до ключей для физического доступа и изолированных серверов. Опциональная анонимность, обычные защищенные соединения |
|
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры) |
В течение 2011-2013 гг. мы показали на http://www.discinnet.org, что все виды областей исследования легко поддаются отображению типа Discinnet, однако для разработки и заполнения кластера требуются время и/или выделенные сотрудники |
|
Дополнительная информация (гиперссылки) |
На сайте http://www.discinnet.org уже созданные или создаваемые кластеры можно просмотреть одним щелчком мыши по названию кластера (полю), и еще больше сведений доступно в случае прохождения бесплатной регистрации [зарегистрированным в качестве исследователей или аспирантов пользователям доступно больше ресурсов (публикации)]. Максимальный уровень детализации является бесплатным для участвующих исследователей в интересах защиты сообществ, но для внешних наблюдателей он доступен за символическую плату: приветствуются все предложения по совершенствованию и улучшению обмена. Мы особенно открыты для поддержки экспериментального использования платформы аспирантурами в целях создания и изучения прошлого и будущего поведения кластеров в области геологических наук, космологии, гидрологии, здравоохранения, вычислений, энергии/аккумуляторов, моделей климата, изучения космоса и т.д. |
|
Примечание - Мы открыты для того, чтобы способствовать широкому использованию как глобальной, так и региональной и локальной версий платформы (например, исследовательскими институтами, издателями, сетями) в интересах максимально широкого обмена данными с целью извлечения наибольшей пользы для развития науки. |
А.6.3 Вариант использования N 34: Поиск по графу для научных данных
Название |
Обеспечение поиска по семантическому графу в отношении текстовых научных данных по химии, аналогичного поиску в Facebook |
|
Предметная область |
Управление информацией из научных статей |
|
Автор/организация/эл. почта |
Талапади Бхат (Talapady Bhat), Национальный институт стандартов и технологий (NIST), bhat@nist.gov |
|
Акторы/заинтересованные лица, их роли и ответственность |
Химические структуры, "Банк данных белковых структур" (Protein Data Bank, PDB), инициатива "Геном материала" (Materials Genome Initiative), инициатива "Открытое правительство", семантическая паутина, интегрированные графы данных, научные социальные сети |
|
Цели |
Создать инфраструктуру, терминологию и семантические графы данных для аннотирования и представления информации о технологиях, используя методы, основанные на корневых морфемах (root-based) и на правилах (rule-based), которые применяются главным образом в отношении индоевропейских языков, таких как санскрит и латынь |
|
Описание варианта использования |
Шумиха вокруг социальных сетей Интернет и социальные сети играют важную роль в современном обмене информацией. Каждый день большинство из нас используют социальные сети и для распространения, и для получения информации. Тремя специфическими особенностями многих социальных сетей, таких как Facebook, являются: - члены сообщества одновременно и поставщики данных, и их пользователи; - социальные сети хранят информацию на предопределенной "полке данных" графа данных; - основная инфраструктура социальных сетей для управления информацией в разумной степени независима от языка. Какое это имеет отношение к управлению научной информацией? За последние несколько десятилетий наука действительно эволюционировала, превратившись в общественную деятельность, охватывающую каждую страну и почти каждую семью. Мы регулярно "настраиваемся" на интернет-ресурсы для того, чтобы поделиться и найти научную информацию. Каковы проблемы создания социальных сетей для науки? Создание социальных сетей научной информации требует инфраструктуры, в рамках которой многие ученые из разных частей мира могут принимать участие и размещать результаты своих экспериментов. Перед созданием научной социальной сети необходимо решить некоторые вопросы, включая следующие: - Как минимизировать проблемы, связанные с местным языком и его грамматикой? - Как, не слишком много зная об управлении данными, определить "граф данных" так, чтобы размещать информацию интуитивно понятным способом? - Как найти адекватные научные данные, не проводя чересчур много времени в Интернете? Метод При работе с большинством языков, и особенно с санскритом и латынью, используется новый метод на основе корневых морфем для упрощения создания, когда в этом возникает потребность, хорошо выделяющихся слов для определения понятий. Некоторыми примерами такого рода из английского языка являются "био-логия" (bio-logy), "био-химия" (bio-chemistry). Примерами из санскрита являются Youga, Yogi, Yogendra, Yogesh. Примером на латыни может служить "геноцид" (genocide). Эти слова создаются по требованию на основе ставших "хорошей практикой" терминов и их способности служить узлом с самоочевидным значением в дискриминирующем графе данных |
|
Текущие решения |
Вычислительная система |
Облако для участия членов сообщества |
Хранилище данных |
Требуется расширяемый по требованию ресурс, подходящий с учетом местоположения и требований глобальных пользователей |
|
Сеть связи |
Нужна хорошая сеть для участия членов сообщества |
|
Программное обеспечение |
Нужны хорошие инструменты базы данных и серверы для манипулирования графами данных |
|
Характеристики больших данных |
Источник данных (распределенный/ централизованный) |
Распределенный ресурс с ограниченными централизованными возможностями |
Объем (количество) |
Не определен. Первоначально может составлять несколько терабайт |
|
Скорость обработки (например, в реальном времени) |
Со временем эволюционирует, чтобы соответствовать новым наилучшим практикам |
|
Разнообразие (множество наборов данных, комбинация данных из различных источников) |
Очень сильно варьируется в зависимости от типов доступной информации о технологиях |
|
Вариативность (темпы изменения) |
Вероятно, графы данных будут изменяться со временем в зависимости от предпочтений клиентов и наилучших практик |
|
Наука о больших данных (сбор, курирование, анализ, операции) |
Достоверность (вопросы надежности, семантика) |
Информация о технологиях, вероятно, будет стабильной и надежной |
Визуализация |
Требуется эффективная визуализация на основе графа данных |
|
Качество данных (синтаксис) |
Ожидается, что будет хорошим |
|
Типы данных |
Любые типы данных, от изображений до текстов, от структуры до белковых последовательностей |
|
Аналитика данных |
Ожидается, что графы данных будут способствовать появлению надежных методов анализа данных |
|
Иные проблемы больших данных |
Эта деятельность сообщества похожая на многие социальные сети. Обеспечение устойчивых, масштабируемых, предоставляемых по требованию инфраструктур таким образом, который был бы дружественным и варианту использования, и пользователю, является реальной проблемой для любых существующих традиционных методов |
|
Проблемы пользовательского интерфейса и мобильного доступа |
Сообществу необходим доступ к данным, поэтому доступ должен быть независимым от носителя и местоположения, и, следовательно, также требует высокой мобильности |
|
Технические проблемы обеспечения безопасности и защиты персональных данных |
Нет, поскольку изначально усилия были сфокусированы на общедоступных данных, предоставляемых проектами с открытой платформой, такими, как инициатива "Открытое правительство", инициатива "Геном материала" и "Банк данных белковых структур" |
|
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры) |
Данные усилия охватывают множество локальных и сетевых ресурсов. Разработка инфраструктуры для автоматической интеграции информации из всех этих ресурсов с использованием графов данных является сложной задачей, которую мы стараемся решить |
|
Дополнительная информация (гиперссылки) |
Пресс-релиз "Фейсбук для молекул" (Facebook for molecules) Американского института физики (American Institute of Physics), 18 июля 2013 г., https://www.eurekalert.org/pub_releases/2013-07/aiop-ffm071813.php Страница поиска по Банку данных белковых структур и веб-сервиса поиска и визуализации химических структур Chem-BLAST на сайте Национального института стандартов и технологий (США), https://randr.nist.gov/chemblast/default.aspx |
|
Примечание - Во многих отчетах, в том числе в недавнем отчете по проекту "Геном материала" (Materials Genome Initiative), отмечается, что исключительно нисходящие решения, облегчающие обмен данными и интеграцию, нежелательны в случае междисциплинарных усилий. В то же время подход "снизу вверх" может быть хаотичным. По этой причине существует потребность в сбалансированном сочетании двух подходов с целью поддержки простых в использовании методов создания, интеграции и обмена метаданными. Эта проблема очень похожа на проблему, с которой сталкиваются разработчики языка на начальной стадии. Одними из успешных подходов, используемых во многих известных языках, являются методы на основе корневых морфем и на основе правил, которые формируют основу для создания, когда это требуется, новых слов для общения. В этом подходе метод "сверху вниз" используется для выделения ограниченного числа многократно используемых слов, называемых "корневыми морфемами", путем изучения существующих передовых практик построения терминологии. Затем корневые морфемы комбинируются с использованием нескольких "правил" для создания новых терминов, на этапе, выполняемом снизу вверх. Y (uj) ("присоединяться"), О ("создатель", "Бог", "мозг"), Ga ("движение", "посвящение") - ведет к формированию слова "йога", используемого в санскрите, и английском языке. Geno ("род" на греческом) - cide (от латинского occidendum - "убийство") = genocide ("геноцид", убийство по расовым мотивам). Bio-technology ("биотехнология") - английский, латынь. Red-light, red-laser-light - английский. Пресс-релиз Американского института физики об этом подходе см. по адресу https://www.eurekalert.org/pub_releases/2013-07/aiop-ffm071813.php Наши усилия по разработке автоматизированных методов, сочетающих подходы на основе корневых морфем и на основе правил (проект Chem-BLAST, см. https://randr.nist.gov/chemblast/default.aspx) для выявления и использования лучших практик, различающих термины при создании семантических графов данных для науки, начались почти десять лет тому назад с базы данных химических структур. Эта база данных содержит миллионы структур, полученных из используемых во всем мире "Банка данных белковых структур" и базы данных химических соединений и смесей PubChem, используемых по всему миру. Впоследствии мы расширили наши усилия и занялись созданием на основе корневых морфем терминов для текстовых данных, связанных с изображениями клеток. В данной работе мы используем несколько простых правил для определения и расширения терминов, основанных на хорошей практике, идентифицируемой путем изучения миллионов популярных вариантов использования, выбранных из более чем сотни биологических онтологий. В настоящее время мы работаем над распространением этого метода на публикации, представляющие интерес для инициативы "Геном материала", движения "Открытое правительство", а также для "Сети интегрированных знаний NIST - EditorialNet" (NIKE) - архива публикаций американского Национального института стандартов и технологий (NIST). Эти усилия являются частью деятельности рабочей группы "Справочник стандартов метаданных" (Metadata Standards Directory) Альянса научных данных (Research Data Alliance), см. www.rd-alliance.org/filedepot_download/694/160 и https://www.rd-alliance.org/plenary-meetings/second-plenary/poster-session-rda-2nd-plenary-meeting.html |
А.6.4 Вариант использования N 35: Анализ больших объемов данных, получаемых в экспериментах на синхротроне
Название |
Анализ больших объемов данных, получаемых в экспериментах на синхротроне |
|
Предметная область |
Научные исследования (биология, химия, геофизика, материаловедение и ДР) |
|
Автор/организация/эл. почта |
Эли Дарт (Eli Dart)/Национальная лаборатория имени Лоуренса в Беркли, США (LBNL), eddart@lbl.gov |
|
Акторы/заинтересованные лица, их роли и ответственность |
Научно-исследовательские группы из различных научных дисциплин (см. выше) |
|
Цели |
Использование различных экспериментальных методов для определения структуры, состава, поведения и других характеристик образца, имеющих отношение к соответствующему научному исследованию |
|
Описание варианта использования |
Образцы подвергаются воздействию рентгеновского излучения в различных конфигурациях, в зависимости от эксперимента. Данные собираются детекторами, которые фактически представляют собой высокоскоростные цифровые фотокамеры. Затем данные анализируются с целью восстановления вида исследуемого образца или процесса. Реконструированные изображения используются учеными для анализа |
|
Текущие решения |
Вычислительная система |
Диапазон вычислений варьируется от отдельных компьютеров для анализа до вычислительных систем с высокой пропускной способностью в вычислительных центрах |
Хранилище данных |
Локальное временное хранение на объекте от одного до 40 терабайт данных на серверах данных под Windows или Linux; более 60 терабайт на жестком диске и более 300 терабайт на ленте в Национальном научно-исследовательском вычислительном центре энергетических исследований Министерства энергетики США (NERSC) |
|
Сеть связи |
Ethernet 10 гигабит/с на объекте, 100 гигабит/с связь с NERSC |
|
Программное обеспечение |
Для анализа данных используется различное программное обеспечение, как коммерческое, так и с открытым исходным кодом, например: - Octopus (см. https://octopusimaging.eu/) для томографической реконструкции; - Avizo и FIJI (дистрибутив открытого программного обеспечения ImageJ, см. http://fiji.sc/) для визуализации и анализа. Передача данных осуществляется посредством физического перемещения портативных носителей информации (что сильно ограничивает производительность); либо с использованием высокопроизводительного протокола GridFTP в реализации компании Globus Online, и систем управления потоками рабочих процессов, таких как программная инфраструктура с открытым исходным кодом SPADE (Support for Provenance Auditing in Distributed Environments - "Поддержка аудита происхождения в распределенных средах") |
|
Характеристики больших данных |
Источник данных (распределенный/ централизованный) |
Централизованный (фотокамера высокого разрешения на объекте). На объекте имеется несколько каналов отвода излучения к экспериментальным установкам с высокоскоростными детекторами |
Объем (количество) |
От 3 до 30 гигабайт на образец, до 15 образцов в день |
|
Скорость обработки (например, в реальном времени) |
Анализ в почти реальном времени необходим для проверки параметров эксперимента (для этого может использоваться низкое разрешение). Автоматизация анализа могла бы резко повысить продуктивность научных исследований |
|
Разнообразие (множество наборов данных, комбинация данных из различных источников) |
Многие детекторы выдают однотипные данные (например, файлы формата TIFF), но контекст эксперимента сильно варьируется |
|
Вариативность (темпы изменения) |
Возможности детекторов быстро растут, практически подчиняясь закону Мура. Площадь детектора экспоненциально увеличивается (1000 х 1000, 2000 x 2000, 4000 х 4000, ...), а частота снятия показаний экспоненциально растет (1 Гц, 10 Гц, 100 Гц, 1 кГц, ...). Ожидается, что в течение двух лет скорость передачи данных с одного детектора достигнет 1 гигабайта в секунду |
|
Наука о больших данных (сбор, курирование, анализ, операции) |
Достоверность (вопросы надежности, семантика) |
Анализ в почти реальном времени необходим для проверки параметров эксперимента. Во многих случаях раннее проведение анализа может резко повысить продуктивность эксперимента, обеспечивая раннюю обратную связь. Это подразумевает повседневную доступность вычислений с высокой пропускной способностью, высокопроизводительную передачу данных и высокоскоростное хранилище |
Визуализация |
Визуализация является ключом к широкому спектру экспериментов на всех экспериментальных объектах - генераторах излучения |
|
Качество данных (синтаксис) |
Качество и точность данных имеют решающее значение (особенно в связи с тем, что время работы генератора излучения ограничено, а повторный эксперимент часто невозможен) |
|
Типы данных |
Многие экспериментальные установки производят графические данные (например, файлы формата TIFF) |
|
Аналитика данных |
Объемная реконструкция, идентификация характеристик и т.д. |
|
Иные проблемы больших данных |
Быстрое увеличение возможностей фотокамер, необходимость автоматизации передачи данных и анализа в почти реальном времени |
|
Проблемы пользовательского интерфейса и мобильного доступа |
Становится необходимой передача данных в крупномасштабные вычислительные центры из-за вычислительной мощности, необходимой для проведения анализа в разумные, с точки зрения эксперимента, сроки. Из-за большого количества каналов отвода излучения к экспериментальным установкам, например, 39 у синхротрона Advanced Light Source (ALS) Национальной лаборатории имени Лоуренса в Беркли, США (LBNL), совокупное производство данных, вероятно, значительно возрастет в ближайшие годы |
|
Технические проблемы обеспечения безопасности и защиты персональных данных |
Варьируются в зависимости от проекта |
|
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры) |
Ожидается значительная потребность в обобщенной инфраструктуре для анализа гигабайт данных в секунду, поступающих от множества детекторов на ряде экспериментальных установок. В настоящее время существуют прототипы, однако развертывание для целей промышленной эксплуатации потребует дополнительных ресурсов |
|
Дополнительная информация (гиперссылки) |
Сайт синхротрона ALS (Advanced Light Source) Национальной лаборатории имени Лоуренса в Беркли, США (LBNL), https://als.lbl.gov/ Сайт синхротрона APS (Advanced Photon Source) Аргоннской национальной лаборатории (Argonne National Laboratory), США, https://www.aps.anl.gov/ Сайт рентгеновского лазера на свободных электронах LCLS (Linac Coherent Light Source) в Национальной ускорительной лаборатории SLAC (SLAC National Accelerator Laboratory) Стэнфордского университета, США, https://portal.slac.stanford.edu/sites/lcls_public/Pages/Default.aspx (исторический), https://lcls.slac.stanford.edu/ (действующий) |
А.7 Астрономия и физика
А.7.1 Вариант использования N 36: "Каталинский обзор оптических переходных процессов в режиме реального времени" (CRTS)
Название |
"Каталинский обзор оптических переходных процессов в режиме реального времени" (CRTS) - цифровой, панорамный, синоптический обзор неба |
|
Предметная область |
Научные исследования: астрономия |
|
Автор/организация/эл. почта |
Станислав Джорговский (Stanislav G. Djorgovski)/Калифорнийский технологический институт (Caltech)/ george@astro.caltech.edu |
|
Акторы/заинтересованные лица, их роли и ответственность |
Исследовательская группа обзора: обработка данных, контроль качества, анализ и интерпретация, публикация и архивирование. Участники сотрудничества - ряд научно-исследовательских групп по всему миру: дальнейшая работа по анализу и интерпретации данных, дополнительные наблюдения и публикационная деятельность. Сообщество пользователей: все вышеперечисленное. Мировое астрономическое сообщество: дальнейшая работа по анализу и интерпретации данных, дополнительные наблюдения и публикационная деятельность |
|
Цели |
В рамках обзора проводятся исследования меняющейся Вселенной в диапазоне видимого света, в масштабах времени, варьирующихся от минут до лет, путем поиска переменных и транзиентных (непостоянных, преходящих) источников. Обзор позволяют выявить широкий спектр астрофизических объектов и явлений, включая различные типы космических взрывов (например, сверхновых), переменные звезды, явления, связанные с аккрецией на массивные черные дыры (примером служат активные галактические ядра) и их релятивистские потоки частиц и энергий, звезды с большим собственным движением и т.д. |
|
Описание варианта использования |
Данные поступают с трех телескопов (два в Аризоне, США и один в Австралии), и в ближайшем будущем ожидается подключение дополнительных телескопов (в Чили). Первоначальной мотивацией проекта являлся поиск околоземных и потенциально представляющих для Земли угрозу астероидов, финансируемый Национальным управлением по аэронавтике и исследованию космического пространства США (NASA) и проводимый группой из Лаборатории изучения Луны и планет в Университете Аризоны, США (LPL) - это был базовый проект "Каталинский обзор неба" (CSS). CRTS делится данными в целях изучения меняющейся Вселенной за пределами Солнечной системы, эту работу возглавляет группа из Калифорнийского технологического института. С использованием нескольких проходов обозревается приблизительно 83 % всего неба (исключены переполненные области вблизи плоскости Галактики и небольшие области вблизи небесных полюсов). Данные предварительно обрабатываются на телескопе, а затем передаются в Лабораторию изучения Луны и планет в Университете Аризоны, США (LPL) и Калифорнийский технологический институт (Caltech) для дальнейшего анализа, распространения и архивирования. Данные обрабатываются в режиме реального времени, а обнаруженные транзиентные события публикуются с использованием различных электронных механизмов распространения, без использования проприетарного периода отсрочки до широкого распространения данных (CRTS использует политику полностью открытых данных). Дальнейший анализ данных включает автоматическую и полуавтоматическую классификацию обнаруженных транзиентных событий, дополнительные наблюдения с использованием других телескопов, научную интерпретацию и публикацию. В этом процессе интенсивно используются архивные данные из широкого спектра географически распределенных ресурсов, объединенных структурой Виртуальной обсерватории (VO). Кривые блеска (истории потоков) накапливаются для Проект CRTS служит научным и методологическим испытательным стендом и является предшественником предстоящих более крупных обзоров, которые будут проводиться, в особенности, Большим синоптическим обзорным телескопом в Обсерватории имени Веры Рубин, Чили (LSST), который, как ожидается, войдет в эксплуатацию в 2020-х гг. |
|
Текущие решения |
Вычислительная система |
Оборудование и компьютеры для обработки данных: несколько настольных компьютеров и небольших компьютеров серверного класса, хотя для некоторых задач анализа данных требуется более мощное оборудование Данный проект не столько требователен к вычислительным ресурсам, сколько к процессу обработки данных |
Хранилище данных |
Несколько многотерабайтных и десятки терабайтных серверов |
|
Сеть связи |
Стандартные интернет-соединения между университетами |
|
Программное обеспечение |
Специализированные "конвейер" обработки данных и программное обеспечение для анализа данных, работающее под ОС Linux. Некоторые архивы располагаются на машинах под ОС Windows, на которых используется СУБД MS SQL |
|
Характеристики больших данных |
Источник данных (распределенный/ централизованный) |
Распределенными являются: 1) данные обзора, поступающие с трех (впоследствии - с большего числа) телескопов; 2) архивные данные из различных ресурсов, объединенных структурой Виртуальной обсерватории; 3) данные последующих наблюдений с отдельных телескопов |
Объем (количество) |
В ходе обзора создается примерно до 0,1 терабайта данных в ясную ночь, а суммарный объем фондов данных составляет в настоящее время около 100 терабайт. Данные последующих дополнительных наблюдений составляют не более нескольких процентов от этого объема. Объем архивных данных во внешних (подключенных к структуре Виртуальной обсерватории) архивах измеряется петабайтами, но используется только небольшая их часть |
|
Скорость обработки (например, в реальном времени) |
До |
|
Разнообразие (множество наборов данных, комбинация данных из различных источников) |
Первичные данные обзора представлены в виде изображений, которые обрабатываются с целью каталогизации источников (представлены в таблицах баз данных) и построения временных рядов для отдельных объектов (кривые блеска). Данные последующих дополнительных наблюдений представлены в виде изображений и спектров. Архивные данные из грида данных Виртуальной обсерватории включают все вышеперечисленное из широкого спектра источников, полученное в различных диапазонах длин волн |
|
Вариативность (темпы изменения) |
Ежедневный трафик данных колеблется в диапазоне от |
|
Наука о больших данных (сбор, курирование, анализ, операции) |
Достоверность (вопросы надежности, семантика) |
На всех этапах процесса реализованы различные механизмы контроля качества, включающие автоматизированные средства и инспектирование человеком |
Визуализация |
Используются стандартные пакеты визуального отображения и построения графиков. Мы исследуем механизмы визуализации для пространств параметров данных высокой размерности |
|
Качество данных (синтаксис) |
Качество варьируется в зависимости от условий наблюдений, и оценивается автоматически: оценки погрешности делаются для всех соответствующих величин |
|
Типы данных |
Изображения, спектры, временные ряды, каталоги |
|
Аналитика данных |
Существует большое количество разнообразных инструментов анализа астрономических данных, а также большое количество специализированных инструментов и программного обеспечения, часть которых является самостоятельными исследовательскими проектами |
|
Иные проблемы больших данных |
Разработка инструментов машинного обучения для изучения данных, и в частности для автоматической классификации транзиентных событий в режиме реального времени, с учетом немногочисленности и неоднородности данных. Эффективная визуализация многомерных пространств параметров является для всех нас серьезной проблемой |
|
Проблемы пользовательского интерфейса и мобильного доступа |
В настоящее время не является существенным ограничением |
|
Технические проблемы обеспечения безопасности и защиты персональных данных |
Нет |
|
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры) |
Обработка и анализ в реальном времени больших потоков данных, поступающих из распределенной сенсорной сети (в данном случае, с телескопов), когда требуется выявить, охарактеризовать и отреагировать на представляющие интерес транзиентные события в (почти) реальном времени. Использование сильно распределенных архивных ресурсов данных (в данном случае, архивов, объединенных в рамках Виртуальной обсерватории) для анализа и интерпретации данных. Автоматическая классификация с учетом немногочисленности и разнородных данных, динамически эволюционирующая во времени по мере поступления большего количества данных; и принятия решений о проведении дополнительных исследований в условиях немногочисленности и ограниченности ресурсов (в данном случае, проведение последующих наблюдений с использованием других телескопов) |
|
Дополнительная информация (гиперссылки) |
Страница проекта CRTS на сайте Калифорнийского технологического института, http://crts.caltech.edu/ Страница проекта CSS на сайте Лаборатории изучения Луны и планет в Университете Аризоны, США (LPL), https://catalina.lpl.arizona.edu/ Более подробные сведения об обзорах неба, их прошлом, настоящем и будущем, а также обзор проблем классификации см., например, в статье S.G. Djorgovski et al "Flashes in a Star Stream: Automated Classification of Astronomical Transient Events", IEEE eScience 2012 conference, October 2012, IEEE Press, https://arxiv.org/abs/1209.1681 |
|
Примечание - Проект CRTS можно рассматривать как хорошего предшественника для флагманского проекта астрономии, Большого синоптического обзора неба (Large Synoptic Sky Survey) с использованием Большого синоптического обзорного телескопа в Обсерватории имени Веры Рубин, Чили (LSST), https://www.lsst.org/, который сейчас строится. Его ожидаемые объемы передачи данных (от 20 до 30 терабайт в ясную ночь, десятки петабайт за время проведения обзора в целом) соответствуют росту по закону Мура от текущих скоростей и объемов данных проекта CRTS, и многие технические и методологические проблемы очень похожи. Это также хороший вариант применения для интеллектуального анализа данных в реальном времени и выделения знаний в больших потоках данных, в условиях распределенности источников данных и вычислительных ресурсов |
А.7.2 Вариант использования N 37: Космологический обзор неба и моделирование
Название |
Проект Министерства энергетики США анализа экстремально больших данных космологических обзоров неба и моделирования |
|
Предметная область |
Научные исследования: астрофизика |
|
Автор/организация/эл. почта |
Салман Хабиб (Salman Habib), Аргоннская национальная лаборатория (Argonne National Laboratory); Эндрю Конноли (Andrew Connolly), Университет Вашингтона, США |
|
Акторы/заинтересованные лица, их роли и ответственность |
Ученые, изучающие темную материю, темную энергию и структуру ранней Вселенной |
|
Цели |
Прояснить природу темной материи, темной энергии и инфляции, дав ответ на некоторые из самых волнующих, озадачивающих и проблемных вопросов из тех, что стоят перед современной физикой. Появляющиеся неожиданные результаты измерений указывают на потребность в физике, выходящей за рамки успешной "стандартной модели" физики элементарных частиц |
|
Описание варианта использования |
Данное исследование требует тесного взаимодействия между "большими данными" из экспериментов и моделирования, а также огромных объемов вычислений. Сплав всего этого позволит: 1) предоставить прямые методы и средства для космологических открытий, требующие тесной связи между теорией и наблюдениями ("прецизионная космология"); 2) создать ключевой по важности "инструмент выявления" для работы с большими наборами данных, генерируемыми сложными инструментами; 3) производить и обмениваться результатами высокоточного моделирования, которые необходимы для понимания и контроля системы классификации (systematics), особенно астрофизической |
|
Текущие решения |
Вычислительная система |
Время вычислений: 24 млн часов (NERSC/Berkeley Lab), 190 млн часов (ALCF/Argonne), 10 млн часов (OLCF/Oak Ridge) |
Хранилище данных |
180 терабайт (NERSC/Berkeley Lab) |
|
Сеть связи |
На данный момент соединения с национальными лабораториями по высокоскоростной сети ESnet (Energy Sciences Network) Министерства энергетики США являются адекватными |
|
Программное обеспечение |
MPI, OpenMP, С, С++, F90, FFTW, пакеты визуализации, Python, FFTW, Numpy, Boost, OpenMP, ScaLAPCK, СУБД PSQL и MySQL, Eigen, Cfitsio, http://astrometry.net/ и Minuit2 |
|
Характеристики больших данных |
Источник данных (распределенный/ централизованный) |
Данные наблюдений будут получены в ходе обзоров "Темная энергия" (Dark Energy Survey, DES) и Zwicky Transient Factory в 2015 г.; "Большой синоптический обзор неба" (Large Synoptic Sky Survey) начнется с 2019 г. Данные моделирования будут создаваться в суперкомпьютерных центрах Министерства энергетики США |
Объем (количество) |
Обзоры DES: 4 петабайта/год, ZTF: 1 петабайт/год, LSST: 7 петабайт/год. Моделирование - более 10 петабайт в 2017 г. |
|
Скорость обработки (например, в реальном времени) |
Обзор LSST: 20 терабайт в день |
|
Разнообразие (множество наборов данных, комбинация данных из различных источников) |
1) Первичные данные обзоров неба. 2) Обработанные данные изображений. 3) Данные моделирования |
|
Вариативность (темпы изменения) |
Наблюдения проводятся по ночам; вспомогательное моделирование проводится в течение года, однако данные могут поступать спорадически в зависимости от доступности ресурсов |
|
Наука о больших данных (сбор, курирование, анализ, операции) |
Достоверность (вопросы надежности, семантика) |
|
Визуализация |
Интерпретация результатов детального моделирования требует развитых методов и средств анализа и визуализации. Ограничения подсистемы ввода/вывода суперкомпьютера вынуждают исследователей изучать идею анализа "по месту" взамен методов постобработки |
|
Качество данных (синтаксис) |
|
|
Типы данных |
Данные наблюдений в виде изображений должны быть обработаны и полученные результаты сопоставлены с физическими величинами, полученными по итогам моделирования. Должны быть составлены смоделированные карты неба, соответствующие форматам наблюдений |
|
Аналитика данных |
|
|
Иные проблемы больших данных |
Хранение, коллективное использование и анализ петабайт данных наблюдений и моделирования |
|
Проблемы пользовательского интерфейса и мобильного доступа |
Обзор LSST будет производить 20 терабайт данных в день. Эти данные должны быть заархивированы и сделаны доступными исследователям во всем мире |
|
Технические проблемы обеспечения безопасности и защиты персональных данных |
|
|
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры) |
|
|
Дополнительная информация (гиперссылки) |
Страница, Большого синоптического обзорного телескопа в Обсерватории имени Веры Рубин, Чили (LSST), https://www.lsst.org/lsst Сайт Национального научно-исследовательского вычислительного центра энергетических исследований Министерства энергетики США (NERSC), https://www.nersc.gov/ Презентация к докладу Салмана Хабиба (Salman Habib, Аргоннская национальная лаборатория) на тему "Текущие и будущие вычислительные потребности вычислительной космологии" (Present and Future Computing Requirements for Computational Cosmology), 27-28 ноября 2012 г., https://www.nersc.gov/assets/Uploads/HabibcosmosimV2.pdf Страница программ в области физики высоких энергий сайта Управления науки Министерства энергетики США, https://www.energy.gov/science/hep/high-energy-physics |
А.7.3 Вариант использования N 38: Большие данные космологических обзоров неба
Название |
Большие данные космологических обзоров неба |
|
Предметная область |
Научные исследования: Границы космоса |
|
Автор/организация/эл. почта |
Питер Ньюджент (Peter Nugent)/ Национальная лаборатория имени Лоуренса в Беркли, США (LBNL), penugent@lbl.gov |
|
Акторы/заинтересованные лица, их роли и ответственность |
Обзор неба "Темная энергия" (Dark Energy Survey, DES), "Спектроскопическая установка для исследования темной энергии" (Dark Energy Spectroscopic Instrument, DESI), Большой синоптический обзорный телескоп в Обсерватории имени Веры Рубин, Чили (LSST), Аргоннская национальная лаборатория (Argonne National Laboratory, ANL), Брукхейвенская национальная лаборатория (BNL), Национальная ускорительная лаборатория имени Ферми, США (FNAL/Fermilab), Национальная лаборатория имени Лоуренса в Беркли, США (LBNL), Национальная ускорительная лаборатория SLAC (SLAC National Accelerator Laboratory) Стэнфордского университета: - Создание установок/телескопов, проведение обзора и выполнение космологического анализа |
|
Цели |
Обеспечить возможность обработки фотометрических данных в режиме реального времени для обнаружения и дальнейшего наблюдения сверхновых звезд, а также обработки больших объемов данных наблюдений (совместно с данными моделирования) с целью уменьшения систематических погрешностей в измерении космологических параметров посредством изучения барионных акустических осцилляции, подсчета галактических кластеров и измерений методом слабого гравитационного линзирования |
|
Описание варианта использования |
При выполнении обзора "Темная энергия" (Dark Energy Survey, DES), данные с вершины горы передаются по микроволновой связи в чилийский город Ла Серена (La Serena). Оттуда по оптическим каналам связи они поступают в американский Национальный центр компьютерных приложений (National Center for Computing Applications, NCSA) и Национальный научно-исследовательский вычислительный центр энергетических исследований Министерства энергетики США (NERSC) для хранения и "редуцирования". Применяются конвейеры "вычитания" с использованием существующих изображений, с целью найти новые оптические транзиенты при помощи алгоритмов машинного обучения. Затем проводится идентификация и каталогизация галактик и звезд как на отдельных изображениях, так и на сериях изображений; и, наконец, их характеристики измеряются и сохраняются в базе данных |
|
Текущие решения |
Вычислительная система |
Linux-кластер, сервер реляционной СУБД Oracle, большие машины памяти, стандартные интерактивные хосты Linux. Для моделирования - ресурсы высокопроизводительных вычислений |
Хранилище данных |
Реляционная СУБД Oracle, терминальный клиент psql (PostgreSQL interactive terminal) для работы с объектно-реляционной СУБД PostgreSQL, а также файловые системы GPFS и Luster и ленточные архивы |
|
Сеть связи |
Предоставляется Национальным научно-исследовательским вычислительным центром энергетических исследований Министерства энергетики США (NERSC) |
|
Программное обеспечение |
Стандартное астрофизическое программное обеспечение для обработки ("редуцирования") данных, а также сценарии-обертки (wrapper scripts) Perl/Python, планирование Linux Cluster; и сопоставление с большими объемами данных моделирования с помощью таких методов, как разложение Холецкого |
|
Характеристики больших данных |
Источник данных (распределенный/ централизованный) |
Распределенный, обычно данные делятся на данные наблюдений и результаты моделирования |
Объем (количество) |
Телескоп LSST создаст 60 петабайт графических данных и 15 петабайт данных каталога; и также будет создан соответственно большой (или даже больший) объем данных моделирования. В общей сложности за ночь будет создаваться более 20 терабайт данных |
|
Скорость обработки (например, в реальном времени) |
Каждую ночь необходимо будет обрабатывать 20 терабайт данных в режиме, как можно более близком к реальному времени, чтобы максимизировать количество научных данных о сверхновых звездах |
|
Разнообразие (множество наборов данных, комбинация данных из различных источников) |
Хотя данные в виде изображений схожи, анализ, выполняемый в интересах четырех различных типов космологических измерений и для сопоставления с данными моделирования, сильно различается |
|
Вариативность (темпы изменения) |
Погодные условия и облачность могут кардинально изменить как качество, так и количество данных |
|
Наука о больших данных (сбор, курирование, анализ, операции) |
Достоверность (вопросы надежности, семантика) |
Астрофизические данные - это кошмар для статистиков, поскольку погрешности при выполнении конкретных измерений варьируются от ночи к ночи, в дополнение к крайней непредсказуемости частоты наблюдаемых явлений. Кроме того, возможности проведения практически всех космологических измерений ограничены, и, как следствие, как можно лучшее понимание собранных данных имеет наивысший приоритет в рамках каждого обзора неба |
Визуализация |
Интерактивная скорость пользовательского веб-интерфейса при работе с большими наборами данных остается проблемой. Обязательной является возможность выполнять основные виды запросов и просмотр данных с целью поиска новых транзиентов, а также для мониторинга качества обзора. Возможность скачивать большие объемы данных для автономного анализа является еще одним требованием к системе. Также необходима способность комбинировать результаты моделирования и данные наблюдений |
|
Качество данных (синтаксис) |
Понимание систематических погрешностей в данных наблюдений является необходимым условием успешности космологических измерений. Для будущих обзоров огромной проблемой является уменьшение погрешностей в результатах моделирования ниже этого уровня |
|
Типы данных |
См. выше подпункт "Разнообразие" |
|
Аналитика данных |
|
|
Иные проблемы больших данных |
Для понимания ограничений в данных моделирования будут полезны новые статистические методы. Часто случается, что не хватает компьютерного времени для выполнения желаемого количества объемов моделирования, и для закрытия пробелов приходится полагаться на эмуляторы. Необходимы методы для выполнения разложения Холецкого для тысяч моделирований с матрицами порядка миллиона по каждой стороне |
|
Проблемы пользовательского интерфейса и мобильного доступа |
Одновременное выполнение анализа как данных моделирования, так и данных наблюдений |
|
Технические проблемы обеспечения безопасности и защиты персональных данных |
Никаких особых проблем нет. Данные либо являются общедоступными, либо для доступа к ним требуется стандартный вход с паролем |
|
Перечислите основные характеристики и связанные варианты использования (например, в интересах эталонной архитектуры) |
Интересным направлением будущих исследований могут стать параллельные базы данных, способные работать с данными изображений |
|
Дополнительная информация (гиперссылки) |
Страница Большого синоптического обзорного телескопа в Обсерватории имени Веры Рубин, Чили (LSST), https://www.lsst.org/lsst Сайт "Спектроскопической установки для исследования темной энергии" (Dark Energy Spectroscopic Instrument, DESI) Министерства энергетики США, https://www.desi.lbl.gov/ Сайт обзора неба "Темная энергия" (Dark Energy Survey, DES), https://www.darkenergysurvey.org/ |
А.7.4 Вариант использования N 39: Анализ данных Большого адронного коллайдера
Название |
Физика элементарных частиц - Анализ данных Большого адронного коллайдера: открытие бозона Хиггса |
|
Предметная область |
Научные исследования: физика |
|
Автор/организация/эл. почта |
Майкл Эрнст (Michael Ernst, mernst@bnl.gov) из Брукхейвенской национальной лаборатории (BNL) и Лотар Бауэрдик (Lothar Bauerdick, bauerdick@fnal.gov) из Национальной ускорительной лаборатории именио Ферми, на основе первоначальной версии, написанной Джеффри Фоксом (Geoffrey Fox, gcf@indiana.edu) из Университета Индианы и Эли Дартом (Eli Dart, eddart@lbl.gov) из Национальной лаборатории им. Лоуренса в Беркли, США (LBNL) |
|
Акторы/заинтересованные лица, их роли и ответственность |
Физики (проектирование и выявление потребностей в экспериментах, анализ данных). Персонал систем (проектирование, создание и поддержка распределенных вычислительных грид-сетей). Специалисты в области физики ускорителей (проектирование, создание и эксплуатация ускорителя). Правительство (финансирование на основе долгосрочной важности открытий в данной области) |
|
Цели |
Понимание свойств элементарных частиц |
|
Описание варианта использования |
Детекторы Большого адронного коллайдера в ЦЕРН и моделирование по методу Монте-Карло "выдают" события, отражающие взаимодействие частиц с приборами. Обработанная информация описывает физические свойства событий, и на ее основе создаются списки частиц с указанием их типа и импульса. Эти события анализируются с целью обнаружения новых явлений - как новых частиц (например, бозона Хиггса), так и сбора доказательств того, что предполагаемые частицы (предсказываемые, например, теорией суперсимметрии) не были обнаружены |
|
Текущие решения |
Вычислительная система |
"Глобальная грид-инфраструктура Большо |
Если вы являетесь пользователем интернет-версии системы ГАРАНТ, вы можете открыть этот документ прямо сейчас или запросить по Горячей линии в системе.