Air transport. Airports. Technical means of inspection. Methodology for determination of quality indicators of recognition of illegal attachments by shadow X-ray images
ОКС 03.220.50
Дата введения - 1 сентября 2020 г.
Введен впервые
Предисловие
1 Разработан Федеральным государственным автономным образовательным учреждением высшего образования "Санкт-Петербургский политехнический университет Петра Великого"
2 Внесен Техническим комитетом по стандартизации ТК 164 "Искусственный интеллект"
3 Утвержден и введен в действие Приказом Федерального агентства по техническому регулированию и метрологии от 20 декабря 2019 г. N 1430-ст
4 Введен впервые
Введение
Интроскоп является одним из основных средств досмотра, необходимых для обеспечения безопасности на территории аэропорта. С использованием интроскопов выявляются незаконные вложения в сумках багажа и ручной клади. Обычно выявление незаконных вложений происходит путем ручного дешифрирования теневых снимков, полученных с использованием интроскопа.
В настоящее время существует множество алгоритмов и систем технического зрения, предназначенных для автоматического обнаружения и распознавания опасных вложений.
Настоящий стандарт определяет методику определения показателей качества распознавания незаконных вложений по теневым рентгеновским изображениям, предназначенную для тестирования таких систем и алгоритмов.
1 Область применения
Настоящий стандарт устанавливает методику определения показателей качества распознавания незаконных вложений по теневым рентгеновским изображениям.
Требования настоящего стандарта распространяются:
- на разработку программ и методик испытаний систем автоматического анализа теневых снимков;
- методы проведения испытаний алгоритмов анализа теневых снимков.
2 Нормативные ссылки
В настоящем стандарте использована нормативная ссылка на следующий стандарт:
ГОСТ Р 55249-2012 Воздушный транспорт. Аэропорты. Технические средства досмотра. Общие технические требования
Примечание - При пользовании настоящим стандартом целесообразно проверить действие ссылочных стандартов в информационной системе общего пользования - на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет или по ежегодному информационному указателю "Национальные стандарты", который опубликован по состоянию на 1 января текущего года, и по выпускам ежемесячного информационного указателя "Национальные стандарты" за текущий год. Если заменен ссылочный стандарт, на который дана недатированная ссылка, то рекомендуется использовать действующую версию этого стандарта с учетом всех внесенных в данную версию изменений. Если заменен ссылочный стандарт, на который дана датированная ссылка, то рекомендуется использовать версию этого стандарта с указанным выше годом утверждения (принятия). Если после утверждения настоящего стандарта в ссылочный стандарт, на который дана датированная ссылка, внесено изменение, затрагивающее положение, на которое дана ссылка, то это положение рекомендуется применять без учета данного изменения. Если ссылочный стандарт отменен без замены, то положение, в котором дана ссылка на него, рекомендуется применять в части, не затрагивающей эту ссылку.
3 Термины и определения
В настоящем стандарте применены следующие термины с соответствующими определениями:
3.1 рентгенотелевизионный стационарный интроскоп; интроскоп:
Устройство для контроля ручной клади, багажа, почты и груза по теневому изображению их внутреннего содержания на экране телемонитора. [ГОСТ Р 55249-2012, пункт 3.1.3] |
3.2 сумка: Ручная кладь, багаж либо другая емкость, пригодная для провоза либо проноса незаконных вложений, предъявляемые к анализу.
3.3 теневое рентгеновское изображение; изображение: Рентгеновское изображение либо набор изображений, формируемый интроскопом при анализе сумки.
3.4 незаконное (опасное) вложение; опасные предметы: Предмет либо вещество, запрещенные к провозу либо проносу на территорию аэропорта.
3.5 условно-опасное вложение; условно-опасные предметы: Предмет либо вещество, сами по себе не являющиеся опасными, однако в определенном сочетании предметов внутри сумки являющиеся таковыми.
Примечание - Примером условно-опасных предметов являются поражающие элементы самодельных взрывных устройств (болты, гайки и т.д.), часы, рации и прочие элементы, часто использующиеся при создании самодельных взрывных устройств. Рекомендуемый список типов опасных и условно-опасных вложений для проведения испытаний представлен в приложении Г.
3.6 опасная сумка: Сумка, содержащая опасные предметы, либо определенный набор условно-опасных предметов, достаточный для признания содержимого сумки опасным.
3.7 безопасная сумка: Сумка, не являющаяся опасной.
3.8 результат распознавания: Результат анализа алгоритмом либо прототипом сумки, содержащий список опасных предметов, находящихся в сумке.
3.9 технологическое испытание: Испытание одного или более алгоритмов распознавания опасных вложений с использованием существовавшей ранее или специально собранной базы данных образцов.
3.10 натурное (сценарное) испытание: Испытание, при проведении которого эксплуатационные характеристики системы определяются с помощью прототипа системы технического зрения.
3.11 тестовая выборка: Набор теневых рентгеновских изображений, формируемый для проведения тестирования качества работы алгоритмов анализа теневых рентгеновских изображений.
3.12 верификационная выборка: Набор теневых рентгеновских изображений, передаваемых разработчикам алгоритма для задания требований к условиям работы алгоритма.
3.13 СК снимка: Координатная система, заданная на плоскости снимка. Две ее оси параллельны сторонам снимка.
Примечание - Рекомендуемое направление осей: ось ОХ направлена слева направо, OY - снизу вверх. Начало координат соответствует нулевому пикселю изображения.
3.14 описывающий прямоугольник объекта: Минимальный по площади прямоугольник, полностью содержащий изображение объекта.
Примечание - Координаты минимального описывающего прямоугольника задаются в СК снимка.
3.15 результат обнаружения: Результат анализа алгоритмом либо прототипом сумки, содержащий набор описывающих прямоугольников, найденных алгоритмом обнаружения объектов, а также соответствующие им метки класса опасного предмета.
3.16 сигнал тревоги: Сигнал, формируемый алгоритмом либо прототипом, указывающий наличие в исследуемой сумке опасных предметов.
Примечание - на практике данный сигнал является сигналом к досмотру сумки представителями правоохранительных органов.
4 Требования к условиям работы системы
4.1 Перед проведением тестирования должны быть четко сформулированы требования к условиям работы алгоритма либо прототипа. Требования к условиям работы (входным данным) могут формулироваться:
- набором примеров входных данных (валидационной выборкой);
- границами однозначно вычислимых численных параметров;
- качественными словесными описаниями, достаточно подробными для однозначной оценки экспертами.
4.2 При задании требований путем предоставления валидационной выборки должны быть выполнены следующие условия:
- для выборки должен быть составлен список условий (требований), задающих условия работы алгоритма;
- данные, входящие в выборку, должны быть размечены метками, соответствующими тем или иным условиям;
- для требований, задаваемых в виде диапазонов, рекомендуется определить интервал (шкалу), интерпретируемый экспертами, а также предоставить достаточное число примеров для различных значений введенной шкалы для однозначной оценки текущего значения. Требования в таком случае задаются для некоторых уровней введенной шкалы.
4.3 При задании требований границами однозначно вычислимых численных параметров (характеристик) необходимо предоставить методики вычислений данных характеристик (однозначные и вычислимые).
4.4 При задании требований качественным описанием оно должно содержать достаточно информации для воспроизведения условий при проведении технологического испытания.
4.5 При задании требований качественным описанием оно должно содержать достаточно информации для однозначного ответа эксперта (либо группы экспертов) по каждому элементу тестовой выборки.
4.6 При проведении технологических испытаний требования к условиям работы, задаваемые путем предоставления валидационной выборки, проверяются путем экспертной оценки.
5 Тестовая выборка
5.1 Тестовая выборка формируется путем съемки с использованием интроскопа (получения изображений) сумок, содержащих и не содержащих опасные вложения.
5.2 Модель интроскопа, используемого для формирования тестовой выборки, должна быть отражена в протоколах испытания/тестирования.
5.3 Объективность тестовой выборки. Тестовая выборка может считаться в той или иной степени необъективной, если:
- разработчик алгоритма/прототипа (далее - разработчик) имел доступ к данным;
- разработчик предоставил оборудование, использовавшееся при создании или обработке базы данных, особенно если подобная деятельность повлияла на характер или качество базы данных (например, удаление некоторых образцов);
- испытуемый алгоритм ранее был проверен и настроен с использованием данной базы данных.
Примечание - Данные не должны использоваться в испытании, если один или несколько разработчиков ранее имели к ним доступ. Предыдущее испытание или настройка системы с использованием выборки (всей или ее фрагмента) должны быть отражены в протоколе испытания.
5.4 Данные не должны повторно использоваться для тестирования, если тестируемый алгоритм был настроен на основе эксплуатационных характеристик, полученных в ходе предыдущего тестирования по этим данным.
5.5 При задании требований к условиям работы путем предоставления валидационной выборки тестовая выборка должна формироваться из той же генеральной совокупности.
5.6 При подтверждении характеристик работы в различных условиях тестовая выборка должна содержать для каждого изображения метаданные, содержащие информацию об условиях съемки.
5.7 Помимо изображений тестовая выборка должна содержать файлы разметки. Файлы разметки должны содержать следующую дополнительную информацию.
5.7.1 Для тестирования качества распознавания - список опасных предметов, содержащихся в сумке.
5.7.2 Для тестирования качества обнаружения - список опасных предметов, а также координаты описывающих прямоугольников, им соответствующих.
5.7.3 При наличии в выборке условно-опасных объектов каждая сумка также должна быть размечена как опасная либо безопасная.
5.8 В случае если выборка создается с целью подтверждения фиксированных вероятностных характеристик, ее размер должен быть достаточен для их подтверждения с некоторой точностью (для некоторого доверительного интервала) и доверительной вероятностью.
Примечания
1 Доверительная вероятность, а также точность оценки зависят от целей тестирования. Рекомендации по выбору доверительной вероятности и доверительного интервала описаны в приложении А.
2 Пример расчета размеров выборки приведен в приложении А.
6 Сценарные испытания
6.1 Модель интроскопа, используемого для сценарных испытаний, должна быть отражена в протоколах испытания/тестирования.
6.2 Для проведения технологических испытаний должен быть сформирован набор сумок, содержащих опасные предметы и не содержащих их. Сумки, содержащие опасные предметы, могут содержать один или несколько опасных предметов.
6.3 Для формирования набора сумок допускается использование имитаторов опасных предметов при условии, что они неотличимы от оригинальных опасных предметов.
6.4 Объективность испытаний. Испытания могут считаться в той или иной степени необъективными, если:
- разработчик алгоритма/прототипа (далее - разработчик) имел доступ к набору сумок;
- разработчик предоставил часть сумок либо имитаторов опасных предметов;
- испытуемый алгоритм ранее был проверен и настроен с использованием используемого при испытаниях набора сумок.
6.5 Данные не должны повторно использоваться для тестирования, если тестируемый алгоритм был настроен на основе эксплуатационных характеристик, полученных в ходе предыдущего тестирования по этим данным.
6.6 Перед проведением технологических испытаний должны быть согласованы порядок их проведения и методика использования прототипа. Определено понятие теста.
Примечание - Например, количество сканирований одной сумки, а также логика объединения результатов распознавания и обнаружения для нескольких прогонов одной сумки.
6.7 Сценарные испытания разделяются на тесты. Один тест подразумевает проверку одной сумки. Тесты, проводимые в рамках сценарных испытаний, делятся на два типа.
6.7.1 Тесты, эмулирующие проверку опасной сумки (далее - тест на тревогу).
6.7.2 Тесты, эмулирующие проверку безопасной сумки (далее - тест на ложное срабатывание).
6.8 В случае если испытания проводятся с целью подтверждения фиксированных вероятностных характеристик, число тестов должно быть достаточным для их подтверждения с некоторой точностью (для некоторого доверительного интервала) и доверительной вероятностью.
Примечания
1 Доверительная вероятность, а также точность оценки зависят от целей тестирования. Рекомендации по выбору доверительной вероятности и доверительного интервала описаны в приложении А.
2 Пример числа тестов приведен в приложении А.
7 Показатели качества
7.1 Показатели качества, рассчитываемые в процессе проведения технологического испытания
7.1.1 Показатели качества распознавания:
- вероятность правильного формирования сигнала тревоги (ВПФСТ) - отношение числа опасных сумок, верно идентифицированных алгоритмом/прототипом к общему числу опасных сумок;
- вероятность формирования сигнала ложной тревоги (ВФСЛТ) - отношение числа безопасных сумок, идентифицированных алгоритмом/прототипом как опасные, к общему числу безопасных сумок;
- вероятность правильного распознавания опасного предмета (ВПРОП) - отношение числа верно распознанных опасных предметов к общему числу опасных предметов в выборке;
- вероятность ложного распознавания опасного предмета (ВЛРОП) - отношение числа неверно распознанных опасных предметов к общему числу распознанных алгоритмом опасных предметов в выборке.
Примечания
1 В данном случае под сумкой подразумевается запись в тестовой выборке, соответствующая одной сумке.
2 Показатели ВПФСТ и ВФСЛТ рассчитываются только парно, например ВПФСТ при ВФСЛТ.
3 Для расчета показателя ВФСЛТ выборка должна содержать набор изображений, соответствующих безопасным сумкам.
4 Показатели ВПРОП/ВЛРОП должны быть рассчитаны для каждого опасного и условно-опасного класса предметов раздельно.
5 Показатели качества распознавания не учитывают точность локализации алгоритмом опасного предмета.
7.1.2 Показатели качества обнаружения
При тестировании качества обнаружения должны быть рассчитаны базовые показатели качества обнаружения:
- вероятность правильного обнаружения опасного предмета (ВПООП) - отношение числа верно обнаруженных опасных предметов к общему числу опасных предметов в выборке;
- вероятность ложного обнаружения опасного предмета (ВЛООП) - отношение числа неверно распознанных опасных предметов к общему числу обнаруженных алгоритмом опасных предметов в выборке.
Примечания
1 Данные показатели рекомендуется использовать в том числе для задания требований к работе алгоритмов/прототипа. Требования должны задаваться только в виде пары ВПООП при ВЛООП.
2 Для корректного расчета показателей ВПООП и ВЛООП необходимо определить методику расчета точности локализации и порог, задающий минимальную точность локализации. Рекомендации по методике расчета точности локализации и используемого порога даны в приложении Б.
7.1.3 Для ранжирования нескольких алгоритмов по показателям из п. 7.2.1 рекомендуется использовать Ф-меру, вычисляемую по формуле
Примечания
1 Коэффициент Б > 0 задает относительную значимость показателей ВПООП и ВЛООП. Если Б = 1, то ВПООП и ВЛООП имеют равную значимость. Если Б < 0, то предпочтение отдается ВЛООП, в противном случае соответственно ВПООП.
2 Показатель Ф может принимать значения в диапазоне от 0 до 1, при этом значение 1 соответствует наилучшему качеству работы.
3 При отсутствии требований по локализации и/или качеству работы для сравнительной оценки могут использоваться интегральные характеристики, описанные в приложении В.
7.2 Показатели качества, рассчитываемые в процессе проведения сценарного испытания
7.2.1 Показатели качества распознавания:
- вероятность правильного формирования сигнала тревоги (ВПФСТ) - отношение числа верно подаваемых сигналов тревоги к общему числу тестов на тревогу;
- вероятность формирования сигнала ложной тревоги (ВФСЛТ) - отношение числа подаваемых ложных сигналов тревоги к общему количеству тестов на ложные срабатывания;
- вероятность правильного распознавания опасного предмета (ВПРОП) - отношение числа верно распознанных опасных предметов к общему числу опасных предметов, использованных в тестах на тревогу;
- вероятность ложного распознавания опасного предмета (ВЛРОП) - отношение числа неверно распознанных опасных предметов к общему числу опасных предметов, зафиксированных в тестах на тревогу.
Примечания
1 Показатели ВПФСТ и ВФСЛТ рассчитываются только парно, например ВПФСТ при ВФСЛТ.
2 Показатели ВПРОП/ВЛРОП должны быть рассчитаны для каждого опасного и условно-опасного класса предметов раздельно.
3 Показатели качества распознавания не учитывают точность локализации алгоритмом опасного предмета.
4 Показатель ВЛРОП можно рассчитывать по всем тестам, однако в таком случае отношение количества тестов необходимо дополнительно учитывать в формуле для расчета ВЛРОП.
7.3 Для показателей качества по 7.1.1, 7.1.2, 7.2.1 должна быть вычислена неопределенность результатов испытаний, а также определены принципы и формулы для вычисления неопределенности.
Примечание - Пример выражений для расчета неопределенности представлен в приложении А.
8 Верификация экспертных оценок
8.1 При возникновении спорных ситуаций касательно условий проведения сценарных испытаний и изображений тестовой выборки спорные ситуации разрешаются путем привлечения группы экспертов.
8.2 Группа экспертов должна состоять из не менее трех человек, имеющих достаточную квалификацию в области анализа теневых рентгеновских снимков.
8.3 Группа экспертов принимает решение по каждому изображению тестовой выборки, вызывающему разногласия.
8.4 При анализе тестовой выборки решение принимается путем голосования. В случае если консенсус не достигнут, спорное изображение удаляется из тестовой выборки и заменяется другим.
8.5 При анализе условий сценарных испытаний решение также принимается путем голосования по каждому спорному тесту, проведенному в рамках сценарных испытаний. В случае если консенсус не достигнут, тест считается спорным и требует повторного проведения.
Библиография
Если вы являетесь пользователем интернет-версии системы ГАРАНТ, вы можете открыть этот документ прямо сейчас или запросить по Горячей линии в системе.
Национальный стандарт РФ ГОСТ Р 58777-2019 "Воздушный транспорт. Аэропорты. Технические средства досмотра. Методика определения показателей качества распознавания незаконных вложений по теневым рентгеновским изображениям" (утв. и введен в действие приказом Федерального агентства по техническому регулированию и метрологии от 20 декабря 2019 г. N 1430-ст)
Текст ГОСТа приводится по официальному изданию Стандартинформ, Москва, 2020 г.
Дата введения - 1 сентября 2020 г.