Национальный стандарт РФ ГОСТ Р 59879-2021
"Эргономика. Проектирование и применение испытаний речевых технологий. Методика определения показателей качества распознавания голосовых команд управления"
(утв. и введен в действие приказом Федерального агентства по техническому регулированию и метрологии от 25 ноября 2021 г. N 1582-ст)
Ergonomics. Design and application of speech technology tests. Methodology for determining quality indicators of recognition of voice control commands
УДК 004.896:006.354
ОКС 35.240.99
Дата введения - 1 марта 2022 г.
Введен впервые
Предисловие
1 Разработан Федеральным государственным унитарным предприятием "Научно-исследовательский институт "Квант" ("ФГУП "НИИ "Квант")
2 Внесен Техническим комитетом по стандартизации ТК 164 "Искусственный интеллект"
3 Утвержден и введен в действие Приказом Федерального агентства по техническому регулированию и метрологии от 25 ноября 2021 г. N 1582-ст
4 Введен впервые
1 Область применения
1.1 В настоящем стандарте установлены методика определения показателей качества распознавания голосовых команд, перечень основных параметров и методы их оценки для определения качества работы систем распознавания голосовых команд управления. Данная методика определяет виды испытаний и последовательность их проведения.
1.2 Настоящий стандарт распространяется на системы распознавания голосовых команд управления.
1.3 Оценки, установленные настоящим стандартом, могут быть получены в автоматизированном (программном) режиме и использованы для сравнения различных систем распознавания голосовых команд управления, а также для формирования рекомендаций по их совершенствованию.
2 Термины и определения
В настоящем стандарте применены следующие термины с соответствующими определениями:
2.1 голосовая команда: Речевое сообщение, которое может быть распознано в качестве команды для функционального устройства.
2.2 словарь (системы распознавания голосовых команд управления): Перечень всех неповторяющихся команд системы распознавания голосовых команд управления.
2.3 грамматика (системы распознавания голосовых команд управления): Набор правил, заданный в определенном формате, определяющий структуру возможных команд в виде линейного перечисления слов или словосочетаний с возможностью подстановки переменных значений.
2.4 результат распознавания: Ответ от системы распознавания команд голосового управления в виде текстового представления распознанной команды и при наличии соответствующего ему значения достоверности.
2.5 достоверность: Один из выходных параметров системы распознавания голосовых команд управления, который представляет собой число в диапазоне от 0 до 1, характеризующее апостериорную оценку соответствия голосовой команды ответу от системы распознавания.
2.6 ложный отказ: Тип ошибки, при которой результат распознавания голосовой команды из словаря содержит истинное значение голосовой команды при значении достоверности, не превышающем заданное пороговое значение, либо результат распознавания не содержит ни одной команды, приведенной в словаре.
2.7 ложное срабатывание: Тип ошибки, при которой результат распознавания голосовой команды, отсутствующей в словаре, содержит значение достоверности, превышающее заданное пороговое значение.
2.8 ошибка спутывания: Тип ошибки, при которой результат распознавания голосовой команды из словаря содержит ложное значение при значении достоверности, превышающем заданное пороговое значение.
2.9 верный результат распознавания: Результат распознавания голосовой команды из словаря, содержащий истинное значение при значении достоверности, превышающем заданное пороговое значение.
2.10 показатель реального времени распознавания: Коэффициент, который определяется как отношение времени, затраченного на распознавание голосовой команды, к длительности анализируемого аудиосигнала, содержащего произнесение данной команды.
2.11 задержка распознавания голосовой команды управления: Разность во времени между завершением произнесения команды и получением результата распознавания.
3 Общее описание системы
3.1 Система распознавания голосовых команд управления представляет собой программное обеспечение, реализующее функцию определения соответствия голосовой команды ее текстовому представлению.
3.2 Для решения задачи распознавания голосовых команд управления могут быть использованы системы распознавания речи двух типов: системы, позволяющие распознавать заданные последовательности элементов, и системы, позволяющие распознавать произвольные последовательности элементов. Первый тип - это системы распознавания с заданным словарем; второй тип - системы распознавания слитной речи.
3.3 Вне зависимости от типа системы распознавания голосовых команд управления должна быть обеспечена полнота словаря команд управления.
3.4 Система распознавания голосовых команд управления может обеспечивать возможность изменения словаря за счет использования внешней грамматики в формате EBNF (см. [1]).
4 Показатели качества системы распознавания голосовых команд управления
Настоящим стандартом нормированы следующие показатели качества системы распознавания голосовых команд:
- полнота словаря команд управления;
- ошибка распознавания голосовых команд;
- показатель реального времени распознавания.
5 Методика оценки показателей качества распознавания голосовых команд управления
5.1 Общие требования
5.1.1 Все испытания проводят с использованием заданного списка команд и тестовых данных, содержание которых не должно быть использовано разработчиками при подготовке проверяемой системы распознавания голосовых команд для исключения возможности фальсификации результатов проведения оценки качества по настоящему стандарту.
5.1.2 Система проходит проверку на тестовых данных трех типов:
- тестовые данные 1 - нормальные условия (речь с нормативным произнесением, без артефактов, все команды из заданного списка команд);
- тестовые данные 2 - усложненные условия (наличие речевых артефактов, все команды из заданного списка команд);
- тестовые данные 3 - условия повышенной сложности (возможно наличие речевых артефактов, все команды отсутствуют в заданном списке команд).
Подробное описание требований к техническим и качественно-содержательным характеристикам тестовых данных приведено в приложениях А-В.
5.1.3 Тестовые данные готовят по заданному списку команд, составленному в виде простого перечисления, или на основе грамматики, подготовленной в соответствии с приложением Г.
5.1.4 Для прохождения испытаний система распознавания голосовых команд управления в качестве обязательного входного параметра должна принимать аудиофайл, формат которого определен в приложении А.
5.1.5 Для систем распознавания, имеющих возможность указания или расширения словаря через указание грамматики или иным способом, такие данные о словаре должны быть загружены до начала испытаний либо переданы в систему в качестве входного параметра в процессе испытаний.
5.1.6 Формой представления результатов распознавания голосовых команд должны быть текстовые файлы, имена которых соответствуют именам аудиофайлов из тестовых данных 1-3, описанных в приложениях А-В. Каждый текстовый файл должен состоять из двух строк, содержащих следующую информацию:
- текстовый результат распознавания;
- достоверность результата распознавания.
Для систем распознавания, не формирующих показатель достоверности, следует записывать значение 1.
При наличии показателей достоверности для каждого отдельного слова команды следует сохранять эти данные в файлах с результатами распознавания и отражать их в протоколе испытаний в виде дополнительных сведений о системе распознавания голосовых команд управления.
В приложении Д приведен пример структуры файла, содержащего результат распознавания голосовой команды управления.
5.1.7 Для корректного сравнения результатов распознавания с эталонными значениями из тестовых данных следует предварительно выполнить нормализацию текстов (преобразование чисел в числительные, расшифровка аббревиатур, учет регистра символов, знаков препинания, пробельных символов и пр.).
5.1.8 Результаты испытаний должны быть оформлены протоколом, содержащим:
- объект испытаний;
- цель испытаний;
- дату проведения испытаний;
- место проведения испытаний;
- материально-техническое обеспечение;
- условия и методику проведения испытаний;
- результаты испытаний;
- выводы и рекомендации.
Пример протокола испытаний приведен в приложении Е.
5.2 Виды испытаний
5.2.1 Испытания выполняются в полном объеме и включают в себя оценку:
- полноты словаря команд управления;
- ошибки распознавания голосовых команд управления;
- показателя реального времени распознавания.
5.2.2 Для показателя полноты словаря команд управления пороговым значением является 1, что соответствует способности системы распознавания голосовых команд достоверно распознавать все голосовые команды управления.
5.2.3 Оценку ошибки распознавания голосовых команд управления для систем распознавания слитной речи осуществляют в соответствии с 5.4.1.
5.2.4 Оценку ошибки распознавания голосовых команд управления для систем распознавания с заданным словарем осуществляют в соответствии с 5.4.2.
5.3 Методика оценки показателя полноты словаря команд управления
5.3.1 Оценку полноты словаря осуществляют на тестовых данных 1, описание которых приведено в приложении А.
5.3.2 Для оценки полноты словаря команд управления необходимо вычислить отношение количества неповторяющихся достоверно распознанных команд к общему количеству неповторяющихся заданных команд. При наличии команд, в которых присутствуют параметры, общее количество команд определяют без учета величины диапазона значений данных параметров. Таким образом, команды "измени громкость радио до 1" и "измени громкость радио до 10" учитывают как одну команду. Полным словарь считают в том случае, если отношение равно 1.
5.3.3 Результаты проверки заносят в строку "Полнота словаря голосовых команд управления" таблицы Е.1 (приложение Е). При фиксировании полного словаря, в строку таблицы заносят: "Полный словарь голосовых команд"; в противном случае: "Отсутствие полного словаря голосовых команд".
5.4 Методика оценки показателя ошибки распознавания голосовых команд управления
Выбор показателя, используемого для оценки ошибки распознавания голосовых команд управления, определен типом системы распознавания. При испытании системы распознавания голосовых команд управления на основе распознавания слитной речи следует применять показатель спутывания, а для системы распознавания с заданным словарем - показатель целевой функции по формуле (2) в 5.4.2. Когда результат распознавания не содержит значение достоверности, следует полагать его равным 1.
5.4.1 Методика оценки показателя ошибки распознавания голосовых команд управления для систем распознавания слитной речи
5.4.1.1 Для измерения ошибки распознавания голосовых команд используют объединенные тестовые данные 1-3.
5.4.1.2 Для получения показателя спутывания следует вычислить редакционное расстояние - метрику, определяющую разность между двумя последовательностями элементов (в данном случае - слов). Такая метрика выражается в минимальном количестве удалений, вставок и замен, необходимых для того, чтобы две последовательности элементов стали равными. В качестве последовательностей элементов используют текстовый результат распознавания, сохраненный в соответствии с 5.1.6, и текст произнесенной голосовой команды, который содержится в тестовых данных. Веса для удалений, вставок и замен принимаются равными 1, для корректных подстановок принимается вес, равный 0.
5.4.1.3 Для оценки ошибки распознавания голосовых команд управления используют показатель спутывания WER, вычисляемый по формуле
,
(1)
где i - количество файлов в тестовых данных;
N Del - количество удалений;
N Ins - количество вставок;
N Subst - количество замен;
N Ref - общее количество слов в текстах голосовых команд.
5.4.1.4 Полученное значение показателя спутывания заносят в строку "Ошибка распознавания голосовых команд" таблицы Е.1 (приложение Е).
5.4.2 Методика оценки показателя ошибки распознавания голосовых команд управления для систем с заданным словарем
5.4.2.1 Для вычисления целевой функции используют тестовые данные 1-3.
5.4.2.2 Для всех аудиофайлов из тестовых данных 1 и 2 проверяют наличие текстового файла, содержащего результат распознавания. Если для какого-либо аудиофайла отсутствует текстовый файл с результатом, то для него создают одноименный текстовый файл, на первой строке которого содержится пробел, на второй - значение "0".
5.4.2.3 Тестовые данные 1 и 2 используют для определения количества достоверных результатов распознавания, вероятности ошибок спутывания и ложных отказов. Для определения данных показателей следует сравнить текстовые результаты распознавания с текстами произнесенных голосовых команд и полученное в результате распознавания значение достоверности с заданным пороговым значением.
5.4.2.4 Для тех аудиофайлов, для которых отсутствует текстовый файл с результатом распознавания либо результат содержит значение, соответствующее неопределенному результату (такие значения определяет разработчик системы распознавания голосовых команд управления), следует полагать значение результата распознавания команды равным пустой строке со значением достоверности, равным "1".
5.4.2.5 Тестовые данные 3 используют для определения вероятности ложных срабатываний.
5.4.2.6 Для оценки ошибки распознавания голосовых команд управления используют целевую функцию - метрику, которую определяют как взвешенную сумму вероятности ложных отказов, ошибок спутывания и вероятности ложных срабатываний C Primary для установленного порога доверия, вычисляемую по формуле
,
(2)
где P EMiss() - вероятность ложного отказа, оценивается по тестовым данным 1 и 2, вычисляется как сумма всех верных результатов распознавания, представленных в соответствии с 5.1.6, в которых содержится значение достоверности меньше , деленная на суммарное количество аудиофайлов из тестовым данных 1 и 2;
и - коэффициенты, вычисляемые по формуле
,
(3)
C FalseAlarm - вес ложного срабатывания;
C Miss - вес ложного отказа;
P Target-i - априорная вероятность команд;
P FalseAlarm() - вероятность ложного срабатывания, оцениваемая по тестовым данным 3, вычисляемая как сумма всех результатов распознавания, представленных в соответствии с 5.1.6, в которых содержится значение достоверности больше и всех ошибок спутывания, деленная на суммарное количество аудиофайлов из тестовых данных 1 и 2, а также на суммарное количество аудиофайлов из тестовых данных 3.
Веса должны быть посчитаны для с учетом P Target1 = 0,95 и с учетом P Target2 = 0,6 а также такие веса, где C Miss и C FalseAlarm могут быть выбраны в диапазоне [0,1]. Рекомендуемое значение весов равно 1. Значение выбирают таким образом, чтобы минимизировать значение целевой функции C Primary.
5.4.2.7 Полученное значение заносят в строку "Ошибка распознавания голосовых команд" таблицы Е.1 (приложение Е).
5.5 Методика оценки показателя реального времени распознавания
5.5.1 Для вычисления значения показателя реального времени распознавания необходимо использовать тестовые данные 1-3.
5.5.2 Для вычисления значения показателя реального времени распознавания необходимо измерить время работы системы распознавания. За время работы системы распознавания принимают время, прошедшее от момента запуска распознавания первого аудиофайла до момента получения результата распознавания по последнему аудиофайлу из тестового множества. Не допускается параллельная обработка нескольких аудиофайлов, разрешается только последовательная обработка. Время работы системы распознавания голосовых команд должно быть измерено в миллисекундах.
5.5.3 Показатель реального времени распознавания RT вычисляют по формуле
,
(4)
где Т - время работы системы распознавания;
L - суммарная длительность аудиофайлов.
5.5.4 Результаты вычисления заносят в строку "Показатель реального времени распознавания" таблицы Е.1 (приложение Е).
6 Итоговая оценка качества системы распознавания голосовых команд управления
6.1 Итоговую оценку качества распознавания голосовых команд управления формируют исходя из оценки полноты словаря команд управления, ошибки распознавания голосовых команд управления и показателя реального времени распознавания.
6.2 Испытания считают пройденными в полном объеме в том случае, если получена итоговая оценка качества распознавания голосовых команд управления и заполнен протокол испытаний по форме, приведенной в приложении Е.
Библиография
[1] |
ИСО/МЭК 14977:1996 |
Информационные технологии. Синтаксический метаязык. Расширенная БНФ |
|
(ISO/IEC 14977:1996) |
[Information technology - Syntactic metalanguage - Extended Backus-Naur Form (BNF)] |
Ключевые слова: эргономика, испытания речевых технологий, качество распознавания голосовых команд управления.
Если вы являетесь пользователем интернет-версии системы ГАРАНТ, вы можете открыть этот документ прямо сейчас или запросить по Горячей линии в системе.
Национальный стандарт РФ ГОСТ Р 59879-2021 "Эргономика. Проектирование и применение испытаний речевых технологий. Методика определения показателей качества распознавания голосовых команд управления" (утв. и введен в действие приказом Федерального агентства по техническому регулированию и метрологии от 25 ноября 2021 г. N 1582-ст)
Текст ГОСТа приводится по официальному изданию Российского института стандартизации, Москва, 2021 г.
Дата введения - 1 марта 2022 г.