Приложение Б (обязательное). Требования к тестовым данным 2

Приложение Б
(обязательное)

Требования
к тестовым данным 2

Тестовые данные формируют на основании заданного списка команд управления и включают пары аудио- и текстовых файлов, содержащие произнесение и текст голосовой команды соответственно.

Объем тестовых данных определен количеством команд в заданном списке команд управления и количеством дикторов (каждая команда должна быть произнесена каждым диктором).

При формировании тестовых данных должны быть учтены следующие требования:

- все голосовые команды должны быть исполнены на одном языке (допускается акцентное произнесение);

- количество дикторов должно быть равно 20: 10 мужчин и 10 женщин в возрасте от 20 до 50 лет;

- все аудиозаписи должны быть приведены к единому формату [рекомендуемый формат - Windows PCM (*.wav), 16 кГц, 16 бит];

- отношение сигнал/шум должно составлять от 5 до 25 дБ, но не превышать отношение сигнал/шум тестовых данных 1;

- длительность пауз не должна превышать 500 мс.

В каждой аудиозаписи должно присутствовать не более трех речевых и/или технических артефактов следующих типов:

- клиппирование;

- реверберация;

- крик;

- шепотная речь (отсутствие вокализованных отрезков речи);

- заикание;

- неполное произнесение слов;

- смех;

- речевые заполнители ("эээ", "ммм" и т.п.);

- кашель;

- темп речи за пределами диапазона, определенного требованиями к тестовым данным 1 (пониженный либо повышенный).

Некоторые аудиозаписи могут содержать вставки слов, отсутствующих в заданном списке команд управления. Для этого следует предварительно составить перечень таких команд, чтобы дикторы могли их прочесть.

Необходимо обеспечить сбалансированность типов артефактов и их количества в пределах записей одного диктора.

При формировании тестовых данных рекомендуется выбирать условия записи, технические и речевые артефакты с учетом особенностей применения тестируемой системы распознавания голосовых команд управления.

Для последующего анализа результатов и определения типов артефактов, влияющих на качество работы системы распознавания голосовых команд управления, рекомендуется сохранять сведения о соответствии типов артефактов аудиофайлам.

Для той команды, которая содержит один или несколько параметров, каждый диктор должен записать по одной реализации. Если диапазон значений параметров команды превышает количество дикторов, каждый диктор фиксирует уникальную реализацию данной команды, в противном случае записывают все возможные реализации, часть которых может быть произнесена несколькими дикторами.

<< Приложение А (обязательное). Требования к тестовым данным 1		Приложение >> В (обязательное). Требования к тестовым данным 3
	Содержание Национальный стандарт РФ ГОСТ Р 59879-2021 "Эргономика. Проектирование и применение испытаний речевых технологий. Методика...

Приложение Б (обязательное). Требования к тестовым данным 2

Откройте актуальную версию документа прямо сейчас