Вы можете открыть актуальную версию документа прямо сейчас.
Если вы являетесь пользователем интернет-версии системы ГАРАНТ, вы можете открыть этот документ прямо сейчас или запросить по Горячей линии в системе.
Приложение С
(справочное)
Описание метода объективного измерения PEAQ
С.1 Базовая структура алгоритма измерения PEAQ
Базовая структурная схема метода объективного измерения PEAQ приведена на рисунке С.1. Она состоит из двух входов, один из которых предназначен для (необработанного) эталонного сигнала, а другой - для испытуемого сигнала. Последний может быть, например, выходным сигналом кодека, на который подается эталонный сигнал.
Этот метод измерения применим к большинству типов оборудования для обработки аудиосигналов, как цифровых, так и аналоговых. Однако ожидается, что многие приложения будут ориентированы на аудиокодеки.
Рисунок С.1 - Базовая структурная схема проведения объективных измерений
Высокоуровневое представление модели PEAQ показано на рисунке С.2. Метод PEAQ основан на общепринятых психоакустических принципах. В целом он сравнивает сигнал, который был некоторым образом обработан, с соответствующим выровненным по времени эталонным сигналом. На первом этапе обработки сигнала моделируют периферийную акустическую модель ("модель восприятия", или "модель уха"). Одновременные кадры эталонного и обработанного сигналов преобразуют в выходные сигналы акустических моделей. На следующем этапе алгоритма моделируют звуковое искажение, присутствующее в испытуемом сигнале, путем сравнения выходных сигналов акустических моделей. Информация, полученная посредством этих процессов, дает несколько значений, так называемых MOV (выходных переменных модели), и может использоваться для детального анализа сигнала.
Конечной целью является введение параметра качества, состоящего из одного числа, указывающего на слышимость искажений, присутствующих в испытуемом сигнале. Для сохранения этого параметра требуется некоторая дальнейшая обработка MOV, имитирующая когнитивную часть слуховой системы человека. Следовательно, алгоритм PEAQ использует искусственную нейронную сеть.
Существуют две версии PEAQ: базовая версия, отличающаяся низким уровнем сложности, и расширенная версия, обеспечивающая большую точность за счет более высокой сложности. Структура обеих версий очень похожа и точно соответствует модели PEAQ, показанной на рисунке С.2. Основное различие между базовой и расширенной версиями состоит в соответствующих моделях уха и набора, применяемых MOV. Базовая и расширенная версии описаны в разделах С.2 и С.3.
Рисунок С.2 - Представление модели PEAQ
С.2 Базовая версия
В базовой версии реализована акустическая модель на основе FFT, как показано на рисунке С.3.
Большинство характерных признаков этой модели основано на фундаментальных психоакустических принципах. На рисунке С.3 показано прохождение сигнала от входного сигнала до конечного расчета диаграммы возбуждения. Обработка начинается с преобразования входного сигнала в частотный домен (интервал). Применяется 2048-точечное FFT с последующим масштабированием спектров в соответствии с уровнем прослушивания, значение которого должно быть введено пользователем в качестве параметра. Этот процесс дает частотное разрешение, составляющее приблизительно 23,4 Гц, и соответствующее временное разрешение 23,4 мс (при частоте дискретизации 48 кГц).
В конструктивном блоке эффекты акустической модели наружного и среднего уха моделируют путем взвешивания спектра с подходящими фильтрующими функциями. Затем спектры группируют в критические полосы, сохраняя разрешение 1/4 барка* на полосу. Последующее добавление "внутреннего шума" предназначено для моделирования эффектов, таких как постоянная маскировка звуков в нашей слуховой системе, вызываемых циркуляцией крови и другими физиологическими явлениями. За этим этапом следует вычисление маскирующих эффектов. Одновременную маскировку моделируют функцией распределения, зависимой от частоты и уровня. Временная маскировка моделируется лишь частично, поскольку временное разрешение представляет собой тот же диапазон, что и синхронизация любых фоновых маскирующих эффектов, которые в результате этого не могут быть смоделированы. Эксперименты показали, что обратная маскировка очень грубо моделируется побочными эффектами FFT.
------------------------------
* Барк (z) - психофизическая единица высоты звука.
Используя устройство выделения характерных признаков, из компенсации выходного сигнала акустической модели извлекают одиннадцать MOV. В таблице С.1 приведены перечень этих MOV и их интерпретация. Дополнительная информация о MOV приведена в приложении ITU-R рекомендации BS 1387-1.
Рисунок С.3 - Акустическая модель на основе FFT, базовая версия PEAQ
Таблица С.1 - Переменные выходные данные модели, базовая версия PEAQ
Переменные выходные данные модели (MOV) |
Назначение |
WinModDiff1B |
Изменения в модуляции (связанные с резкостью) |
AvgModDiff1B | |
AvgModDiff2B | |
RmsNoiseLoudB |
Громкость искажения |
BandwidthRefB |
Линейные искажения (частотная характеристика и т.д.) |
BandwidthTestB | |
RelDistFramesB |
Частота слышимых искажений |
Total NMRB |
Отношение шума к маске |
MFPDB |
Вероятность обнаружения |
ADBB | |
EHSB |
Гармоническая структура ошибки |
С.3 Расширенная версия
В расширенной версии используют некоторые MOV, полученные путем реализации акустической модели базовой версии, однако в дополнение к этому она реализует вторую акустическую модель с улучшенным временным разрешением, как показано на рисунке С.4.
По сравнению с базовой версией эта модель выполняет частотно-временное преобразование с использованием набора фильтров, группируя сигнал в 40 полос слышимых частот с временным разрешением около 0,66 мс. Этот процесс позволяет с высокой степенью точности моделировать эффекты обратной маскировки. После расчета обратной и одновременной маскировки сигнал является субдискретизированным (повторно отобранным) с коэффициентом 1:6 для повышения эффективности расчета. После добавления к субдискретизированному сигналу внутреннего шума и конечного моделирования эффектов остаточной маскировки выход этой модели становится повторно возбужденным.
По сравнению с базовой версией на основе FFT улучшается временное разрешение, что позволяет лучше моделировать временные эффекты за счет частотного разрешения и сложности вычислений.
Благодаря сочетанию параметров, полученных из обеих акустических моделей, количество MOV, используемых расширенной версией для получения окончательного параметра качества, может быть уменьшено до пяти. При этом немного улучшается точность алгоритма по сравнению с базовой версией. MOV, используемые расширенной версией, приведены в таблице С.2. Дополнительная информация о расширенной версии приведена в приложении к ITU-R BS.1387-1.
Рисунок С.4 - Акустическая модель на основе набора фильтров, расширенная версия PEAQ
Таблица С.2 - Переменные выходные данные модели, расширенная версия PEAQ
Выходные переменные данные модели (MOV) |
Назначение |
RmsNoiseLoudAsymA |
Громкость искажения |
RmsModDiffA |
Изменения в модуляции (связанные с резкостью) |
AvgLinDistA |
Линейные искажения (частотная характеристика и т.д.) |
Segmental NMRB |
Отношение шума к маске |
EHSB |
Гармоническая структура ошибки |
С.4 Выходной параметр метода измерения PEAQ
Выходным параметром метода PEAQ является уровень объективной разности (ODG), соответствующий уровню субъективной разности (SDG) в субъективной области. Точность ODG ограничена одним десятичным знаком. Однако следует соблюдать предусмотрительность и, в целом, не ожидать, что разница между любой парой ODG в одну десятую значения уровня будет являться значительной. Это замечание справедливо и при рассмотрении результатов субъективного испытания на прослушивание. ODG также может принимать положительные значения. Такие значения могут возникать, потому что PEAQ использует когнитивную модель для сопоставления MOV с результатами субъективного испытания на прослушивание. В случае субъективных испытаний на прослушивание SDG может принимать положительное значение в тех случаях, когда испытуемый неправильно установил эталонный и испытательный сигналы.
Показатель искажения (DI) имеет то же значение, что и ODG. Однако DI и ODG можно сравнивать только количественно, но не качественно. DI характеризуется меньшим насыщением, чем насыщение значения ODG. Кроме того, отличается диапазон значений. Как правило, ODG следует использовать в качестве показателя качества для значений ODG, превышающих приблизительно минус 3,6. ODG очень хорошо коррелирует с субъективной оценкой в этом диапазоне. Если значение ODG составляет меньше минус 3,6, следует использовать DI.
С.5 Эффективность метода измерения PEAQ
Эффективность модели PEAQ может зависеть от значений целого ряда различных показателей. Корреляция между ODG и SDG является очевидным показателем оценки эффективности. Кроме того, для проверки эффективности были использованы два дополнительных показателя, учитывающие надежность среднего значения - оценка абсолютных ошибок (AES) и схема устойчивости сигнала.
Проведенные ITU-R контрольные испытания показали, что PEAQ с высокой точностью предсказывает воспринимаемое качество и превосходит ранее существующие методы измерений. Дополнительная информация приведена в приложении к ITU-R BS.1387-1 и [AES-PEAQ]*.
------------------------------
* Т. Theide и др. "ОВКА - Стандарт МСЭ для объективного измерения воспринимаемого качества аудиосигнала", J. Audio Eng. Soc., том 48, с. 3-29 (январь/февраль 2000 г.)
Если вы являетесь пользователем интернет-версии системы ГАРАНТ, вы можете открыть этот документ прямо сейчас или запросить по Горячей линии в системе.