感知音频测试:POLQA 和 PESQ


APx500 支持两种用于语音质量评估的常用感知音频测试:POLQA(感知客观听力质量评估)和 PESQ(语音质量感知评估)。两者都直接在 APx 项目中提供平均意见分数 (MOS) 结果。

PESQ 是电信语音质量广泛使用的增强感知测量。它由OPTICOM有限公司获得许可,是ITU-T建议P.862的基础。PESQ 专为测试语音而设计

POLQA 获得 OPTICOM 的许可,是 PESQ 的后继者,并特别针对通信领域的变革,支持高清语音、3G、4G/LTE 和 VoIP 技术。与 PESQ 一样,POLQA 提供的结果与人体测试具有非常高的相关性。

除了"常规"音频测试之外

许多语音通信设备(尤其是移动电话和 VoIP 网络)使用有限的带宽和/或比特率,并使用可显著改变声音的编解码器。尽管有这些便利,人们通常可以通过这些系统很好地相互理解;这是因为选择做出的折衷方案是为了允许足够的语音感知,尽管在失真、频率响应和其他传统音频指标方面存在可衡量的缺点。

PESQ 和 POLQA 使用真实语音样本模拟真实人体的可能结果,使语音交付系统的设计人员能够确保真实客户获得高水平的产品满意度。

PESQ/POLQA 方法

在传统的感知测量中,一组人被聚集起来,要求他们判断各种音频剪辑的音质,通常比例从 1 到 5。当所有个人分数都计算在内时,结果称为平均意见分数 (MOS)。

具有真实人类主体的测试既昂贵又耗时,但可以使用基于心理声学建模(如 PESQ 或 POLQA)的算法来克服这些限制。正确使用后,这些模型将非常匹配来自人类组的结果。这种自动化允许在开发中快速迭代以及高效的生产线验证。获得的测量被归类为客观测量,因为它们不受人类气质或测试的影响

PESQ 和 POLQA 分别基于 ITU-T P.862 和 P.863,并由 OPTICOM GmbH 获得许可。

感知音频测试的工作原理

参考信号和降级信号均与接收设备(听筒)的传输特性单独水平对齐和过滤。两个信号是时间对齐的,以补偿语音网络中由于延迟、抖动和编码而可能发生的小幅时移。该模型将时间振幅域中的两个对齐和过滤信号转换为频率响度域(听觉变换),从而考虑失真


减去两个信号表示,并推导出声音差值。声音差异随时间累积,加权因信号是否添加失真或传输后信号部分缺失(例如掉点)而异。 最后,在分析后生成单个平均意见分数 (MOS)。MOS 通常用于描述语音质量,范围从 1(质量差)到 5(优秀质量)。

PESQ vs. POLQA PESQ 和 POLQA 在目标上相似,但在几个关键应用中有所不同。PESQ 是一种较老但用途非常广泛的工具,用于评估带宽受限的通信网络上的语音质量,而 POLQA 是较新的,可处理宽带音频、声学传感器、DSP 和电平变化等变体。许多产品指定其中一种作为测试和批准方案的一部分。

下表总结了 PESQ 和 POLQA 差异。

APx500 AP 中的感知音频测试提供 PESQ 和 POLQA 作为以类似方式运行的独立软件选项,为单个语音样本提供标准 MOS 结果,并为累积样本提供平均测量。 PESQ/POLQA 测量在播放每个语音样本后返回 MOS 或 PESQ 单位的整体感知质量,以及质量与时间显示,以帮助确定特定问题,如剪切单词或辍学。其他结果显示平均延迟,

PESQ/POLQA 平均测量允许您运行不同语音样本的集合,然后显示结果的总分。 两种测量值都允许您选择分析整个信号,或只查看活动语音或静音。

与 APx 项目完全集成,音频精度的 PESQ 和 POLQA 软件选项与任何其他测量完全一样出现在项目中,使用方便,使 APx500 软件快速、高效和直观。可使用所有标准和可选 I/O 模块,包括不平衡/平衡模拟、不平衡/平衡/光学数字、串行数字、蓝牙、HDMI 和 PDM。

PESQ 选项规格

ITU-T P.862.x 语音质量感知评估,通过映射到 MOS 比例窄带和宽带操作

输入

16 位线性音频采样 8 kHz 或 16 kHz

输入语音文件 6 到 20 秒的长度

测量

MOS

PESQ

瞬时 MOS 与时间

平均 MOS(主动语音和沉默)

每个示例文件的 MOS


POLQA 选件规格

ITU-T P.863 语音质量感知评估,映射到 MOS 比例窄带、宽带和超宽带操作,使用声学接口

增强的精度

输入

16 位线性音频,在 8、16 或 48 kHz

输入语音文件长度为 6 到 12 秒时采样


测量

MOS

PESQ

瞬时 MOS 与时间

平均 MOS(主动语音和沉默)

每个示例文件的 MOS