新闻  |   论坛  |   博客  |   在线研讨会
VoIP语音质量测量方法 Emodel
lulu888 | 2009-05-24 01:56:30    阅读:792   发布文章

--
    1 引言
  近年来,随着IP网络技术的广泛应用,关于IP网络所能提供的业务的服务质量问题受到研究者们越来越多的关注,如何来对服务质量进行科学可靠的测量与评价是网络测量与网络规划设计中相当关键的问题。VoIP作为下一代基于分组传输的汇聚业务网络的先驱,其语音质量的测量将为未来网络的服务质量测量提供参考与经验。
  
    2 VoIP语音特性对网络性能的要求
  语音在IP网络上的传送,不同于传统PSTN语音传输,它是采用语音编码方式,将模拟话音数字化并打包后采用尽力投送的IP包传送机制,通过IP网络传送到接收端,接收端收集数据包后语音解码得到模拟话音。此外VoIP也与传统的网络应用有许多的不同,例如,像FTP文件传输方式尽可能地占用网络带宽去快速地传送文件;而ERP应用程序则发送较少的数据,但是却在发送者和接收者之间频繁地交互数据流。相反,VoIP只占用很少的网络带宽,但是它不能容忍网络的延时和变化。即使VoIP业务和传统数据业务在同一网络中实现,语音流和数据流也不能被同一方式处理,因为:
  
  (1)它们有不同的数据包大小
  
  (2)它们按照不同速率发送数据包
  
  (3)它们以不同的方式缓存和传送数据包到目的地
  
  (4)它们必须满足不同的用户期望
  
  目前,大部分网络并没有准备好为端到端的VoIP实施提供像PSTN一样的语音质量和可靠性。现存的VoIP网络主要实现了IP中继,提供两个远距离的PSTN的廉价长途连接。以下的两个主要VoIP的语音特性反映对网络性能的具体需求:
  
  第一,VoIP利用RTP实时传输协议传送数据。RTP是一个基于无连接UDP的应用协议,UDP是无连接的,它不会对数据包的传送提供应答和跟踪,这样RTP也不会重新传送网络的丢包,这就要求网络传输中应尽可能减少数据包的丢失;此外,按照TCP的应用协议,RTP也没有直接的碰撞控制,以致于因为发送者发送太多太快的数据包,接收者将被淹没。为了克服这个问题,RTP应用程序总是以固定速率发送数据包,这就要求网络能够尽量以固定的速率传输数据包。
  
  第二,交互式会话不能容忍过大的延时。一个典型的电话会话依赖于发起者和接听者之间的大量的交互,交互得越多,在会谈中所能承受的延时则越小。这就要求数据包通过网络的延时尽可能的小。
  
  由此可见语音在IP网络上的传输需要考虑许多不同于传统电话网络和传统数据网络的因素,所有这些特性因素都将制约到VoIP的语音质量。
  
  3 VoIP的语音质量评价标准
  怎样评判VoIP的语音质量是好或是坏?当然希望VoIP语音质量与PSTN的一样好,这也称为Toll 级别,它是非常好的,但是事实并不一定是这样的。在实施VoIP以前或以后,必须知道网络能够有怎样的语音质量,因此我们需要一些语音质量的测量标准。从发明电话开始,语音质量的测量方式是主观的,人们摘起一个电话,然后由人耳来感知语音的好坏,这个方法是被广泛认同的。在完善之后,这个主观的语音质量测量方法就是现在的平均主观值MOS方法,定义在ITU-T P.800中。基于该主观评测,人类接听和感知语音质量的行为被调研和量化,接听何种级别质量的语音,得到多少平均主观值MOS,人类将起主要的反映作用。这个语音质量和平均主观值的对应关系为网络的配置、基准和监视提供了标准依据。
  
  一个平均主观值MOS是4或更高,被认为是比较好的语音质量,而若平均主观值MOS低于3.6,则大部分接听者不能满意这个语音质量。虽然平均主观测试准确有效,但是,这个主观方法存在的最大问题就是,在现实中,让一组人接听语音和评价语音的质量实现起来是非常困难和昂贵的,因此人们在不断的探索能进行客观测量的方法。
  
  现在许多客观的测量方法已经出现并被应用,诸如,PSQM /PSQM+感知通话质量测量[2],PESQ感知评估通话质量测量[3],PAMS(英国电信)感知分析测量等。PSQM和PAMS测量方法都需要发送一个语音参考信号通过电话网络,在网络的另一端采用数字信号处理的方式比较样本信号和接收到的信号,进而估算出网络的语音质量。PESQ结合了PSQM和PAMS的优势,针对VoIP和混合的端到端应用作了改进,并针对MOS和MOS-LQ计算方法做了修改。最开始这些方法被用于测量编码算法,后来也逐渐应用到VoIP网络系统的测量中,著名的测量仪器生产厂商Agilent的语音质量测量仪器VQT即是代表。此外,有必要指出,平均主观值MOS是广泛认同的语音质量标准,因此,无论采用何种方法所有测量方法都必须对应它们的结果对应到最终的平均主观值MOS,以上各种方法均可以最终以MOS值表示。
  
  4 E-model测量方法的提出
  以上介绍的测量方法在实验室能够很好地应用于分析个别设备的问题,例如,利用PSQM和PESQ分析话机的质量。但是这些测量方法不适用于在数据网络上分析语音质量,是基于传统的电话网络。它们的缺点主要是,测量不是基于数据网络的,不能反映诸如延时、抖动和丢包等数据网络特有的问题,没有考虑网络故障对用户感觉造成的影响,单纯的从收发信号差异的角度分析网络语音问题。为了克服这些缺点,国际电联的G.107标准提出了E-model,它关注数据全面的网络损伤因素,很好地适应在数据网络中语音质量的评估。
  
  E-model的前提是假设语音质量损伤因素总是物理附加的,简单说来就是,如果诸如噪声、回音、延时、编码器性能、抖动等网络损伤因素能够被灵活的加入,那么网络的一个全面客观的质量等级或称为“呼叫者体验”的因素就能够被估计。
  
  4.1 E-model的基本算法公式及其与MOS值的对应
  
  E-model用来作为算法最终结果的是R值,被称为全面的网络传输等级要素,取值范围从0到100。R值的计算从没有网络和设备的损伤影响开始,此时语音质量是最好的,R=Ro。Ro是无网络延时和设备损伤因素的基本信号与收发噪声以及电流、背景噪声之比,即基本信噪比。但是因为网络和设备损伤因素的存在,减少了通过网络的语音质量,R值的基本计算公式如下:
  
  R=Ro- Is-Id-Ie+A
  
  其中,Is:与语音信号传输同步的损伤
  
  Id:语音信号传输延时后的损伤
  
  Ie:由设备引入的损伤,例如编码器损伤
  
  A:优势因素,致力于考虑呼叫者的期望因素,在大部分情况下,一般设置为0。
  
  由公式可知,全面的语音质量(R值)的计算是通过首先估计一个连接的信噪比(Ro),然后从中减去网络损伤(Is,Id,Ie),最后再用呼叫者对语音质量的期望(A)进行补偿后得到。实际应用中,基本公式中的输入Ro、Is、Id和Ie,每一个都需要考虑各种各样的实际网络损伤因素,通过非常复杂的数学计算而得到。
  
  前面已经讲过,任何的测量方法,最终都将对应为MOS值标准,E-model也一样。下面的曲线图清楚的表示出了R值和平均主观值MOS之间的映射关系。X轴表示E模型的R值,Y轴表示平均主观值MOS。
  
  加入用户的感知特性(以用户满意程度表示),进行语音质量等级划分,对应R值和MOS值的范围如下表所示。由于网络数据与实际语音之间存在转化过程,这样固有的损耗使得R值最大只能到93.2,也就是平均主观值MOS只有4.4。G.107的R值默认最大为94。
  
  4.2 语音编码方式、延时、抖动和丢包对R值的影响
  
  网络损伤的主要因素包括语音编码、回声、平均包延时,抖动和包丢失率。回声产生于IP网络与传统PSTN相连处,在单一VoIP网络内部暂不讨论。在一个仅由编码、延时、抖动和丢包造成系统失真的情况下,R的计算公式可以简化如下:
  
  R = Ro-Icodec-Idelay-Ipdv-Ipacketloss
  
  下面将讨论这四个主要损伤因素对R值的影响。
  
  在语音处理中,编码是以硬件或软件的方式去采样语音和决定数据包的速率。ITU标准定义了差不多十几种编码方式,每一种都有不同的特点。低速的编码方式占用更少的带宽,但是因为使用有损的压缩算法,低速编码更加削弱了语音质量。在实际情况中,选择低速的编码方式能够在相同的连接上建立更多的呼叫,但是引入了更大的延时,使语音质量对丢包也更加敏感。因此选择越低速率的编码方式,将明显地减少E模型的R值,当然这也不是完全绝对的。下表显示了一些常用的编码方式对应的Ie值和固有R值[4]。
  
  延时是指话音从发起者到接收者所经过的时间[5],一般而言,端到端的延时由以下四部分组成:
  
  (1)传播延时:指话音从一端到另一端通过网络的时间,由信号通过传播媒介的速度和传播的距离决定
  
  (2)传送延时:指通过网络路径上的所有网络设备的时间
  
  (3)包转化延时:指的是编码器进行数模转化的时间
  
  (4)抖动缓冲延时:指的是在接收端用来保持一个或多个接收的数据包的时间,用来克服数据包到达时间的变化,也就是克服抖动产生的延时。
  
  延时会引起语音会话过程的空白,带来语音的变形和会话的中断,也就是说,延时的增大导致了R值的减小。延时的时长在100~200ms之间开始被收听者所察觉,使得会话不自然。建议的延时上限为150ms,若延时达到200ms则开始有严重的会话中断。
  
  抖动,也叫做延时的变化,是指在一个VoIP呼叫过程中所有发送的数据包到达的时间差异。当一个数据包发送时,发送端在RTP报文头上增加一个时间戳;当在另一端被接收时,接收端同样增加另一个时间戳;计算这两个时间戳可以得到这个数据包的通路时间。如果在一个呼叫中包含不同的通路时间,则存在抖动。在视频应用程序中,抖动表现为图像闪动,而在电话呼叫中,它表现的效果与丢包产生的效果相似,某些字词听不清楚或错误。

*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。

参与讨论
登录后参与讨论
推荐文章
最近访客