专注于音视频处理及流媒体开发!

罗索实验室

VAD实现 (二) --- 数据预处理

时间:2015-11-30 14:22来源:CSDN博客 作者:lv_xinmy 点击:
在用VAD算法确定静音和语音数据的开始和起止点之前,需要对语音数据进行处理,然后 再计算语音数据的开始和起止点,这个过程称为数据的预处理,有些VAD算法是基于短时能量和过零率实现的,并不进行预处理操作,但实验表明,对数据进行预 处理之后的效果要比不进行预处
TAG: 音频处理  VAD  


在用VAD算法确定静音和语音数据的开始和起止点之前,需要对语音数据进行处理,然后 再计算语音数据的开始和起止点,这个过程称为数据的预处理,有些VAD算法是基于短时能量和过零率实现的,并不进行预处理操作,但实验表明,对数据进行预 处理之后的效果要比不进行预处理的效果好。这里,对数据进行去除直流和加窗两个预处理。

一,去除直流

至少有这几个理由,要求我们去除直流。

  1. 直流,是频域的慢变成分,一般都是因为信号采集过程中仪器所致。
  2. 如果需要进行频谱分析,那么因为直流的频谱泄漏,会严重影响低频谱的分析。
  3. 直流一般不随时间变化,不反应信号的趋性。
去除直接代码如下:
  1. float  new_last_data ,last_data ; // 上次计算的去除直流之后和之前的值。 
  2. float *remove_dc(short *data,int frame_size){ 
  3.  
  4.     float in0 =0.0 ,of0 = 0.0 ; 
  5.  
  6.     float *tf = new float[frame_size]; 
  7.     for (int i=0; i < frame_size; i++){ 
  8.  
  9.         tf[i] = in0 = (float)(data[i]); 
  10.  
  11.         tf[i] = in0 - last_data + 0.9997 * new_last_data; 
  12.  // 这里所采用的去除直流公式:s_new(n) = s_old(n)-s_old(n-1)+0.9997*s_new(n-1) 
  13.         last_data = in0; 
  14.         new_last_data = of0 = tf[i]; 
  15.     } 
  16.     return tf; 

二,加窗

加窗的作用就更明显了,见 语音信号的加窗处理
  1. float *hamming(short *data,int frame_size){ 
  2.  
  3.     float *tf = new float[frame_size]; 
  4.  
  5.     float a = 6.28318530717959 / (frame_size - 1); // 2 * PI = 6.28318530717959 
  6.  
  7.     for (int i=0; i< frame_size;i++){ 
  8.         tf[i] = (float)(data[i]); 
  9.         tf[i] *= (0.54 - 0.46 * cos(a*i)); //ω(n) =0.54-0.46cos[2πn/(N-1)] 
  10.     } 
  11.     return tf; 
(责任编辑:落鹤生)
本站文章除注明转载外,均为本站原创或编译欢迎任何形式的转载,但请务必注明出处,尊重他人劳动,同学习共成长。转载请注明:文章转载自:罗索实验室 [http://www.rosoo.net/a/201511/17416.html]
本文出处:CSDN博客 作者:lv_xinmy 原文
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
将本文分享到微信
织梦二维码生成器
推荐内容