Кузнецов А.С.
Московский государственный технический университет им.Н.Э.Баумана AlexanderSKuznetsov@gmail.com
Аннотация
В работе предложен алгоритм оценки шума для одномикрофонной адаптивной системы фильтрации зашумленного речевого сигнала.
Алгоритм обеспечивает высокую разборчивость речи и требует малых вычислительных ресурсов.
1. Введение
С развитием современных средств связи задача адаптивной фильтрации зашумленного речевого сигнала имеет высокую актуальность.
Особенную важность эта задача получила в связи с развитием средств мобильной связи, которые должны обеспечивать приемлемую разборчивость речи при работе в зашумленной среде.
В настоящее время существует множество подходов к построению одномикрофонных систем адаптивной фильтрации зашумленного речевого сигнала. Можно выделить следующие группы методов: методы, основанные на теории фильтров Винера и методы основанные на теории Баесовских оценок.
Большое количество работ посвящено разработке алогритмов фильтрации зашумленного речевого сигнала в частотной области. Связано это с наличием эффективных алгоритмов быстрого преобразования Фурье.
Для систем фильтрации зашумленного речевого сигнала крайне важна задача оценки шума. Алгоритм оценки шума, использующейся в системе адаптивной фильтрации зашумленного речевого сигнала, оказывает большое влияние на искажения речи системой фильтрации зашумленных речевых сигналов, и соответственно, напрямую влияет на разборчивость речи.
На сегодняшний день разработано множество алгоритмов оценки шума. Алгоритмы оценки шума можно разделить на три класса: алгоритмы использующие «жесткие» решения детектора речевого сигнала, например представленный в
работе [9], алгоритмы, использующие «мягкие»
решения детектора речевого сигнала, например представленный в работе [7] и алгоритмы не использующие детектор речевого сигнала, например представленный в работе [3].
Алгоритмы, относящиеся ко первому классу очень чувствительны к ошибкам детектора речевого сигнала. Алгоритмы, относящиеся ко второму классу менее чувствительны ошибкам детектора речевого сигнала однако потребляют больше вычислительных ресурсов. Алгоритмы, относящиеся к третьему классу имееют наибольшую вычислительную эффективность при посредственной точности оценки шума.
Важным требованием к алгоритму оценки является способность к функционированию в условиях нестационарного шума.
В работе [8] предложен алгоритм оценки шума minimum statistics noise estimation (MS) основанный на поиске минимального значения сигнала на некотором интервали. Такая оценка является смещенной, поэтому был предложен метод компенсации смещения. К недостаткам предложенного алгоритма следует отнести высокую чувствительность к кратковременным скачкам мощности шума, приводящую к значительному увеличению ошибки оценки и, подавление фонем с малой энергией.
Предложенный в работе [1] и усовершенствованный в работе [2] алгоритм improved minima controlled recursive averaging noise estimation (IMCRA), отчасти, решил вышеописанные проблемы. Однако, от подавления фонем с малой энергией авторам избавиться не удалось, что негативно сказывается на разборчивости офтильтрованного речевого сигнала.
Предлагаемый агоритм в меньшей степени подавляет фонемы с малой энергией, что позволило увеличить разборчивости офтильтрованного речевого сигнала. Кроме того, алгоритм требует меньших вычислительных ресурсов по сравнению с алгоритмами MS и IMCRA.
2. Субполосный алгоритм оценки шума
Входной сигнал адаптивной системы фильтрации зашумленного речевого сигнала в частотной области можно представить в виде (1)
N S
X = +
(1)Где
X
- L-мерный вектор коэфициентов кратковременного дискретного преобразования Фурье (ДПФ) входного сигнала системы адаптивной фильтрации зашумленного речевого сигнала,S
- L-мерный вектор коэфициентов кратковременного ДПФ речевого сигнала,N
-L-мерный вектор коэфициентов
кратковременного ДПФ шума. Далее будут использованны следующие обозначения:
k - номер коэфициента кратковременного ДПФ.
n - номер временного фрейма на котором расчитывается кратковременное ДПФ.
2.1. Детектор речевого сигнала
В основе метода детектирования речевого сигнала лежит предположение о том, что сигнал в каждой полосе кратковременного преобразования Фурье имеет нормальное распределение. Для построения детектора речевого сигнала введем две гипотезы
N X
H0: = - речевой сигнал отсутствует N
S X
H1: = + - речевой сигнал присутствует Условные плотности вероятностей для каждой полосы будут иметь вид (2).
⎟⎟
⎠
⎞
⎜⎜
⎝
⎛−
×
×
=
) exp (
) ( ) 1
| (
2 0
k X H k X p
N k
N k
σ πσ
( )
( )
⎟⎟⎠⎞
⎜⎜
⎝
⎛
− +
×
+ ×
=
) ( ) exp (
) ( ) ( ) 1
| (
2 1
k k
X
k H k
X p
S N
k
S k N
σ σ
σ σ
π
(2)
Где σN(k), σS(k) - соответственно дисперсия шума и речевого сигнала в каждой полосе кратковременного дискретного преобразования Фурье.
Введем обозначения, принятые в работе [4]:
)
2 ( k Xk N
k σ
γ = - a-posteriori отношение
сигнал/шум, )
ˆ 2 (k
Sk N
k σ
ξ = - a-priori отношение сигнал
шум,
S ˆ
k - выходной сигнал системы адаптивной системы фильтрации в k-ой полосе кратковременного ДПФ.Используя введеные обозначения, вычислим отношение правдоподобия в каждой полосе кратковременного дискретного преобразования Фурье (3).
⎟⎟⎠
⎜⎜ ⎞
⎝
⎛ +
= + Λ
k k k
k k ξ
ξ γ ξ exp 1 1
1 (3)
Учитывая, что логарифм является неубывающей функцией прологарифмируем выражение (3). Получим решающее правило (4) по критерию правдоподобия.
( ) (
ξ)
ηξ ξ
γ 1
0
1 1 ln
ln ln H
k H k
k k k
k − + < >
= + Λ
=
Λ , (4)
В работе [4] было показано, что оценка
ξ
k по критерию максимального правдоподобия вычисляется какξ
k= γ
k− 1
. Подставляя оценкуξ
k в (4) получим решающее правило в виде (5).( )
γ ηγ 1
0
1
ln ln H
k H k
k = − − < >
Λ , (5)
Рассмотрим функцию (6)
( )
1 ln )(x =x− x −
f , (6)
Это возрастающая функция для x∈(0,+∞). На этом интервале функцию (6) можно заменить линейной. Так как γk лежит в интервале (0,+∞) решающие правило будет иметь следующий вид (7)
η
γ 1
0
ln H
k H k = < >
Λ , (7)
В ходе моделирования выяснилась следующая особенность предложенного детектора: детектор ошибался, пропуская окончания фраз. Связано это с тем, конец фразы произносится снижая громкость, создавая тем самым завершенность фразы. Однако, при снижении громкости уменьшается и величина
γ
k. Снижение порогаη
приводило к ложным срабатываниям детектора. Для решения описанной проблемы к детектору была добавлена схема удержания на основе скрытой марковской модели. В основу модели была положена следующая идея: если на прошлом шаге детектор выдал решение о наличии речевого сигнала, вероятность обнаружения речевого синала на следующем шаге – увеличивается (8).(
q H1|q 1 H1)
P(q H1)P n = n− = > n = (8) Предположим, что марковский процесс не зависит от времени и введем следующие обозначения aij=P
(
qn=Hj|qn−1=Hi)
,(
qn Hi)
P(Hi)P = = . Из теории вероятностей известно, что P(H1)+P(H0)=1 и
) ( )
( 1 01 0
10P H a P H
a = .
Используя процедуру, описанную в работе [10], получим следующее решающее правило (9).
1η
0
) ) ( 1 (
) 1 ) (
( ln
10 00
11
01 H
k H k
k k n
n a a
n a
n a Λ < >
− Γ +
− Γ
= +
Γ (9)
2.2. Алгоритм оценки шума
Оценка шума, в предлагаемом алгоритме производится с использованием рекурсивного фильтра первого порядка с различными постоянными времени на наростание и спад (10).
, ) ( ) 1 ( ) 1 ( )
(n 1N n 1 X n 2
Nk =β k − + −β k если Nk(n)> Xk(n)2
, ) ( ) 1 ( ) 1 ( )
(n 2N n 2 X n 2
Nk =β k − + −β k если Nk(n)≤ Xk(n)2
(10)
Где β1(0<β1<1), β2(0<β2 <1) - коэфициенты сглаживания.
Оценка шума при наличии речевого сигнала производиться с высокой постоянной времени
β2.
2.3. Реализация субполосного алгоритма оценки шума
При инициализации алгоритма устанавливаются значения постоянных времени, использующихся при отсутствии речевого сигнала (β10 и β20), постоянных времени, использующихся при наличии речевого сигнала (β11 и β21) и параметры марковской цени (a00,a01, a10,a11). Причем значение β11 должно больше β10 но не должно быть равным 1.
Реализация субполосного алгоритма оценки шума с использованием псевдокода приведена на рисунке 1.
Рисунок 1 Реализация субполосного алгоритма оценки шума
Устанавливаем значенияβ10,β20,β11,β21, a00,a01, a10,a11
for k=0..L-1,
k
k THR a a
k THR a k a
THR γ
) (
) ) (
(
10 00
11 01
+
= + if(THR(k)>
η
) β1=β11 β2 =β21 else β1=β10 β2 =β20 endif(Nk > Xk 2)
Nk =β1Nk +(1−β1)Xk 2 else
Nk(n)=β2Nk(n−1)+(1−β2)Xk(n)2, end
end
3. Экспериментальные результаты
Для проверки эффективности предложенного алгоритма была реализованна адаптивная система фильтрации зашумленного речевого сигнала с алгоритмом фильтрации описаным в работе [4]. Эффективность алгоритма оценивалась на векторах с различными типами шумов и различным отношением сигнал/шум.
Были использованы вектора из базы NOIZEUS (http://www.utdallas.edu/~loizou).
В качестве критериев оценки качества в различных работах используются различные критерии. Наиболее часто используются оценки качества на основе отношения сигнал/шум и на основе усредненного по сегментам отношения сигнал/шум. Однако, такие критерии качества являются неудовлетворительными, поскольку не учитывают искажения речи, возникающие при обработке. Наиболее корректным критерием оценки качества является оценка mean opinion score (MOS), выполненная в соответствии с рекомендацией ITU-T P.835 [6].
Поскольку оценка качества адаптивной системы фильтрации зашумленного речевого сигнала согласно рекомендации ITU-T P.835 [6]
является очень трудоемкой и ресурсоемкой задачей, в ходе экспериментов использовалась методика апроксимации MOS предложенная в работе [5] для адаптивных систем фильтрации зашумленного речевого сигнала. Предложенная
методика апроксимации имеет коэффициент корреляции с MOS равный 0.9, что позволяет использовать предложенную методику в оценки качества систем адаптивной фильтрации зашумленного речевого сигнала.
Экспериментальные результаты сведены в таблице 1.
Таблица 1 Mean opinion score (MOS) для адаптивной системы фильтрации зашумленного речевого сигнала с различными алгоритмами оценки шума
MOS Отношение
сигнал/шум,
(SNR) Предложенны
й алгоритм
IMCRA Шум в автомобиле
5 dB 2.80 2.56
10 dB 2.95 2.57
15 dB 3.54 2.96
Шум улицы
5 dB 2.68 1.99
10 dB 3.20 2.85
15 dB 3.55 3.10
Шум в поезде
5 dB 2.46 2.40
10 dB 3.00 2.63
15 dB 3.09 2.65
4. Заключение
В данной статье был предложен новый, эффективный с вычислительной точки зрения, алгоритм оценки шума для адаптивных систем фильтрации зашумленного речевого сигнала, обеспечивающий более высокое качество речи по сравнению с аналогичными алгоритмами.
5. Литература
[1] I.Cohen, “Speech enhancement for nonstationary noise environments”, Signal Process., vol. 81, no. 11, pp. 2403–
2418, Nov. 2001.
[2] I.Cohen, “Noise spectrum estimation in adverse environments: improved minima controlled recursive averaging”, IEEE Trans. Speech and Audio Processing No.
5, September 2003, pp. 406-475.
[3] G. Doblinger, “Computationally efficient speech enhancement by minima tracking in subbands”, in Proc.
4th Eur. Conf. Speech, Communication, and Technology, EUROSPEECH’95, Madrid, Spain, Sept. 18–21, 1995, pp.
1513–1516.
[4] Y. Ephraim, D. Malah, “Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator”, IEEE Trans. Acoustic Speech Signal Processing ASSP-32, December 1984, pp. 1109-1121.
[5] Y. Hu, P. Loizou, “Evaluation of objective measures for speech enhancement, Proceedings of INTERSPEECH- 2006, September 2006.
[6] ITU-T Recommendation P.835, “Subjective test methodology for evaluating speech communication systems that include noise suppression algorithm”, November 2003.
[7] D. Malah, R. V. Cox, and A. J. Accardi, “Tracking speech-presence uncertainty to improve speech enhancement in nonstationary noise environments”, in Proc. 24th IEEE Int. Conf. Acoustics, Speech, Signal Processing (ICASSP’99), Phoenix, AZ, Mar. 15–19, 1999, pp. 789–792.
[8] R. Martin, “Spectral subtraction based on minimum statistics”, in Proc. 7th Eur. Signal Processing Conf.
(EUSIPCO’94), Edinburgh, U.K., Sept. 13–16, 1994, pp.
1182–1185.
[9] S. Rangachari, P. Loizou, Y. Hu, “A Noise estimation algorithm with rapid adaptation for highly non-stationary environments”, in Proc. 29th IEEE Int. Conf. Acoustics, Speech, Signal Processing (ICASSP’2004), pp. 305-308.
[10] J. Sohn, N. Kim, W. Sung, “A Statistical Model- Based Voice Activity Detection”, IEEE Signal Processing Letters, January 1999, pp. 1-3.
.