Субполосный алгоритм оценки шума для одномикрофонной адаптивной системы фильтрации зашумленного речевого сигнала

Кузнецов А.С.

Московский государственный технический университет им.Н.Э.Баумана AlexanderSKuznetsov@gmail.com

Аннотация

В работе предложен алгоритм оценки шума для одномикрофонной адаптивной системы фильтрации зашумленного речевого сигнала.

Алгоритм обеспечивает высокую разборчивость речи и требует малых вычислительных ресурсов.

1. Введение

С развитием современных средств связи задача адаптивной фильтрации зашумленного речевого сигнала имеет высокую актуальность.

Особенную важность эта задача получила в связи с развитием средств мобильной связи, которые должны обеспечивать приемлемую разборчивость речи при работе в зашумленной среде.

В настоящее время существует множество подходов к построению одномикрофонных систем адаптивной фильтрации зашумленного речевого сигнала. Можно выделить следующие группы методов: методы, основанные на теории фильтров Винера и методы основанные на теории Баесовских оценок.

Большое количество работ посвящено разработке алогритмов фильтрации зашумленного речевого сигнала в частотной области. Связано это с наличием эффективных алгоритмов быстрого преобразования Фурье.

Для систем фильтрации зашумленного речевого сигнала крайне важна задача оценки шума. Алгоритм оценки шума, использующейся в системе адаптивной фильтрации зашумленного речевого сигнала, оказывает большое влияние на искажения речи системой фильтрации зашумленных речевых сигналов, и соответственно, напрямую влияет на разборчивость речи.

На сегодняшний день разработано множество алгоритмов оценки шума. Алгоритмы оценки шума можно разделить на три класса: алгоритмы использующие «жесткие» решения детектора речевого сигнала, например представленный в

работе [9], алгоритмы, использующие «мягкие»

решения детектора речевого сигнала, например представленный в работе [7] и алгоритмы не использующие детектор речевого сигнала, например представленный в работе [3].

Алгоритмы, относящиеся ко первому классу очень чувствительны к ошибкам детектора речевого сигнала. Алгоритмы, относящиеся ко второму классу менее чувствительны ошибкам детектора речевого сигнала однако потребляют больше вычислительных ресурсов. Алгоритмы, относящиеся к третьему классу имееют наибольшую вычислительную эффективность при посредственной точности оценки шума.

Важным требованием к алгоритму оценки является способность к функционированию в условиях нестационарного шума.

В работе [8] предложен алгоритм оценки шума minimum statistics noise estimation (MS) основанный на поиске минимального значения сигнала на некотором интервали. Такая оценка является смещенной, поэтому был предложен метод компенсации смещения. К недостаткам предложенного алгоритма следует отнести высокую чувствительность к кратковременным скачкам мощности шума, приводящую к значительному увеличению ошибки оценки и, подавление фонем с малой энергией.

Предложенный в работе [1] и усовершенствованный в работе [2] алгоритм improved minima controlled recursive averaging noise estimation (IMCRA), отчасти, решил вышеописанные проблемы. Однако, от подавления фонем с малой энергией авторам избавиться не удалось, что негативно сказывается на разборчивости офтильтрованного речевого сигнала.

Предлагаемый агоритм в меньшей степени подавляет фонемы с малой энергией, что позволило увеличить разборчивости офтильтрованного речевого сигнала. Кроме того, алгоритм требует меньших вычислительных ресурсов по сравнению с алгоритмами MS и IMCRA.

2. Субполосный алгоритм оценки шума

Входной сигнал адаптивной системы фильтрации зашумленного речевого сигнала в частотной области можно представить в виде (1)

N S

X = +

⁽¹⁾

Где

X

- L-мерный вектор коэфициентов кратковременного дискретного преобразования Фурье (ДПФ) входного сигнала системы адаптивной фильтрации зашумленного речевого сигнала,

S

- L-мерный вектор коэфициентов кратковременного ДПФ речевого сигнала,

N

L-мерный вектор коэфициентов

кратковременного ДПФ шума. Далее будут использованны следующие обозначения:

k - номер коэфициента кратковременного ДПФ.

n - номер временного фрейма на котором расчитывается кратковременное ДПФ.

2.1. Детектор речевого сигнала

В основе метода детектирования речевого сигнала лежит предположение о том, что сигнал в каждой полосе кратковременного преобразования Фурье имеет нормальное распределение. Для построения детектора речевого сигнала введем две гипотезы

N X

H₀: = - речевой сигнал отсутствует N

S X

H₁: = + - речевой сигнал присутствует Условные плотности вероятностей для каждой полосы будут иметь вид (2).

⎟⎟

⎠

⎞

⎜⎜

⎝

⎛−

) exp (

) ( ) 1

| (

2 0

k X H k X p

N k

σ πσ

( )

^⎟^⎟_⎠

⎞

⎜⎜

⎝

⎛

− +

+ ×

) ( ) exp (

) ( ) ( ) 1

| (

2 1

k k

k H k

X p

S N

S k N

σ σ

(2)

Где σ_N(k), σ_S(k) - соответственно дисперсия шума и речевого сигнала в каждой полосе кратковременного дискретного преобразования Фурье.

Введем обозначения, принятые в работе [4]:

)

2 ( k X_k _N

k σ

γ = - a-posteriori отношение

сигнал/шум, )

ˆ ² (k

S_k _N

k σ

ξ = - a-priori отношение сигнал

шум,

S ˆ

k - выходной сигнал системы адаптивной системы фильтрации в k-ой полосе кратковременного ДПФ.

Используя введеные обозначения, вычислим отношение правдоподобия в каждой полосе кратковременного дискретного преобразования Фурье (3).

⎟⎟⎠

⎜⎜ ⎞

⎝

⎛ +

= + Λ

k k k

k k ξ

ξ γ ξ exp 1 1

1 (3)

Учитывая, что логарифм является неубывающей функцией прологарифмируем выражение (3). Получим решающее правило (4) по критерию правдоподобия.

( ) (

)

ξ ξ

γ ¹

1 1 ln

ln ln H

k H k

k k k

k − + < >

= + Λ

Λ , (4)

В работе [4] было показано, что оценка

ξ

_k по критерию максимального правдоподобия вычисляется как

ξ

= γ

− 1

. Подставляя оценку

ξ

k в (4) получим решающее правило в виде (5).

( )

γ η

γ ¹

ln ln H

k H k

k = − − < >

Λ , (5)

Рассмотрим функцию (6)

( )

1 ln )

(x =x− x −

f , (6)

Это возрастающая функция для x∈(0,+∞). На этом интервале функцию (6) можно заменить линейной. Так как γ_k лежит в интервале (0,+∞) решающие правило будет иметь следующий вид (7)

γ ¹

ln H

k H k = < >

Λ , (7)

В ходе моделирования выяснилась следующая особенность предложенного детектора: детектор ошибался, пропуская окончания фраз. Связано это с тем, конец фразы произносится снижая громкость, создавая тем самым завершенность фразы. Однако, при снижении громкости уменьшается и величина

γ

_k. Снижение порога

η

приводило к ложным срабатываниям детектора. Для решения описанной проблемы к детектору была добавлена схема удержания на основе скрытой марковской модели. В основу модели была положена следующая идея: если на прошлом шаге детектор выдал решение о наличии речевого сигнала, вероятность обнаружения речевого синала на следующем шаге – увеличивается (8).

(

q H₁|q ₁ H₁

)

P(q H₁)

P _n = _n₋ = > _n = (8) Предположим, что марковский процесс не зависит от времени и введем следующие обозначения a_ij=P

(

q_n=H_j|q_n₋₁=H_i

)

(

q_n H_i

)

P(H_i)

P = = . Из теории вероятностей известно, что P(H₁)+P(H₀)=1 и

) ( )

( ₁ ₀₁ ₀

10P H a P H

a = .

Используя процедуру, описанную в работе [10], получим следующее решающее правило (9).

1η

) ) ( 1 (

) 1 ) (

( ^ln

10 00

01 H

k H k

k k n

n a a

n a

n a Λ < >

− Γ +

− Γ

= +

Γ (9)

2.2. Алгоритм оценки шума

Оценка шума, в предлагаемом алгоритме производится с использованием рекурсивного фильтра первого порядка с различными постоянными времени на наростание и спад (10).

, ) ( ) 1 ( ) 1 ( )

(n ₁N n ₁ X n ²

N_k =β _k − + −β _k если N_k(n)> X_k(n)²

, ) ( ) 1 ( ) 1 ( )

(n ₂N n ₂ X n ²

N_k =β _k − + −β _k если N_k(n)≤ X_k(n)²

(10)

Где β₁(0<β₁<1), β₂(0<β₂ <1) - коэфициенты сглаживания.

Оценка шума при наличии речевого сигнала производиться с высокой постоянной времени

β2.

2.3. Реализация субполосного алгоритма оценки шума

При инициализации алгоритма устанавливаются значения постоянных времени, использующихся при отсутствии речевого сигнала (β₁₀ и β₂₀), постоянных времени, использующихся при наличии речевого сигнала (β₁₁ и β₂₁) и параметры марковской цени (a₀₀,a₀₁, a₁₀,a₁₁). Причем значение β₁₁ должно больше β₁₀ но не должно быть равным 1.

Реализация субполосного алгоритма оценки шума с использованием псевдокода приведена на рисунке 1.

Рисунок 1 Реализация субполосного алгоритма оценки шума

Устанавливаем значенияβ₁₀,β₂₀,β₁₁,β₂₁, a00,a₀₁, a₁₀,a₁₁

for k=0..L-1,

k THR a a

k THR a k a

THR γ

) (

) ) (

(

10 00

11 01

= + if(THR(k)>

η

) β₁=β₁₁ β₂ =β₂₁ else β₁=β₁₀ β₂ =β₂₀ end

if(N_k > X_k ²)

N_k =β₁N_k +(1−β₁)X_k ² else

N_k(n)=β₂N_k(n−1)+(1−β₂)X_k(n)², end

end

3. Экспериментальные результаты

Для проверки эффективности предложенного алгоритма была реализованна адаптивная система фильтрации зашумленного речевого сигнала с алгоритмом фильтрации описаным в работе [4]. Эффективность алгоритма оценивалась на векторах с различными типами шумов и различным отношением сигнал/шум.

Были использованы вектора из базы NOIZEUS (http://www.utdallas.edu/~loizou).

В качестве критериев оценки качества в различных работах используются различные критерии. Наиболее часто используются оценки качества на основе отношения сигнал/шум и на основе усредненного по сегментам отношения сигнал/шум. Однако, такие критерии качества являются неудовлетворительными, поскольку не учитывают искажения речи, возникающие при обработке. Наиболее корректным критерием оценки качества является оценка mean opinion score (MOS), выполненная в соответствии с рекомендацией ITU-T P.835 [6].

Поскольку оценка качества адаптивной системы фильтрации зашумленного речевого сигнала согласно рекомендации ITU-T P.835 [6]

является очень трудоемкой и ресурсоемкой задачей, в ходе экспериментов использовалась методика апроксимации MOS предложенная в работе [5] для адаптивных систем фильтрации зашумленного речевого сигнала. Предложенная

методика апроксимации имеет коэффициент корреляции с MOS равный 0.9, что позволяет использовать предложенную методику в оценки качества систем адаптивной фильтрации зашумленного речевого сигнала.

Экспериментальные результаты сведены в таблице 1.

Таблица 1 Mean opinion score (MOS) для адаптивной системы фильтрации зашумленного речевого сигнала с различными алгоритмами оценки шума

MOS Отношение

сигнал/шум,

(SNR) Предложенны

й алгоритм

IMCRA Шум в автомобиле

5 dB 2.80 2.56

10 dB 2.95 2.57

15 dB 3.54 2.96

Шум улицы

5 dB 2.68 1.99

10 dB 3.20 2.85

15 dB 3.55 3.10

Шум в поезде

5 dB 2.46 2.40

10 dB 3.00 2.63

15 dB 3.09 2.65

4. Заключение

В данной статье был предложен новый, эффективный с вычислительной точки зрения, алгоритм оценки шума для адаптивных систем фильтрации зашумленного речевого сигнала, обеспечивающий более высокое качество речи по сравнению с аналогичными алгоритмами.

5. Литература

[1] I.Cohen, “Speech enhancement for nonstationary noise environments”, Signal Process., vol. 81, no. 11, pp. 2403–

2418, Nov. 2001.

[2] I.Cohen, “Noise spectrum estimation in adverse environments: improved minima controlled recursive averaging”, IEEE Trans. Speech and Audio Processing No.

5, September 2003, pp. 406-475.

[3] G. Doblinger, “Computationally efficient speech enhancement by minima tracking in subbands”, in Proc.

4th Eur. Conf. Speech, Communication, and Technology, EUROSPEECH’95, Madrid, Spain, Sept. 18–21, 1995, pp.

1513–1516.

[4] Y. Ephraim, D. Malah, “Speech enhancement using a minimum mean-square error short-time spectral amplitude estimator”, IEEE Trans. Acoustic Speech Signal Processing ASSP-32, December 1984, pp. 1109-1121.

[5] Y. Hu, P. Loizou, “Evaluation of objective measures for speech enhancement, Proceedings of INTERSPEECH- 2006, September 2006.

[6] ITU-T Recommendation P.835, “Subjective test methodology for evaluating speech communication systems that include noise suppression algorithm”, November 2003.

[7] D. Malah, R. V. Cox, and A. J. Accardi, “Tracking speech-presence uncertainty to improve speech enhancement in nonstationary noise environments”, in Proc. 24th IEEE Int. Conf. Acoustics, Speech, Signal Processing (ICASSP’99), Phoenix, AZ, Mar. 15–19, 1999, pp. 789–792.

[8] R. Martin, “Spectral subtraction based on minimum statistics”, in Proc. 7th Eur. Signal Processing Conf.

(EUSIPCO’94), Edinburgh, U.K., Sept. 13–16, 1994, pp.

1182–1185.

[9] S. Rangachari, P. Loizou, Y. Hu, “A Noise estimation algorithm with rapid adaptation for highly non-stationary environments”, in Proc. 29th IEEE Int. Conf. Acoustics, Speech, Signal Processing (ICASSP’2004), pp. 305-308.

[10] J. Sohn, N. Kim, W. Sung, “A Statistical Model- Based Voice Activity Detection”, IEEE Signal Processing Letters, January 1999, pp. 1-3.

Статистическая оценка параметров в моделировании

No documento (1) 30-я КОНФЕРЕНЦИЯ МОЛОДЫХ УЧЕНЫХ И СПЕЦИАЛИСТОВ ИППИ РАН Информационные технологии и системы ИТиС ’07 С Б О Р Н И К Т Р У Д О В К О Н Ф Е Р Е Н Ц И И г (páginas 104-108)