Xreferat.com » Рефераты по кибернетике » Машины, которые говорят и слушают

Машины, которые говорят и слушают

второго типа — системы анализа речевых сигналов, основанной на выделении аналоговыми средствами неко­торых медленно меняющихся параметров речи и их последующей программной обработки, являются системы, использующие третий тип ввода сигналов в ЭВМ. В таких системах первичным анализа­тором речи служат устройства выделения информативных речевых параметров, близких к параметрам речеобразующего тракта. Ввод третьего типа позволяет еще сильнее сжать информацию о речевом сигнале, поступающую в ЭВМ.

Блок-схема одного из устройств выделения речевых признаков •представлена на рис. 2.3. Общая идеология таких устройств и обо­снование выбранных признаков речевого сигнала разработаны в Вычислительном центре Академии наук СССР и Институте проблем

74

передачи информации Академии наук СССР. Усиленный речевой сигнал подается на 16 каналов, из которых 9 дают бинарный вы­ход сигнализирующий о наличии или отсутствии соответствующего признака. Эти признаки названы групповыми, их комбинация мо­жет дать представление лишь о способе образования звуков, т. е. о принадлежности к группе звуков, сходных по способу образо­вания — шумные, взрывные, гласные, но не о звуке в группе. Ос­тальные 7 каналов дают количественные характеристики шумных звуков речи и гласных, т. е. позволяют классифицировать эти зву­ки по месту их образования. К признакам места образования шумных здесь относят:

— число переходов сигнала через нулевой уровень в положи­тельном направлении No, т. е. общее число положительных им­пульсов клиппированного, или предельно ограниченного речевого сигнала, при котором он сохраняет лишь два возможных значения амплитуды (уровня);

— число положительных импульсов клиппированной речи, пре­вышающих длительности в 100, 200 и 400 мкс;

— число положительных импульсов клиппированной речи, не превышающих 50 мкс.

К признакам места образования гласных причисляют значения первой и второй формантных частот. К групповым двоичным при­знакам, принимающим только два значения—О и 1, относятся:

признак наличия энергии сигнала, превышающей ранее заданный уровень (порог) в области низких частот (если пороговый уровень энергии не превзойден, считается, что данный групповой признак отсутствует); признак наличия энергии, превышающей пороговый уровень в области высоких частот; трехуровневый признак огибаю­щей сигнала. Трехуровневый признак наличия участков с повышен­ным числом перехода сигнала через нулевой уровень характеризует усредненную мгновенную частоту сигнала. Кроме того, в число двоичных признаков входит признак повышенной частоты основного тона, определяющий «высокочастотные» женские и детские голоса.

.Признаки вводятся в машину каждые 10 мс в мультипрограм­мном режиме на фоне решения других задач. Трехпороговый при­знак плотности нулей представляет собой три одинаковых канала

75

Таблица 2.1

Звук —о Wl

N,

Ns

К.

л^в

N,

nh

/Л.

N..



21

3900

11

3

2

1

1


24

3700

16

3

1



8


22

5400

15

2

1

1


14

С

24

4700

12

3

1

1

20


28

4900

8

4



16


29

4750

8

2




23


36

1950

9

1

3

3

1

10


40

850

3

4

2

2

3

1

1


48

300






1

ч

0



э

50

550

1


2

1

2

1

1


54

750

2

1

1

1

1

1


60

600

1

5

2


58

650

5

5

1


57

500

2


.—

5


57

600

2

1

2

1

1


42

650

1

5

1

1

1

1


36

350

2



2


1



33

250



.


1

2

м

26

250

—— ——

1

2


23

200



1

1


22

250



1

2


20

200







1

1















с порогами на частоте в 200, 3500 и 5000 Гц, что позволяет уже на уровне аппаратуры класс шумных звуков разделить на высоко-и низкочастотные. Аналогичным образом построен трехпороговый признак огибающей. Отметим, что аналоговые устройства выделе­ния информативных речевых признаков могут дополняться другими каналами, видоизменять общую структуру, включать в свой состав устройства ввода второго типа (гребёнки полосовых фильтров).

76

2.2. ВЫЧИСЛЕНИЕ ПРИЗНАКОВ ПЕРВИЧНОГО ОПИСАНИЯ РЕЧИ ЦИФРОВЫМИ МЕТОДАМИ

При анализе речи цифровыми методами в ЭВМ с аналого-дифрового преобразователя поступают дискретные отсчеты речевого сигнала, т. е. речь представляется .набором чисел. Последователь­ность этих чисел подвергается программной обработке по опреде­ленным алгоритмам цифровой обработки сигналов для того, чтобы представлять речь в более простом виде—меньшим набором чисел, первичными признаками (признаками первичного описания), кото­рые дают достаточно полное описание речевого сигнала. Признаки (параметры) первичного описания программно вычисляются за время, в течение которого положение речеобразующих (артикуля-торных) органов почти не меняется,—за 0,01—0,02 с (10—20 мс). На отрезках такой длительности аналого-цифровой преобразователь, «оцифровывающий» речевой сигнал с частотой 20 кГц, дает 200— 400 отсчетов. Признаков же первичного описания на отрезках та­кой длительности обычно 10—20, а иногда и меньше, поэтому уменьшается объем памяти,, которая отводится в ЭВМ для -хране­ния речи, и увеличивается скорость последующей обработки сигнала.

Первичные признаки записываются в запоминающем устройстве в виде таблицы (матрицы) параметров. Каждая строчка такой таблицы—это набор признаков, вычисленных при цифровой обра­ботке речи за 10—20 мс, а каждый столбец показывает изменение данного признака во времени (через 10—20 мс). Например, неслож­ная табл. 2.1 соответствует параметрическому представлению слова «семь». При этом признаками первичного описания являются: сред­няя энергия сигнала Ац, средняя частота перехода сигнала через нуль /о (усредненная мгновенная частота) и числа положительных импульсов клиппированной речи. Иными словами, речи, представ­ленной прямоугольными импульсами, полученными из первоначаль­ной речевой волны после ее усиления и предельного ограничения по амплитуде, когда сигнал принимает лишь два значения, од­ному из которых может соответствовать 0, а другому 1. Положи­тельные импульсы находятся в диапазоне длительностей 100—200

77

(Л';), 200—300 (ЛЛ;), 300—400 (Л^з), 400—600 (Л^), 600—800 (/Vg), 800—1200 (Ns), 1200—1800 мкс (Na), свыше 1800 мкс (Nis) и ме. нее 50 мкс {Ns). Все признаки измерены на интервалах в 20 мс.

Данные для такой таблицы получаются цифровыми методами с помощью очень простых алгоритмов. Средняя интенсивность сиг­нала Ay на отрезке в 20 мс может быть получена сложением 400 отсчетов входного сигнала, поступающих с аналого-цифрового преобразователя, без учета их знака и с последующим делением на 400. Усредненная за время анализа «мгновенная» частота сигнала Го вычисляется подсчетом точек, где соседние значения отсчетов имеют разные знаки. Число точек, в которых сигнал меняет знак, деленное пополам, определяет среднее число переходов сигнала че­рез нуль в положительном направлении. Если среднее число умно­жить на 100, то получится усредненная мгновенная частота fo. Та­ким образом, простейшей формулой, определяющей алгоритм вы­числения усредненной мгновенной частоты сигнала, является фор­мула

где Ai и Лц.1—соседние отсчеты речевого сигнала; sign—произве­дение двух чисел Л, и Лг+i, равное 1, если одно из чисел (неваж­но какое) положительное, а другое — отрицательное.

Числа положительных импульсов клиппированной речи, опреде­ляющих интервалы между нулями в возможных интервалах дли­тельностей (Ni—A^ia), также вычисляются очень просто. Представь­те себе, что в массиве чисел, которые соответствуют речевому сигналу и получаются с помощью аналого-цифрового преобразова­теля, отмечены места, где сигнал меняет знак с отрицательного на положительный, и наоборот. Числа, представляющие речь, идут, на­пример, так: 18, 13, 10, 7,3, —1, —8, —12, —20, —32, —25, —19,

—13, —6, —2, 4, 12, 16, 29, 21, 25, 14, 17, 12, 6, —2. —5, —11,

—18, —29, —29, —31, —21, —13 и т. д. В этой последователь­ности соседние числа трижды имеют разные знаки. Дважды сигнал переходит из области положительных значений в область отрица-

—ro-T^iii-.v г, r>ni»u пяэ—ия области отоицательных в область положи-

тельных (эти числа в массиве подчеркнуты). Если частота кванто­вания аналого-цифрового преобразователя 20 кГц, то временные отрезки, которым соответствует интервал между двумя соседними яисламп — 50 мкс (за одну секунду в память ЭВМ вводится 20 ты­сяч отсчетов речевого сигнала). Значит, достаточно подсчитать, сколько чисел прошло между сменой знака с отрицательного на положительный, и наоборот, чтобы определить длительность одного положительного прямоугольного импульса клиппированной речевой волны. В нашем случае число интервалов между второй и тре­тьей сменами знаков составляет 12, т. е. длительность прямоуголь­ного импульса 12Х50—600 мкс. Можно полагать, что параметр Ms должен увеличиваться на единицу. Для каждого из параметров ^V,—,Vi6 имеются ячейки-счетчики, которые называются счетчиками селекции импульсов по длительности и куда программа за время анализа (10—20 мс) заносит для суммирования единицы, если вы­полнено условие записи в соответствующую ячейку памяти после проверки длительности положительного импульса. Это делается сравнением длительности импульсов с константами, определяющи­ми, в какой из диапазонов длительностей попало данное число.

Что дает такая таблица признаков? Рассмотрим данные табл. 2.1 более внимательно. В ней даются 22 строки. Это означает, что длительность слова «семь» 440 мс, так как каждая строка таблицы характеризует отрезок сигнала длительностью в 20 мс. Столбцы таблицы показывают, как изменяются признаки на протяжении слова. Слово начинается с фонемы, характеризующейся высокой мгновенной частотой: 4—5 кГц. Далее следует участок, на котором самая высокая громкость и мгновенная частота снижается до 600— 700 Гц. Затем следует конечный участок слова, на котором и ин­тенсивность падает, и усредненная мгновенная частота снижается до 200—250 Гц. Это соответствует последовательности звуков с—э—м. Особенно следует сказать о признаках Ni—A^g. Для щелевого с дли­тельности положительных импульсов фактически лежат в пределах До 200 мкс. Для ударного гласного э эти длительности лежат в диапазоне 300—800 мкс, а для носового мв пределах 1000 мкс и более.

79

Рассматривают цифровой анализ сигналов во временной и спектральной областях. В первом случае признаки более компакт­ного представления речи получаются непосредственно из оцифро­ванного речевого сигнала, так, как в рассматриваемом примере. Во втором — параметры извлекаются на основании анализа динамической спектрогрммы, которая характеризует изменяющийся во времени спектр звуков речи. Спектральный анализ (получение динамической спектрограммы) на ЭВМ осуществляют с помощью алгоритма дис­кретного преобразования Фурье, который кратко будет рассмотрен далее,

Отметим, что к методам анализа речевых сигналов во времен­ной области относится автокорреляционный анализ. Это метод об­работки сигналов, основанный на временнной задержке начального сигнала с последующим умножением задержанного сигнала на ис­ходный. Автокорреляционная функция — это функция времени, по­казывающая, как зависят последующие значения речевого сигнала от предыдущих: чем больше ее значение, тем большая зависимость определения последующего отсчета сигнала от предыдущего, т. е. последующие отсчеты более коррелированы с предыдущими. На звонких участках речи автокорреляционная функция квазипериодич­на, на глухих, где речевой сигнал представляет собой фрикативный квазислучайный шум, автокорреляционная функция непернодична, случайна. На этом основано выделение по автокорреляционной функции участков, соответствующих глухим и звонким звукам речи, а также определение периода основного тона. На рис. 1.14, г представлена автокорреляционная функция для звонкого участка речевого сигнала. С помощью автокорреляционной функции можно определить некоторые важные свойства речевого сигнала, в част­ности, узнать, является ли даяный сигнал периодическим, т. е. при­сутствует ли в нем основной тон. Автокорреляционная функция для дискретной последовательности х(п) вычисляется по формуле

R(s)=-Zx(n)x(n—s), s=0, I, 2, ..., N, n=s

где х(п)отсчет речевого сигнала в п-й момент времени; п=0, 1, 2, ..., N; N+lколичество отсчетов в интервале анализа; .V-4-1— количество отсчетов автокорреляционной функции.

80

Автокорреляционная функция является четной функцией, т. е. R(s)==R(—s), и максимального значения достигает при s=0. Ве­личина R(o) равна полной энергии речевого сигнала на интервале анализа, что весьма важно для определения энергии сигнала, если известно значение автокорреляционной функции R(o).

Вычисление отсчетов автокорреляционной функции можно про­изводить в процессе ввода речи с аналого-цифрового преобразовате­ля, уточняя с каждым вновь принятым отсчетом сигнала значение отсчетов автокорреляции по рекуррентной формуле

R»o»(s)=Rc-r!4?(s)+x(n)x(n—s), s==0, I, 2, ..., N.

В начале интервала анализа принимаем R(s)=0, s=0, I, 2,..., ..., N, а предыдущие отсчеты сигнала — равными нулю. Отметим, что в аналоговую аппаратуру выделения информативных признаков, описанную ранее, может быть включен канал, дающий возможность получить значения автокорреляционной функции на интервале ана­лиза — коррелометр.

2.3. КРАТКИЕ СВЕДЕНИЯ О СПЕКТРАЛЬНОМ АНАЛИЗЕ РЕЧИ

Ранее упоминалось о том, что речевой сигнал можно рас­сматривать как реакцию системы с медленно меняющимися пара­метрами речеобразующего тракта на периодическое или шумовое возбуждающее колебание. Многообразие звуков речи определяется многообразием форм голосового тракта. При построении модели ре­чевого сигнала, например в говорящих машинах — синтезаторах ре­чи, принимают, что на относительно коротких временных интерва­лах (10—20 мс) формы голосового тракта при произнесении зву­ков речи существенно изменяться не могут. На таких коротких интервалах подобные формы тракта считают постоянными. А это означает, что электрический фильтр с резонансными свойствами, от­ражающими свойства голосового тракта, тоже можно рассматри­вать на коротких временных интервалах как систему с постоянны­ми параметрами. Это позволяет моделировать сложный процесс ре-чеобразования электрической цепью или программно на ЭВМ.

6 Заказ № 901


81



Модель речевого сигнала для звонкого звука представлена на рис. 2.4. Импульсы возбуждения, т. с. электрические сигналы, экви­валентны толчкам воздуха на выходе голосовых связок (рис. 2.4, а); ^:o=2л/Гo—частота импульсов возбуждения, или частота основ­ного тона. В спектральной области энергия таких импульсов пред­ставляется гребенчатым спектром (рис. 2.4,6). Это означает, что квазипериодический сигнал, соответствующий импульсам возбужде­ния, имеет частотные составляющие лишь на гармониках, кратных частоте основного тона на частотах Fo, 2Fo, 3F„ и т. д. (точнее, в областях вблизи этих гармоник).

Для аналоговых электрических сигналов выходное напряжение определяется операцией свертки функции возбуждения и отклика (реакции) фильтра на единичный скачок напряжения на его входе. Иногда свертку для аналоговых сигналов называют интегралом Дюамеля. Операцию свертки для аналоговых сигналов мы рассмат­ривать здесь не будем из-за се относительной сложности. Попыта­емся кратко описать, что такое операция свертки для случая дис­кретных сигналов.

Из теории фильтрации следует, что если возбуждающий сиг­нал, поступающий на фильтр, представлять последовательностью его

82

отсчетов, то сигнал на выходе фильтра, который моделирует голо­совой тракт, можно представить операцией дискретной свертки, ко­торая учитывает реакцию фильтра на входные (возбуждающие) сигналы. Дискретный сигнал на выходе фильтра вычисляется по сигналу на входе Е(п) и отклику (реакции) h(n) фильтра на еди­ничный импульс 6(ri), равный единице в дискретные моменты вре­мени п и нулю вне этих дискретных моментов. Дискретная свертка вычисляется

S(n)=^ E(k)h(n—k)=E(n)* h(n),

k=—oa

где символ * означает свертку. Вычисление этой громоздкой суммы произведений упрощается, если учесть, что большая часть этих произведений равна нулю из-за конечной длительности возбужда­ющего сигнала Е(п).

Итак, если S(n)—речевой сигнал на входе фильтра, моде­лирующего голосовой тракт, то значение каждого отсчета сигнала можно представить сверткой S(n)=E(n)s h(n).

Переход к анализу сигналов в спектральной области позво­ляет достаточно просто получить спектр выходного речевого сиг­нала, если известен спектр возбуждающего сигнала и передаточная функция фильтра, моделирующего голосовой тракт. Спектр выход­ного сигнала (звонкого звука речи), т. е. совокупность значений амплитуд всех частотных составляющих, образующих данный звук (рис. 2.4,6), можно получить, перемножив (а не произведя слож­ную операцию свертки) спектральные составляющие гребенчатого спектра сигнала возбуждения, которые берутся в точках, кратных частоте основного тона, на значения передаточной функции голосо­вого тракта. На этом рисунке видны подъемы спектра на формант-ных частотах f[, /•2, Fs, Ft-

Разработаны математические методы (аппарат прямого и об­ратного преобразования Фурье), позволяющие осуществлять переход к представлению сигнала в спектральной области, если известна вре­менная картина речевой волны. И наоборот, если известно спек­тральное представление речевого сигнала на последовательных от­резках речевой волны, то можно получить временную картину речи,

б* 83

т. е. увидеть ее осциллограмму и услышать звучание синтезирован­ной речи, когда известны только амплитуды ее частотных составля­ющих.

Спектральное представление оцифрованного речевого сигнала основывается на кратковременном дискретном преобразовании Фу- i рье, учитывающем обстоятельство, о котором мы уже упоминали:

на относительно коротких временных интервалах (10—20 мс) свой­ства голосового тракта, а значит, и передаточная функция тракта, определяющая спектральные свойства речевого сигнала, существен­но не изменяются. Хотя формула дискретного преобразования Фу­рье строго теоретически представляет бесконечное суммирование произведений дискретных отсчетов сигнала и синусоид, частоты ко­торых изменяются дискретно от некоей начальной синусоиды до бесконечности, реальное (кратковременное) преобразование Фурье использует дополнительный сомножитель. Он называется весовым окном, или весовой функцией, которая имеет ненулевые значения лишь на окне (участке сигнала длительностью 10—20 мс), где мы принимаем постоянными, независимыми от времени частотные со­ставляющие звука.

Формула кратковременного преобразования Фурье, которым пользуются при расчетах дискретных спектров звуков речи, имеет вид

Кратковременное преобразование Фурье позволяет представлять речь динамической спектрограммой, или временной последователь­ностью спектральных срезов, кратковременных спектров, каждый

84

из которых получен для окна, короткого отрезка речевого сигнала, на котором, как мы считаем, не изменяются спектральные свойства. Динамическая спектрограмма (картина «видимой речи», если ее вы­водят на печать в виде рисунка) представляет характеристики речи в координатах «время — частота — амплитуда». Алгоритм дискрет­ного преобразования Фурье позволяет изобразить спектр значения­ми амплитуд частотных составляющих на равностоящих частогах. По спектральному описанию (кратковременному спектру) можно определить — и довольно несложными математическими методами — основные параметры речеобразующего тракта: частоту основного тона, формантные характеристики, энергии в полосах частот.

В настоящее время разработаны алгоритмы быстрого вычисле­ния значений спектральных составляющих по дискретным отсчетам сигнала. Такие алгоритмы называются алгоритмами быстрого преоб­разования Фурье. В их основе лежит разбиение последовательно­сти Л" отсчетов речевого сигнала на составные части (N берется всегда составным числом), для которых вычисления осуществляют­ся значительно быстрее. Обычно N берется как 2й, т. е. берутся Л', равные 128, 256 или 512 (27, 28 или 29) в зависимости от частоты квантования сигнала и длительности окна анализа. Отметим, что разработаны также ускоренные методы для вычисления операции свертки.

2.4. НЕМНОГО О ЛИНЕЙНОМ ПРЕДСКАЗАНИИ

В последние годы приобрел широкое распространение метод анализа речевых сигналов во временной области, который получил название линейного предсказания или линейного прогноза. В раз­витие этого метода анализа речи большой вклад внесли советские ученые А. А. Харкевич, Н. Н. Акинфиев, А. Н. Собакин и др.

Линейное предсказание—это метод анализа, основанный на цифровой фильтрации оцифрованной речи, при которой текущий отсчет сигнала может быть «предсказан» (например, при автомати­ческом синтезе речи) линейной комбинацией прошлых значений вы­ходной последовательности и настоящих, а также прошлых значе-

85

ний входной последовательности. Понятие «линейная комбинация» означает сумму произведений известных дискретных отсчетов сиг­нала (входных и выходных), умноженных на соответствующие коэффициенты линейного предсказания для предсказания (опреде­ления) неизвестного выходного отсчета. При линейном предсказании основная задача анализа речи — найти коэффициенты этой линейной комбинации, которые дают минимальную ошибку предсказания на участке анализа сигнала.

Модель сигнала, наиболее часто используемая при линейном предсказании, сводится к получению неизвестного отсчета х(п) без учета предыдущих входных воздействий на выходе некоторой сис­темы

р

х(п)=^ dnx(n—k)+ Gu(n), k=i

где р число коэффициентов, используемых в модели; йк — коэф­фициенты линейного предсказания; Gкоэффициент усиления, оп­ределяющий вклад в линейную комбинацию входного отсчета;

и(п) текущий входной отсчет.

Задача анализа оцифрованной речи сводится к определению коэффициентов Ок и G этой модели. Метод определения величин, используемых при расчетах, называется методом наименьших квад­ратов. Чтобы понять его суть, пойдем на некоторые упрощения в представлении текущего выходного отсчета. Будем считать, что входное воздействие на вход системы, моделирующей формирование речевых сигналов, ненаблюдаемо, что справедливо для ряда при­кладных задач. Тогда на интервале анализа текущие отсчеты рече­вого сигнала приближенно опишутся линейной комбинацией преды­дущих значений:

Коэффициенты линейного предсказания а„ вычисляются из ус­ловия минимума среднеквадратичного значения ошибки на интер­вале анализа. На этом интервале полная среднеквадратичная ошиб­ка складывается для каждого отсчета сигнала, представленного ли­нейной комбинацией р предыдущих значений сигнала

Здесь п номер предыдущего отсчета сигнала на анализируемом интервале; k — номер предыдущего отсчета сигнала при построе­нии линейной комбинации, представляющей текущий отсчет.

Коэффициенты линейного предсказания, минимизирующие пол­ную ошибку предсказания Е, находятся после того, как выраже­ние для полной ошибки продифференцировать по всем коэффициен­там Он (полная ошибка предсказания может рассматриваться как функция параметров ак) и приравнять нулю все частные произ­водные:

дЕ/дс>к=0'Л<1г<р.

Частными производными называются производные сложной функ­ции по одной из переменных с учетом того, что остальные пере­менные при таком дифференцировании считаются константами.

Результатом дифференцирования по а,, является система из линейных уравнений с неизвестными коэффициентами линейного предсказания, минимизирующими ошибку линейного предсказания на отрезке анализа сигнала, где коэффициенты йк считаются посто­янными. Решение этой системы линейных уравнений, а также дру­гие вопросы, связанные с линейным предсказанием речи, подробно рассмотрены Маркелом и Грэем в книге «Линейное предсказание речи».

87

2.5. АНАЛИЗ КЛИППИРОВАННОЙ РЕЧИ

Клиппированным речевым сигналом называют предельно ограниченный «стриженый» сигнал, сохраняющий лишь два воз­можных значения, которые условно принимаются за +1 и —1

(рис. 2.5).

В различных работах отмечается, что, несмотря на недостаточ­ную естественность звучания клиппированной речи, ее разборчивость оказывается достаточно высокой, причем разборчивость речи повы­шается, если до клиппирования речевой сигнал подвергнуть диффе­ренцированию. Это явление означает, что информация о распреде­лении интервалов между нулевыми пересечениями сигнала может быть использована для построения устройств автоматического рас­познавания и синтеза речи. Привлекательность автоматического анализа клиппированной речи и использования ее параметров для целей построения говорящих и понимающих речь машин лежит в простоте получения этих параметров.

Если речевой сигнал представлен дискретной последовательно­стью его отсчетов -J х(п)} , то фиксирование момента перехода сигнала через нуль происходит, когда знаки двух соседних дискрет­ных отсчетов речевого сигнала различны, т. е.

sign[x(n)]-^sgn[x(n—l)'.

Информация об общем числе переходов сигнала на определен­ном интервале и различных диапазонах длительностей участков между нулями часто используется для грубой оценки частотного состава сигнала. Существует тесная связь между числом нулевых пересечений и распределением энергии по частотам. Общее число переходов сигнала через нуль, величину Л'о, вычисляемую для дис­кретной последовательности А" отсчетов, можно представить в виде

Существуют системы автоматического распознавания речи, в которых, как об этом говорилось ранее, нулевые пересечения ис­пользуются для приближенного определения формантных частот. На рис. 2.6 показано, как оцениваются формантные частоты с по­мощью схемы анализа нулевых пересечений после прохождения сигнала через полосовые фильтры, которые перекрывают диапазоны частот, соответствующие формантным областям (первая форманта Fi лежит в диапазоне 200—900 Гц, вторая—550—2700 Гц и тре­тья— 1100—2950Гц).

Иногда при распознавании речевых сигналов используют так называемую гребенку временной селекции, которая позволяет оце­нить ширину импульсов клиппированного сигнала и тем самым про­вести более точный анализ во временной области, что позволяет относительно простыми средствами отличать одни классы звуков от Других. Так, для фрикативных согласных селекторы импульсов по Длительности дают возможность отделить диффузные (звуки с ши-

89

Рис. 2,7. Блок-схема временной селекции интервалов между нулями

роким спектром типа ф) от компактных (спектр которых сосредо­точен в относительно узкой области—с, ш).

Блок-схема селекции импульсов клиппированного речевого сиг­нала по длительности показана на рис. 2.7.

Обычно с учетом особенностей клиппированных согласных и гласных выбирают пороги временной селекции, равные 50, 100, 200, 400, 600 и 800 мкс (первый селектор отбирает узкие импульсы, длительность которых меньше 50 мкс). Поступающие для дальней­шего анализа числа (со счетчиков импульсов) позволяют получать распределение интервалов между нулями в диапазонах длительнос­тей между пороговыми значениями селекторов — узлов, пропуска­ющих на счетчики импульсы, превосходящие (или не превосходя­щие) по длительности заданный порог.

Следует отметить, что энергия и переходы сигнала через нуль часто совместно используются для разработки алгоритмов выделе­ния моментов начала и конца речевой реализации (изолированного слова фразы). Такой алгоритм применен, например, в отечествен­ной промышленной системе распознавания изолированных слов ИКАР.

90

Подобные алгоритмы основываются на тщательном исследова­нии статистических параметров функций среднего значения сигнала я числа нулевых пересечений для шумов различной природы и различных звуков фраз и изолированных слов.

2.6. ГОМОМОРФНАЯ ОБРАБОТКА СИГНАЛОВ

Как было показано ранее, речевой сигнал на коротких ин­тервалах можно рассматривать как отклик системы с медленно меняющимися параметрами на периодическое или шумовое воз­буждение. Это означает, что во временной области дискретный сиг­нал у(п) представляется результатом свертки функции возбужде­ния х(п) с импульсной реакцией голосового тракта h(n). Гомо­морфная обработка речи сводится к решению обратной задачи — имея речевой сигнал у(п) =х(я)* h(n), можно получить парамет­ры сигналов, участвующих в свертке. Эта задача называется иногда задачей обратной свертки или развертки.

Смысл гомоморфной системы анализа становится более понят­ным, если учесть, что в частотной области речевой сигнал пред­ставляется произведением спектра сигнала возбуждения и переда­точной функции частотной характеристики голосового тракта, учи­тывающего спектральные свойства излучателя (произведением P(f)=E(f) F(f), см. рис. 1.3). Это означает, что в спектре рече­вого сигнала содержится информация о спектре сигнала возбужде­ния и передаточной функции голосового тракта. Гомоморфная об­работка сигнала — это способ извлечь информацию об основном тоне и формантных частотах на основании преобразований сигнала, которые будут описаны далее.

Если произвести кратковременное дискретное преобразование Фурье (т. е. получить динамический спектр речевого сигнала), а затем прологарифмировать спектральные составляющие динамиче­ского спектра, то каждый спектральный отсчет можно рассматри­вать как сумму логарифмов спектра сигнала возбуждения и час­тотной характеристики речевого тракта (по свойству логарифмиче­ской функции логарифм произведения равен сумме логарифмов со-

91

преобразо­вание Фурье

множителей). Обратное дискретное преобразование Фурье пролога­рифмированного спектра позволяет вновь перейти к анализу сигна­ла во временной области. Сигнал, полученный в результате обрат­ного дискретного преобразования Фурье прологарифмированного спектра, называется кепстром входного сигнала, равного сумме кеп-стров сигналов возбуждения и составляющих, обусловленных осо­бенностями речеобразующего тракта. В результате подобных преоб­разований дискретный речевой сигнал, представляющий собой свертку сигнала возбуждения и импульсного отклика фильтра, мо­делирующего голосовой тракт, приближенно преобразуется в сло­жение кепстров (рис. 2.8).

Логарифм кратковременного спектра вокализованных звуков содержит медленно меняющуюся составляющую, обусловленную передаточными свойствами голосового тракта, и быстро меняющую­ся периодическую составляющую, которая вызывается периодиче­ским сигналом возбуждения (рис. 2.9, а). Для невокализованной речи прологарифмированный спектр носит характер, показанный на рис. 2.9. б. Спектр содержит случайную составляющую с быстрыми изменениями.

Кепстры отрезков вокализованной и невокализованной речи (рис. 2.10) показывают, что медленно меняющаяся часть пролога­рифмированных значений кратковременного спектра представлена составляющими кепстра в области малых времен. Быстро меняю­щаяся периодическая составляющая прологарифмированного спек­

92

р,.

тра, соответствующая частоте основного тона, в кепстре вокализо­ванной речи проявляется в виде резкого пика, расположенного от начала координат на расстоянии, равном периоду основного тона. Кепстр невокализованной речи (рис. 2.10, б) таких пиков не имеет.

Если кепстр перемножить на подходящую функцию окна, на­пример на прямоугольное окно, пропускающее только начальные участки кепстра (которые соответствуют области малых времен и отражают относительно медленно меняющиеся параметры голосо­вого тракта), а затем вычислить дискретное преобразование Фурье результирующего взвешанного кепстра, то получим сглаженный спектр сигнала (см. рис. 2.8). Он отражает резонансные свойства тракта, позволяя оценивать частоты и полосы формант. Наличие или отсутствие ярко выраженного пика в области, соответствующей диапазону изменений периода основного тона, указывает на харак­тер возбуждения, а местоположение пика является хорошим инди­катором периода основного тона (рис. 2.10,0^).

РЗ


nOCIPOFHHE СИСТЕМ ДИСКРЕТНОГО РАСПОЗНАВАНИЯ РЕЧИ, РАБОТАЮЩИХ БЕЗ ПОДСТРОЙКИ ПОД ДИКТОРА

§ 2.1. Общие проблемы автоматической подстройки неадаптивных систем распознавания речи

Ьеадаптивные системы дискретного распознавания речи, рас­сматриваемые в настоящей главе, позволяют произвольному диктору-ногитедю нормы произношения данного языка производить автоматичес­кий речевой ввод изолированными словами или короткими спиво-сочетанияуи. Такие системы являются, как правило, аппаратурно-ц рог равным и и основываются на выделении некоторых устойчивых фонетических признаков, проявляццихся у множества дикторов-носи­телей нормы данного языка для различных классов звуков,и на даль­нейшем использовании этих признаков (представленных гистограм­мами их распределения) для декодирования высказывания. Однако фактически и в этих системах осуществляется некая подстройка под множество дикторов (обучение) во время сбора статистики, построения гистограмм параметров для различных звуков и при вы­боре решающих правил. Поэтому, строго говоря, такие системы не следовало бы называть неадаптивными, т.е. термином, достаточно широко распространенным в настоящее время. Кроме того,автомати­ческое разбиение всего множества дикторов-пользователей на груп­пы (кластеры) и формирование обобщенных эталонов слов дяя каж­дой группы само по себе есть обучение на диктора, адаптация универсальной системы к этому множеству пользователей,что также заставляет быть осторожным в применении Термина-"неада^тивные", Если же говорить об использовании этого

Если Вам нужна помощь с академической работой (курсовая, контрольная, диплом, реферат и т.д.), обратитесь к нашим специалистам. Более 90000 специалистов готовы Вам помочь.
Бесплатные корректировки и доработки. Бесплатная оценка стоимости работы.

Поможем написать работу на аналогичную тему

Получить выполненную работу или консультацию специалиста по вашему учебному проекту
Нужна помощь в написании работы?
Мы - биржа профессиональных авторов (преподавателей и доцентов вузов). Пишем статьи РИНЦ, ВАК, Scopus. Помогаем в публикации. Правки вносим бесплатно.

Похожие рефераты: