Xreferat.com » Рефераты по кибернетике » Машины, которые говорят и слушают

Машины, которые говорят и слушают

дифона, описывается 13 байтами;

56

представляющими коэ^ициент усиления G ,10 ко-^ициентов отраже­ния К, . параметр озвонченности V/UV и длину D этого фрейма. В среднем для кодирования дифонов приходится около 7-6 фреймов. Общий объем памяти для запоминания 150 дифонов - около 15 кбайт.

Наиболее важным преимуществом дифонного синтеза, обеспечи­вающим довольно высокую естественность синтетической речи, явля­ется возможность отгэсительно легкой модификации просодических параметров. Просодический контур порождается правилами, которые используют знание фонетической природы дифонов и символы, вводи­мые модулями предварительной обработки.

В [I77J рассмотрен разработанный в США фирмой ВВЫ дифон" ный синтез для фонетического вокодера, работающего со скоростью 100 бит/с. С каждой финемой вокодер передает ее длительность и значение одного периода основного тона. Для синтеза необходи­мой фонемной цепочки использовался большой список дифонов. (Спи­сок дифонов отбирался таким образом, чтобы можно было различить предвокальные и пьствокзльные аллофоны сонорных согласных.) ду-фоны извлекались ис тщательно сконструированных бессмысленных коротких предложений и запоминались как последовательность LK3-параметров. Во время синтеза участки дифонов деформировались во времени, смыкались и сглаживались, формируя последовательную це­почку LPC- параметре в, которая использовалась при синтезе.

Дифон определялся как область от середины одной фонемы до середины следующей, что учитывает коартикучяционное влия­ние фонем, простирающееся, как правило, не более чем на поло­вину следующей фонемы. Для получения высококачественной речи потребовалось около 2000 дифонов. В некоторых случаях были за­писаны необходимые Трифоны (дифоны в контексте). Общий объем памяти, используемый при синтезе, менее 50 килобайт.

В Японии разработан кепстральный синтез речи из параметров слогов "согласный - гласный", которых в японском языке около 100 Cl38j . Каждый слог анализируется и запоминается в виде кепстра, соответствующего истинной (сглаженной) логарифмической спектральной огибающей (a true log spectral envelope ).Система речевого синтеза превращает цепочки символов в кепстральные пара­метры с плавным и динамическим переходом от одного слога к сле­дующему и порождает плавную картину изменения частоты основного тона. Основным узлом модели преобразования кепстральных парамет­ров в акустическую волну является специальный фильтр, порож­дающий акустическую волну из кепстра в реальном времечи.Экспе­риментальное матобеспечение для реализации автоматического син-

59

теза речи, основанного на подусдогах, описано в [184] . Ддя син­теза произвольного текста на немецком языке используется около 1300 подуслогов, включающих часть гласного и примыкающие ку­сочки согласного. Описаны эксперименты, которые помогли выбрать правила соединения полуслогов. Синтез выполнялся с помощью LPO-вокодера, использовавшего parcor- коэффициенты. Отмечается,что в немецком языке используется 47 начальных и 153 конечных звуко­сочетания согласных с 16 типами гласных. Уменьшение словаря по­дуслогов было осуществлено за счет уменьшения числа гласных (до 10) и конечных звукосочетаний с согласными (до 53). Прог­рамма синтеза автоматически контролирует амплитуду и длитель­ность полуслогов, формируя безударные слоги из эталонных ударных.

1.4.4. Просодика синтезированной речи. В [184] рассмот­рено управление просодическими параметрами для форматного синте­затора, основанного на соединении дифонов и разработанного для немецкого языка. Синтезатор используется в системе речевого от­вета sam', позволяющей формировать фразы, составленные из сло­варей большого объема. Используются параллельные форматные фильт­ры, которые возбуждаются независимо источниками тона или шума. Параметры управления фильтрами вырабатываются специальным блоком pcu , который является частью системы samt • Тексты, которые должны быть синтезированы, вводятся в pcu как звуковая после­довательность; каждый звук кодируется восьмью битами. Дальнейшая обработка в рои базируется на дифонах, чтобы наилучшим образом учесть влияние коартикуляций. Для управления просодическими пара­метрами синтезируемой речи необходимо, чтобы звуковая последова­тельность включала коды управления просодией. (Эти коды должны влиять на частоту основного тона, длительность звуков и интен­сивность.)

В [122] отмечается, что интонационная модель для немецко­го языка уже разработана. В соответствии с этой моделью каждое предложение разделяется на две или более синтетические группы (фразы), такие, как фраза существительного (не всегда совпадаю­щая с группой подлежащего), глагольная фраза и т.д. Изменение частоты основного тона первых г»-1 фраз завершается повыше­нием тона (нарастающей каденцией ffC ), а завершающая предложе­ние фразе - снижением частоты основного тона (финальная каден­ция FC ). Дня каждого слова фразы можно найти один ритмозадающий ударный слог, а для каждой фразы - одно слово, которое несет главное, смысловое ударение Ml . Позиция гласного в ударном слоге этого саова 1^,, , определяющем ударение, дает начальную точку двух различных типов частоты основного тона /д . Характер

60

affix Jfl к&чаственн0 определяется типом каденции ( /ус-тип или pC-isW) 1 количественно - другими факторами, такими, как длина г«всного или позиция главного ударения во фраае.

В доподнение к каденции, на изменение /^ влияют основное И вторичное ударения ( S и SS ). Во фразах слитной речи ударе-ijgg появляются тогда, когда необходимо выделить некоторые олова (дроиэнести их бояее выразительно) или когда в беглой речи о^вдиняютоя две последовательные фразы с нарастающей каденцией. Яде обоих типов ударений находится характер изменения основ­ного тона ( S-vw f^ ) на участках, начальные точки кото­рых определяются позицией гласных ударных слогов.

Естественная речь большинства дикторов характеризуется пос­тепенным снижением частоты основного тона (примерно, на полтона lie) от начала к концу фразы. (При формировании синтети­ческой речи это следует учитывать, так как речь с постоянной f, неприятна на слух, монотонна.) На этот основной тип нак-хддюаются НС-, FC- и Я-тилы основного тона. Нарастающая ка-данция характеризует возрастание f в конце гласного V^, , не-суцего основное ритмическое ударение ( the main ) • Для точной идентификации типа /д необходимо различать два случая)

а) V^i - последний звонкий звук фразы;

б) наличие других звонких между Ущ и концом фразы.

Исследования показали, что в обоих случаях частота основ­ного тона нарастает по синусоидальному закону, но ъ одучае а) время нарастания 120 мо, а в случае б) - 190 мо.

Частота fy возрастает от двух до четырех полутонов. Поо-ае того, как f, достигнет верхней границы (по синусоиде), она продолжает медленно возрастать по линейному закону оо скоростью оолтона в I о. Абсолютные отклонения частоты Af естественной речи сильно меняются от диктора к диктору. Ддя синтетической рв«р| однако эти отклонения не должны быть слишком велики. Если -ажду главным ритмическим ударением и концом фрааы содержится ЧНогосложное слово, то часто (например, в одучае ударения на червой части длинного составного слова) возникает вторичная каден-4W SC в ритмическом ударении последнего олова или части слова э»ов фразы. Начало и- длительность вторичной каденции соответот-вуеэ этим параметрам главной каденции, но отклонение частоты Никогда не превышает полутона.

При объединении фраз, име'"'аих нарастающую каденцию, частота 7» яосле возрастания на конце первой фразы начинает оинусоидадь-"0 уменьшаться на границах между фразами. Сяад частоты начина-

1)Ййу«Моп80 мс ifiP начала второй фразы и имеет общую длительность, «-""ую 190 мс. Далее f продолжает уменьшаться ооТторосгыо пол-

'°на в I с. ^

В конечных фразах синтезируемого высказывания, где сущест­вует каденция типа FC, в начале фраз fg соответствует частоте основного тона, которая определяется предшествующей • нарастающей каденцией. Однако за 80 мс до начала гласного ^.определяющего главное ритмическое ударение, /д начинает синусоидально умень­шаться в течение 190 мс до величины, равной двум полутонам по отношению к основному тону в начале предложения. Далее f про­должает уменьшаться со скоростью полтона в I с, пока не закон­чится предложение.

Изменение основного тона на ударных слогах зависит от то­го, какой гласный содержит ударный слог: короткий или длинный. В обоих случаях 5-тип основного тона состоит из нарастающего и падающего участков. Это нарастание начинается за 80 мс до на­чала гласного и продолжается для коротких слогов 160 мс,для длин­ных - 240 мс. Такое же время продолжается и синусоидальный спад для слогов первого и второго типа. В зависимости от силы ударе­ния подъем частоты основного тона лежит в пределах от двух до пя­ти полутонов, а спад - от полутона до двух полутонов.

Исследования по управлению просодическими параметрами опи­саны в [122] . В [2, 103, 104, 163] приводятся исследования различных синтаксических структур и их влияние на микро- и мак­ровариации частоты основного тона в английской речи.Результатом исследований был алгоритм, определяющий динамику основного тона синтезированной английской речи. Алгоритм рассматривается как пос­ледовательность двух уровней единой системы, формирующей контур основного тона. На первом (высшем) уровне учитывается влияние синтаксической и семантической информации, на втором (низшем) -информации о фонемной цепочке и лексическом ударении (рис.1.3).

оинтаксическая Система верхнего уровня Просодические Система нижнего уровня УР в-
информация Семантическая
индикаторы
информация
Фонетическая J •

Конт

осно ного

информация Информация

Рис. 1.3. Структура алгоритма, определяющего динамику основного тона синтезированной речи

62

рассмотрим далее алгоритм, реализующий формирование контура основного тона для высказывания, в общем случав содержащего нес­колько предложений, каждое из которых разбивается на фразы, со­стоящие из нескольких слов. Для формирования контура основ­ного тона на вход системы высшего уровня поступает информация о типе высказывания, границах и типах предложений, границах и типах фраз, а также о том, какой частью речи является каждое сдово. Слова упорядочены по степени важности, причем к словам, не входящим в список важных, относятся артикли, союзы, отно­сительные местоимения, предлоги, вспомогательные глаголы и личные 1|еетоимения. Для каждого высказывания формализована его синтак­сическая структура, т.е. для ввода производится идентификация синтаксических единиц: выделяются независимые или зависимые пред-яожения, внутри которых локализуются и маркируются фразы сущест­вительного, фразы глагола, предложные фразы, фразы, связанные с прияагательным или употребляющиеся в качестве прилагательных, фразы, соответствующие наречиям. В системы вводится также ин­формация о специальных фразах и пунктуации, определяющая тип мамровариаций основного тона:

а) обычные вопросительные и звательные фразы, характеризую­щиеся повышением частоты основного тона;

б) знаки цитирования и восклицания, усиливающие изменения частоты основного тона внутри своих областей;

в) "ответвления" фраз (куски высказываний со скобками или тире), уменьшающие динамику основного тона;

г) знак вопроса в конце предложения, дающий тон типа В для каждого независимого предложения, не содержащего вопроситель­ного слова; остальные предложения, дающие тон типа А.

Влияние семантики на контур основного тона учитывается ак-центацией слов, их ранжированием по степени важности, а также временной близостью одинаковых слов. Каждое существительное, гла­гол или прилагательное высказывания запоминаются в буферной ма­газинной памяти, способной хранить до 50 слов. Новые слова срав­ниваются с содержимым буфера. Для каждого сравнения характер изменения коррелируется с тем, на каком месте буфера на­ходится слово, с который сравнивается вновь поступившее. Чем ближе находится слово, аналогичное входному, тем более высокая степень редукции /д .

Типы тона А и В характеризуются следующим: тон типа А вы­зывает снижение /д на всем предложении, а также резкое паде­ние его на последнем важном (значащем) слове и после этого.

63

Тип В означает относитеяьно пологую /д с резким подъемом в конце предложения. Эти типы тонов характеризуют глобальный уро­вень иерархии в рассматриваемой системе.

Предложения, не являющиеся конечными (т.е. уже не связан­ные с типом тона), характеризуются подъемом fy на первом зна­чащем слове и его падением на последнем значащем слове (падении меньшем, чем при тоне типа А), после чего начинается новый пос­ледовательный подъем. Размах "понижение - нарастание" частоты ос­новного тона fy зависит от идентичности предыдущему следую­щего предложения: если за предвдущим следует независимое пред­ложение, то изменение основного тона на стыке больше, чем в слу­чае, когда второе предложение является зависимым. Более того, если в высказывании остается единственное зависимое предложе­ние, то подъем основного тона после завершения независимого пред. ложения пропадает вообще. Весь участок "падение - подъем" основ­ного тона может не выявиться, если границы независимого предло­жения включают начало ограниченного вводного предложения (в зави­симости от числа слов, предшествующих границе: чем меньше слов, тем меньше Провал "падение - подъем fg ").

Внутри каждого предяожения в дополнение к изменению на гра­ницах предложений происходят изменения /д и на границах фраз в зависимости от числа "важных" слов в каждом предложении. Каждая фраэа с двумя и болев такими словами выделяется таким образом, что ее начало совпадает с нарастанием частоты основного тона, а завершение - со снижением и последующим подъемом. Изменение ча­стоты основного тона на границах фраз зависят от числа "важ­ных" слов фразы, т.е. фразам с большим числом таких слов соот­ветствует больший "провал" частоты основного тона; увеличивают этот провал также границы, помеченные знаками пунктуации. Внутри фраз начальный подъем fy продолжается на первом важном слове, а падение заканчивается на последнем важном слове этой фразы с неким подъемом к концу фразы. Все остальные важные слова "полу­чают" подъем и снижение /д примерно одинаковой величины.

Ранее уже отмечалось, что каждому слову синтезируемого вы­сказывания приписывается некое значение акцента в соответствии с его рангом по порядку важности. Контур изменения f. (подъем и падение) тем резче, чем важнее слово. Акцентирование слова сни­жается, если оно обнаруживается в магазинном запоминающем уст­ройстве, т.е. оно уже недавно произнесено.

Система верхнего уровня снабжает каждое слово входного выс­казывания просодическими индикаторами (рис. 1.3), обеспечивающими получение просодического контура на нижнем уровне анализа.К таким

64

индикаторам относятся связанные с каждым словом числа, опре­деляющие а) акцент, б) границу, указывающую позицию слова внутри йразы / предложения (положительное число определяет позицию отно­сительно начала фразы, отрицательное - относительно конца; при этом большие числа соответствуют словам на границах, отмеченных знаком препинания, и на границах между большими и / иди важ-щдаи фразами); в) продолжительный подъем fg , т.е. число, пока­зывающее величину подъема на границе слова, что отражает важ­ность синтаксической границы, предшествующей этому слову; г) тип тона (А, В или нулевой^, показывающий, относится данное слово и конечному участку фразы с нарастанием или падением fg или не относится (при типе А падение Уд идет до более низкого уровня, чем в других случаях, а при типе В подъем fg продолжает расти после лексически ударного слога, что не характерно для других случаев).

Наряду с просодическими индикаторами каждого слова, система верхнего уровня вводит в систему низшего уровня число слогов, место лексически ударного слога, фонемную структуру, которая для каждого слога дополнительно указывает, начинается ли он или за­канчивается взрывным звуком и не является ли этот взрывной глу­хим.

Рассмотрим далее работу системы нижнего уровня, формирующей контур основного тона. Алгоритм устанавливает на лексически удар­ных слогах каждого важного слова сначала пиковые уровни /д, после чего вокруг каждого пика строятся акцентированные подъемы и па­дения частоты основного тона. Затем добавляются участки общего контура, соответствующие участкам постепенного нарастания и конеч­ным типам тона. Наконец, заполняются по соответствующим прави­лам и остальные участки; контур основного тона высказывания сформулирован.

Пики основного тона устанавливаются пропорционально величине акцента для каждого важного слова, однако по отношению к на­чальным словам высказывания пики имеют некую тенденцию к умень­шению. К ним добавляется наклонная линия, такая, что для слов равного .акцента каждое последующее значение частоты /„ на пике •^УДет уменьшаться пропорционально наклону этой кривой. Величина этого наклона для предложений, заканчивающихся тыом тона В, более полога по сравнению с другими предложениями. Каждое пред-^«ение получает свою линию наклона в зависимости от того,в ка-^ом месте общего высказывания находится предложение (и, естествен-н0» в зависимости от пда тона, которым заканчивается предло­жение) . Пики каждого предложения уменьшаются от начала к концу

Зак.480 65

всего высказывания, но при этом соблюдается тенденция.что на­чальный пик каждого предложения более высокий, чем последний пик частоты основного тона предыдущего предложения, но более низкий чем первый пик этого предыдущего предложения. Такие линии нак-жона являются в какой-то степени опорными при формировании кон­тура, так что более длинные предложения начинаются с более вы­соких пиков fg .

Каждый лексически ударный слог значимого слова приобретает контур /о , характеризующийся подъемом и спадом» отношения меж. ду которыми определяются числами, характеризующими границы. Боль­шие положительные числа ведут к значительному подъему, а большие отрицательные - к значительному спаду. Величины подъемов и спа-доа пропорциональны акценту, но зависят также и от числа со­седних неакцентированных слогов. Большое временное разделение меж­ду акцентированными слогами ведет к большему отношению на этом участке, характеризующему провал.

Информация о продолжительных подъемах / кодируется в чи­сле, стоящем после последнего слога каждого слова; это число характеризует и высоту подъема, и его длительность.Формирование контура /д на неакцентированных участках высказывания основано на том, что в высказываниях частота /д имеет тенденцию к по­нижению. Учет фонемической структуры слогов приводит к тому, что на участках высказываний, соответствующих глухим взрывным, контур основного тона отсутствует, а акцентированные слоги с начальными взрывными имеют более высокие пики f , чем слоги, начинающиеся со звонких. Изменение длительностей звуков синтетической речи рассмотрено ранее в п. 1.4.2. Не представляет особых проблем формирование контура интенсивности, в какой-то степени коррели­рованного с контуром основного тона; имеются известные соот­ношения между средней интенсивности ударных и безударных гласных, сонорных согласных,фрикативных и смычных согласных (включающих участки смычек), что позволяет автоматически формировать контур интенсивности по фонетической цепочке.

1.4.5. Алгоритмическое и программное обеспечение синтеза речи. Создание алгоритмического и программного обеспечения син­теза речи рассматривается в ряде публикаций. Разрабатываются его циализированные языки для перевода графем в фонемы CI26] , 8 также системы программных модулей, обеспечивающих автоматический анализ текста и синтеза речи [103, 133] . Системный подход к созданию программного обеспечения синтеза речи становится все бо­лее определяющим.

66

В CI26] рассматривается разработанный в0 Франции специализи­рованный язык программирования ТОР, предназначенный для перевода гоафем французского текста в соответствующие фонемы. Язык ТОР ( Transcription Orthographlque Phonetique ) - это язык правил опи­сания, применение которых зависит от контекста. Программы, напи­санные на языке ТОР, содержат три части:

1) описание используемых кодов;

2) описанир классов (необязательное);

3) правила.

Система правил основана на частичном упорядоченном мно­жестве фонологических правил французского языка. Левая часть каж­дого правила указывает на графему, которую необходимо перекоди­ровать в фонему (указанную в правой части) при условии, что известен буквенный контекст, в котором находится перекодируемая графема.

В С.ЮЗ] описана модульная система речевого ответа, представ­ляющая собой большое количество программных модулей (по одному ^ля каждой структурной области), связанных между собой множеством информационных структур. Каждая структурная область (т.е. морфо­логия, синтаксис, семантика, фонология) делает свой вклад в об­щую систему, но взаимоотношения этих областей с лингвистической структурой высказывания не всегда однозначны из-за индивидуаль­ных акустических особенностей синтезируемой волны. Различные структурные области должны 1ыть представлены так, чтобы можно было обеспечить их оптимальное взаимодействие. Лишь таким об­разом можно установить сложные отношения между поверхностной ре­чевой волной и лежащей в ее основе абстрактной лингвистичес­кой структурой, которая должна быть смоделирована глубоко и все­сторонне .

При создании модульной системы предусматривалось:

а) получить такую полную модель в алгоритмической форме, что­бы процесс был представлен с исчерпывающей полнотой;

б) обеспечить работу системы для моделей переменной слож­ности, например, чтобы система работала с фиксированным словарем иди без учета просодических параметров;

в) обеспечить развитие и достаточную гибкость системы,что­бы изменения, которые должны быть внесены в один структурный Уровень, не требовали изменения других уровней;

г) реализовать эффективную работу отдельных частей алгоритма» ориентируясь на специфику применения систем речевого ' ответа;

^и этом доляно учитываться использование специального обору­дования, обеспечивающего минимальные габариты системы,время фор­мирования фразы, мощность и стоимость системы. 67

Модульное матобеспечение, реализующее эти требования, произ-водит анализ текста и синтез речи. На стадии анализа создается некая абстрактная лингвистическая структура, общая как для вход-ного текста, так и для речевого вывода. Основными программными модулями при создании такой структуры являются:

1. Модуль "Формат", обеспечивающий предварительную обработ­ку входного текста в форм;', удобную для морфологического ана­лиза и порождения соответствующей фонемной цепочки.

2. Модуль "Декомпозиция1', осуществляющий морфологический ана-диз и находящий каждое слово в лексиконе морфем, представляет последовательность морфем, составляющих входной текст, кодами, учитывающими их особенности произнесения (в сочетании с дру­гими морфемами) и грамматические функции.

3. Модуль "Парсер" (грамматический разбор) работает с цепоч­кой морфем и определяет, к какой части речи принадлежит каждое слово; этот модуль строит грамматические сети и формирует фразы, объединяя слова в словосочетания, на которые далее будет нак­ладываться соответствующий интонационный контур; основная роль этого модуля - разрешать фонемные неопределенности (что-то убрать, что-то добавить) и производить лингвистические описания, необ­ходимые для временных процедур, и процедуры наложения контура основного тона.

4. Модуль "Звук-1", в котором морфофонетические правила (множественного числа, прошедшего времени, палаталлэации) приме­няются к словам, анализировавшимся модулем "Декомпозиция"; эти правила очищают фонетическую цепочку и позволяют объединять два иди более смежных корня в составное слово , а также

Если Вам нужна помощь с академической работой (курсовая, контрольная, диплом, реферат и т.д.), обратитесь к нашим специалистам. Более 90000 специалистов готовы Вам помочь.
Бесплатные корректировки и доработки. Бесплатная оценка стоимости работы.

Поможем написать работу на аналогичную тему

Получить выполненную работу или консультацию специалиста по вашему учебному проекту
Нужна помощь в написании работы?
Мы - биржа профессиональных авторов (преподавателей и доцентов вузов). Пишем статьи РИНЦ, ВАК, Scopus. Помогаем в публикации. Правки вносим бесплатно.

Похожие рефераты: