Машины, которые говорят и слушают
56
представляющими коэ^ициент усиления G ,10 ко-^ициентов отражения К, . параметр озвонченности V/UV и длину D этого фрейма. В среднем для кодирования дифонов приходится около 7-6 фреймов. Общий объем памяти для запоминания 150 дифонов - около 15 кбайт.
Наиболее важным преимуществом дифонного синтеза, обеспечивающим довольно высокую естественность синтетической речи, является возможность отгэсительно легкой модификации просодических параметров. Просодический контур порождается правилами, которые используют знание фонетической природы дифонов и символы, вводимые модулями предварительной обработки.
В [I77J рассмотрен разработанный в США фирмой ВВЫ дифон" ный синтез для фонетического вокодера, работающего со скоростью 100 бит/с. С каждой финемой вокодер передает ее длительность и значение одного периода основного тона. Для синтеза необходимой фонемной цепочки использовался большой список дифонов. (Список дифонов отбирался таким образом, чтобы можно было различить предвокальные и пьствокзльные аллофоны сонорных согласных.) ду-фоны извлекались ис тщательно сконструированных бессмысленных коротких предложений и запоминались как последовательность LK3-параметров. Во время синтеза участки дифонов деформировались во времени, смыкались и сглаживались, формируя последовательную цепочку LPC- параметре в, которая использовалась при синтезе.
Дифон определялся как область от середины одной фонемы до середины следующей, что учитывает коартикучяционное влияние фонем, простирающееся, как правило, не более чем на половину следующей фонемы. Для получения высококачественной речи потребовалось около 2000 дифонов. В некоторых случаях были записаны необходимые Трифоны (дифоны в контексте). Общий объем памяти, используемый при синтезе, менее 50 килобайт.
В Японии разработан кепстральный синтез речи из параметров слогов "согласный - гласный", которых в японском языке около 100 Cl38j . Каждый слог анализируется и запоминается в виде кепстра, соответствующего истинной (сглаженной) логарифмической спектральной огибающей (a true log spectral envelope ).Система речевого синтеза превращает цепочки символов в кепстральные параметры с плавным и динамическим переходом от одного слога к следующему и порождает плавную картину изменения частоты основного тона. Основным узлом модели преобразования кепстральных параметров в акустическую волну является специальный фильтр, порождающий акустическую волну из кепстра в реальном времечи.Экспериментальное матобеспечение для реализации автоматического син-
59
теза речи, основанного на подусдогах, описано в [184] . Ддя синтеза произвольного текста на немецком языке используется около 1300 подуслогов, включающих часть гласного и примыкающие кусочки согласного. Описаны эксперименты, которые помогли выбрать правила соединения полуслогов. Синтез выполнялся с помощью LPO-вокодера, использовавшего parcor- коэффициенты. Отмечается,что в немецком языке используется 47 начальных и 153 конечных звукосочетания согласных с 16 типами гласных. Уменьшение словаря подуслогов было осуществлено за счет уменьшения числа гласных (до 10) и конечных звукосочетаний с согласными (до 53). Программа синтеза автоматически контролирует амплитуду и длительность полуслогов, формируя безударные слоги из эталонных ударных.
1.4.4. Просодика синтезированной речи. В [184] рассмотрено управление просодическими параметрами для форматного синтезатора, основанного на соединении дифонов и разработанного для немецкого языка. Синтезатор используется в системе речевого ответа sam', позволяющей формировать фразы, составленные из словарей большого объема. Используются параллельные форматные фильтры, которые возбуждаются независимо источниками тона или шума. Параметры управления фильтрами вырабатываются специальным блоком pcu , который является частью системы samt • Тексты, которые должны быть синтезированы, вводятся в pcu как звуковая последовательность; каждый звук кодируется восьмью битами. Дальнейшая обработка в рои базируется на дифонах, чтобы наилучшим образом учесть влияние коартикуляций. Для управления просодическими параметрами синтезируемой речи необходимо, чтобы звуковая последовательность включала коды управления просодией. (Эти коды должны влиять на частоту основного тона, длительность звуков и интенсивность.)
В [122] отмечается, что интонационная модель для немецкого языка уже разработана. В соответствии с этой моделью каждое предложение разделяется на две или более синтетические группы (фразы), такие, как фраза существительного (не всегда совпадающая с группой подлежащего), глагольная фраза и т.д. Изменение частоты основного тона первых г»-1 фраз завершается повышением тона (нарастающей каденцией ffC ), а завершающая предложение фразе - снижением частоты основного тона (финальная каденция FC ). Дня каждого слова фразы можно найти один ритмозадающий ударный слог, а для каждой фразы - одно слово, которое несет главное, смысловое ударение Ml . Позиция гласного в ударном слоге этого саова 1^,, , определяющем ударение, дает начальную точку двух различных типов частоты основного тона /д . Характер
60
affix Jfl к&чаственн0 определяется типом каденции ( /ус-тип или pC-isW) 1 количественно - другими факторами, такими, как длина г«всного или позиция главного ударения во фраае.
В доподнение к каденции, на изменение /^ влияют основное И вторичное ударения ( S и SS ). Во фразах слитной речи ударе-ijgg появляются тогда, когда необходимо выделить некоторые олова (дроиэнести их бояее выразительно) или когда в беглой речи о^вдиняютоя две последовательные фразы с нарастающей каденцией. Яде обоих типов ударений находится характер изменения основного тона ( S-vw f^ ) на участках, начальные точки которых определяются позицией гласных ударных слогов.
Естественная речь большинства дикторов характеризуется постепенным снижением частоты основного тона (примерно, на полтона lie) от начала к концу фразы. (При формировании синтетической речи это следует учитывать, так как речь с постоянной f, неприятна на слух, монотонна.) На этот основной тип /д нак-хддюаются НС-, FC- и Я-тилы основного тона. Нарастающая ка-данция характеризует возрастание f в конце гласного V^, , не-суцего основное ритмическое ударение ( the main ) • Для точной идентификации типа /д необходимо различать два случая)
а) V^i - последний звонкий звук фразы;
б) наличие других звонких между Ущ и концом фразы.
Исследования показали, что в обоих случаях частота основного тона нарастает по синусоидальному закону, но ъ одучае а) время нарастания 120 мо, а в случае б) - 190 мо.
Частота fy возрастает от двух до четырех полутонов. Поо-ае того, как f, достигнет верхней границы (по синусоиде), она продолжает медленно возрастать по линейному закону оо скоростью оолтона в I о. Абсолютные отклонения частоты Af естественной речи сильно меняются от диктора к диктору. Ддя синтетической рв«р| однако эти отклонения не должны быть слишком велики. Если -ажду главным ритмическим ударением и концом фрааы содержится ЧНогосложное слово, то часто (например, в одучае ударения на червой части длинного составного слова) возникает вторичная каден-4W SC в ритмическом ударении последнего олова или части слова э»ов фразы. Начало и- длительность вторичной каденции соответот-вуеэ этим параметрам главной каденции, но отклонение частоты Никогда не превышает полутона.
При объединении фраз, име'"'аих нарастающую каденцию, частота 7» яосле возрастания на конце первой фразы начинает оинусоидадь-"0 уменьшаться на границах между фразами. Сяад частоты начина-
1)Ййу«Моп80 мс ifiP начала второй фразы и имеет общую длительность, «-""ую 190 мс. Далее f продолжает уменьшаться ооТторосгыо пол-
'°на в I с. ^
В конечных фразах синтезируемого высказывания, где существует каденция типа FC, в начале фраз fg соответствует частоте основного тона, которая определяется предшествующей • нарастающей каденцией. Однако за 80 мс до начала гласного ^.определяющего главное ритмическое ударение, /д начинает синусоидально уменьшаться в течение 190 мс до величины, равной двум полутонам по отношению к основному тону в начале предложения. Далее f продолжает уменьшаться со скоростью полтона в I с, пока не закончится предложение.
Изменение основного тона на ударных слогах зависит от того, какой гласный содержит ударный слог: короткий или длинный. В обоих случаях 5-тип основного тона состоит из нарастающего и падающего участков. Это нарастание начинается за 80 мс до начала гласного и продолжается для коротких слогов 160 мс,для длинных - 240 мс. Такое же время продолжается и синусоидальный спад для слогов первого и второго типа. В зависимости от силы ударения подъем частоты основного тона лежит в пределах от двух до пяти полутонов, а спад - от полутона до двух полутонов.
Исследования по управлению просодическими параметрами описаны в [122] . В [2, 103, 104, 163] приводятся исследования различных синтаксических структур и их влияние на микро- и макровариации частоты основного тона в английской речи.Результатом исследований был алгоритм, определяющий динамику основного тона синтезированной английской речи. Алгоритм рассматривается как последовательность двух уровней единой системы, формирующей контур основного тона. На первом (высшем) уровне учитывается влияние синтаксической и семантической информации, на втором (низшем) -информации о фонемной цепочке и лексическом ударении (рис.1.3).
оинтаксическая | Система верхнего уровня | Просодические | Система нижнего уровня | УР в- | |
информация Семантическая | |||||
индикаторы | |||||
информация | Фонетическая | J • |
• Конт осно ного |
||
информация Информация |
Рис. 1.3. Структура алгоритма, определяющего динамику основного тона синтезированной речи
62
рассмотрим далее алгоритм, реализующий формирование контура основного тона для высказывания, в общем случав содержащего несколько предложений, каждое из которых разбивается на фразы, состоящие из нескольких слов. Для формирования контура основного тона на вход системы высшего уровня поступает информация о типе высказывания, границах и типах предложений, границах и типах фраз, а также о том, какой частью речи является каждое сдово. Слова упорядочены по степени важности, причем к словам, не входящим в список важных, относятся артикли, союзы, относительные местоимения, предлоги, вспомогательные глаголы и личные 1|еетоимения. Для каждого высказывания формализована его синтаксическая структура, т.е. для ввода производится идентификация синтаксических единиц: выделяются независимые или зависимые пред-яожения, внутри которых локализуются и маркируются фразы существительного, фразы глагола, предложные фразы, фразы, связанные с прияагательным или употребляющиеся в качестве прилагательных, фразы, соответствующие наречиям. В системы вводится также информация о специальных фразах и пунктуации, определяющая тип мамровариаций основного тона:
а) обычные вопросительные и звательные фразы, характеризующиеся повышением частоты основного тона;
б) знаки цитирования и восклицания, усиливающие изменения частоты основного тона внутри своих областей;
в) "ответвления" фраз (куски высказываний со скобками или тире), уменьшающие динамику основного тона;
г) знак вопроса в конце предложения, дающий тон типа В для каждого независимого предложения, не содержащего вопросительного слова; остальные предложения, дающие тон типа А.
Влияние семантики на контур основного тона учитывается ак-центацией слов, их ранжированием по степени важности, а также временной близостью одинаковых слов. Каждое существительное, глагол или прилагательное высказывания запоминаются в буферной магазинной памяти, способной хранить до 50 слов. Новые слова сравниваются с содержимым буфера. Для каждого сравнения характер изменения /д коррелируется с тем, на каком месте буфера находится слово, с который сравнивается вновь поступившее. Чем ближе находится слово, аналогичное входному, тем более высокая степень редукции /д .
Типы тона А и В характеризуются следующим: тон типа А вызывает снижение /д на всем предложении, а также резкое падение его на последнем важном (значащем) слове и после этого.
63
Тип В означает относитеяьно пологую /д с резким подъемом в конце предложения. Эти типы тонов характеризуют глобальный уровень иерархии в рассматриваемой системе.
Предложения, не являющиеся конечными (т.е. уже не связанные с типом тона), характеризуются подъемом fy на первом значащем слове и его падением на последнем значащем слове (падении меньшем, чем при тоне типа А), после чего начинается новый последовательный подъем. Размах "понижение - нарастание" частоты основного тона fy зависит от идентичности предыдущему следующего предложения: если за предвдущим следует независимое предложение, то изменение основного тона на стыке больше, чем в случае, когда второе предложение является зависимым. Более того, если в высказывании остается единственное зависимое предложение, то подъем основного тона после завершения независимого пред. ложения пропадает вообще. Весь участок "падение - подъем" основного тона может не выявиться, если границы независимого предложения включают начало ограниченного вводного предложения (в зависимости от числа слов, предшествующих границе: чем меньше слов, тем меньше Провал "падение - подъем fg ").
Внутри каждого предяожения в дополнение к изменению на границах предложений происходят изменения /д и на границах фраз в зависимости от числа "важных" слов в каждом предложении. Каждая фраэа с двумя и болев такими словами выделяется таким образом, что ее начало совпадает с нарастанием частоты основного тона, а завершение - со снижением и последующим подъемом. Изменение частоты основного тона на границах фраз зависят от числа "важных" слов фразы, т.е. фразам с большим числом таких слов соответствует больший "провал" частоты основного тона; увеличивают этот провал также границы, помеченные знаками пунктуации. Внутри фраз начальный подъем fy продолжается на первом важном слове, а падение заканчивается на последнем важном слове этой фразы с неким подъемом к концу фразы. Все остальные важные слова "получают" подъем и снижение /д примерно одинаковой величины.
Ранее уже отмечалось, что каждому слову синтезируемого высказывания приписывается некое значение акцента в соответствии с его рангом по порядку важности. Контур изменения f. (подъем и падение) тем резче, чем важнее слово. Акцентирование слова снижается, если оно обнаруживается в магазинном запоминающем устройстве, т.е. оно уже недавно произнесено.
Система верхнего уровня снабжает каждое слово входного высказывания просодическими индикаторами (рис. 1.3), обеспечивающими получение просодического контура на нижнем уровне анализа.К таким
64
индикаторам относятся связанные с каждым словом числа, определяющие а) акцент, б) границу, указывающую позицию слова внутри йразы / предложения (положительное число определяет позицию относительно начала фразы, отрицательное - относительно конца; при этом большие числа соответствуют словам на границах, отмеченных знаком препинания, и на границах между большими и / иди важ-щдаи фразами); в) продолжительный подъем fg , т.е. число, показывающее величину подъема на границе слова, что отражает важность синтаксической границы, предшествующей этому слову; г) тип тона (А, В или нулевой^, показывающий, относится данное слово и конечному участку фразы с нарастанием или падением fg или не относится (при типе А падение Уд идет до более низкого уровня, чем в других случаях, а при типе В подъем fg продолжает расти после лексически ударного слога, что не характерно для других случаев).
Наряду с просодическими индикаторами каждого слова, система верхнего уровня вводит в систему низшего уровня число слогов, место лексически ударного слога, фонемную структуру, которая для каждого слога дополнительно указывает, начинается ли он или заканчивается взрывным звуком и не является ли этот взрывной глухим.
Рассмотрим далее работу системы нижнего уровня, формирующей контур основного тона. Алгоритм устанавливает на лексически ударных слогах каждого важного слова сначала пиковые уровни /д, после чего вокруг каждого пика строятся акцентированные подъемы и падения частоты основного тона. Затем добавляются участки общего контура, соответствующие участкам постепенного нарастания и конечным типам тона. Наконец, заполняются по соответствующим правилам и остальные участки; контур основного тона высказывания сформулирован.
Пики основного тона устанавливаются пропорционально величине акцента для каждого важного слова, однако по отношению к начальным словам высказывания пики имеют некую тенденцию к уменьшению. К ним добавляется наклонная линия, такая, что для слов равного .акцента каждое последующее значение частоты /„ на пике •^УДет уменьшаться пропорционально наклону этой кривой. Величина этого наклона для предложений, заканчивающихся тыом тона В, более полога по сравнению с другими предложениями. Каждое пред-^«ение получает свою линию наклона в зависимости от того,в ка-^ом месте общего высказывания находится предложение (и, естествен-н0» в зависимости от пда тона, которым заканчивается предложение) . Пики каждого предложения уменьшаются от начала к концу
Зак.480 65
всего высказывания, но при этом соблюдается тенденция.что начальный пик каждого предложения более высокий, чем последний пик частоты основного тона предыдущего предложения, но более низкий чем первый пик этого предыдущего предложения. Такие линии нак-жона являются в какой-то степени опорными при формировании контура, так что более длинные предложения начинаются с более высоких пиков fg .
Каждый лексически ударный слог значимого слова приобретает контур /о , характеризующийся подъемом и спадом» отношения меж. ду которыми определяются числами, характеризующими границы. Большие положительные числа ведут к значительному подъему, а большие отрицательные - к значительному спаду. Величины подъемов и спа-доа пропорциональны акценту, но зависят также и от числа соседних неакцентированных слогов. Большое временное разделение между акцентированными слогами ведет к большему отношению на этом участке, характеризующему провал.
Информация о продолжительных подъемах / кодируется в числе, стоящем после последнего слога каждого слова; это число характеризует и высоту подъема, и его длительность.Формирование контура /д на неакцентированных участках высказывания основано на том, что в высказываниях частота /д имеет тенденцию к понижению. Учет фонемической структуры слогов приводит к тому, что на участках высказываний, соответствующих глухим взрывным, контур основного тона отсутствует, а акцентированные слоги с начальными взрывными имеют более высокие пики f , чем слоги, начинающиеся со звонких. Изменение длительностей звуков синтетической речи рассмотрено ранее в п. 1.4.2. Не представляет особых проблем формирование контура интенсивности, в какой-то степени коррелированного с контуром основного тона; имеются известные соотношения между средней интенсивности ударных и безударных гласных, сонорных согласных,фрикативных и смычных согласных (включающих участки смычек), что позволяет автоматически формировать контур интенсивности по фонетической цепочке.
1.4.5. Алгоритмическое и программное обеспечение синтеза речи. Создание алгоритмического и программного обеспечения синтеза речи рассматривается в ряде публикаций. Разрабатываются его циализированные языки для перевода графем в фонемы CI26] , 8 также системы программных модулей, обеспечивающих автоматический анализ текста и синтеза речи [103, 133] . Системный подход к созданию программного обеспечения синтеза речи становится все более определяющим.
66
В CI26] рассматривается разработанный в0 Франции специализированный язык программирования ТОР, предназначенный для перевода гоафем французского текста в соответствующие фонемы. Язык ТОР ( Transcription Orthographlque Phonetique ) - это язык правил описания, применение которых зависит от контекста. Программы, написанные на языке ТОР, содержат три части:
1) описание используемых кодов;
2) описанир классов (необязательное);
3) правила.
Система правил основана на частичном упорядоченном множестве фонологических правил французского языка. Левая часть каждого правила указывает на графему, которую необходимо перекодировать в фонему (указанную в правой части) при условии, что известен буквенный контекст, в котором находится перекодируемая графема.
В С.ЮЗ] описана модульная система речевого ответа, представляющая собой большое количество программных модулей (по одному ^ля каждой структурной области), связанных между собой множеством информационных структур. Каждая структурная область (т.е. морфология, синтаксис, семантика, фонология) делает свой вклад в общую систему, но взаимоотношения этих областей с лингвистической структурой высказывания не всегда однозначны из-за индивидуальных акустических особенностей синтезируемой волны. Различные структурные области должны 1ыть представлены так, чтобы можно было обеспечить их оптимальное взаимодействие. Лишь таким образом можно установить сложные отношения между поверхностной речевой волной и лежащей в ее основе абстрактной лингвистической структурой, которая должна быть смоделирована глубоко и всесторонне .
При создании модульной системы предусматривалось:
а) получить такую полную модель в алгоритмической форме, чтобы процесс был представлен с исчерпывающей полнотой;
б) обеспечить работу системы для моделей переменной сложности, например, чтобы система работала с фиксированным словарем иди без учета просодических параметров;
в) обеспечить развитие и достаточную гибкость системы,чтобы изменения, которые должны быть внесены в один структурный Уровень, не требовали изменения других уровней;
г) реализовать эффективную работу отдельных частей алгоритма» ориентируясь на специфику применения систем речевого ' ответа;
^и этом доляно учитываться использование специального оборудования, обеспечивающего минимальные габариты системы,время формирования фразы, мощность и стоимость системы. 67
Модульное матобеспечение, реализующее эти требования, произ-водит анализ текста и синтез речи. На стадии анализа создается некая абстрактная лингвистическая структура, общая как для вход-ного текста, так и для речевого вывода. Основными программными модулями при создании такой структуры являются:
1. Модуль "Формат", обеспечивающий предварительную обработку входного текста в форм;', удобную для морфологического анализа и порождения соответствующей фонемной цепочки.
2. Модуль "Декомпозиция1', осуществляющий морфологический ана-диз и находящий каждое слово в лексиконе морфем, представляет последовательность морфем, составляющих входной текст, кодами, учитывающими их особенности произнесения (в сочетании с другими морфемами) и грамматические функции.
3. Модуль "Парсер" (грамматический разбор) работает с цепочкой морфем и определяет, к какой части речи принадлежит каждое слово; этот модуль строит грамматические сети и формирует фразы, объединяя слова в словосочетания, на которые далее будет накладываться соответствующий интонационный контур; основная роль этого модуля - разрешать фонемные неопределенности (что-то убрать, что-то добавить) и производить лингвистические описания, необходимые для временных процедур, и процедуры наложения контура основного тона.
4. Модуль "Звук-1", в котором морфофонетические правила (множественного числа, прошедшего времени, палаталлэации) применяются к словам, анализировавшимся модулем "Декомпозиция"; эти правила очищают фонетическую цепочку и позволяют объединять два иди более смежных корня в составное слово , а также