Xreferat.com » Рефераты по кибернетике » Машины, которые говорят и слушают

Машины, которые говорят и слушают

термина в смысле отсут­ствия адаптации к новому словарю и языку системы, го, действи­тельно, все известные невдаптивные системы [10, 16,25, 166, 167] практически не обеспечивав автоматическое изменение этих ос­новных характеристик. Попытка универсальной сегментации слов, яв-хякхцейся основой подстройки иод словарь, рассмотрена в [133 • Задача настоящей главы - исследовать более широкие аспекты проб­лемы перестройки к новым условиям не адаптивных систем, ориенти­рованных на работу с произвольным диктором. Под адаптацией бу­дем здесь понимать расширение, развитие неадаптивной системы ав­томатического распознавания фраз, составленных мэ изолирований

74

йдов, эа счет некоторого изменения языка этой системы и его сло­варного состава. Как правило, в конкретных задачах речевого уп­равления возникают Проблемы, связанные с обогащением языка, до­бавлением новых слов и понятий. В отдельных случаях требуется медиком заменить словарный состав языка, приспособить системы к совершенно новой задаче. При этом желательно сохранить основные структурные (синтаксические) свойства языка, связи между лингви­стическими уровнями, соотношения между понятиями внутри уровня, т.е. придать свойствам языка универсальный характер, формализовать язык речевого запроса таким образом, чтобы он напоминал язык опи-оанйя баз данных - сетевой, иерархической или реляционной.

Основными лингвистическими вопросами, возникгшцими при этом, явжявтся:

1) как оценить сложность языка речевого общения и попытаться, используя синонимию, свести трудности распознавания сдов, вызван­ные фонетическими неопределенностями, до минимума;

2) каким образом ограничить гибкость проблемно-ориентнрова!:-иого языка, не слыпком сдерживая желания и возможности человека общаться с информационной системой естественными фразами; какие задачи позволяют нам практически использовать относительно прос­той синтаксис языка;

3) как автоматически расширять словарный запас языка;

4) как при этом корректировать язык, на базе которого соз­дана неадаптивная система автоматического распознавания.

(Вопросы о расширении круга пользователей, включая пользо­вателей, говорящих с акцентом иди дефектом речи, а также проб­лемы поиска новых информативных признаков, использования телефон­ного канала опускаем, относя их к техническим вопросам,которые • работе не рассматривается.)

Некоторые из перечисленных лингвистических проблем возни­кают и для адаптивных систем, работающих с подстройкой под дик-Юра и словарь. 3 известных работах по аравтическому использо­ванию адаптивных систем [134,140] нет сведений об адаптации си­стем к новому изменяемому языку речевого общения (если не счи­тать замену словаря в системах типа vir-юо подстройкой под язык).

йервой мз проблем посвящен § 2.2, где выбор словаря обус-яовлен точностью распознавания слоя и связанной с ней вероят­ностной оценкой неопределенности распознавания При заданной сово­купности фонетические признаков. Оценка граю-атнческой сложности яэыка, используемого в неадаптивных системах распознавания ре-11^^ (языка, древовидной структуры без сложных внутренних связей)

76

(си. § 2.3), позволяет подойти к решению вышеуказанной проб­лемы 2). Задаче автоматического расширения словарного состава пос­вящена четвертая глава, тесно связанная с пятой главой, где опи­саны эксперименты по построению системы распознавания понятий­ных фраз конкретного языка описания данных информационной системы, для которого строилась модель. Кратко о проблеме 3 говорится в п. 2.3.3 , в котором рассматривается автоматическая подстройка "под язык", изменяющийся с изменением словарного состава.

Рассматривающиеся далее вопросы,на наш взгляд,имеют весьма важное значение как идеологическая основа будущих систем авто­матического речевого запроса информации, ориент грованных на произ­вольного пользователя. Если первые практические неадаптивные сис­темы распознавания речи (СРР) могут и отличаться от аппаратурно-программных, аналогичных нашей (скажем, основываться на мультимик-ропроцессорных системах, в которые речевой сигнал поступает с АЦП), то общие лингвистические проблемы, указанные здесь, неиз­менно будут возникать при любой структуре системы и любом под­ходе к первичному описанию сигнала. Не следует забывать, что неадаптивные системы автоматического распознавания являются основ­ными системами будущего - при общении-, с роботами и информацион­ными системами общего назначения. Вопросы, рассматриваемые далее, будут относиться к неадаптивным системам, ориентированным на пословный ввод речевой информации, а также на ввод информации короткими словосочетаниями, которые можно рассматривать как одно слово. Это связано с тем, что лишь на изолированных словах и коротких словосочетаниях параметры звуков (выцеляемые алпаратурно) являются относительно устойчивыми (обладают малой дисперсией), и можно говорить о возможном использовании характеристик, опреде­ляемых гистограммами параметров, для автоматического распознава­ния .

При распознавании изолированных слов представляется целесооб­разным разработать алгоритм, который обеспечивал бы устойчивое сег­ментирование поступающих на вход реализации слов на участки, соответствующие различи™ способам образования звуков, т.е. на то­нальные отрезки речи, шумные и участки, соответствующие гиухии смычковым (коротким паузам внутри слова). Звонкие фрикативные зву­ки можно было бы отнести к шумным. Существуют различные методы такой классификации в зависимости от первичного описания рече­вых сигналов. Для аппаратурно-программного метода достаточно вы­сокую точность классификации отрезков речи на участки "тон - иум ' Пауза" для произвольного диктора дают бинарные признаки способа образования звуков, выделяемые аппаратурно [97] .

76

Динамика участков "тон - шум - пауза" является хорошим приз­наком распознавания слов для небольших специально подобранных „доварей. Не представляет труда перейти к небольшому новому словарю, используя лишь признаки классификации отрезков речи на вти трч класса и динамику типов участков в слове. Вакно правиль­но выбрать фонетическую структуру слов этого словаря. В зависгзло-стИ от возможностей надежной классификации отрезков речи на эта­пе анализа сигнадоч (первичная сегментация и маркировка) mosko использовать большее число классов сегментов (классов фонетической структуры слова), динамика которых позволит надекно классифициро­вать большее число слов словаря. (В наших работах на начальной уровне анализа речи использовалось как семь типов сегментов (ей. Я, 2.2.2), так и три типа - тональный-шумный-сауза (см. § 5.5).)

В связи с этим Ж.Дрейфу о-Граф для распознавания словар­ного состава разработал специализированный язык речевого общения sotina , состоящий из бессмысленных слов, которым условно при­дается некое смысловое значение, и включал лишь "контрастные" в Пространстве используемых признаков звуки, поэтому легко различае­мые автоматически [127] . Словарный состав языка sotina включал бессмысленные слова, на базе которых предлагалось создать ис­кусственный язык для речевого общения человека и 5ВУ.

§ 2.2. Оценка сложности распознавания словаря речевого общения

2.2.1.Связь точности распознавания с особенностями фонетики слов.Сравнивать качество распознавания существующих СРР и СПР толь­ко по точности распознавания или объему словаря недостаточно по нескольким причинам. Во-первых,разные задачи, естественно, тре­буют различных языков общения,словарный состав которых включает слова, имеющие различные акустические (фонетические) характеристи­ки.Источники информации о таких высших уровнях знаний языка, как синтаксис, семантика, прагматика, накладывают различные ограниче­ния на возможные альтернативы, поэтому задача распознавания упро­щается для различных языков по-разному; даже для словаря с высо­кой степенью фонетической неопределенности можно получить (за счет семантико-синтаксических ограничений) высокую точность иитер-Чрета11ии высказывания. Во-вторых, СРР используют разнообразные ме­тоды первичной обработки и представления речевых сигналов на ниж-них уровнях. С этим связана различная точность фонетической клас­сификации , являющейся основой распознавания. Рассмотрим, как раз-

77

лишаются речевые сигналы на разных уровнях знания и как они используются при распознавании слов. Известно, что наибольшие оаибхи дают слова и фразы с близкой фонетической структурой, входящие в общий словарь распознавания. При этих условиях за­дача распознавания как изолированных слов, так и слитной речи усложняется, но синтаксис и другие высшие источники знаний о языке накладывают ограничения, которые сокращают неопределенности, тем самкл повкаая точность распознавания слов.

При выборе словаря СРР важно, как уже отмечалось, знать не только размер словаря, но и степень различимости слов. Для част­ных применений и малых словарей необходимо предварительно про­вести отбор и разумную замену слов, если позволяет задача, с целью увеличения различимости слов словаря. Поэтому целесообразно исследовать неопределенности, ограничения и сложности, встречае­мые при использовании различных языков практических СРР.

Дзя того, чтобы показать влияние фонетической структуры слов словаря на сложность распознавания, рассмотрим, в качестве при­мера. три словаря: I) "А", "Б", "В"; 2) "ОДИН", "ДВА","ТРИ"; 3) "А", "П", "Г".

Сравнивая словари I и 2, нетрудно заметить, какой словарь легче распознавать. В данном случае интуитивно можно утверждать, что словарь 2)легче распознавать из-за более сложной фонетичес­кой структуры слов, так как можно привлечь больше дополнительной информации о последовательности звуков, составляющих слова.Срав­нивая словари I) и 3)по сложности распознавания, трудно дать од­нозначный ответ, какой словарь легче распознавать объективными ме-тздами. Точность автоматической классификации слов словарями "А", "Б", "В" и "А", "П", "Г" сильно зависит от объективно реги­стрируемой степени акустического сходства элементов калиюто сло­варя, относящихся к различным классам, т.е. от методов первич­ной обработки и представления речевых сигналов, соответствующих этим словам, от порогов срабатывания устройств, преобразующих ана­логовый сигнал в цифровой, и правил принятия решения.

Существующие системы распознавания изолированных слов пока­зывают, что количество слов словаря (при одинаковой точности распознавания) не может быть, вообще говоря, мерой качества сис­темы распознавания. В [139] исследуются два словаря: алфавитно-цифровой, содержащий 26 букв и 10 цифр, и словарь географических названий, состоящий из 250 слов. В результате была получена точность распознавания первого словаря 88,6% и второго 97,356. Хотя объем второго словаря почти на порядок больше, точность рас­познавания слов, входящих в этот словарь, выше. Можно предполо­

жить, что это объясняется более сложной фонетической струк­турой слов второго словаря, которая и обеспечивает меньшие труд­ности при автоматическом распознавании.

В системах, работающих без подстройки под диктора, наиболее груднокдассифицируемыми звуками русской речи являются, как пока­зано в С4, 26, 62, 97] , носовые и боковые сонорные согласниэ, звонкие взрывные и безударные гласные. Кроме того, следует от­метить, что в опоеделенном фонетическим окружении даже звуки, относительно хорошо классифицируемые, в другом фонетическом контексте могут вызвать определенные трудности при автоматичес­ком распознавании из-за аллофонных изменений, связанных с коар-уикуляцией. Все это следует учитывать при оценке сложности рас­познавания словаря в "неадаптивных" системах автоматического рас­познавания речи. Отметим, что на точность распознавания речи влияют также синтаксические ограничения, так как синтаксис язы­ка определяет грамматические изменения словоформ и порядок сле­дования слов.

Далее рассмотрим некоторые подходы, позволяющие, по нашему мнению, осуществлять относительное сравнение сложности распозна­вания словарей, и введем определения, связанные с оценкой ка­чества автоматического распознавания слов проблемно-ориентирован­ного языка.

2.2.2. Информационный критерий оценки фонетической неопреде­ленности. При распознавании устной речи необходимо стремиться к тому, чтобы все фонемы классифицировались правильно, поэтому нас интересует распознавание полной последовательности фонетических единиц, составляющих высказывание. При этом основным источником неопределенности при распознавании речи является сам акустичес­кий сигнал. Еще большую неопределенность представляет параметри­ческое описание речевой волны. Рассмотрим неопределенности аку­стического сигнала и приведем меру оценки фонетической неопре­деленности. Используя эти мерь, можно оценить лексическую и фра­зеологическую неопределенности. Слитная речь расчленяется на пос­ледовательность сегментов по признакам способа образования зву­ков. К этим признакам добавляются признаки места образования,ко­торые изменяются непрерывно как внутри сегментов, так и через их Границы С 91,97]. С некоторыми дискретными единицами-звуками ре­чи - фонемами или квааифонемами сегменты связаны таким образом,что смысловые единицы речи (слова) представляются цепочкой фонем.

Большинство систем автоматического распознавания речи [79] преобразует речевой сигнал в такую фонемную цепочку, которая за­тем сравнивается с ожидаемыми в слове звуками. Процесс преоб-

79

разования речевого сигнала в последовательность фонем включает нахождение признаков, сегментацию и маркировку сегментов.

Опишем модель фонетической неопределенности, позволяющую оце­нивать результаты неправильного распознавания фонем. Далее будем использовать матрицу ошибок распознавания фонем и фонетическую структуру слов словаря при оценке лексической неопределенности.

Лексическая неопределенность будет иметь место тогда, когда слова неверно классифицируются из-за близости их фонетической структуры, т.е. последовательности параметров, определяющих эту структуру, на конкурирующих словах. Например, в словах "слезать" и "срезать" первичные параметры звуков, входящих в эти слова, сходны. Когда оба эти слова входят в один и тот же словарь,их точ­ная классификация затруднена, поэтому их можно считать лекси­чески неопределенными. В реальных системах, если позволяет зада­ча, следует подбирать слова,чтобы такой ситуации не возникло.При­ведем критерии сложности словаря для того, чтобы можно было оце­нить степень различимости словарей [63].

рассмотрим распознавание речи как процесс передачи речевой информации через канал с шумом и оценим информацию, теряющуюся в канале. Потерянная информация является мерой неопределенности или сложности распознавания фонем. В идеальном канале числи вход­ных идеальных, полученных после сегментации высказывания экспер­тами-фонетистами, и выходных фонетических единиц должно быть оди­наковым, а последовательность фонем на выходе должна соответ­ствовать входной последовательности. Если же это условие не соб­людается, в канале теряется информация, и в зависимости от вели-vwi потерь можно говорить о большей или меньшей неопределенно­сти классификации фонем. При практической оценке фонетической не­определенности в данной работе использовались система призна­ков [73] и алгоритм сегментации речи на семь типов сегментов:

V - гласный, Т - переходный, М - сонорный, L - низкоча­стотный, Н - высокочастотный, /? - шумный, П - пауза. Затем алгоритм маркировки ставил в соответствие каждому сегменту не­который фонетический символ, используя априорно полученные гисто­граммы параметров. От надежности маркировки сегментов во многом зависит точность работы GPP.

Так как СРР рассматривается здесь как канал передачи инфор­мации, предположим, что имеются г возможных входных символов алфавита А и s возможных выходов алфавита В . Таким об­разом, СРР описывается канальной матрицей. На рис. 2.1 приво­дится схема канала передачи информации и канальной матрицы.

60





а, "г

'и Рг,

Р„ • • Р„ ••

• • • P,s • • • Р„

*







'.




^

Рг, • •

• • Prs


рис. 2.1. Блок-схема канала передачи иниормации и канальной мат­рицы

Канал передачи информации, используемой для описания сис­темы распознавания речи, представленной цепочкой фонем, преобразу­ет незашумденную последовательность звуков в выходную последова­тельность "машинных " фонем, содержащую ошибки пропуска, вставки слияния и замены звуков.

Символами Ar'l{a•|.} и ^s={Ц'} обозначены соответ­ственно входной и выходной алфавиты фонем. Дхя простоты предпо­лагается, что канал представляет собой независимый дискретный канал без памяти. Если р {Ь. /а^) - вероятность символа Ь- на выходе канала при подаче символа а^ , то этот канал передачи информации можно описать матрицей условных вероятностей Р = = [^(6//o,)J . Очевидно, Ј p( &/•/i=f~r. На рис. 2.2 приводится пример матрицы условных вероятностей при распознавании изолированных звуков.

Пусть элемента входного фонетического алфавита {аЛ появля­ются на входе с некоторой априорной вероятностью р(а ),р(а ),-.. ••.,/?(а^), а элементы алфавита [Ь. на виходв - с вероятностью P(ti,), p(by),..., р(.Ьу) Как отмечено ранее, работу канала пере­дачи входного ад^евита {а^} кластеризует канальная ма'грипа,поэт<аду

(2.1)



Символ а о и

0,69 0.10 0.01


Апостериорная вероятность того, '•то, если в результате распознавания Получили фонеыу Ь, , то на вход пос­тупила фонема а^ , определяется по Формуле Байеса

Зак.480 у


0,15 0,75 0,10

0,01 0,10 0,89

Рис. 2.2. Ilptttcap мктрицы условных вероятностей рас­познавания изолированных звуков



(2.2)

Ииормацня 7(а^; Ь ), получаемая от канала, когда на его вход потупила фонема а.^ , а на выходе распозналась как 6, , опредедется [91]

. , p^Jbj)

l^ib^lo (2.3)

С]»дняя информация, получаемая на выходи канаха с потерями при жредаче (распознавании) входного алфавита фонем A:={a•^, которШ распознается как алфавит в = { ^ } , будет

UA,B)=^p(a„^)Ha^^)=

^^,6,)^^/^-а,в' L J у? р(а,)

=-ip(a„b-)lo^p(ai)^p(a^b,)io^p(a,/^)^

^,0 /1,0

=-ip(a,)log,p(a^lp(a,^toy^p(a,/ 6,);

л, в

I (А ,В) = Н W^P^, ^}to^f){a, /Ь,). (2.4)

л, в

С»метим, чтоН(Л)- энтропия, характеризующая степень неоп-редвдедости входного алфавита А-=-{а^] . Из (2.4) подучаем,что

H(A)-I(A,S)=-^p(a,,b..)iw,p(ai/b^=

Л, о

=-рР(^/Ь/)р(Ь,)1о^р(а,/6,)-

Д,В

=-^р(^-)^/?1'а,/^-)^/)(^./^.)= Н(А/В); (2.5)

Н(А^)- апостериорная ентропия входного алфавита фонем, которая 82

характеризует меру информации, теряемой в системе распознавания дрй передаче входного алфавита { я^} . Апостериорная внтропия и является мерой, оценивающей сложность входного словаря для авто­матического распознавания при фиксированном параметрическом описании.

При наличии значений энтропии входного алфавита фонем можно вычислить размер (объем), равный У'"', а значения 2 vw ха­рактеризуют среднее количество возможных альтернативных (конку­рентных) элементов алфавита {о I на входе СРР после того, как на выходе получили множество { 6 } , т.е. меру сложно­сти распознавания входного алфавита фонем. Назовем эту меру эквивалентным размером алфавита фонем. Значение у"^0' можно назвать энтропийным критерием оценки фонетической неопределенно­сти, который является обобщенной характеристикой сложности рас­познавания алфавита фонем < а^ данной системы распознавания. Если СРР работает без ошибок, условная энтропия Н(А/В)вО и эквивалентный размер алфавита фонем 2"("/°' = i. Естественно, что если Н(А/В)»0, то Z"^^!, а в случае, когда СРР не рас­познает Н(А/В)=Н(А), то эквивалентный размер алфавита фонем равен Z"^

Эквивалентный размер алфавита фонем дает возможность коли­чественно оценить среднее число возможных конкурентных фонем (имеющие близкие параметрические описания), и для его определе­ния необходимо знать апостериорные вероятности p(a^/b-) вхо­дного алфавита.

Для решения конкретных проблем автоматического распознава­ния ограниченных наборов слов взе многообразие фонем можно свести к двум-трем рабочим фонетическим единицам (например,к классам длительных шумных, звонких и смычных звуков), которые При использовании простой системы признаков к несложных алго­ритмов распознавания дают нулевую апостериорную энтропию. Однако ври решении задачи распознавания относительно сложных словарей и/иди требование надежной фонетической верификаций произнесенно­го слова такого количества рабочих фонем сказывается явно недо­статочно. Работать Же с полным набором фоней "ложно из-за оши­бок их автоматического распознавания. Поэтому к приходится идти на компромиссные решения - искать какой-то оптимуи при фонетичес­ком описании рабочих словоформ. Эти проблемы будут частично рас-емотрены в а. 2.2.3.

Условные вероятности распознавания фонем ^(6,/д.), опреде­ляющие эквивалентный размер фонетического алфавита, можно опре-• Делить несколькими методами.

83

Статистический мегод позволяет получать вероятности распоз­навания фонем, используя реальную СРР. ото осуществляется путем сравнения результата распознавания системы с точной ручной сег~ ментацией и маркировкой речевого сигнала (иди его параме-гричес-кого представления), поступающего на вход системы распознава­ния. В результате получается классическая матрица правильной и оаибочной классификации входного алфавита фонем.

Акустико-параметрический метод, когда матрица ошибок клас­сификации фонем получается путем прямого сравнения их парамет­рического описания. При этом эталон фонемы выбирается из мно­жества реализации данной фонемы. Расстояние между фонемами исполь­зуется для оценки условных вероятностей ошибочной классификации фонем. Точность этого метода зависит от выбранного эталона и объе­ма исследовательского материала.

Кроме этих методов, оценку вероятности ошибочной классифика­ции фонем можно произвести на основе моделирования речеобразующе-го тракта человека [73.

^.2.3. Оценка сложности распознавания слов по их фонетичес-кой структуре. Рассмотрим неадаптивную систему распознавания слов как канал передачи информации. Слова входного словаря V= ^Я.,У„,... ..., V.,..., v„} можно представить последовательностью фонетичес-

'• f Г Г /* 1

~ " /•> ' * о JiHftBa п^гуппылрп ^ЛП—

НИХ СИМВОЛОВ V

а^ , af , . . . , af , а слова выходного сло-11 г "- 1

варя канала W= {

'I 2 " ^ "1 ^,,^,.. . W -.^}

цепочками

_^.. „_..... квази­фонетических эталонов iff, -- i bj , bj , . . . , bj } , где Q^ e А , Ъ, f- В - соответственно входной и выходной алфавиты фонем канала; г= /, R ; s= /, 5 ; л= п(г) ; 1= l(s). Тогда оценку сложности распознавания слов, производимого сравнением входной реализации с цепочками квааифонетических эталонов, можно осу­ществить на основании анализа матрицы ошибок, подученной при представлении эталонов слов Wy ё. W поверхностными формами й^ f Wg , k^ f,Ky каждого выходного слова. Фактически сложность распознавания входного словаря V
Если Вам нужна помощь с академической работой (курсовая, контрольная, диплом, реферат и т.д.), обратитесь к нашим специалистам. Более 90000 специалистов готовы Вам помочь.
Бесплатные корректировки и доработки. Бесплатная оценка стоимости работы.

Поможем написать работу на аналогичную тему

Получить выполненную работу или консультацию специалиста по вашему учебному проекту
Нужна помощь в написании работы?
Мы - биржа профессиональных авторов (преподавателей и доцентов вузов). Пишем статьи РИНЦ, ВАК, Scopus. Помогаем в публикации. Правки вносим бесплатно.

Похожие рефераты: