Речевое общение. ния идентифицируются более точно, чем те же слова, предъявленные изолированно и в шуме
ния идентифицируются более точно, чем те же слова, предъявленные изолированно и в шуме. Более детально этот эффект исследован в работе [17J, где испытуемым предъявляли списки предложений трех типов: 1. Грамматические предложения. Пример — «Поезда перевозят пассажиров по стране». 2. Аномальные предложения. Пример — «В поездах незаметно перевозят слонов вблизи главного пути». 3. Грамматически не связанные последовательности слов. Пример — «На поездах нанимать слонов это упрощать». Списки предложений составлялись таким образом, чтобы в них одинаково часто встречались одни и те же слова, а сами последовательности слов различались бы. Грамматические предложения соответствовали грамматическим правилам и смыслу обычного английского языка, тогда как в аномальных предложениях сохранялись грамматические правила, но не Рис. 11.5. Зависимость доли правильно воспринятых предложений от их смысла [17]. смысл.^Как видно из рис. 11.5, точность восприятия была наивысшей для грамматических предложений, несколько меньшей для аномальных предложений н самой низкой для предложений, построенных без грамматических правил. Эксперименты показали, что для идентификации слов слушатели используют информацию более высокого уровня, чем уровень сегментов из фонем. Имеется целый ряд речевых феноменов, которые указывают на то, что для распознавания конкретных фонемных сегментов используется информация, заключенная в структуре предложения и в его смысле. В условиях шума или других искажений 576 Глава 11 ________________________ речевого сигнала слушатель сознательно заполняет то, что пропущено в сообщении, и «слышит» речь как нормальную. Уоррен [25] выполнил интересную работу, где продемонстрировал этот эффект в качестве иллюзии, известной под названием эффект восстановления фонем. Он предлагал испытуемым прослушивать обычные предложения, в которых короткие участки были заменены звуками кашля. Большинство испытуемых, которые прослушивали такие предложения, не замечали никаких звуковых пропусков. Те же, кто замечал, отбирал обычно не те слогн, которые были на самом деле заменены. Аналогичный эффект наблюдался н в том случае, когда вместо звуков кашля использовался некоторый звуковой тон. Даже тогда, когда испытуемые знали, каким образом произведена данная запись, они все еще продолжали слышать нормальное, полное предложение и добавленные к нему посторонние звуки. При этом очень трудно было определить, в каких местах предложения встретился добавленный звук. Данный феномен представляется нам весьма показательным, поскольку облнтерацня (стирание) отрезков обычной речи — распространенное явление в коммуникации, особенно в ситуациях с наличием шума. Мы автоматически заполняем нераспознанные отрезки. Прибавьте к таким искажениям неразборчивость и быстроту обычной речи, и станет ясно, что в процессе восприятия речи должны быть задействованы высшие уровни системы переработки информации. Иногда, когда мы слушаем неразборчивую речь, мы автоматически воспринимаем правильную речь, синтезируя правдоподобные замены (с точки зрения фонетики, синтаксиса и семантики). 11.3.4. Громкость речи Важная характеристика канала связи — отношение сигнал/шум. Этот параметр отложен на рис. 11.4 по горизонтальной осн. Громкость речи зависит от строения голосовых связок диктора и от того, сколько энергии он затрачивает на извлечение звука. В зависимости от затрат энергии диктора уровень громкости речи варьирует от 70 дБ (шепот) до ПО дБ (крик) (измерения проводятся по максимальному возникающему давлению). При заданном уровне затрат на генерацию звука диапазон громкости речи занимает приблизительно 40 дБ. Диапазоны громкости для разных звуков речи составляют до 30 дБ. Система, предназначенная для воспроизведения речи в максимально широком диапазоне (от минимального уровня, соответствующего тихому шепоту, до максимальных уровней громкости, соответствующих крнку), должна иметь динамический диапазон примерно 80 дБ. Однако при использовании специально Речевое общение обученных дикторов и слушателей можно с достаточной эффективностью использовать канал связи с динамическим диапазоном около 20 дБ н меньше. При обычных условиях, когда прослушивается общий фоновый шум, диктор автоматически с целью компенсации усиливает громкость своей речи. Однако по мере увеличения шума повышать громкость речи становится неэффективно [12J'. Очевидно, что если диктор работает в условиях шума, то его речь более разборчива, чем если бы она была записана в полной тишине, а затем был бы добавлен шум. Однако в некоторых экстремальных случаях, таких, как при крике, разборчивость речи падает и отмеченные преимущества пропадают. Поэтому для проверки какого-нибудь канала рекомендуется использовать предварительно записанный на магнитофон материал. Это позволит избежать сложного взаимодействия между характеристиками канала и особенностями воспроизведения речи диктором. 11.3.5. Бинауральное прослушивание Другой важной стороной использования речевого канала является то обстоятельство, поступает ли речевой сигнал (нли шум) в одно или в оба уха слушателя. При бинауральном поступлении звукового сигнала одного тона выигрыш в эффективности восприятия соответствует 15 дБ. Аналогичный выигрыш получается и при подаче речевых сигналов на два слуховых канала. Степень выигрыша зависит от способности слуховой системы разделять речевой и шумовой сигналы с помощью анализа различий по фазе и громкости звука на двух ушах. Такой анализ лежит также в основе «эффекта вечеринки», который проявляется в нашей способности избирательно воспринимать разные разговоры в шумной комнате, наполненной людьми. Эта способность связана с использованием обоих ушей для фиксирования направлений на различные звуковые источники. Если в столь сложных условиях закрыть одно ухо, то понимание речи ухудшится. Короче говоря, информацию, которая содержится в физических признаках звуковых сигналов и связана с желательным или нежелательным сигналом, мы способны использовать для того, чтобы игнорировать посторонние сигналы. Среди признаков в ситуации вечеринки есть положение диктора в пространстве. Однако чаще мы используем другие признаки, такие, например, как частотный диапазон речи диктора. Например, гораздо легче избирательно следить за женским голосом на фоне мужских голосов, чем прислушиваться к мужскому голосу на таком же фоне. Сигналы, которые по физическим параметрам сходны с желательным входным сигналом, явля- 578 Глава 11 ются наибольшей помехой для него, поскольку мы не можем осуществить фильтрацию, основанную на физических различиях желательного и постороннего сигналов. 11.3.6. Искажение речи Иногда канал связи некоторым образом искажает речевой сигнал. Мы можем пренебрегать различными типами искажений при восприятии речи, пока ее разборчивость не слишком сильно снижается. Определенные типы искажений являются более сильными помехами, чем другие. Некоторые типы искажений вносятся в речевой сигнал преднамеренно для того, чтобы сузить обычный диапазон частот речевого сообщения, нли же для того, чтобы более эффективно закодировать диапазон громкос-тей речи при передаче по радио. Еще один вид манипуляций с каналом связи — устранение некоторых сегментов речевого сигнала. Один из способов его реализации — включение и выключение с большой скоростью канала связи для речевого сигнала. В тот отрезок времени, когда канал недоступен для данного сигнала, по нему может передаваться другое речевое сообщение. Помимо искажения первоначальной структуры передаваемого речевого сигнала все эти методики отличаются тем, что включают устранение некоторой информации из речевого сигнала. В последнем разделе данной главы мы обсудим общие проблемы кодирования речевого сигнала, что необходимо для его эффективной передачи. Пиковое клиппироваиие. Один из способов изменения параметров громкости речевого сигнала — сжатие диапазона нн-тенсивностей, которые пропускает данный канал. Пиковое клиппироваиие заключается в отсечке пиковых значений сигнала (как положительных, так и отрицательных). Оставшаяся часть сигнала может быть усилена, так что новое максимальное значение станет равным прежнему. Эффект клиппирования речевого сигнала иллюстрируется на рис. 11.6. Допустим, что независимо от перепада интенсивностей в речи используемый вами микрофон передает только положительную или отрицательную фазу изменения напряжения. Этот случай является примером бесконечного «пикового клиппирования»; он представлен на рнс. 11.6 и соответствует клиппированию на уровне примерно 20 дБ. Если после пикового клиппирования снова усилить сигнал до прежней амплитуды, то результатом будет усиление мощности согласных звуков по сравнению с мощностью гласных. В этом случае увеличивается также средняя мощность речи, что делает ее более разборчивой, чем неклип-пированная речь, при использовании некоторых видов шумов. Речевое общение Рис. 11.6. Образцы речевого сигнала до и после пикового клиппиронаиия иа 6 и 20 дБ [14]. Сигналы в правой части рисунка подвергаются повторному усилению до тех пор, пока их амплитуда не станет равной амплитуде первоначального сигнала. Copyright 1948 by Karl M. Dallenbach. Фильтрация частотного спектра речи. Спектр обычной речи занимает частотный диапазон 100—8000 Гц. Вклад в разборчивость речи различных частот неодинаков. Чтобы определить важность различных участков спектра речи, можно пропустить речевой сигнал через полосовой фильтр, который пропускает частоты в определенной полосе и подавляет за ее пределами. Например, без особого вреда для разборчивости можно подавить все частоты выше 1700 Гц. Тот же эффект дает отсечка всех частот ниже 1700 Гц. Эти операции влияют на разные звуки речи: согласные гораздо сильнее искажаются при подавлении высоких частот, а гласные — при подавлении низких частот. Полученные результаты соотносятся с фактами воздействия на речь шума. При увеличении уровня шума гласные дольше остаются разборчивыми, поскольку в области гласных звуков сосредоточена большая часть энергии речи. Сели подавить частоты в диапазоне 3000 Гц с центральной частотой 1700 Гц, то разборчивость речи резко снизится. Если же при фильтрации пропустить только эти частоты, то разборчивость 580 Глава 11 почти не изменится. При использовании какой полосы частот все другие частоты существенно не влияют на разборчивость речи? Вполне удовлетворительные результаты передачи речи по каналу связи можно получить при использовании диапазона частот 800—2500 Гц. Если канал связи имеет более узкую полосу передаваемых частот, то им могут пользоваться дикторы и слушатели после длительного обучения, причем должен использоваться определенный (ограниченный) набор сообщений. Напомним, что при устранении «крайних» речевых частот может быть потеряна такая информация, которая характеризует пол, возраст и эмоциональное состояние диктора. Это может оказать заметное влияние на качество сообщений, передаваемых по данному каналу связи и воспринимаемых слушателем. 11.3.7. Артикуляционный индекс Поскольку некоторые частотные области более важны для разборчивости речи, чем остальные, можно ожидать, что определенные области частот будут более чувствительны к воздействию шума. Если бы удалось выявить эти области частот, то было бы возможным прогнозировать воздействие шума с определенным спектральным составом. Эта мысль лежит в основе понятия «артикуляционный индекс» (АИ) [4, 8]. Методика АИ позволяет прогнозировать влияние шума на речь путем рассмотрения отношений сигнал/шум в ряде частотных областей по всему спектру частот речи. Вначале определяется 20 частотных областей, каждая из которых по предположению дает одинаковый вклад в разборчивость речи. При идеальных условиях каждая область частот дает вклад в максимальное значение АИ (1,0), равный 0,05. При наличии шума некоторые из этих областей будут давать вклад, меньший чем 0,05 максимального значения АИ; это зависит от отношения сигнал/шум в данной области частот. Более простая процедура вычисления АИ иллюстрируется на рис. 11.7 и в табл. 11.4. Чем больше спектр речи диктора отличается от спектра шума, тем больше результирующий АИ. Значения АИ отложены на оси в верхней части рис. 11.4. Видно, как разборчивость речи зависит от АИ. На рис. 11.8 показано, как меняется АИ в соответствии со спектром шумов, характерным для конторского помещения с «открытой планировкой» [20]. Величина АИ, по-видимому, является хорошим показателем разборчивости речи в широком диапазоне разных видов шума и способов обработки речи [12], однако он не применим к системам, в которых производится значительная обработка сигна- Речевое общение Таблица 11.4. Вычисление артикуляционного индекса [1] (copyright 1969 by the American National Standards Institute) Процедура ANSI включает сравнение уровня шума и максимальных уровней речи в 15 областях частот шириной '4 октавы. 1. Построить график оцениваемого спектра речевого сигнала для области частот шириной '/» октавы, на рис. 11.7 показан идеализированный спектр речи диктора-мужчины. 2. Построить спектр шума для области частот шириной '/а октавы; пример спектра показан на том же рисунке. 3. Определить для каждой области частот различие в децибелах между максимальным уровнем речи и уровнем шума. (Если уровень шума больше, то считать эту разницу нулевой; если уровень сигнала превышает уровень шума более чем иа 30 дБ, то приписать этой разнице значение 30 дБ.) 4. Умножить число, равное разнице в децибелах, иа соответствующий весовой множитель, указанный в третьей колонке; полученное число записать в четвертую колонку. 5. Просуммировать величины, попавшие в четвертую колонку; в результате получится АИ. (Ограничение 30 дБ вызвано предположением, что в каждой области частот речевой сигнал имеет динамический диапазон 30 дБ. Процедура такого вычисления АИ фактически включает оценку той доли 30 дБ, которую в каждой частотной области представляет шум.)
ла с целью сжатия полосы частот, занимаемой речью. Для указанных систем следует непосредственно оценивать разборчивость речи. Для большинства практических задач величина АИ меньше 0,3 обычно считается неудовлетворительной. Величина АИ, равная 0,8, может считаться удовлетворительной для систем с ограниченным словарем, а для того, чтобы понимание предложений было не хуже 99%, требуется АИ, равное 0,7. Разработаны методики автоматической оценки АИ для данного Рис. П.7. Пример вычисления АИ по методу 1/3 октавы fl]. Copyright 1969 by the American National Standards Institute. Рис. 11.8. Зависимость АИ от фонового шума [20]. Каждоеувеличение уровня шума на 6 дБ обычно приводит к возрастанию АИ на 0,2. речевое оощенне канала связи. Одна из них заключается в вычислении индекса передачи речи, что позволяет учесть влияние различных воздействий на канал (например, искажений сигнала временного характера). В статье [24] имеется дополнительная информация об этом индексе. 11.3.8. Качество канала Рассматриваемый нами конкретный канал связи может иметь величину АИ, большую чем 0,8. Как оценивать канал с таким высоким индексом разборчивости? Уэбстер [26] предположил, что при высоких значениях АИ практически все тесты на разборчивость дают такие же высокие индексы, что не позволяет провести эффективного разделения разных систем по качеству. В подобных случаях можно использовать такие тесты, в которые входят измерение времени реакции, оценка качества, а также тесты, включающие предъявление конкурирующих сообщений или использование невнятной речи, похожей на бормо-танье или шум. Согласно одной из методик, человека просят сравнить качество речи, передаваемой по тестовому и стандартному каналам. В эксперименте Мансон и Карлин [18] сравнивали на слух речь, передаваемую по нескольким каналам связи, с речью, воспроизводимой высококачественной монофонической системой. Задачей Мансона и Карлина было измерить тот уровень шума, который, будучи добавлен к сигналам, передаваемым по высококачественному каналу связи, сделает качество передаваемой речи таким же, как у речи, передаваемой по тестируемому каналу. Оценкой такого шума является «предпочитаемый уровень передачи» (ПУП). На рис. 11.9 иллюстрируется применение данного параметра для нескольких практически используемых речевых схем. Уэбстер [26] вычислил значения АИ, которые соответствуют приведенным величинам ПУП. Они также представлены на рисунке. Ясно, что в некоторых случаях может потребоваться определить качество данного канала при АИ, больших 0,8. Другие подходы к оценке качества речи обсуждаются в работе Никерсона и Хаггинса [19]. Дополнительные аспекты проблемы восприятия речи в шуме обсуждаются в гл. 1, т. 2. 11.4. Техника передачи речи Инженеры-связисты в течение долгого периода времени старались так сжать полосу частот, занимаемых речевыми сигналами, чтобы она стала как можно уже и речь можно было передавать по соответствующему каналу, сохранив при этом хорошую разборчивость и качество речи. Интерес инженеров к этой 584 Глава II проблеме объясняется тем, что любой радиоканал или кабель имеет ограниченную полосу частот, которые он может пропускать. Любой канал может использоваться для передачи ограниченного количества речевых или других (видео и т. п.) сообщений. Достижения в области спутниковой связи и передачи на расстояние сигналов по волоконно-оптическим волноводам привели к тому, что острота проблемы уменьшения полосы частот сигналов несколько сгладилась, однако все еще остается много Рис. 11.9. Предпочитаемые уровни при передаче и величины АИ для разных систем связи [26 (copyright 1978 by University Park Press). 18]. практических задач, в которых необходимо обеспечить эффективную передачу по каналу связи с ограниченной полосой пропускания. В настоящее время возникли новые важные причины изучения проблемы эффективного кодирования речевых сигналов. Появление недорогих и достаточно эффективных цифровых устройств позволяет осуществить на практике различные преобразования речевых сигналов. Среди новых технических достижений в этой области — цифровая обработка речи с целью ее шифрования и обеспечения секретности, передача данных с низкой скоростью, запоминание и генерация синтетической речи с помощью ЭВМ по закодированной информации или по написанному тексту, а также машинное распознавание речевого материала или конкретных дикторов. В настоящее время устройства для шифрования речи используются в промышленных изделиях, снабженных синтезаторами речи, в компьютерных устройствах для инструктирования, которые устно сообща- Речевое общение ют пользователю инструкции, а также в устройствах ввода в машину речи, составленной из слов ограниченного по объему словаря. В данном разделе мы кратко обсудим основные особенности новой техники, а также некоторые связанные с ними проблемы взаимодействия человека и машины. 11.4.1. Выборка и квантование аналогового сигнала Первой из операций, которые нужно выполнить с аналоговым сигналом, если мы собираемся обрабатывать его с помощью ЭВМ, является операция перевода сигнала из аналоговой формы в цифровую. На рис. 11.10 показан обычный аналоговый сигнал (часть сигнала, соответствующего гласному звуку), который мы должны перевести в цифровую форму и подвергнуть обработке на ЭВМ. Нужно отметить, что операция выборки сигнала связана с установлением некоторого числа конкретных моментов времени, в которые производится измерение. Остальные участки сигнала игнорируются. Можно подумать, что при такой выборке теряется много информации. Однако на самом деле это не так. Допустим, что интересующий нас сигнал содержит частотные компоненты в полосе частот W шириной 3000 Гц. (Предположим, что в эту полосу попадают частоты от 500 до 3500 Гц.) Мы должны произвести выборку сигнала с частотой не менее 2W (6000 раз в секунду), чтобы не потерять информацию относительно различных частотных составляющих. Это связано с тем, что нужны всего лишь две выборки, чтобы определить амплитуду и фазу любой отдельной частотной составляющей. Чтобы восстановить отрезок сигнала длительностью 1 с, необходимо провести вдвое больше выборок, чем число частотных составляющих. Этот принцип устанавливается теоремой Ко-тельникова. Какая точность требуется для того, чтобы точно задать амплитуду каждой из 2W выборок? Этот вопрос относится к так называемой проблеме квантования. Нам необходимо разбить всю шкалу амплитуд на некоторое число небольших, но измеримых приращений (как для шкалы времени). Насколько Рис. 11.10. Аналоговый сигнал до (вверху) и после (внизу) выборки и квантования. Каждая выборка квантуется по 16 уровням (4 бит). 586 Глава 11 малым должен быть каждый из выделенных при этом интервалов? На рис. 11.10 при квантовании каждой выборки использовалось 16 уровней (т. е. 4 бит). Можно видеть, что представление сигнала получилось довольно грубым. Точность квантования 12 бит позволяет проводить каждую выборку амплитуды с точностью 1/4096, т. е. примерно 0,02%. Для обработки речевых сигналов такая точность не требуется. От частоты взятия выборок и точности квантования зависит, насколько будет соответствовать оригиналу окончательный вид сигнала. Помимо искажения информации, содержащейся в исходном сигнале, операции квантовая и выборки сказываются еще одним образом: они добавляют к сигналу шум. Пусть имеется синусоидальный сигнал, который квантуется с точностью 4 бит, причем частота отсчетов составляет 20 отсчет/период. Получившийся сигнал все еще будет приблизительно синусоидальным, однако в различных точках кривой, описывающей сигнал, появятся прямоугольные участки. Если проанализировать частотные составляющие в преобразованном сигнале, то окажется, что их гораздо больше, чем в исходном синусоидальном сигнале, где имелась только одна частота. Разумеется, этого следует ожидать, когда производятся некоторые нелинейные операции, такие, как выборка и квантование. Дополнительные составляющие должны восприниматься на слух как шум, причем они даже могут вызвать интерференцию с исходным сигналом, который мы хотим сохранить, что может быть заметно на слух. Шредер и др. [23] предложили интересный способ уменьшения шумовых составляющих в сильно обработанной речи: путем такого подбора интенсивностей частот речи, чтобы они маскировали некоторые из частот шума. 11.4.2. Снижение скорости передачи битов Выбор частоты выборки и точности квантования зависит от конкретной практической задачи. Для высококачественной записи и воспроизведения музыки цифровым способом можно было бы использовать частоту выборки в 50 000 отсчет/с и квантование 16 бит/отсчет. Для передачи таких сигналов потребовалась бы скорость передачи 50000x16, или 800000, бит/с. Персональная ЭВМ может обладать памятью 262 000 байт (по 8 разрядов), или примерно 2Х106 бит. Таким образом, при использовании такой ЭВМ можно было бы хранить в памяти высококачественную оцифрованную запись музыки длительностью только 2.5 с. К счастью, канал для передачи речи может иметь гораздо меньшую полосу пропускания, чем канал, по которому нужно передавать высококачественную запись музыки. При использовании 8-бит квантования и частоты отсчетов Речевое общение ______ 587 5000 Гц можно получить вполне приемлемое качество речи. Ъ этом случае скорость передачи битов составит 5000X8 = -40000 бит/с. Таким образом, с помощью персональной ЭВМ можно хранить в памяти почти минутную запись речи. На самом деле последнюю цифру можно несколькими способами уменьшить. Мы можем уменьшить точность квантования (вспомним, что клиппирование речевого сигнала по амплитуде мало влияет на разборчивость речи). Поэтому можно использовать квантование гораздо меньше 8 бит/отсчет (еще до перевода сигнала в цифровую форму можно осуществить сжатие диапазона интенсивностей сигнала путем логарифмического преобразования). Более изящный способ заключается з ограничении диапазона интенсивностей (в битах) каждой выборки некоторым предельным приращением или уменьшением, которое зависит от интенсивности предыдущего отсчета. Преимущество этого способа в том, что имеется корреляция между последовательными отсчетами речевого сигнала. Механизм речеобразования можно описать с помощью физической системы, обладающей массой и инерцией, поэтому на звуки, возникающие сразу же за другими звуками, накладываются определенные физические ограничения. Это соображение привело к разработке специальной методики импульсной кодовой модуляции, в которой используется факт прогнозируемости речевых сигналов. Данная ироиедура может быть еще более усовершенствована, если прибегнуть к одному хитроумному приему: квантовать только те участки речевого сигнала, которые невозможно прогнозировать на основе уже закодированного участка сигнала [2]. Подобная система позволяет генерировать речевые сигналы со скоростью передачи 2400 бит/с н даже меньше. Можно добиться еще меньшей скорости передачи, если произвести над входным сигналом еще и другие преобразования. Например, можновыделитьинформацию относительно конкретной последовательности фонем, передать эти данные на место назначения, где затем уже восстанавливать речевой сигнал по этой последовательности. В начале настоящей главы мы упоминали, что частота появления фонем в обычной речи составляет примерно 12 фонема/с. Если для кодирования каждой фонемы использовать, скажем, 6 бит, то легко сообразить, что для передачи речи достаточно будет скорости 72 бит/с. При такой скорости передачи битов в памяти емкостью 2G2 000 байт можно записать примерно 8 ч непрерывной речи. Вполне вероятно, что потребуется оценивание эффективности разрабатываемых и существующих систем кодирования и генерации речи при низких скоростях передачи битов. В на-сюящее время трудно предложить сколько-нибудь точную формулу для этого (наподобие способа вычисления АИ), кото-
|