Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

МОСКВА 1 9 5 8 11 страница




§ 11. АКУСТИЧЕСКОЕ ИЗМЕРЕНИЕ ДИНАМИКИ РЕЧИ Так как статические элементы слова являются лишь .соотношением спектральных признаков звука, то1 о-ни входят в аналитический состав конкретного речевого звука всегда наряду с другими признаками. Поэтому сами статические элементы отдельно от этих других признаков непроизносимы. Слог является тем материальным средством, через посредство которого только и может осуществиться всякое произнесение. Это пункт связи между дискретностью постоянных статических элементов и непрерывной сплошностью реального, конкретного произнесения. Механизм слога состоит в том, что в нем действуют две противостоящие силы. Одна из них статическая, обеспечивающая тождество сигнальных значений, другая непрерывно изменчивая, регулирующая перестройку значений. Так, в слове город последний статический элемент д в устной речи переходит в т — горот. Казалось бы, что нарушилось тождество, так как один статический элемент заменен совершенно другим. Однако в действительности эта слоговая динамическая' перестройка, прортзведенная заменой звука, усилила и расширила тождество обозначений. Замена показала, что т в слове горот и д в слове города это по функции один и тот же элемент. Несмотря на пере- 1 Б. А. Ш в а р ц, Новые результаты спектрального анализа звуков и его возможности. Тезисы на совещании по физиологической акустике, 1934, стр. 36. стройку или, вернее, именно вследствие перестройки, две формы слова — горот и города стали объединяться как разные формы) одного и того же, тождественного себе слова. Слово приобрело -расширенное, обобщенное тождество, дифференцируясь на две формы (единственного-и множественного числа) путем замены статического элемента или путем его динамической слоговой перестройки. Обычно полагают, что слог не выполняет никаких семантических; функций. И действительно, различие слогов не определяет различия значений. Слоги—простой, сложный, открытый или закрытый, как виды слогов, не содержат в себе никаких указаний на различие значений. Но так как произносительной единицей является слог и только слог, то все обозначения и перестройки обозначений могут совершаться только материальными слоговыми средствами. Если есть способность производить слоги, то возможна речь. И наоборот, речь невозможна, если нет способности слогообразования и слогоделения. Спектры включаются в состав слогов, слова составляются из слогов, фразы членятся по слоговым разделам слов. Вот почему основной и первой задачей изучения механизма речи является исследование образования слогов, слогоразделов, набора слогов и слоговых перестроек. Спрашивается, какие сигналы становятся носителями слоговой динамики? Такими сигналами являются три отдельных (кроме спектра) признака звука — частота основного тона, сила (интенсивность) и длительность. Встречаясь на арене слога, эти сигналы сложно сочетаются и могут передавать друг другу сигнальные значения и замещаться. Физической особенностью частоты, силы и длительности является то, что, в отличие от дискретных спектров (определяемых по составу номеров), они образуют непрерывность. Каждая последующая ступень прироста частоты, силы и длительности является величиной бесконечно малой. Это вызвало бы не только значительные затруднения при акустических измерениях и при передаче звука, но и при приеме его слушателем, если бы непрерывная сплошность не разлагалась на дискретные величины.-Действительно, малейшее случайное изменение частоты, силы и длительности звука в произносительном аппарате изменило бы величину сигнала, а поэтому нарушило бы и сигнальное значение, уничтожая эквивалентность рядов. Эти случайные или посторонние изменения, которые могут возникнуть в самом речевом приборе, в линии передачи или в воздушной среде, разделяющей говорящих (шум в помещении), можно рассматривать как помеху, которая искажает передаваемые модуляции признаков звука. Слушающий может принять за динамическое усиление или ослабление то, что не входило в намерение говорящего. В инженерной акустике для устранения влияния помех учитывают их и непрерывные величины переводят в дискретную шкалу. Если помеха не превосходит половины интервала между двумя соседними уровнями, то сигнал определенной величины может бы'ть отнесен к б лижа йщему дискретному уровню установленной шкалы1. Таким образом, в данной найденной дискретной шкале вся динамика сигналов будет воспроизведена в полной- соотносительной точности. Помеха останется за шкалой, она не будет влиять на учет ступеней роста сигналов. Замена непрерывной шкалы уровней дискретной называется квантованием. Сигнал, представленный последовательностью дискретных значений, называется квантованным. Таким образом, динамика будет передаваться по квантам частоты, силы и длительности. Такая дискретная квантованная шкала только тогда приведет к эффективному 'результату, когда и на приеме те же 1 А. А. X арке вич, Очерки общей теории связи, Гос. изд-во технико-теоретич-лит-ры, 1955, стр. 29. сигналы при преобразовании их в другие будут распределены по toft же шкале квантования. Следовательно, надо спросить, производит ли слух квантование акустических сигналов, и если производит, то по какой шкале. Ответив на этот вопрос, можно установить ту шкалу, по которой следует производить акустические измерения динамических модуляций речевого звука. Известно, что слух человека действительно шкалирует непрерывные величины по ступеням прироста, или квантам. Это явление называется разностным, или дифференциальным, порогом различения звуков по высоте, громкости и времени. Установлено, что в отношении высоты слух человека обладает интервальной природой. Это значит, что слух оценивает не каждую частоту по отдельности (измеренную, например, при помощи осциллографа), а прирост высоты одного звука по отношению к другому, т. е. интервал. Каждый определенный интервал одинаков, как ступень, на всем диапазоне слышимых частот. Поэтому интервалы могут складываться и вычитаться. Эти положения проверены многовековой музыкальной практикой, в теории которой принимается за единицу измерения воспринимаемого слухом интервала цент, или сотая доля темперированного полутона. Так как измеряемые на акустической аппаратуре величины частот растут в геометрической прогрессии, а воспринимаемые интервалы в арифметической, то цент является минимальным логарифмическим шагом шкалы высот. В темперированном с'трое за исходную величину принимается октава. Исходя из этого, основанием логарифма для вычисления центов является У 2. Это удобно, так как высоты темперированных интервалов в центах выражаются целыми и сотыми: малая секунда — 100 центов; большая секунда — 200 центов; малая терция 300 центов и т. д. Сумма интервалов квинты (500 центов) к кварты (700 центов) составит октаву (1200 центов). Разность между интервалами квинты (700 центов )и большой терции (400 центов) составит малую терцию (300 центов). Физически же измеряемые интервалы образуются путем умножения или деления интервальных коэффициентов измеряемых частот. Так, произведение квинты (3/2) на кварту (4/з) Даст октаву: s/2.*/B = z/L или деление квинты (3/2) на большую терцию (5Д) даст малую терцию: 3/2 : 5/4 = 6/б. Н. А. Гарбузовым 1 разработана концепция зонной природы слуха. В его исследовании показано, что порог различения высоты между двумя соседними элементами равен приблизительно 6 центам, порог различения между соседними интервалами 24 центам, порог же различения между разными ступенями интервалов 50—60 центам 2. У разных испытуемых зо-на узнавания тона колеблется в пределах от 50 до 180 центов. Н. А. Гарбузов, исследуя исполнение скрипачей3, нашел, что они применяли интервалы, являющиеся комбинацией из разных систем музыкального строя, но находящихся в пределах тоиальной зоны. Особенно важно подчеркнуть, что при этом аккомпанемент на фортепьяно не являлся помехой. Это значит, что квантование шкалы по темперированному строю находится в пределах зональной природы слуха. Любые случайные модуляции высоты или помехи внутри зоны -данного интервала не будут восприниматься как значимые. Однако несомненно, что функции звуковысотного слуха в музыке и речи различны. В речи нет мелодии, в которой звуковысотное движение отсчитывается от начального 'тона и составляет определенную повто- 1 Н. А. Гарбузов, Зональная природа тонального слуха, «Проблемы физиол. -акустики», т. II, изд-во АИ СССР, 1950, стр. 139. 2 Зонная природа темпа и ритма, 1950, стр. 3—4. 3 Зонная природа музыкального слуха, «Проблемы физиол. акустики», изд-во АН СССР, 1950, стр. 138 ряющуюся форму. В речи звуковысотный интервал образует' лишь-. восходящий или нисходящий акцент, как средство выделения слога -в. фразе. Это сигнал выделения одного из элементов речевого субстрата, тогда как в музыке звуковысотное движение развертывается в субстрате самого звука без каких-либо специфически слоговых образований. Это различие между функцией высоты в музыке и речи позволяет сделать вывод, что квантование шкалы по равномерно темперированному строю в центах для речи более строго, чем для музыки. Тональная зона при восприятии речи шире, чем при восприятии музыки, поэтому применение этой шкалы к речи скорее приуменьшает ступени: квантования, чем увеличивает их. Возможно, что в технических целях при передаче звуковысотных модуляций речи по линиям связи эти ступени могут быть более грубыми. В дальнейшем, при изложении результатов некоторых акустических измерений мы применяем шкалу центов. Аналогичная шкала квантования имеет место и при восприятии интенсивности. Так как непрерывный рост энергии всяких раздражителей — световых и звуковых — распространяется в почти необозримом диапазоне, линейный ряд роста интенсивности принято переводить в легко обозримый логарифмический ряд. Для звука единицей измерения, в таком случае, становится децибел (л:дб = 10 Ig -у-, где / — дан- ная интенсивность, а /0—условно принятая величина абсолютного порога). Однако децибел, как мера акустических измерений, является условной. Воспринимаемая слухом громкость квантуется по другой так называемой шкале нормальной громкости, графическое изображение которой дано Флетчером при исследовании ощущения удвоения громкости в соотнесении со шкалой децибел. Изучение этой кривой 1 показывает, что, начиная с 40 об, она спрямляется, что свидетельствует о прямой пропорциональности между уровнем возбуждения и ступенями нормальной громкости. Громкая речь занимает сжатый динамический диапазон приблизительно от 60 до 90 дб. Если звуковая энергия минимальна, то звуки речи маскируются внешними помехами (шумами) и последействием в слуховом рецепторе (внутренние помехи). При значительном увеличении энергии звука органы речи перенапрягаются и выдают мало узнаваемые, ненормативные звуки, о чем в третьей части этой работы будет представлен специальный фактический материал. Полезный динамический диапазон речи составляет приблизительно 30 дб. Наибольшие пики среднеквадратичного давления превосходят средний уровень на 12 дб, а наиболее слабые звуки лежат приблизительно на 18 об ниже среднего уровня 2. Таким образом, в этих пределах сохраняется пропорциональность между нормальной шкалой громкости и шкалой децибел. Если к этому добавить пооравку на разногромкость разных тонов, которая может быть учтена при помощи усилителя -шумомера, то шкала децибел становится применимой для учета соотносительных различий воспринимаемой слухом громкости. Именно эти различия и представляют интерес при исследовании слоговых модуляций, при этом величина в 0,5 дб можег рассматриваться как усредненная ступень квантования. При исследовании же самого слухового рецепторного прибора необходим переход на шкалу нормальной громкости. Непрерывная последовательность переводится в дискретную шкалу и при восприятии времени. Аппаратура, применяемая при изучении речи, 1 С кривыми Флетчера можно познакомиться по статье И. Г. Дрейзена «Аналитическая интерпретация кривой (шкалы) нормальной громкости», «Проблемы физиол.. акустики», т. II, 1950, стр. 95. 2 См. А. Б е p а н е к, Акустические измерения, изд-во ин, лит., М.—Л., 1952, стр. 255. ^B^^^^w^"^^ позволяет учитывать 'тысячные доли секунды. Эта точность измерения достаточна для учета разностного порога восприятия времени. В исследовании Н. А. Гарбузова 1 опытные музыканты оценивали длительность каждого звука небольшого музыкального отрывка (при многократном прослушивания) в соответствии с теоретической длительностью этих звуков. Оказалось, что большинство правильно оцененных длительностей звуков мелодии имеет место при отклонении этих длительностей от теоретически вычисленных более чем на ±0,1 секунды. Большинство' ошибок в определении длительности звуков приходится на долю звуков, длительность которых меньше или больше теоретической на сотые доли секунды. Таким образом, зонная природа слуха распространяется и на восприятие времени. Временные интервалы квантуются по определенной сетке уровней. Все рассмотренные явления характеризуют зонную, или квантовую, природу слуха. Как при слушании музыки или речи, так и при восщюизвеДении того и другого слух принимает и контролирует непрерывно меняющиеся раздражители, укладывая их по дискретным ступеням. Под контролем слухового анализатора устанавливаются эквивалентные движения двигательного анализатора. Та шкала, по которой слух скрипача воспринимает высотные интервалы, контролирует движения его пальцев, поэтому скрипач и воспроизводит 'то-, что. требует его слух. Иначе обстоит дело со шкалой времени. Время как объективная, реальная категория является общим для слухового и двигательного анализаторов, поэтому двигательный анализатор может организовать систему движений и без слухового контроля. Темп марша может быть воспроизведен с такой же точностью в беззвучных движениях, как и в звуках. Тот же вопрос становится значительно более сложным в отношении градуировки интенсивности и громкости. Звуки речи обладают весьма различной акустической мощностью, что связано с условиями их образования. Это различие во всяком случае намного превышает разностный порог в 0,5 дб. В таких условиях, мощные звуки оказались бы помехой, маскирующей равномерную модуляцию ступеней громкости. Помеха будет больше половины действительной ступени квантования. Следует допустить, что для каждого звука речи вырабатывается своя особая шкала динамических уровней и что в речедвигательном анализаторе есть особый прибор для квантования громкостей, который приспосабливается к этим ступеням при выработке эквивалентности под контролем слуха. Поставленный вопрос относится к одной из наиболее существенных проблем механизма речи, по которой будет в дальнейшем представлен достаточно полный фактический материал. § 12. ИЗМЕРЕНИЕ СТАТИЧЕСКИХ ЭЛЕМЕНТОВ С УЧЕТОМ СЛОГОВОЙ ДИНАМИКИ На арене слога происходит встреча модуляций основной частоты, силы и времени. Это приводит, с одной стороны, к формированию слоговых количеств и качеств, с другой стороны, к перестройке спектров. Отсчет времени приобретает смысл только тогда, когда есть точки отсчета. Спектр, как таковой, бесконечен и поэтому не поддается учету во времени. Спектр — это чисто теоретическое измерительное понятие, которым обозначаются несамостоятельные компоненты реально протекающего речевого процесса. Как только в этом процессе произошла смена, появились точки отсчета для учета времени. Слабость начавшегося звука, его усиление к середине звучания и новое ослабление к кон-Ду образуют некоторый законченный цикл, который сменяется другим 1 Зонная природа темпа и ритма, 1950, стр. 60—71. подобным циклом. Так возникают точки отсчета времени. Такой слоговой цикл может сокращаться и растягиваться, внутри его может то нарастать, то падать громкость, основной 'тон может то восходить, то нисходить. В результате всего этого будут меняться включенные в состав слова спектры как его элементы. Это явление обнаруживается с чрезвычайной убедительностью и наглядностью даже при беглом просмотре спектрограммы при произнесении .простого слога, а, о, и и т. п., если такая спектрограмма снята за некоторые микроинтервалы времени, например 15 м}сек. На спектрограмме мы видим постоянно меняющиеся спектры как статические срезы динамического процесса за определенные промежутки времени. Лишь в середине звучания слога два или три отрезка, фиксирующих спектр в этот период, сохраняют устойчивое постоянство. Если спектры в процессе слогообразования подвергаются таким. значительным перестройкам, каким образом они могут выполнять свою • функцию различения слов? Здесь возникает новая ступень анализа и синтеза звукового процесса. Модуляции частоты, силы и времени несут на себе сигналы синтеза слога. Изменяя спектры, они и их включают в слоговой синтез. Оставшиеся же формантные признаки аналитически отделяются и продолжают выполнять свою словоразличительную функцию. Спрашивается — что осталось от формант и насколько исправно они несут свои различительные сигналы в этих реальных, но значительно изменившихся условиях? Для ответа на этот вопрос в инженерной акустике разработана специальная психологическая методика. Ее психологическое толкование ограничено чисто практическими задачами испытания линий связи, но по своему значению и широте возможного применения она выходит за пределы инженерно-технической области, широко применяясь при оценке дефектов речи, например речи глухонемых. Это так называемая методика артикуляции. После работ Кемп-белла и Крендала методика артикуляции получила достаточно ясные •очертания. У нас обстоятельное изучение этого вопроса дано в книге Ю. С. Быкова 1. Сущность методики состоит в том, что на входе проверяемой линии связи диктор произносит по заранее составленным специальным таблицам определенный речевой материал, который на выходе принимается группой испытуемых, записывающих переданное сообщение. Разборчивостью речи называется процент правильно принятых элементов от общего количества переданных в данном сообщении. Психологический интерес испытания заключается в различии результатов, получаемых при выборе в качестве элементов или формант, или звуков, или слов, или фраз. Под звуком разумеется полный звук или простой слог. Для определения зависимости разборчивости звуков и слогов от разборчивости формант Ю. С. Быков проводил артикуляционные измерения, срезая фильтрами то нижние, то верхние частоты. Оказалось, что при 50% различения формант достигается 83% разборчивости звуков и 55% разборчивости слогов. При 90% различения формант — 99% разборчивости звуков и 97% разборчивости слогов. Этим устанавливается мера формантных перестроек в слоге. Зависимость разборчивости слогов от разборчивости звуков выборочно мож-:но иллюстрировать следующими цифрами: 40% различения звуков дает только 8% разборчивости слогов; 60% различения звуков дает 23% разборчивости слогов и 90% различения звуков дает 70% разборчивости слогов. Необходимо различать 100% звуков для того, чтобы слоговой комплекс был принят полностью 2. Эти соотношения получены на материале бессмысленных слогов. 1 Ю. С. Быков, Теория разборчивости речи в линиях связи, Оборонгиз, 1954. 2 Там же, стр. 56. ИЯРВИР!^^^^^^^ Результаты свидетельствуют о том, что по звукам различают только комплексы, независимо- от их сигнального значения. В этих условиях для различения одного звукокомплекса от другого необходимо различение всех элементов обоих комплексов. Если же в качестве эле-мен'тов учета выбираются слова, входящие в состав лексикона принимающего, т. е. звукокомплексы, обладающие предметным сигнальным значением, то соотношение величин резко меняется. 40% различения звуков дает от 20 до 40% узнава(ния слов; 60'% различения звуков — от 55 до 80% узнавания слов; 90% различения звуков дает 93—100%» узнавания слов. Таким образом, для узнавания слов достаточно различения только части тех звуков, из которых они состоят. Сравнение первой группы данных со второй группой позволяет -провести отчетливое различие между процессом дифференцировки элементов слова и узнаванием всего слова. Функция формант, находящихся в составе звука, состоит только в дифференцировке звуковых элементов слова, узнавание же слова происходит на основе усвоения его -слоговой структуры. Бессмысленный слоговой комплекс может быть заучен, но при новом предъявлении для различения от другого комплекса снова должны быть дифференцированы все его элементы. Комплекс, лишенный сигнального значения, не узнается, а различается в элементах, так как в нем не'т ничего такого, что соединяло бы элементы. Если даже в группе бессмысленных слогов один выделен ударением, то и тогда нет такой динамической конструкции, которая могла быть узнана, так как ее построение ненормативно. Мы измеряли у одного и того же испытуемого длительность произнесения комплекса горо и того же гора в слове город. Оказалось, что Б первом случае длительность составляет 525 м/сек, а во втором случае 400 м/сек. Слово в своей звуковой оболочке составляет довольно строгую нормативную структуру. Самое же существенное состоит в том, что при сохранении тождества предметного значения звуковая оболочка слова может изменяться в разных формах. Вследствие этого создается правило замены звуков или правило перестройки формант в слоговых позициях. По такому правилу, например, звук о в слове воды заменяется при переносе ударения на другой звук, похожий на а, — вада. В словосочетании же, лишенном предметного значения, т, <е. в неузнаваемом как слово-комплекс, звуковых замен быть не может. Узнавание — это восстановление целого по элементам, различение же —• это составление целого из элементов. При одной операции (дифференцировка) различаются те элементы, которые есть в комплексе, от тех, которых там нет. Это противопоставленная операция. При .другой операции (узнавания) объединяются только те элементы, которые есть в комплексе. Это восстановительная операция. Известно, что •при разговоре по телефону трудноразличимое сочетание согласных, ^например стр, может быть разъяснено путем замены их словами Соня, Таня, Рита. Здесь восстановительная операция помогает осуществить -противопоставительную. Еще большие возможности для правильных замен невоспринятых звуков появляются при приеме фраз. 40% различения звуков соответствует от 10 до 50% разборчивости фраз; 60% различения звуков — от 40 до 95% разборчивости фраз; в среднем при 75% различения звуков, разборчивость фраз составляет 90% 1. Составление осмысленного сообщения обусловлено целым рядом правил, применение которых дает основания для восстановления невоспринятых элементов. Не составляет большого труда определить, какие элементы пропущены, например, в такой фразе На ст-ле л-ж-т к-ига. Морфологическая структура слов. 1 Ю. С. Быков, Теория разборчивости речи в линиях связи, Оборонгиз, 1954, *стр. 57. 7 Н. и. Жкнкин 97 синтаксический строй предложения, сочетаемость слов и сами сигнализируемые предметные отношения составляют определенные достаточно жесткие системы, которые могут быть найдены по ограниченному числу составляющих их элементов. После нахождения системы недостающие элементы восстанавливаются без труда. Однако Ч!ем больше элементов входит в систему, тем больше вероятность построения разных систем на общих точках ограниченного числа элементов, т. е. большая вероятность разночтений. Вследствие этого, как видно из вышеприведенных материалов, разброс результатов при определении разборчивости слов и фраз очень велик. Получаемые здесь усредненные показатели практически не имеют смысла. В этих случаях определяется не столько пропускная способность линии связи, сколько догадливость одной группы испытуемых и недогадливость другой группы. Вот почему в инженерной акустике метод артикуляционных таблиц применяется преимущественно на материале бессмысленных слогов. С психологической точки зрения кратко описанная методика акустических измерений при помощи артикуляционных таблиц представляет интерес в том смысле, что полученные результаты дают возможность установить три ступени анализа и синтеза в речевом процессе. Анализ и синтез формант и звуков, как дифференциальных элементов сообщения, может быть отнесен к уровню восприятия речевого процесса. Ко второму уровню может быть отнесено узнавание слов, как воспроизведение значимых элементов усвоенного человеком лексикона из большого нормативного лексикона языка. И наконец, 'к третьему уровню может быть отнесен самый прием сообщения, т. е. понимание-предметных отношений, обозначенных в сообщении. Методика-учета по артикуляционным таблицам позволяет отчленить только одну из сторон речевого процесса — восприятие речи. Это дает возможность упростить и свести указанное трехчленное деление к двухчленному, что приобретает большое теоретическое и практическое значение. Речь, в которой воспринимаемые элементы различены и расчленены, может быть названа разборчивой речью. Речь, в которой элементы не только расчленены, но и сопоставлены в динамической системе по уровням и соответственно по значимости, может быть названа выразительной речью. Речь, поступающая на вход линии связи, является уже выразительной, но на выходе линии, при приеме речи, к технике могут быть предъявлены минимальные требования, ограниченные лишь разборчивостью. Это расширяет возможности 'техники, так как уменьшает количество передаваемых сообщений (в широком и специальном понимании этого термина) и вместе с тем не нарушает передачи объективных предметных отношений в содержании сообщения. Потеря выразительности равна потере нового, дополнительного сообщения о самой произносимой речи. Человек, говорящий Я приду, несомненно, сообщает о своем предстоящем приходе- Однако интонационная модуляция может быть такой, что говорящий сам сомневается в возможности его прихода. Такое дополнительное сообщение о понимании или толковании самим говорящим его собственных слов не войдет в речь, обеспеченную только разборчивостью, а потребует для передачи точного квантования по интсь национным уровням. Шкала этих уровней будет гораздо более тонкой, чем для разборчивости речи. По этой шкале будут модулироваться не только основные частоты, сила и время, но и перестраиваться епейтры. В таком случае к ранее перечисленным видам спектров и, соответственно, тембров (голосовых, языковых, певческих и речевых в узком смысле слова) следует прибавить и эмфатические. Они по необходимости внесут свою выразительную перестройку в спектре звуков, которая, однако, може'т быть срезана помехой, величина которой рассчитана только на то, чтобы не мешать разборчивости. 9S Хотя при передаче выразительности речи значительно расширяется диапазон высот, громкости и длительности, современная техника при расчете так называемых художественных передач может достичь очень большой точности. Теоретически любое сигнальное значение переносится в каком-то определенном или в группе определенных акустических признаков, поэтому в акустическом эффекте заключено все, что воспроизведено органами речи. Однако для современной инженерной акустики возникает задача не только передать то, что сделано органами речи, но и искусственно сделать то, что они делают. Открывающиеся при этом перспективы представляют большой теоретический и практический интерес. Еще Гельмгольц построил прибор, состоящий из системы резонаторов, через которые проходил звук камертона так, что при разном наборе резонаторов появлялись тембры, похожие на а, о, е, у. В 1914 г. Д. Миллер сконструировал более совершенное устройство из комбинации органных труб, настроенных на разные гармоники от »определенного основного тона, что дало возможность получения гласных. Регулировка аэродинамических условий путем зажимания резинового шланга, подводящего воздух к трубам, позволяет получить согласные /г, м. В результате могут быть составлены слова — папа, мама. В 1939 г. Дадли 1 осуществил синтез речи на установке, получившей название «Водер». В этой системе есть два генератора: а) для жужжащих звуков, из которых формируются гласные (прерывистый спектр), и б) для шипящих звуков, из которых образуются согласные (непрерывный спектр). Оператор движением кисти руки включает генератор жужжащих звуков и одновременно пальцем нажимает на клавишу, соответствующую спектру определенного гласного звука. В то же время ногой он нажимает педаль, управляющую изменением высоты основного тона. После этого оператор включает клавишу, регулирующую спектр шипящего звука для получения определенного согласного. В устройстве есть специальное реле для перехода от жужжащих звуков к шипящим и наоборот, а также приспособление для синтеза тонов, составляющих звук. Пользуясь клавишами, можно набрать разные сочетания гласных и согласных и регулировать высоту тона. У нас искусственный синтез звуков речи применяют И. М. Литвак и Л. А. Варшавский как метод изучения формант. В 1954—1955 гг. эта запись демонстрировалась на конференции по физиологической акустике. Первоначально устанавливается формантный состав звуков речи, потом полученные от генератора звуки, пройдя через определенные фильтры, синтезируют в известной последовательности и записывают на магнитофонной ленте. Синтезированная таким способом речь обладает всеми качествами разборчивости. По набору составленных звуков можно узна1ъ слова и принять переданное сообщение. Однако такая речь лишена -всякой выразительности. Независимо от специфического, не похожего на человеческий голос носового тембра, сами модуляции звуков "ке обладают, теци свойствами, которые имеет живая речь. Так, например, редукция гласных будет меняться в зависимости от места ударения, она количественно и качественно будет разной в разных словах. Следовательно, набор, клавиш или, что то же, набор спектров, должен разрастись до чрезвычайности и совпасть с количеством нормальных редукций 'во всех возможных для отбора словах. Выше было указано, что в механизме речи слова составляются не из заранее готовых спектров, а каждый из спектров при синтезе перестраивается, в зависимости от предшествующих и последующих звуков. Кроме того, в живой речи изменение высоты основного тона, 1 Описание аппарата Дадли дано по изложению А. Беранека «Акустические измерения», изд-во ин. лит., М.—Л., 1952, стр. 248. 7* 99 громкости и долготы тотчас же закономерно сказывается на перестройке спектров. В искусственно синтезируемой речи не хватает еще динамического устройства, учитывающего упреждение и удержание звуко-комплекса. Не хватает и слогообразователя и елогоделителя. Как видно, шаг, отделяющий разборчивую речь от выразительной, О^ЕНЬ велик. Хотя все элементы выразительности весьма точно передаются акустически, что подтверждае'тся передачей художественно исполненной речи, синтезирование такой же речи станет возможным лишь после того, как законы ее динамики будут исследованы в полной мере. Вот почему теоретически и практически так важно изучение этой стороны механизма речи.







Дата добавления: 2015-08-12; просмотров: 78. Нарушение авторских прав

Studopedia.info - Студопедия - 2014-2017 год . (0.008 сек.) русская версия | украинская версия