Восстановление пауз
При восстановлении пауз на участки идентифицированные как паузы и каким-либо образом закодированные, добавляются к сигналу в соответствии с сохраненными данными. Причем при восстановлении пауз можно заполнить отрезки, соответствующие паузам постоянным (средним) значением, но для заполнения периодов молчания рекомендуется генерировать комфортный шум, поскольку «гробовая» тишина ассоциируется у слушателя скорее с неисправностью аппаратуры, чем с паузой в разговоре. Для иллюстрации результатов следует привести графики фрагментов исходного сигнала, сигнала без пауз и сигнала с восстановленными паузами, а также записать соответствующие wav-файлы для оценки эффективности работы алгоритма «на слух». Пример. На рисунке 5.2. показаны сигналы (фрагмент лекции, записанный на диктофон) – исходный (красный) и с восстановленными после кодирования паузами (синий), наложенный на него. При восстановлении, для наглядности, паузы заполнялись нулями, т.о. хорошо видны отрезки сигнала (красный график), которые при кодировании были идентифицированы как паузы.
Рис. 5.2.
На рисунке 5.3. показан пример обработки одного слова «аппроксимация».
Рис. 5.3.
Из рисунка видно, что данный алгоритм определяет паузы не только между отдельными фразами, как в предыдущем примере, но и внутри одного слова. Но необходимо иметь в виду, что в составе речи присутствуют короткие фонемы, соответствующие взрывным звукам – г, к, п, б, д и т.п., длительность которых не превышает 20...25 мс. Срезание таких фонем нежелательно, так как это может снизить разборчивость речи. Кроме того энергия невокализованных звуков (глухие согласные ф, х, ш, с и т. д.) мала и незначительно отличается от энергии шума (паузы). Поэтому имеет смысл ограничить длительность фрагмента, идентифицируемого как пауза, неким минимальным значением (например, паузы могут быть закодированы и удалены только если их длительность не менее 200-700 мс)
|