В настоящее время достижения в области обработки синтезированной речи достаточно велики. Исходя из этого, можно сделать вывод, что проблема синтезирования речи уже полностью решена. Так как существуют различные системы синтеза речи, бортовые компьютера в различных сферах и даже бытовые приборы которые имеют возможность обращаться с людьми.
Однако все эти системы используют ограниченный набор фраз и не могут сказать ничего, кроме того, что записано в их памяти.
На данный момент времени существуют как программные, так и аппаратные реализации сиcтемы, но все они имеют несовершенства. «Машинный» акцент и отрывистость при воспроизведении влияют на восприятие текста, утомляя при этом пользователя [1].
Поэтому разработка системы синтеза речи, которая будет, воспроизводить текст голосом, не отличающимся от человеческого, является не достаточно раскрытой темой.
В данной области, существуют различные методы для решения этой проблемы: компиляционный синтез, параметрический синтез речи. Каждый из подходов обладает своими положительными и отрицательными моментами [1].
Наиболее простым является компиляционный синтез, который ориентирован на соединении отдельных частей текста в слитную речь. Несмотря на свою простоту, данный метод сложен в реализации, так как в местах соединения слышны разрывы. Передача интонации при таком методе очень затруднительна [1].
Параметрический метод является наиболее гибким относительного с предыдущего, так как параметризация на основе мелких фонетических единиц, но результаты, при таком подходе, так же далеки от совершенства.
Речевые сигналы при воспроизведении могут значительно отличаться из-за многих фактов, таких как речевое изменение во времени, санитарные условия, голосовой уровень произношение, и т.д. Есть также ряд других факторы, которые не зависят от диктора и представляют собой проблему для технологии воспроизведения речи.
При использовании системы синтеза речи в реальной среде, пользователи надеются, что она будет достигать хорошего уровня распознавания, адаптироваться к динамике окружающей среды, таким как фоновый шум. К сожалению, в настоящее время, мощности адаптации к таким условиям системы еще не достигли. На практике эффективность системы улучшится, если использовать наиболее удачный метод при реализации, а также исключить различные негативные факторы, которые влияют на воспроизведение. Если точность воспроизведения станет лучше при таких условиях, то систему станет устойчивой[1].
Библиографический список
- Автоматический синтез речевых сигналов для интеллектуализации вывода текстовой информации путем ее озвучивания [Электронный ресурс] Режим доступа: http://masters.donntu.org/2008/fvti/demenko/diss/index.htm (дата обращения: 1.03.2017)