WaveNet — это генеративная нейросеть, разработанная компанией DeepMind. В отличие от прежних систем синтеза речи, она моделирует звук непосредственно на уровне отдельных отсчётов звуковой волны, что даёт исключительно естественное звучание.
Особенности
- Реалистичный синтез человеческой речи
- Передача интонаций, дыхания и нюансов
- Способность генерировать музыку
- Основа для голоса в Google Assistant
Технология стала большим шагом вперёд для голосовых ассистентов и систем озвучивания. Изначально WaveNet был вычислительно тяжёлым, но последующие оптимизации сделали его пригодным для работы в реальном времени.
Идеи WaveNet повлияли на целое поколение моделей синтеза речи и генерации аудио.






