CyberHostCyberHost是一个端到端音频驱动的人体动画框架,通过区域码本注意力机制,实现了手部完整性、身份一致性和自然运动的生成。该模型利用双U-Net架构作为基础结构,并通过运动帧策略进行时间延续,为音频驱动的人体动画建立了基线。CyberHost通过一系列以人为先导的训练策略,包括身体运动图、手部清晰度评分、姿势对齐的参考特征和局部增强监督,提高了合成结果的质量。CyberHost是首个能够在人体范围内实现零样本视频生成的音频驱动人体扩散模型。030音频处理# 人体动画# 人工智能# 区域码本
SpeechGPT2SpeechGPT2是由复旦大学计算机科学学院开发的端到端语音对话语言模型,能够感知并表达情感,并根据上下文和人类指令以多种风格提供合适的语音响应。该模型采用超低比特率语音编解码器(750bps),模拟语义和声学信息,并通过多输入多输出语言模型(MIMO-LM)进行初始化。目前,SpeechGPT2还是一个基于轮次的对话系统,正在开发全双工实时版本,并已取得一些有希望的进展。尽管受限于计算和数据资源,SpeechGPT2在语音理解的噪声鲁棒性和语音生成的音质稳定性方面仍有不足,计划未来开源技术报告、代码和模型权重。030语音处理# 多风格响应# 情感表达# 端到端模型
OptiSpeechOptiSpeech是一个高效、轻量级且快速的文本到语音模型,专为设备端文本到语音转换设计。它利用了先进的深度学习技术,能够将文本转换为自然听起来的语音,适合需要在移动设备或嵌入式系统中实现语音合成的应用。OptiSpeech的开发得到了Pneuma Solutions提供的GPU资源支持,显著加速了开发进程。030语音处理# 文本到语音# 深度学习# 端到端模型