语音识别 - 优选网址大全 - 汇聚全网精品网站，打造高效安全上网体验语音识别官网，语音识别导航为您提供服务，精心挑选，安全无毒，找语音识别网址就来优选网址大全 - 汇聚全网精品网站，打造高效安全上网体验，这里收集全网最全的网站资源。 - 优选网址大全

排序

发布更新浏览点赞

Mumble Note

Mumble Note是一款AI语音速记工具，可以将用户的口述内容转换为清晰的笔记、待办事项和输出。该产品具有隐私保护、智能问答等功能，为用户提供高效的语音记录与管理体验。

020

Chai Research

人往往会感到孤独。我们正在建立一个人工智能友谊的平台。为此，我们收集了超过 40 亿条用户机器人消息的专有数据集，并在计算上花费了 100 万美元来训练针对娱乐优化的语言模型。

030

AI智能问答 AI赋能 # AI语音助手 # 人工智能处理工具 # 人工智能客服

Speechnotes

无需注册即可直接使用的在线语音转文字工具，需要允许获取麦克风权限，能够实时声音转文字，支持全球多个语种的转换，实测中文转换效果还不错，能够自动纠错

020

专业领域语音识别 # Speechnotes # 语音识别 # 语音转文字

滴滴人工智能实验室

全球智能交通的前沿科技实验室

020

AIGC科研平台 AI中文研究机构 # 机器学习 # 统计学 # 自然语言处理

Deepgram API

将语音AI构建到您的应用中,从初创公司到NASA，Deepgram API每天用于转录和理解数百万分钟的音频。快速、准确、可扩展且经济高效。开发人员需要的一切都可以让他们充满信心地构建并更快地交付。

020

AI编程助手 AI赋能 # AI技术 # Deepgram API # nasa

Microsoft Speech Services

Azure AI Speech是Microsoft Azure提供的一项人工智能服务，包括语音识别、文本转语音、语音翻译、语音启用应用等功能，可用于开发智能语音助手、语音翻译应用和语音控制应用等场景。

010

AI摘要文本AI # 文本转语音 # 语音识别

Whisper by OpenAI

Whisper是一个接近人类级别准确性的自动语音识别系统，具有鲁棒性和多语言转录翻译功能。

020

文字转语音音频AI # 自动语音识别 # 语音识别

Lexii ai

Lexii.ai是一个人工智能搜索...Lexii ai搜索引擎是一款高效快捷的智能搜索工具，通过语音识别技术和人工智能算法，为用户提供无微不至的搜索服务，让人们轻松高效获取所需信息，成为信息时代的新助手。

020

AI办公助手 AI搜索引擎 # AIGC办公平台 # AI搜索引擎 # 人工智能

Braina

Brainasoft是一家领先的人工智能交易和研发公司，提供Braina AI虚拟助手、FireCMD命令提示符和控制台仿真器以及Musica语音控制音乐播放器等产品，帮助用户快速完成各种操作。

010

音频AI 音频编辑 # 人工智能 # 语音识别

Siri ChatGPT

SiriGPT是一款智能语音助手，具有强大的语音识别和自然语言处理能力，可以帮助用户完成各种任务，提高生活和工作效率。

020

音频AI 音频编辑 # 智能语音助手 # 语音识别

Heyday

Heyday为零售商提供的领先的多语言人工智能聊天机器人将对话式人工智能的力量与您的团队的人情味结合起来，大规模地提供五星级的客户体验。

010

AI营销工具 AI赋能 # 14天免费试用 # AI语音助手 # 人工智能客服

Voicegain

Voicegain提供准确、价格合理、易于访问的语音转文本平台，帮助开发人员构建出色的语音应用程序。他们的深度学习ASR提供了准确、价格合理和灵活的解决方案，可以部署在本地、在VPC中或作为云服务调用。他们与领先的联系中心、视频会议和机器人平台直接集成。

010

文字转语音音频AI # 语音识别 # 语音转文本

云从科技从容大模型

从容大模型是云从科技自主研发的一种基于语言模型的人工智能系统，该系统可以根据给定的文本或语音数据进行学习和分析，并输出相关的答案或建议，能够深度理解自然语言的含义和语义规则，具有高度智能化及自适应性。

020

AI大模型 # AI # AIGC # AI大模型

Letterly.app

Letterly是一款AI语音转文字的手机应用程序，可以快速将您的语音转换为清晰和结构化的文本，支持100多种语言的自动识别，让您的语音变得生动有趣。

010

AI翻译 # AI语音转文字 # 语音识别

Controlla Voice

Controlla Voice是一款让你的声音无限可能的人工智能音乐工具，可以训练出与你声音相似的AI唱歌声音，生成AI翻唱歌曲，混合声音，转换声音为乐器，创作AI合唱，还可以用自己的声音演唱不同语言的歌曲。

020

音乐音频AI # 语音合成 # 语音识别

Yandex SpeechKit

Yandex SpeechKit是一款强大的文本转语音和语音识别服务，帮助您的业务实现智能语音助手、自动化呼叫中心等多种任务。它可以快速准确地识别语音，并为您的品牌提供独特的声音。

020

文字转语音音频AI # 语音合成 # 语音识别

Water

Water是一个没有代码的ChatGPT构建器。导入知识，改变写作风格，并与你最喜欢的工具如Airtable和Zapier连接。

020

AI营销工具 AI赋能 # AI语音助手 # ChatGPT # Water

Coval

Coval是一个专注于AI代理测试和评估的平台，旨在通过模拟和评估来提高AI代理的可靠性和效率。该平台由自主测试领域的专家构建，支持语音和聊天代理的测试，并提供全面的评估报告，帮助用户优化AI代理的性能。Coval的主要优点包括简化测试流程、提供AI驱动的模拟、兼容语音AI，以及提供详细的性能分析。产品背景信息显示，Coval旨在帮助企业快速、可靠地部署AI代理，提高客户服务的质量和效率。Coval提供三种定价计划，满足不同规模企业的需求。

020

智能聊天机器人 # AI代理 # 平谷 # 测试

Nuances Dragon Speech Recognition

Dragon语音识别是全球最畅销的语音识别解决方案，可帮助用户更快、更智能地完成工作，加快文档创建速度并自动化工作流程。

020

商业AI 教学助手 # 付费 # 文档创建 # 语音识别

Lexii ai官网

020

AI办公助手 AI搜索引擎 # AIGC办公平台 # AI搜索引擎 # 人工智能

讯飞A.I.智能客服解决方案

A.I.智能客服解决方案是科大讯飞基于其先进的语音技术，为企业提供的一套完整的客户服务系统。该系统通过电话、Web、APP、小程序、自助终端等多种渠道，实现智能外呼、智能接听、语音导航、在线文字客服、质检分析、坐席辅助等功能。它通过高识别率的语音识别引擎、自然流畅的语音合成技术、智能打断能力、IVR导航以及客服平台中间件等技术，帮助企业提高客服效率，降低人力成本，同时提升客户服务体验。

020

客户服务 # 客户服务 # 智能客服 # 自动化

LSLM

Listening-while-Speaking Language Model (LSLM)是一款旨在提升人机交互自然度的人工智能对话模型。它通过全双工建模(FDM)技术，实现了在说话时同时监听的能力，增强了实时交互性，尤其是在生成内容不满意时能够被打断和实时响应。LSLM采用了基于token的解码器仅TTS进行语音生成，以及流式自监督学习(SSL)编码器进行实时音频输入，通过三种融合策略（早期融合、中期融合和晚期融合）探索最佳交互平衡。

010

语音处理 # 人工智能 # 人机交互 # 自然语言处理

Voice Recognition

voicetotext.net是一个提供语音转文本服务的域名，支持多种语音输入方式和多种语言，适用于个人和商务使用，以及教育和媒体行业。

020

音频AI 音频编辑 # 语音识别 # 语音转文本

FireRedASR-AED-L

FireRedASR-AED-L 是一个开源的工业级自动语音识别模型，专为满足高效率和高性能的语音识别需求而设计。该模型采用基于注意力的编码器-解码器架构，支持普通话、中文方言和英语等多种语言。它在公共普通话语音识别基准测试中达到了新的最高水平，并且在歌唱歌词识别方面表现出色。该模型的主要优点包括高性能、低延迟和广泛的适用性，适用于各种语音交互场景。其开源特性使得开发者可以自由地使用和修改代码，进一步推动语音识别技术的发展。

020

语音处理 # 多语言 # 工业级 # 开源

科大讯飞-AI虚拟主播

科大讯飞AI虚拟主播解决方案利用讯飞的语音合成、人脸建模、形象驱动、图像处理等多项人工智能技术，实现了文本到视频的自动输出，并支持主播多语言视频生成。AI虚拟主播系统是“一站式虚拟主播视频生产和编辑服务”的系统，为开发者免费提供：涵盖语音能力增强型SDK，一站式人机智能语音交互解决方案，专业全面的移动应用分析。

020

AI编程开发开放平台 # AI虚拟主播 # 人脸识别 # 开放平台

AITalk From Trancy

AITalk From Trancy口语练习App是一款专为提高口语能力而设计的智能手机App，旨在为用户提供一站式的英语口语提高方案。无论你是初学者还是高级学习者，都能从中受益匪浅。该App凭借其独特的学习模式和强大的语音识别技术，帮助用户提高口语能力，准确发音和流利口语。

020

ai学习平台 AI语言学习 # 人工智能聊天机器人 # 口语练习 # 学习模式

Phi-4-multimodal-instruct

Phi-4-multimodal-instruct 是微软开发的多模态基础模型，支持文本、图像和音频输入，生成文本输出。该模型基于Phi-3.5和Phi-4.0的研究和数据集构建，经过监督微调、直接偏好优化和人类反馈强化学习等过程，以提高指令遵循能力和安全性。它支持多种语言的文本、图像和音频输入，具有128K的上下文长度，适用于多种多模态任务，如语音识别、语音翻译、视觉问答等。该模型在多模态能力上取得了显著提升，尤其在语音和视觉任务上表现出色。它为开发者提供了强大的多模态处理能力，可用于构建各种多模态应用。

020

智能聊天机器人 # AI模型 # 多模态 # 多语言

Microsoft Speech

Microsoft Azure的Speech to Text是一项强大的语音转文本服务，可以将音频文件或实时语音转换为可编辑和搜索的文本。支持高准确性的语音转换、实时转换、多语言支持和自定义词典等功能，适用于语音转写、实时字幕、语音搜索和自动化转写等场景。

020

文字转语音音频AI # 语音识别 # 语音转文本

EMOVA

EMOVA（EMotionally Omni-present Voice Assistant）是一个多模态语言模型，它能够进行端到端的语音处理，同时保持领先的视觉-语言性能。该模型通过语义-声学解耦的语音分词器，实现了情感丰富的多模态对话，并在视觉-语言和语音基准测试中达到了最先进的性能。

020

语音处理 # 多模态 # 情感分析 # 自然语言处理

Deepgram Voice Agent API

Deepgram Voice Agent API 是一个统一的语音到语音API，它允许人类和机器之间进行自然听起来的对话。该API由行业领先的语音识别和语音合成模型提供支持，能够自然且实时地听、思考和说话。Deepgram致力于通过其语音代理API推动语音优先AI的未来，通过集成先进的生成AI技术，打造能够进行流畅、类似人类语音代理的业务世界。

020

智能聊天机器人 # AI代理 # 实时对话 # 自然语言处理

Qwen2 Audio Instruct Demo

Qwen2 Audio Instruct Demo 是一个基于音频指令的交互式演示网站，它利用最新的人工智能技术，让用户通过语音指令与网页进行互动。这种技术不仅增强了用户体验，还为残障人士提供了更便捷的访问方式。产品背景信息包括其开发团队和技术支持，价格定位为免费试用，主要面向对人工智能交互感兴趣的用户群体。

010

语音处理 # 交互技术 # 人工智能 # 语音识别

Easy Voice Toolkit

Easy Voice Toolkit是一个基于开源语音项目的AI语音工具箱，提供包括语音模型训练在内的多种自动化音频工具。该工具箱能够无缝集成，形成完整的工作流程，用户可以根据需要选择性使用这些工具，或按顺序使用，逐步将原始音频文件转换为理想的语音模型。

020

音频处理 # 数据集创建 # 模型训练 # 语音识别

SynthMind Company Research Assistant

SynthMind AI是一款拥有专业技能的AI助手，可以帮助用户进行各种任务，包括寻找潜在客户、研究任何话题、查找知识库中的文档、以及SEO优化等。

020

创业启动工具商业AI # 自然语言处理 # 语音识别

Bing chat

Get product information, support, and news from Microsoft.Bing Chat是Microsoft Edge侧边栏内置的新Bing，用户可以提出复杂的问题，找到全面的答案，获取总结信息，找到建立的灵感，所有这些都可以在侧边栏视图中进行，无需在标签之间切换。

020

AI智能对话 AI赋能 # AI语音助手 # Bing chat # business

Argmax WhisperKit

WhisperKit由Argmax公司推出，是一个基于Whisper项目的推理工具包，它允许在iOS和macOS应用程序中进行语音识别和转录。该项目的目标是收集开发者反馈，并在几周内发布一个稳定的候选版本，以加速设备上推理的生产化。

020

销售管理 # iOS和macOS # 开发编程 # 开源项目

WAGPT

WAGPT是您在WhatsApp上的ChatGPT 3.5 Turbo助手，为您提供智能对话和个性化学习体验。

020

AI对话 # AI助手 # WhatsApp # 语音识别

ultravox-v0_4_1-mistral-nemo

ultravox-v0_4_1-mistral-nemo是一个基于预训练的Mistral-Nemo-Instruct-2407和whisper-large-v3-turbo的多模态语音大型语言模型（LLM）。该模型能够同时处理语音和文本输入，例如，一个文本系统提示和一个语音用户消息。Ultravox通过特殊的<|audio|>伪标记将输入音频转换为嵌入，并生成输出文本。未来版本计划扩展标记词汇以支持生成语义和声学音频标记，进而可以输入到声码器中产生语音输出。该模型由Fixie.ai开发，采用MIT许可。

010

智能翻译 # 多模态模型 # 混合精度训练 # 知识蒸馏

Encounter AI Advisor

Encounter AI - Advisor是一款利用SRI的隐马尔可夫模型（HMM）基础的语音识别技术，为多单位餐厅运营商提供实时的音频监控服务。它通过先进的技术，精准跟踪和分析餐厅层面的每一段对话，消除了常见的“他说/她说”的主观性问题，为零售领导者提供实时对话分析，帮助他们实现目标，增加收入。

020

语音处理 # 实时监控 # 客户服务 # 语音识别

ElevenLabs Scribe

Scribe 是由 ElevenLabs 开发的高精度语音转文字模型，旨在处理真实世界音频的不可预测性。它支持99种语言，提供单词级时间戳、说话人分离和音频事件标记等功能。Scribe 在 FLEURS 和 Common Voice 基准测试中表现卓越，超越了 Gemini 2.0 Flash、Whisper Large V3 和 Deepgram Nova-3 等领先模型。它显著降低了传统服务不足语言（如塞尔维亚语、粤语和马拉雅拉姆语）的错误率，这些语言在竞争模型中的错误率通常超过40%。Scribe 提供 API 接口供开发者集成，并将推出低延迟版本以支持实时应用。

020

语音处理 # API # 多语言 # 实时应用

Pi.ai

你好，很高兴见到你.我是派，你的私人人工智能。我的目标是成为有用的、友好的和有趣的人。你可以向我寻求建议，寻求答案，或者我们谈谈你的想法。

020

AI智能对话 AI赋能 # AI语音助手 # pi.ai # 人工智能客服

Baidu Speech Recognition

百度AI开放平台是全球领先的人工智能服务平台，提供语音、图像、NLP等多项人工智能技术，帮助用户提升竞争力，开创未来。

020

文字转语音音频AI # 文字识别 # 语音识别

Whisper Turbo.online

Whisper Turbo 是基于 Whisper Large-v3 模型优化的语音识别工具，专为快速语音转录而设计。它利用先进的 AI 技术，能够高效地将不同音频源的语音转换为文本，支持多种语言和口音。该工具免费提供给用户，旨在帮助人们节省时间和精力，提高工作效率。其主要面向需要快速准确转录语音内容的用户，如博主、内容创作者、企业等，为他们提供便捷的语音转文字解决方案。

020

语音处理 # AI # 免费 # 多语言

人人译视界

提供翻译服务，有一款字幕翻译软件，支持AI听译以及字幕编辑和翻译

010

专业领域语音识别 # 人人译视界 # 在线翻译 # 字幕编辑工具

Amazon Nova Sonic

Amazon Nova Sonic 是一款前沿的基础模型，能够整合语音理解和生成，提升人机对话的自然流畅度。该模型克服了传统语音应用中的复杂性，通过统一的架构实现更深层次的交流理解，适用于多个行业的 AI 应用，具有重要的商业价值。随着人工智能技术的不断发展，Nova Sonic 将为客户提供更好的语音交互体验，提升服务效率。

020

智能聊天机器人 # 人工智能 # 多行业应用 # 对话系统

Macaify

使用这个令人难以置信的应用程序，随时随地在您的Mac电脑上释放ChatGPT的强大功能。通过与ChatGPT及其他平台无缝对接，将您的生产力提升到新的高度。

020

AI智能问答 AI赋能 # AI语音助手 # Macaify # 人工智能办公工具

全诊通Aioclinic

通过语音识别、图片识别、大语言模型等技术，帮助医生自动生成病历，提升病历书写效率和质量，同时保护患者隐私

020

AIGC行业应用 AI生命科学 # AI医生助理 # AI生命科学 # API集成

IBM Speech To Text

IBM Watson Speech to Text是一款准确、可定制的语音转文本API，通过先进的AI技术，将语音转录为多种语言的文本，适用于客户自助服务、通话分析和坐席辅助等场景。

020

文字转语音音频AI # 语音识别

BookAI.chat

BookAI.chat有超过30种语言，你可以用你的母语或你正在学习的语言与你的书聊天。

020

AI智能对话 AI赋能 # AI语音助手 # 人工智能客服 # 人工智能虚拟机器人

OmniSenseVoice

OmniSenseVoice是基于SenseVoice优化的语音识别模型，专为快速推理和精确时间戳设计，提供更智能、更快速的音频转录方式。

020

语音处理 # GPU加速 # 多语言支持 # 开源

Megrez-3B-Omni

Megrez-3B-Omni是由无问芯穹研发的端侧全模态理解模型，基于大语言模型Megrez-3B-Instruct扩展，具备图片、文本、音频三种模态数据的理解分析能力。该模型在图像理解、语言理解、语音理解方面均取得最优精度，支持中英文语音输入及多轮对话，支持对输入图片的语音提问，根据语音指令直接响应文本，在多项基准任务上取得了领先的结果。

020

图像生成 # 全模态理解 # 图像识别 # 端侧部署

Azure 认知服务语音

Azure 认知服务语音是微软推出的一款语音识别与合成服务，支持超过100种语言和方言的语音转文本和文本转语音功能。它通过创建可处理特定术语、背景噪音和重音的自定义语音模型，提高听录的准确度。此外，该服务还支持实时语音转文本、语音翻译、文本转语音等功能，适用于多种商业场景，如字幕生成、通话后听录分析、视频翻译等。

020

语音处理 # 多语言支持 # 实时交互 # 自定义模型

Voiser

Voiser是一款基于人工智能技术的语音合成和语音识别工具，可以将文字转换为真实的人声，并将语音文件转换为文字。

020

文字转语音音频AI # 语音合成 # 语音识别

Amazon Transcribe

Amazon Transcribe是一种自动语音识别服务，能够将语音转换为文本，准确度高，适用于会议记录、媒体转写等场景。

010

文字转语音音频AI # 自动转写 # 语音识别

Fluent.ai

Fluent.ai是一家语音识别软件公司，提供离线、噪声鲁棒和多语言的语音识别解决方案，适用于各种设备和应用场景。

010

电子表格编程AI # 离线识别 # 语音识别

Speechly

Speechly是一家提供语音识别和自然语言理解工具的公司，旨在通过语音交互提供更愉悦的在线体验，并增强人与人之间的沟通。他们的语音识别产品和解决方案可以帮助在线社区和游戏平台减少有害言论和不当行为，提升社区的安全性和文明度。

020

音频AI 音频编辑 # 内容审核 # 语音识别

Claude 2 镜像站

访问Claude 2 AI，这是Anthropic在finecha.AI中的杰作。比较Claude 2中与ChatGPT4，了解Claude定价，了解Clade API，在Slack和Zoom等平台中实现集成。无论您；We好奇Claude 2.0；的功能，Claude Instant和Claude 2之间的区别，或者如何访问Claude 2中的AI登录，这本全面的指南应有尽有。与Claude 2一起体验对话式人工智能的未来，现在可在finecht.AI上为全球用户提供。

020

AI智能问答 AI赋能 # AI语音助手 # Claude 2 # FineChat

啦啦爱LALAAI

从任何音频和视频中提取人声、伴奏和各种乐器，

020

音频 # 语音识别

Saba AI

Saba.AI是一款智能助手，通过智能语音识别、信息整合、智能推荐和智能学习等功能，帮助用户提高工作效率和生活质量。

020

商业AI 销售量 # 智能助手 # 语音识别

Blahget

Blahget是一款智能AI语音驱动的预算助手，可以通过语音记录支出和收入，支持多种操作，包括创建、编辑、删除、搜索、筛选、排序、计算等，满足不同用户的需求。

020

商业AI 私人助理 # 智能AI # 语音识别

AITalk From Trancy官网

020

ai学习平台 AI语言学习 # 人工智能聊天机器人 # 口语练习 # 学习模式

DuRT

DuRT 是一款专注于 macOS 系统的语音识别和翻译工具。它通过本地 AI 模型和系统服务实现语音的实时识别与翻译，支持多种语音识别方法，提高了识别的准确度和语言支持范围。该产品以悬浮框形式展示结果，方便用户在使用过程中快速获取信息。其主要优点包括高准确度、隐私保护（不收集用户信息）以及便捷的操作体验。DuRT 定位为一款高效生产力工具，旨在帮助用户在多语言环境下更高效地进行沟通和工作。目前产品可在 Mac App Store 下载，具体价格未在页面中明确提及。

020

智能翻译 # macOS # 生产力工具 # 翻译

Google Cloud Speech-To-Text

Google Cloud的Speech-to-Text是一种自动语音识别服务，可以将语音准确转换为文本，提供高精度的语音转文本功能，适用于提升客户服务、实现语音控制和转录多媒体内容等场景。

020

文字转语音音频AI # 自动转文本 # 语音识别

Kaldi Speech Recognition Toolkit

Kaldi ASR是一款先进的语音识别系统，具有高质量的语音识别能力和灵活的定制化选项，适用于语音助手、电话客服、语音翻译等场景。

010

文字转语音音频AI # 开源工具 # 语音识别

Poly ai官网

Poly AI语音助手是一款智能语音交互软件，旨在打造高效办公环境。通过人工智能技术，实现语音识别、语音合成、语音转文字等多种功能。让您的工作更加轻松、高效。

020

AI语音合成 AI语音生成-文转音 # AIGC运营平台 # AI营销工具 # AI语音助手

场辞-AI视频字幕制作软件

场辞,AI视频字幕制作软件，一款基于语音识别技术的视频字幕制作软件，一键智能识别字幕，提供语音转字幕、一键加字幕、视频加字幕，字幕快捷校对等功能，用AI加速你的创作。

020

Ai工具箱 AI语音工具 # 场辞 # 字幕 # 新片场

通义听悟官网

通义听悟是阿里云通义家族新成员，是一款聚焦于音视频内容的工作学习AI助手.

020

AI办公助手 AI办公工具 # 关键词提取 # 大模型 # 工作学习AI助手

AI语音合成【标贝科技】

标贝科技-专业AI语音服务的人工智能开放平台，提供语音识别、语音合成、语音拓展、图像标注等人工智能服务，为全行业开发者提供智能语音API接口，智能语音SDK，一站式人工智能语音交互技术方案!

010

AI音频人工智能引擎 # AI主播 # AI开放平台 # ASR

Braina Pro

Brainasoft是一家领先的人工智能交易和研发公司，提供Braina AI虚拟助手、FireCMD命令提示符和控制台模拟器以及Musica语音控制音乐播放器等产品，帮助用户快速完成各种任务。

020

音频AI 音频编辑 # 人工智能 # 语音识别

SpeechFlow

SpeechFlow Speech Recognition API 是一款功能强大的工具，可将声音转换为文本、语音转换为文本和音频转换为文本，准确率高达 14 种语言。

020

AI赋能 AI音频工具 # API # ASR # 在线语音到文本

Llama3-s v0.2

Llama3-s v0.2 是 Homebrew Computer Company 开发的多模态检查点，专注于提升语音理解能力。该模型通过早期融合语义标记的方式，利用社区反馈进行改进，以简化模型结构，提高压缩效率，并实现一致的语音特征提取。Llama3-s v0.2 在多个语音理解基准测试中表现稳定，并提供了实时演示，允许用户亲自体验其功能。尽管模型仍在早期开发阶段，存在一些限制，如对音频压缩敏感、无法处理超过10秒的音频等，但团队计划在未来更新中解决这些问题。

010

语音处理 # 多模态学习 # 机器学习 # 自然语言处理

ultravox-v0_4_1-llama-3_1-8b

fixie-ai/ultravox-v0_4_1-llama-3_1-8b是一个基于预训练的Llama3.1-8B-Instruct和whisper-large-v3-turbo的大型语言模型，能够处理语音和文本输入，生成文本输出。该模型通过特殊的<|audio|>伪标记将输入音频转换为嵌入，并生成输出文本。未来版本计划扩展标记词汇以支持生成语义和声学音频标记，进而可以用于声码器产生语音输出。该模型在翻译评估中表现出色，且没有偏好调整，适用于语音代理、语音到语音翻译、语音分析等场景。

020

智能翻译 # 多模态模型 # 大型语言模型 # 语音翻译

SenseVoiceSmall

SenseVoiceSmall是一款具备多种语音理解能力的语音基础模型，包括自动语音识别（ASR）、口语语言识别（LID）、语音情感识别（SER）和音频事件检测（AED）。该模型经过超过40万小时的数据训练，支持超过50种语言，识别性能超越Whisper模型。其小型模型SenseVoice-Small采用非自回归端到端框架，推理延迟极低，处理10秒音频仅需70毫秒，比Whisper-Large快15倍。此外，SenseVoice还提供便捷的微调脚本和策略，支持多并发请求的服务部署管道，客户端语言包括Python、C++、HTML、Java和C#等。

020

音频处理 # 多语言支持 # 情感分析 # 语音识别

Cresta AI

自助服务、实时辅导和呼叫后的洞察力。人工智能驱动的联络中心智能使团队能够使每一次客户对话都有价值。

020

AI营销工具 AI赋能 # AI客服 # AI语音助手 # Cresta AI

Dictation IO

Dictation IO是一个免费的在线语音识别软件，可以帮助您使用语音叙述，无需打字即可编写电子邮件、文档和论文。支持多种语言和口音，识别精度高，操作简单，用户体验良好。

020

AI写作与文本 # Google Chrome插件 # 在线工具 # 更多关键词

Moonshine Web

Moonshine Web是一个基于React和Vite构建的简单应用，它运行了Moonshine Base，这是一个针对快速准确自动语音识别（ASR）优化的强大语音识别模型，适用于资源受限的设备。该应用在浏览器端本地运行，使用Transformers.js和WebGPU加速（或WASM作为备选）。它的重要性在于能够为用户提供一个无需服务器即可在本地进行语音识别的解决方案，这对于需要快速处理语音数据的应用场景尤为重要。

020

语音处理 # ASR # Transformers.js # WebGPU

Neon AI官网

利用Neon AI的授权技术创建最...Neon AI是一款智能人工语音助手，拥有强大的语音识别及自然语言处理能力，能够针对用户的需求提供个性化的服务与支持。

020

AI无代码编程 AI编程开发 # AIGC开发平台 # AI低(无)代码编程 # 个性化服务

Retell

Retell AI是一个强大的AI代理构建平台，允许用户快速构建和测试复杂的工作流程，并通过电话呼叫、网络呼叫或任何其他地方部署它们。该平台支持使用任何大型语言模型（LLM），并提供了实时的交互体验，包括人类般的声音和语音克隆支持。Retell AI的主要优点包括低延迟、高稳定性和符合HIPAA标准的安全性。

020

客户服务 # AI # 客户服务 # 自动化

whisper-diarization

whisper-diarization是一个结合了Whisper自动语音识别(ASR)能力、声音活动检测(VAD)和说话人嵌入技术的开源项目。它通过提取音频中的声音部分来提高说话人嵌入的准确性，然后使用Whisper生成转录文本，并通过WhisperX校正时间戳和对齐，以减少由于时间偏移导致的分割错误。接着，使用MarbleNet进行VAD和分割以排除静音，TitaNet用于提取说话人嵌入以识别每个段落的说话人，最后将结果与WhisperX生成的时间戳关联，基于时间戳检测每个单词的说话人，并使用标点模型重新对齐以补偿小的时间偏移。

010

语音处理 # 声音活动检测 # 自动转录 # 语音识别

Labelbox

了解领先团队如何使用Labelbox构建人工智能应用程序、训练和微调模型，以及使用LLM实现任务自动化.

020

AI在线工具 AI赋能 # AI技术 # Labelbox # LLM（Large Language Model）

whisper-ner-v1

Whisper-NER是一个创新的模型，它允许同时进行语音转录和实体识别。该模型支持开放类型的命名实体识别（NER），能够识别多样化和不断演变的实体。Whisper-NER旨在作为自动语音识别（ASR）和NER下游任务的强大基础模型，并且可以在特定数据集上进行微调以提高性能。

020

语音处理 # 命名实体识别 # 实体识别 # 开放类型NER

Bulletpen

Bulletpen是一款创新的AI写作应用，旨在帮助用户将口头表达转化为高质量的书面文本。它通过语音识别和自然语言处理技术，将用户的口语内容进行优化和润色，生成结构清晰、语言流畅的书面文本。该产品的主要优点是能够显著提高写作效率，尤其适合那些在写作时感到困难或缺乏灵感的用户。Bulletpen由17岁的高中生Rexan Wong开发，目标是为学生、作家和内容创作者提供一个简单易用的写作辅助工具。它提供免费和付费两种计划，满足不同用户的需求。

010

文案写作 # AI写作 # 内容优化 # 多风格

Whisper (OpenAI)

这是OpenAI的Whisper项目网站，它可以将语音或视频翻译成文本，并进行语言翻译。该项目可以用于语音转文本和文本翻译等领域。

020

AI音频与视频 # OpenAI # Whisper # 文本翻译

NeuralSpace

NeuralSpace是一家领先的人工智能企业解决方案提供商，通过自动化工作流程和智能语言处理技术，帮助企业提高效率、降低成本并增加生产力。

020

文字转语音音频AI # 付费 # 文档处理 # 语音识别

CMU Pocketsphinx

CMUSphinx是一个开源的语音识别系统，支持多种编程语言和平台，适用于开发语音助手、语音转写和语音控制等应用场景。

020

文字转语音音频AI # 开源 # 语音识别

Hanami live translator

Hanami live translator是一个基于GitHub平台的实时翻译工具，可捕捉来自Windows扬声器或麦克风的任何音频并将其翻译成所需的语言。该网站有一个公共主分支和一个标签，同时具有GitHub Actions功能，可自动化软件工作流程。

020

AI音频与视频 # GitHub # Windows # 实时翻译工具

Rasa

Rasa提供灵活的对话式人工智能软件，用于构建基于文本和语音的助手。被世界各地的开发人员、对话团队和企业使用。

020

AI在线工具 AI赋能 # ai应用 # NLP技术 # Rasa

AI-Powered Meeting Summarizer

AI-Powered Meeting Summarizer是一个基于Gradio的网站应用，能够将会议录音转换为文本，并使用whisper.cpp进行音频到文本的转换，以及Ollama服务器进行文本摘要。该工具非常适合快速提取会议中的关键点、决策和行动项目。

010

语音处理 # Gradio # Whisper # 文本摘要

StreamSpeech

StreamSpeech是一款基于多任务学习的实时语音到语音翻译模型。它通过统一框架同时学习翻译和同步策略，有效识别流式语音输入中的翻译时机，实现高质量的实时通信体验。该模型在CVSS基准测试中取得了领先的性能，并能提供低延迟的中间结果，如ASR或翻译结果。

020

智能翻译 # 多任务学习 # 实时翻译 # 语音合成

Seamless Communication

强大的AI同声传译工具，它通过实时处理和翻译语音，极大地促进了跨语言沟通。其低延迟、高准确度和多语言支持的特点，使其成为国际会议、多语言工作环境和任何需要实时语音翻译的场景的理想选择。

020

AIGC音频工具 AI同声传译 # AI同声传译 # AI驱动 # Seamless Communication

Robo Blogger

Robo Blogger是一个专注于将语音转换为博客文章的人工智能助手。它通过捕捉自然语言中的创意，将其结构化为有条理的博客内容，同时可以结合参考资料以确保文章的准确性和深度。这个工具基于之前Report mAIstro项目的概念，专为博客文章创作优化。通过分离创意捕捉和内容结构化，Robo Blogger帮助保持原始想法的真实性，同时确保专业呈现。

020

文案写作 # 人工智能 # 内容创作 # 博客写作

Kaldi Speech-to-Text

Kaldi ASR是一款先进的语音识别系统，具有高准确率、高性能和灵活的定制化选项。它可以应用于电话录音转写、语音助手和语音翻译等场景，为用户提供高质量的自动语音识别服务。

020

文字转语音音频AI # 开源工具 # 语音识别

音刻

音刻转录是一款专注于音视频转录的在线工具，通过先进的语音识别技术，能够快速将音频或视频文件转换为文本。其主要优点包括转录速度快、准确率高、支持多种语言和文件格式。产品定位为高效办公和学习辅助工具，旨在帮助用户节省时间和精力，提升工作效率。音刻转录提供免费试用版本，用户可以体验其核心功能，付费版本则提供更多高级功能和大文件支持，满足不同用户的需求。

010

语音处理 # 办公辅助 # 多语言 # 搞笑

Talk-to-ChatGPT

通过麦克风与ChatGPT进行语音交互，无需键盘，提供更加便捷的交互方式。

020

音频AI 音频编辑 # 免费 # 文本转语音 # 语音识别

Say My Name!

Say My Name! 是一款以趣味和个性化为核心的语音识别应用。它利用先进的语音识别技术，让用户的设备能够识别和响应用户的声音，尤其是用户的名字。这款应用不仅增加了用户与设备互动的乐趣，还提升了操作的便捷性。Say My Name! 的主要优点包括高准确率的语音识别、个性化的口令设置以及用户友好的操作界面。

030

语音处理 # 个性化 # 便捷操作 # 语音识别

Universal-2

Universal-2是AssemblyAI推出的最新语音识别模型，它在准确度和精确度上超越了前一代Universal-1，能够更好地捕捉人类语言的复杂性，为用户提供无需二次检查的音频数据。这一技术的重要性在于它能够为产品体验提供更敏锐的洞察力、更快的工作流程和一流的产品体验。Universal-2在专有名词识别、文本格式化和字母数字识别方面都有显著提升，减少了实际应用中的词错误率。

020

音频处理 # AI模型 # 数据管理 # 自动化

xiaozhi-esp32

xiaozhi-esp32 是一个开源的 AI 聊天机器人项目，基于乐鑫的 ESP-IDF 开发。它将大语言模型与硬件设备相结合，使用户能够打造出个性化的 AI 伴侣。项目支持多种语言的语音识别与对话，具备声纹识别功能，能够识别不同用户的语音特征。其开源特性降低了 AI 硬件开发的门槛，为学生、开发者等群体提供了宝贵的学习资源，有助于推动 AI 技术在硬件领域的应用与创新。项目目前免费开源，适合不同层次的开发者进行学习与二次开发。

030

智能聊天机器人 # AI # esp32 # 开源

Transcribro

Transcribro是一款运行在Android平台上的私有、设备端语音识别键盘和文字服务应用，它使用whisper.cpp来运行OpenAI Whisper系列模型，并结合Silero VAD进行语音活动检测。该应用提供了语音输入键盘，允许用户通过语音进行文字输入，并且可以被其他应用显式使用，或者设置为用户选择的语音转文字应用，部分应用可能会使用它来进行语音转文字。Transcribro的背景是为用户提供一种更安全、更私密的语音转文字解决方案，避免了云端处理可能带来的隐私泄露问题。该应用是开源的，用户可以自由地查看、修改和分发代码。

030

语音处理 # android # 开源 # 语音识别

Shortcut by Poised

Shortcut by Poised是一个基于语音的AI助手，旨在通过自然对话的方式提升用户的工作效率。它允许用户通过语音输入快速获得答案、整理思路、起草消息、电子邮件和文档，同时保持工作流程的连贯性。产品通过AI技术将自然语言转换为精炼的文本，并提供多种语言风格选项，满足不同场合的需求。Shortcut by Poised的背景信息显示，它在Product Hunt上发布，并即将推出Windows和移动应用版本，目前Mac版本已可下载。

040

文案写作 # AI助手 # 个性化 # 工作效率

OpenVoiceChat

OpenVoiceChat是一个开源项目，旨在提供一个与大型语言模型（LLM）进行自然语音对话的平台。它支持多种语音识别（STT）、文本到语音（TTS）和LLM模型，允许用户通过语音与AI进行交互。项目采用Apache-2.0许可，强调开放性和易用性，目标是成为封闭商业实现的开源替代品。

030

语音处理 # 开源 # 文本到语音 # 自然语言处理

WeST

WeST是一个开源的语音识别转录模型，以300行代码的简洁形式，基于大型语言模型（LLM）实现语音到文本的转换。它由一个大型语言模型、一个语音编码器和一个投影器组成，其中仅投影器部分可训练。WeST的开发灵感来源于SLAM-ASR和LLaMA 3.1，旨在通过简化的代码实现高效的语音识别功能。

030

语音处理 # 开源 # 机器学习 # 自然语言处理

ultravox-v0_4_1-llama-3_1-70b

fixie-ai/ultravox-v0_4_1-llama-3_1-70b是一个基于预训练的Llama3.1-70B-Instruct和whisper-large-v3-turbo的大型语言模型，能够处理语音和文本输入，生成文本输出。该模型通过特殊伪标记<|audio|>将输入音频转换为嵌入，并与文本提示合并后生成输出文本。Ultravox的开发旨在扩展语音识别和文本生成的应用场景，如语音代理、语音到语音翻译和口语音频分析等。该模型遵循MIT许可，由Fixie.ai开发。

030

文案写作 # 多模态 # 大型语言模型 # 文本生成

智东西

智东西是中国领先的智能产业媒体和创新服务平台。聚焦于以人工智能为核心的新技术驱动的创新创业和传统产业升级。自创立以来，智东西以“聚焦智能变革服务产业升级”为愿景，已形成媒体、公开课以及产业活动三大产品业务体系，并构建了庞大的智能产业垂直社群。

060

03-科技数码 # 03-科技数码 # AI芯片 # CPU

场辞

一款基于语音识别技术的视频字幕制作软件，提供语音转字幕、一键加字幕、视频加字幕，字幕快捷校对等功能，最快5min即可完成1小时的视频字幕制作，准确率高达97.5%。

050

字幕配音 # AI字幕 # 后期 # 场辞

场辞

060

字幕配音 # AI字幕 # 后期 # 场辞

ArcTime Pro跨平台字幕软件

ArcTime是使用Java编写的免费跨平台字幕软件，是一款全新概念的可视化字幕编辑器，独创字幕块概念，在时间线上拖动、调整字幕块即可轻松完成字幕创建工作。

070

字幕配音 # AE字幕 # After Effects字幕 # ArcTime

ArcTime Pro跨平台字幕软件

050

字幕配音 # AE字幕 # After Effects字幕 # ArcTime

Notis

介绍 Notis 是一个基于语音的生产力工具，用于 Noti...

090

生产力 # crm # notion # 任务管理

Cubox

Cubox是一款专为深度阅读与学习设计的智能工具，利用先进的人工智能技术自动解读文章内容，充分释放用户在高亮标 […]

080

AI办公工具 AI工具导航 # AI # annotation # bookmark

AI应用导航网

打赏赞微海报分享

060

一为导航导航网站 # AI # AI applications # AIGC

AI工具箱

打赏赞微海报分享

080

一为导航导航网站 # AI工具合集 # AI工具导航 # AI工具箱官网

ArcTime Pro跨平台字幕软件

打赏赞微海报分享

070

短视频运营编辑后期 # AE字幕 # After Effects字幕 # ArcTime

智东西

打赏赞微海报分享

070

新闻热榜科技新闻 # AI芯片 # CPU # GPU

度加剪辑

度加剪辑是百度官方出品的一款简洁、好用的视频剪辑工具，专为泛知识类作者设计。通过简单易用的剪辑功能、高效准确的智能识别字幕能力以及与百度网盘的打通，帮助用户高效地完成视频作品，降低创作门槛，助力生产优质的作品。

0140

视频工具 # ducut # vlog编辑器 # 免费视频编辑软件

知意字稿

知意字稿专注于通过AI来实现在线声音转文字、声音转成字幕文件，识别准、速度快，能够有效帮助用户快速识别，完成音频整理、文案提取等工作。除了音/视频转文字/字幕等功能外，还提供图片文字提取、表格图片提取等其他各类转写/转换操作。

0220

AI语言翻译 # 字幕制作软件 # 录音整理 # 录音转文字

联想语音 Lenovo voice

05.5K0

软件官网软件工具 # 会议助手 # 会议纪要整理 # 会议纪要整理免费

ArcTime Pro跨平台字幕软件

免费、简单、强大、高效的跨平台字幕制作软件

016K0

没有了