fixafixa是一个专注于AI语音代理测试与可观测性的平台,旨在帮助开发者和企业快速发现并修复语音代理中的问题。通过自动化测试、生产监控和错误检测等功能,确保语音代理的稳定性和可靠性。该平台由Y Combinator资助,提供简单透明的定价策略,适合不同规模的企业使用。
EmiliaEmilia是一个开源的多语种野外语音数据集,专为大规模语音生成研究设计。它包含超过101,000小时的六种语言高质量语音数据和相应的文本转录,覆盖了各种说话风格和内容类型,如脱口秀、访谈、辩论、体育评论和有声书。
WhisperNERWhisperNER是一个结合了自动语音识别(ASR)和命名实体识别(NER)的统一模型,具备零样本能力。该模型旨在作为ASR带NER的下游任务的强大基础模型,并可以在特定数据集上进行微调以提高性能。WhisperNER的重要性在于其能够同时处理语音识别和实体识别任务,提高了处理效率和准确性,尤其在多语言和跨领域的场景中具有显著优势。
aTrainaTrain是由格拉茨大学商业分析与数据科学中心的研究人员开发,并由格拉茨知识中心的研究人员测试的一款离线语音转录工具。它利用最新的机器学习模型,无需上传任何数据即可自动转录语音录音。aTrain在《行为与实验金融学杂志》上发表的论文中被介绍,如果用于研究,请引用该论文。它支持Windows 10和11系统,用户可以通过Microsoft应用商店或BANDAS中心网站下载安装。对于Linux系统,提供了Wiki上的安装指南。aTrain的主要优点包括无需上传数据的隐私保护、高质量的转录质量、以及在本地计算机上的快速处理速度。
WeSTWeST是一个开源的语音识别转录模型,以300行代码的简洁形式,基于大型语言模型(LLM)实现语音到文本的转换。它由一个大型语言模型、一个语音编码器和一个投影器组成,其中仅投影器部分可训练。WeST的开发灵感来源于SLAM-ASR和LLaMA 3.1,旨在通过简化的代码实现高效的语音识别功能。
whisper-ner-v1Whisper-NER是一个创新的模型,它允许同时进行语音转录和实体识别。该模型支持开放类型的命名实体识别(NER),能够识别多样化和不断演变的实体。Whisper-NER旨在作为自动语音识别(ASR)和NER下游任务的强大基础模型,并且可以在特定数据集上进行微调以提高性能。
音刻音刻转录是一款专注于音视频转录的在线工具,通过先进的语音识别技术,能够快速将音频或视频文件转换为文本。其主要优点包括转录速度快、准确率高、支持多种语言和文件格式。产品定位为高效办公和学习辅助工具,旨在帮助用户节省时间和精力,提升工作效率。音刻转录提供免费试用版本,用户可以体验其核心功能,付费版本则提供更多高级功能和大文件支持,满足不同用户的需求。