基准测试

共 5 篇网址

排序

发布更新浏览点赞

Benchmark Medical RAG

Benchmark Medical RAG是一个专注于医疗领域的检索式问答（Retrieval-Augmented Generation）基准测试平台。它提供了一系列的数据集和评估工具，旨在推动医疗信息检索和生成模型的研究。

010

医疗健康 # 信息检索 # 医疗问答 # 基准测试

M2RAG

M2RAG是一个用于多模态上下文中的检索增强生成的基准测试代码库。它通过多模态检索文档来回答问题，评估多模态大语言模型（MLLMs）在利用多模态上下文知识方面的能力。该模型在图像描述、多模态问答、事实验证和图像重排等任务上进行了评估，旨在提升模型在多模态上下文学习中的有效性。M2RAG为研究人员提供了一个标准化的测试平台，有助于推动多模态语言模型的发展。

010

智能聊天机器人 # 事实验证 # 图像 # 基准测试

Elimination Game

Elimination Game 是一种创新的基准测试框架，用于评估大语言模型（LLMs）在复杂社交环境中的表现。它模拟了类似‘狼人杀’的多玩家竞争场景，通过公开讨论、私下交流和投票淘汰机制，测试模型的社交推理、策略选择和欺骗能力。该框架不仅为研究 AI 在社交博弈中的智能性提供了重要工具，还为开发者提供了洞察模型在现实社交场景中潜力的机会。其主要优点包括多轮互动设计、动态联盟与背叛机制以及详细的评估指标，能够全面衡量 AI 的社交能力。

010

社交媒体 # AI 教育 # 人工智能 # 基准测试

Procyon AI Image Generation Benchmark

Procyon AI Image Generation Benchmark 是一款由 UL Solutions 开发的基准测试工具，旨在为专业用户提供一个一致、准确且易于理解的工作负载，用以测量设备上 AI 加速器的推理性能。该基准测试与多个关键行业成员合作开发，确保在所有支持的硬件上产生公平且可比较的结果。它包括三个测试，可测量从低功耗 NPU 到高端独立显卡的性能。用户可以通过 Procyon 应用程序或命令行进行配置和运行，支持 NVIDIA® TensorRT™、Intel® OpenVINO™ 和 ONNX with DirectML 等多种推理引擎。产品主要面向工程团队，适用于评估推理引擎实现和专用硬件的通用 AI 性能。价格方面，提供免费试用，正式版为年度场地许可，需付费获取报价。

010

图像生成 # AI # 专业用户 # 图像生成

LAMDA-TALENT

LAMDA-TALENT是一个综合的表格数据分析工具箱和基准测试平台，它集成了20多种深度学习方法、10多种传统方法以及300多个多样化的表格数据集。该工具箱旨在提高模型在表格数据上的性能，提供强大的预处理能力，优化数据学习，并支持用户友好和适应性强的操作，适用于新手和专家数据科学家。

010

办公助手 # 基准测试 # 数据科学 # 机器学习