FlashInferFlashInfer是一个专为大型语言模型(LLM)服务而设计的高性能GPU内核库。它通过提供高效的稀疏/密集注意力机制、负载平衡调度、内存效率优化等功能,显著提升了LLM在推理和部署时的性能。FlashInfer支持PyTorch、TVM和C++ API,易于集成到现有项目中。其主要优点包括高效的内核实现、灵活的自定义能力和广泛的兼容性。FlashInfer的开发背景是为了满足日益增长的LLM应用需求,提供更高效、更可靠的推理支持。020代码辅助# GPU# LLM# 注意力机制
Artist 100 百大艺术家孵化计划Artist 100 2024 NVIDIA Studio × ZCOOL 百大艺术家孵化计划 虚位以待!020AI竞赛AI绘画大赛# 3D建模# AIGC# AIPC
ZETIC.ai翻译站点ZETIC.ai: ZETIC.ai是一个在设备上运行的AI软件初创公司,利用NPUs提供无服务器AI解决方案,直接在移动设备上运行AI模型。它为各种SoC NPUs提供了优化的AI模型,适用于Android、iOS和Windows等平台。020其他# AI# aicloud# aiondevice
JuiceJuice是一个项目,它可以让GPU完全成为网络附加设备。利用GPU的自然负载平衡遥测,使GPU可以在多个客户端和任务之间共享。Juice Labs | 允许GPU完全连接到网络。Graphics & compute should flow like electricity. Our software opens up a world where virtual, remote GPU is an affordable and easily-accessed utility.000AI开发与编程# GPU# Juice# 开发工具
kelindar/searchkelindar/search 是一个Go语言库,它提供了嵌入式向量搜索和语义嵌入的功能,基于llama.cpp构建。这个库特别适合于小到中型项目,需要强大的语义搜索能力,同时保持简单高效的实现。它支持GGUF BERT模型,允许用户利用复杂的嵌入技术,而不需要深陷传统搜索系统的复杂性。该库还提供了GPU加速功能,能够在支持的硬件上快速进行计算。如果你的数据集少于100,000条目,这个库可以轻松集成到你的Go应用中,实现语义搜索功能。020搜索引擎优化# BERT# GGUF# GPU
Deci翻译站点Deci: Deci是一个深度学习开发平台,为开发人员提供加速边缘或云端推理、快速上线产品和最大化硬件潜力的能力。020AI图像识别# ai图像识别# autonomousvehicles# gaming
智东西智东西是中国领先的智能产业媒体和创新服务平台。聚焦于以人工智能为核心的新技术驱动的创新创业和传统产业升级。自创立以来,智东西以“聚焦智能变革 服务产业升级”为愿景,已形成媒体、公开课以及产业活动三大产品业务体系,并构建了庞大的智能产业垂直社群。06003-科技数码# 03-科技数码# AI芯片# CPU