高性能计算

共 13 篇网址

排序

发布更新浏览点赞

FlexHeadFA

FlexHeadFA 是一个基于 FlashAttention 的改进模型，专注于提供快速且内存高效的精确注意力机制。它支持灵活的头维度配置，能够显著提升大语言模型的性能和效率。该模型的主要优点包括高效利用 GPU 资源、支持多种头维度配置以及与 FlashAttention-2 和 FlashAttention-3 兼容。它适用于需要高效计算和内存优化的深度学习场景，尤其在处理长序列数据时表现出色。

020

生产力 # 内存优化 # 注意力机制 # 深度学习

蓝耘元生代MaaS

蓝耘元生代 AIDC OS 是一款专注于 GPU 算力云服务的产品，旨在为企业和开发者提供强大的计算能力和灵活的资源配置。该产品支持多种 GPU 型号，按需计费，适用于深度学习、图形渲染等领域。其主要优点在于高性能的计算资源、可扩展的存储解决方案以及合规的云服务环境，满足不同规模企业的需求。价格为每小时 1.50 元到 1.60 元不等，依据所选 GPU 型号而定。

020

代码辅助 # GPU 算力 # 企业级 # 开发编程

国家超级计算天津中心

国家超级计算天津中心是2009年5月批准成立的首家国家级超级计算中心，部署有2010年11月世界超级计算机TOP500排名第一的“天河一号”超级计算机和“天河三号”原型机系统，构建有超算中心、云计算中心、电子政务中心、大数据和人工智能研发环境，是我国目前应用范围最广、研发能力最强的超级计算中心,为全国的科研院所、大学、重点企业提供了广泛的高性能计算、云计算、大数据、人工智能等高端信息技术服务。

020

超算中心超级计算 # tianjin # 云主机 # 云计算

FlashInfer

FlashInfer是一个专为大型语言模型（LLM）服务而设计的高性能GPU内核库。它通过提供高效的稀疏/密集注意力机制、负载平衡调度、内存效率优化等功能，显著提升了LLM在推理和部署时的性能。FlashInfer支持PyTorch、TVM和C++ API，易于集成到现有项目中。其主要优点包括高效的内核实现、灵活的自定义能力和广泛的兼容性。FlashInfer的开发背景是为了满足日益增长的LLM应用需求，提供更高效、更可靠的推理支持。

020

代码辅助 # GPU # LLM # 注意力机制

FastVideo

FastVideo是一个开源框架，旨在加速大型视频扩散模型。它提供了FastHunyuan和FastMochi两种一致性蒸馏视频扩散模型，实现了8倍推理速度提升。FastVideo基于PCM（Phased-Consistency-Model）提供了首个开放的视频DiT蒸馏配方，支持对最先进的开放视频DiT模型进行蒸馏、微调和推理，包括Mochi和Hunyuan。此外，FastVideo还支持使用FSDP、序列并行和选择性激活检查点进行可扩展训练，以及使用LoRA、预计算潜在和预计算文本嵌入进行内存高效微调。FastVideo的开发正在进行中，技术高度实验性，未来计划包括增加更多蒸馏方法、支持更多模型以及代码更新。

020

视频创作 # 开源框架 # 推理加速 # 蒸馏

Rain AI

Rain AI专注于开发高能效的人工智能硬件。在当前能源消耗日益增长的背景下，Rain AI的产品通过优化硬件设计，减少能源消耗，同时保持高性能，这对于数据中心和需要大量计算资源的企业来说至关重要。产品的主要优点包括高能效、高性能和环保。Rain AI的产品背景信息显示，公司致力于推动人工智能技术的可持续发展，通过技术创新减少对环境的影响。产品的价格和定位尚未明确，但可以推测其目标市场为需要高性能计算且对能源效率有高要求的企业。

020

数据分析 # 人工智能 # 数据中心 # 硬件

WSE-3

Cerebras Systems宣布推出其第三代5纳米晶圆级引擎（WSE-3），这是一款专为训练业界最大AI模型而设计的芯片。WSE-3的性能是前代产品WSE-2的两倍，同时保持相同的功耗和价格。该芯片基于5纳米工艺，拥有4万亿晶体管，通过900,000个为AI优化的计算核心，提供125 petaflops的峰值AI性能。

020

搜索引擎优化 # AI芯片 # 晶圆级引擎 # 深度学习

Intel® Distribution For Python

Intel® Distribution for Python是一款针对高性能数值和科学计算进行优化的Python开发工具包，支持多核处理器和GPU加速，适用于AI、科学计算和高性能计算等各种场景。

020

商业AI 生产效率 # Python # 高性能计算

CoreWeave GPU 云计算

CoreWeave GPU 云计算是一个专为人工智能工作负载打造的云平台，提供灵活且高效的 GPU 集群，能够满足企业在大规模计算和存储方面的需求。它的主要优势包括极高的性能、可靠性和可扩展性，适合各种 AI 应用场景。通过 CoreWeave，用户能够显著降低云成本，同时提升服务响应速度，是 AI 创新的理想选择。

020

数据分析 # GPU 云计算 # 云服务 # 人工智能

NVIDIA TensorRT

NVIDIA TensorRT是一款高性能深度学习推理SDK，可优化推理性能、加速各种工作负载，并支持大型语言模型推理。

020

商业AI 生产效率 # 深度学习推理 # 高性能计算

国家超级计算深圳中心

国家超级计算深圳中心（深圳云计算中心）系深圳市人民政府批准成立的企业化管理事业单位，属国家863计划、广东省和深圳市重大项目。主机系统2010年5月经世界超级计算机组织实测确认，运算速度达每秒1271万亿次，排名世界第二。

020

超算中心超级计算 # top500 # 云主机 # 云计算

NVIDIA Project DIGITS

NVIDIA Project DIGITS 是一款基于 NVIDIA GB10 Grace Blackwell 超级芯片的桌面超级计算机，旨在为 AI 开发者提供强大的 AI 性能。它能够在功耗高效、紧凑的形态中提供每秒一千万亿次的 AI 性能。该产品预装了 NVIDIA AI 软件栈，并配备了 128GB 的内存，使开发者能够在本地原型设计、微调和推理高达 2000 亿参数的大型 AI 模型，并无缝部署到数据中心或云中。Project DIGITS 的推出标志着 NVIDIA 在推动 AI 开发和创新方面的又一重要里程碑，为开发者提供了一个强大的工具，以加速 AI 模型的开发和部署。

020

开发者工具 # AI # Nvidia # 开发工具

EXAONE-3.5-32B-Instruct-AWQ

EXAONE-3.5-32B-Instruct-AWQ是LG AI Research开发的一系列指令调优的双语（英语和韩语）生成模型，参数从2.4B到32B不等。这些模型支持长达32K令牌的长上下文处理，在真实世界用例和长上下文理解方面展现出最先进的性能，同时在与最近发布的类似大小模型相比，在通用领域保持竞争力。该模型通过AWQ量化技术，实现了4位组级别的权重量化，优化了模型的部署效率。

030

文案写作 # AWQ量化 # 多语言 # 文本生成