互联网资讯 · 2025年7月19日

禁令解除72小时:141GB H20 完整性能测试,DeepSeek 表现超出预期

2025年7月15日,英伟达CEO黄仁勋宣布了一个震动AI圈的消息:美国政府即日起解除H20芯片对华销售禁令,而就在禁令解除后,云工场科技发布详细测试数据—8卡141GB显存的H20服务器,能流畅运行671B参数的满血版非量化DeepSeek-R1模型,推理吞吐量突破预期。

硬核实测:141GB H20跑满血版非量化DeepSeek性能全面解析

测试环境配置

禁令解除72小时:141GB H20 跑满血实测,DeepSeek 性能超预期 -

一. 测试数据

禁令解除72小时:141GB H20 跑满血实测,DeepSeek 性能超预期 -

禁令解除72小时:141GB H20 跑满血实测,DeepSeek 性能超预期 -

二. 关键性能测试结果

测试显示:

1.首Token响应快:在测试的多个并发量下,首个Token的响应时间(TTFT)都保持在3秒以内(实测0.1s – 2.8s),用户体验非常流畅,感觉不到任何延迟。

2.高并发吞吐大:H20显卡展现出优秀的并发处理能力。在模拟100个用户同时提问(并发请求=100)的中高负载场景下:

&Middot;处理短问题(输入/输出各256 Tokens),系统总吞吐量高达约1124 Tokens/s。

&Middot;处理典型问题(输入/输出各1K Tokens),总吞吐量稳定在约1100 Tokens/s。

&Middot;处理复杂问题/长对话(输入/输出各2K Tokens),总吞吐量仍能保持约1020 Tokens/s。

分场景性能趋势:

1.低并发场景(<10用户):

&Middot;响应极快:TTFT始终低于0.9秒,用户几乎感觉不到等待。

&Middot;吞吐未饱和:系统能力远未被充分利用,吞吐量相对较低(32-208 Tokens/s),性能表现轻松自如。

2.中高并发场景(50-100用户):

&Middot;响应依然迅速:TTFT保持在1.9秒(1K上下文)到2.8秒(2K上下文),交互体验依然流畅。

&Middot;吞吐大幅跃升:系统资源得到高效利用,总吞吐量急剧上升至634 – 1124 Tokens/s。

&Middot;长上下文优势显现:在相同并发下,处理更长(1K/2K)的上下文通常能获得比短上下文(256)更高的吞吐量,充分体现了vLLM对长文本的优化效果。

3.极限场景(100用户 + 长上下文2K):

&Middot;响应可控:TTFT为2.8秒,交互体验依然流畅。

&Middot;吞吐维持高位:即使在此压力下,系统总吞吐量仍达1020 Tokens/s。

三.测试总结

禁令解除72小时:141GB H20 跑满血实测,DeepSeek 性能超预期 -

云工场科技构建了全面的异构计算资源池,涵盖NVIDIA全系高性能GPU(包括141GB显存H20、L20、RTX 4090等最新型号)、AMD w7900以及国产算力三巨头(华为昇腾910B系列、百度昆仑芯P800、燧原S60)等,可本地部署到就近机房,提供DeepSeek、文心一言、华为盘古、LLaMA等开源大模型本地部署。

通过严格的横向性能基准测试,云工场科技验证了不同架构GPU在LLM推理、计算机视觉等场景的能效比差异,并为客户提供”算力租赁 + 算力智能调度 + 平台化交付”的完整AI服务体系,目前已在教育/工业/通信/交通等多领域成功落地,支撑其大模型部署、推理及场景化落地的全流程需求。

禁令解除72小时:141GB H20 跑满血实测,DeepSeek 性能超预期 -

OpenMagic API

Need more than content? Move into the product flow.

If you are here for model access, pricing, developer docs, or the future API console, the dedicated product path now lives on api.openmagic.ai.

登录免费注册