禁令解除72小时：141GB H20 完整性能测试，DeepSeek 表现超出预期

2025年7月15日，英伟达CEO黄仁勋宣布了一个震动AI圈的消息：美国政府即日起解除H20芯片对华销售禁令，而就在禁令解除后，云工场科技发布详细测试数据—8卡141GB显存的H20服务器，能流畅运行671B参数的满血版非量化DeepSeek-R1模型，推理吞吐量突破预期。

硬核实测：141GB H20跑满血版非量化DeepSeek性能全面解析

测试环境配置

禁令解除72小时：141GB H20 跑满血实测，DeepSeek 性能超预期 -

一. 测试数据

禁令解除72小时：141GB H20 跑满血实测，DeepSeek 性能超预期 -

二. 关键性能测试结果

测试显示：

1.首Token响应快：在测试的多个并发量下，首个Token的响应时间(TTFT)都保持在3秒以内（实测0.1s – 2.8s），用户体验非常流畅，感觉不到任何延迟。

2.高并发吞吐大：H20显卡展现出优秀的并发处理能力。在模拟100个用户同时提问（并发请求=100）的中高负载场景下：

&Middot;处理短问题（输入/输出各256 Tokens），系统总吞吐量高达约1124 Tokens/s。

&Middot;处理典型问题（输入/输出各1K Tokens），总吞吐量稳定在约1100 Tokens/s。

&Middot;处理复杂问题/长对话（输入/输出各2K Tokens），总吞吐量仍能保持约1020 Tokens/s。

分场景性能趋势：

1.低并发场景(<10用户)：

&Middot;响应极快：TTFT始终低于0.9秒，用户几乎感觉不到等待。

&Middot;吞吐未饱和：系统能力远未被充分利用，吞吐量相对较低（32-208 Tokens/s），性能表现轻松自如。

2.中高并发场景(50-100用户)：

&Middot;响应依然迅速：TTFT保持在1.9秒(1K上下文)到2.8秒(2K上下文)，交互体验依然流畅。

&Middot;吞吐大幅跃升：系统资源得到高效利用，总吞吐量急剧上升至634 – 1124 Tokens/s。

&Middot;长上下文优势显现：在相同并发下，处理更长（1K/2K）的上下文通常能获得比短上下文（256）更高的吞吐量，充分体现了vLLM对长文本的优化效果。

3.极限场景(100用户 + 长上下文2K)：

&Middot;响应可控：TTFT为2.8秒，交互体验依然流畅。

&Middot;吞吐维持高位：即使在此压力下，系统总吞吐量仍达1020 Tokens/s。

三.测试总结

禁令解除72小时：141GB H20 跑满血实测，DeepSeek 性能超预期 -

云工场科技构建了全面的异构计算资源池，涵盖NVIDIA全系高性能GPU（包括141GB显存H20、L20、RTX 4090等最新型号）、AMD w7900以及国产算力三巨头（华为昇腾910B系列、百度昆仑芯P800、燧原S60）等，可本地部署到就近机房，提供DeepSeek、文心一言、华为盘古、LLaMA等开源大模型本地部署。

通过严格的横向性能基准测试，云工场科技验证了不同架构GPU在LLM推理、计算机视觉等场景的能效比差异，并为客户提供”算力租赁 + 算力智能调度 + 平台化交付”的完整AI服务体系，目前已在教育/工业/通信/交通等多领域成功落地，支撑其大模型部署、推理及场景化落地的全流程需求。

禁令解除72小时：141GB H20 跑满血实测，DeepSeek 性能超预期 -

chatGPT

近期文章

互联网资讯 · 2025年7月19日

禁令解除72小时：141GB H20 完整性能测试，DeepSeek 表现超出预期

Need more than content? Move into the product flow.