互联网资讯 / 人工智能 · 2026年5月5日 0

推出本地化的基于Token的负载均衡解决方案

随着DeepSeek、Qwen等大模型的广泛应用,企业在生产环境中面临算力过载、服务中断及高并发下的延迟波动等挑战,这些问题逐渐成为实现AI应用落地的关键因素。

作为全球领先的应用交付和API安全解决方案提供商,F5在中国率先推出了一种本地化的基于Token的负载均衡解决方案(以下简称“TBLB”),旨在支持AI智能推理服务,帮助中国企业在复杂的异构基础设施中应对高并发需求和资源利用率的问题,确保推理服务更快、更省和更具承压能力,从而在AI时代创造更大的业务价值。

由于中国企业普遍采用异构芯片混合部署,在广泛应用推理服务的过程中,资源调度问题愈发突出,甚至成为AI应用落地的关键挑战。

在异构芯片混合环境中,算力资源的使用效率与调度能力成为关键变量。一方面,算力、模型与推理框架之间的适配程度不一,导致部分资源难以在实际业务中充分释放性能;另一方面,不同算力之间存在结构性性能差距,增加了统一调度与资源匹配的复杂度。同时,传统基于请求分发的负载均衡方式难以反映底层算力的实时状态,容易造成资源分配不均,进一步放大性能波动与资源浪费。在多重因素叠加下,企业面临的核心问题,已从“算力是否充足”转向“算力能否被高效、稳定地调度与使用”。

F5在中国首推的TBLB方案,正是为了解决这一难题,推动AI时代算力交付方式的升级。不同于传统负载均衡以“请求数”为核心的逻辑,TBLB以Token数量及其对应的计算成本为基础,对推理请求进行精细化调度,将不同长度、复杂度的任务分配至与之匹配的算力节点,从而有效避免资源空转或局部过载。

该方案引入基于Token感知与GPU动态压测的自适应调度机制,能够在运行过程中综合评估推理任务的特征与算力状态,包括Token规模、实时负载与利用率、队列长度、KV Cache使用情况以及实例健康状态等关键指标,并据此动态调整调度策略。通过这一机制,TBLB将复杂多变的推理负载转化为可感知、可调度的算力资源,为企业AI业务构建起更加稳定、高效的推理服务基础。

AI应用的用户体验,主要取决于首词Token响应时间(TTFT)、单词Token生成时间(TPOT)以及端到端时延(E2EL)。传统负载均衡无法感知推理过程中的真实运行状态,而TBLB则通过对GPU负载、Token队列等关键指标的实时监测,避免请求被调度至“看似空闲、实际拥塞”的节点,从而有效降低等待时间。在实际测试中,TBLB在多个行业场景中均表现出显著效果:在新能源汽车场景中,TTFT降低约30%;在金融异构算力环境中,TTFT降低超过40%,同时推理吞吐能力同步提升。这表明,延时优化不再依赖单点性能提升,而是来自整体调度效率的系统性优化。

TBLB方案通过对算力池的动态感知与精准分配,使每一个请求都能匹配到当前最合适的执行节点,从而显著提升GPU利用率。在运营商测试场景中,在不增加任何GPU投入的情况下,系统并发能力从400提升至700,时延从20秒降低至180毫秒。这一结果表明,TBLB方案的价值不仅在于降低成本,更在于将原本被浪费的算力,转化为可释放的业务能力。

另外,TBLB方案支持基于API Key、应用识别及策略规则的优先级控制机制,可在资源紧张时实现优先调度高优先级请求、限制或延迟低优先级任务,并在资源恢复后动态恢复流量。这一能力,使系统在高峰场景下不再被动承压,而是具备可控的资源分配能力。

F5在中国推出的TBLB方案并不仅仅是一项产品创新,更代表了一种面向AI推理时代的基础设施思路。以Token为单元理解负载,通过算力调度的定义性能,正在成为新的技术共识。当Token逐渐取代传统流量成为核心计量单位,企业真正需要掌控的,将不只是模型能力本身,而是如何高效、稳定地调度每一次计算。