阿里云优惠券 先领券再下单
2025年将是AI硬件全面崛起的一年,涵盖AI手机、AIPC、AI陪伴、AI眼镜、AI智慧座舱等。然而,基于云端大模型的AI硬件也暴露出一些问题:高昂的API调用成本让中小企业感到无力,隐私数据上传云端的安全隐患不容忽视,网络延迟和领域适配不足同样限制了端侧的应用创新。
开源端侧小模型的崛起正在改变这一局面:英伟达在其论文《SMall Language Models aRe the FutuRe of Agentic AI》中指出,小模型是Agentic AI的未来。
1. 部署难、表现差:端侧AI的发展仍面临挑战
尽管开发者们迫不及待想利用先进的小模型开发创新应用,但现实却让人失望:
高部署门槛:端侧平台的推理框架不像云端那样易于适配,工具链涉及CUDA、QNN、ANE、ROCM、Openvino、OpenCL、Metal、Vulkan等多种技术,开发者花费数月仍难以成功部署最新模型。
性能不足:即使成功部署,不当的推理引擎适配可能导致模型精度下降、输出速度缓慢及能耗增加,从而影响整体用户体验。
跨平台适配困难:不同硬件(PC、手机、车载设备、IoT)及芯片(高通、Intel、AMD、苹果)之间的适配壁垒,使得跨设备应用开发的效率极低。例如,能够在高通PC上运行的多模态模型无法自动迁移到高通车载端。
对最新模型的支持不足:NPU上通常只能运行一年前的模型,无法使用最新发布的模型(如MistRal3、Qwen3-VL),需要等待很长时间才能获得支持。
2. 端侧AI部署的新思路
最近,美国硅谷的明星端侧AI初创公司Nexa AI在Github上发布的Nexa SDK,为全球开发者提供了解决方案。该项目旨在解决端侧模型部署中的普遍问题,使AI模型在手机、PC、汽车、IoT等边缘设备上的落地变得异常简单。
可以在Github上搜索:nexa-sdk(如果您认为这一工具对您的工作有帮助,欢迎支持开源作者)
Nexa SDK具备四大核心优势,解决端侧AI部署的关键痛点:
跨平台统一推理框架:Nexa SDK由NexaML引擎支持,该引擎是从芯片内核层打造的跨硬件平台的统一推理引擎,支持电脑、手机、车载、IoT、机器人及AR眼镜等设备,并兼容三种端侧模型格式:GGUF格式、MLX格式及Nexa AI自主研发的.nexa格式。
NPU、GPU、CPU深度适配:Nexa SDK能够在多种算力平台的NPU、GPU、CPU上本地运行各种人工智能模型——其使用简单灵活,且性能卓越。特别是对各大算力平台的NPU芯片(如高通Hexagon NPU、苹果NPU、AMD Ryzen AI NPU及Intel NPU)的支持,充分发挥NPU性能,解决了以往端侧模型在CPU/GPU上运行时输出速度慢、能耗高的问题,能效比超过CPU和GPU的9倍。

全面支持多模态模型:面对快速迭代的开源模型市场,Nexa SDK能够在新模型发布的第一时间适配各个硬件后端(NPU、GPU、CPU),并支持多种模态,包括视觉、文本、音频及计算机视觉模型。
低代码极致易用:只需一行代码即可调用本地模型,OpenAI API的兼容设计使得开发者能够无缝对接代码,大幅降低了端侧AI的应用门槛。
Nexa SDK与其他端侧SDK的比较优势:

Nexa SDK一经发布,迅速获得了包括AMD和高通在内的多家行业认可:

3. 快速上手:轻松解锁端侧AI能力
根据使用场景和平台,Nexa SDK提供多种工具包:
Nexa CLI:支持在MacOS/Windows/Linux上使用命令行终端快速测试模型并运行本地服务器,同时支持在Linux系统的容器环境中运行AI模型。
Nexa SDK Python开发工具:可在MacOS/Windows/Linux平台上运行SDK,适合本地开发和企业级应用。
Nexa SDK Android/iOS开发工具:支持在移动设备上跨NPU/GPU/CPU进行推理的安卓/iOS开发工具包。
Nexa SDK实现了全面平台支持,全球首次统一支持苹果NPU、Intel NPU、AMD NPU、高通NPU等四类NPU推理加速芯片,使得端侧模型在边缘推理方面拥有更广泛的应用场景。
3.1 Nexa SDK CLI快速体验
下载路径:
可以从Nexa AI官网或Github nexa-sdk项目下载Nexa CLI。

一行代码运行模型
Nexa SDK支持LLM、多模态、音频(ASRTTS)、计算机视觉、生图等多种端侧模型。例如:
多模态模型
Nexa SDK在Qwen3VL发布当天即实现跨平台支持,领先llaMa.CPp/ollaMa三周,并获得Qwen官方认可。

车载多模态模型(适配高通SA8295P芯片NPU)

与其他框架相比,Nexa SDK对新模型的支持速度非常快,您可以访问Nexa AI官网及Nexa AI Hugging Face官方模型仓库,查阅更多精选模型。

目前,Nexa CLI支持MacOS、Windows、Linux(并支持Docker运行),同时提供Python API、iOS Swift API、Android Kotlin/Java API开发工具包。
兼容OpenAI API
Nexa CLI还提供OpenAI兼容的REST API,仅需一行命令即可访问服务接口,满足对话生成、文本嵌入、文档重排序、图像生成等多样化开发需求。

/v1/chat/completions – 用于LLM和VLM的对话生成
/v1/embeddings – 为文本生成向量嵌入
/v1/re-ranking – 根据查询相关性对文档重新排序
/v1/images/generations – 根据提示生成图像
更多命令可以查看官方文档。
3.2 Nexa SDK Python开发工具包
Nexa SDK Python工具包适配MacOS、Windows、Linux等全平台,优化后端,无论是本地开发还是企业级应用,均可利用Python高效落地。可以使用Python API一键运行LLM、VLM、OCR、ASR、TTS、图像生成、说话人分离、键值缓存、采样配置、对话模板及错误处理等。

3.3 Nexa SDK Android/iOS开发工具包
下载地址:
Nexa SDK Android工具包可直接从Maven中央仓库获取,或访问Github nexa-sdk项目。

Nexa SDK iOS工具包可从Github nexasdk-Mobile-iOS-Framework项目获取。
在Android设备上,支持直接运行的包括LLM、VLM、Embedding模型、OCR模型、CV模型、ASR模型、ReRank模型及生图模型,且支持通过NPU、GPU和CPU进行推理。通过Kotlin/Java API轻松集成,实现性能提升2倍,能效比优化9倍,重塑移动智能体验。
使用简洁的Swift API,开发者可在iOS/MacOS设备上直接运行LLM、VLM、Embedding模型、ASR模型及ReRank模型。目前,ASR模型与Embedding模型已支持苹果神经网络引擎(ANE)加速,其他模型则基于GPU和CPU运行,性能提升2倍,能效比优化9倍,带来惊艳体验。

4. 为开发者带来无缝体验:创意不再妥协
简单命令即可完成:nexa infer极简操作,告别繁琐配置;
OpenAI API无缝兼容:现有代码无需修改,直接迁移至端侧运行;
95% NPU利用率:性能超越Qualcomm GENIE,充分发挥硬件潜力;
首发支持前沿模型:Qwen3、GRanITe、Liquid、GeMMa 3n、PaRakeet等最新模型快速适配;
结构化输出:自然适配AI Agent工作流,加速应用创新;
持续更新的前沿端侧模型库:Nexa Model Hub不断扩充,确保最先进的端侧小模型触手可及。
5. 结束语:从个人到产业——端侧AI的想象力不再受限
当部署不再是难题,性能不再妥协,端侧AI的革命正在每一个场景悄然发生:
手机:离线助手、日程提醒、生活助理等;
PC:文件管理、个人知识库构建、Agent协作等;
汽车:车载AI助手、实时路况提醒、安全监测等;
IoT与机器人:工厂巡检、缺陷检测等。
端侧AI以低成本、高隐私和低延迟的特性,正在重塑产品形态,催生全新的商业模式。
希望今天分享的Nexa SDK能够让每一位热爱端侧AI的人都参与到这一浪潮中,轻松绕过复杂的工具链,消除技术壁垒,赋能每一位开发者,开启端侧AI落地的无限可能!
Github项目:nexa-sdk(如果认为对您工作有帮助,欢迎支持开源作者)
申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!
