项目量产就找Ntims恩泰世

​​深圳市恩泰世科技有限公司

业务况经理:153 2344 3998  

FAE熊经理:135 2886 5137

市场谌经理:135 3067 5093

发展,源于对服务客户的忠诚,我们感恩每位客户
Qwen3-VL 4B/8B全面适配,BM1684X成边缘最佳部署平台!
来源: | 作者:Ntimes | 发布时间: 2025-10-17 | 46 次浏览 | 分享到:

算能BM1684X上完成Qwen3-VL 4B/8B模型的适配,推理速度13.7/7.2 tokens/s,使其成为边缘部署多模态大模型的最佳选择。

近日,阿里千问正式开源Qwen3-VL系列的4B和8B版本模型,为边缘计算和端侧设备提供了更高效的多模态AI解决方案。算能BM1684X芯片已完成对该系列模型的适配,4B/8B模型在边缘端实现了13.7 /7.2 tokens/s的推理性能。

模型性能突破,小参数大能力

Qwen3-VL系列再添新成员——Dense架构的Qwen3-VL-8B、Qwen3-VL-4B 模型,本地部署友好,在MMMU、MathVista等基准测试中超越了同级别的其他模型,并在部分测试场景中展现出与更大规模模型相媲美的性能,通过架构优化,它有效解决了小模型中常见的视觉与文本能力不平衡问题,为边缘场景带来了更多解法。

Qwen3-VL 4B和8B模型在保持模型轻量化的同时,确保了多模态理解能力的完整性。这两个规模的模型均提供Instruct和Thinking两个版本,满足不同场景的应用需求。

Qwen3-VL模型能主动识别异常行为,自动调取多路摄像头追踪,并调用工具生成处置方案,实现从感知到决策的闭环;凭借增强的空间推理能力,系统可精准分析人员轨迹、识别异常聚集,构建动态安防态势图,预警潜在风险;进一步扩展了长上下文能力,支持对长视频的秒级精确定位,在文搜检索的基础上,提供有逻辑依据的事件分析,大幅提升调查效率。

另外,很多传统算法没有覆盖的corner case,不再需要人工标注训练,直接通过prompt调整即可实现,从"看得见"迈向"看得懂",Qwen3-VL将为各种端侧设备的智能化升级注入新动力。

BM1684x适配加速,推理性能一骑绝尘

BM1684X芯片已完成对Qwen3-VL系列的适配工作,并开源在LLM-TPU仓库,所有基于BM1684X的盒子、计算卡、微服务器都可以稳定运行。

API一键部署:如果想将Qwen3-VL的多模态能力集成到其他系统中,通过AIGC-SDK封装好的标准API,只需要一行命令即可实现:

bash scripts/init_app.sh qwen3vl

测试数据显示,Qwen3-VL模型在BM1684X平台上的推理速度达到13.7 tokens/s,这一性能表现使得实时多模态理解在边缘端成为可能。同时,芯片的多路视频编解码能力使其能够同时处理32路1080p视频流,为大规模部署奠定基础。

Qwen3-VL系列模型与BM1684X的结合,为多个行业的智能化升级提供了新的技术路径,本地化部署能够有效降低云端传输延迟,提升系统响应速度。

开源开放的工具链给了用户更多的控制权,进一步降低了模型部署的难度,开发者可以便捷地将自己微调后的模型移植到边缘设备,加速应用落地。

参考链接: https://github.com/sophgo/LLM-TPU/tree/main/models/Qwen3_VL https://modelscope.cn/models/wlc952/AIGC-SDK