在AMD的NPU上独立运行大模型

原话题

这几天我拿到了一台AMD处理器且带NPU的机器
打开任务管理器才想起来有这玩意儿

image

看到之前有佬友在讨论

快来看看AMD核显跑R1表现怎么样~继续讨论: 跑大模型都用不上qwq

家里新给的笔记本,发现任务管理器里面有一个奇怪的设备叫npu,自己查了一下好像是和人工智能相关的,但是没找到能调用这个npu的程序,有佬友知道什么东西用得上npu吗

不久前的驱动更新让NPU默认能被查看
0%的利用率总是会让人很无助,于是去找了找
这是一个月前的帖子,一个美国公司的小团队开发了快速利用NPU的项目:
Reddit - Running LLMs exclusively on AMD Ryzen AI NPU
Github: FastFlowLM
可以完全将模型运行在NPU上,且不占用CPU和GPU的资源

image

不过也只能支持较小的模型,这也在合理之中
支持的模型列表:
Models - Hugging Face

接下来是部署环节:
前提:一块带NPU的AMD处理器
看看你的设备是否符合:

  • Ryzen 200 Series
  • Ryzen 7000 Series, Ryzen PRO 7000 Series
  • Ryzen 8000 Series, Ryzen PRO 8000 Series
  • Ryzen AI 300 Series, Ryzen AI PRO Series, Ryzen AI Max 300 Series

也可以打开任务管理器性能栏查看是否含有NPU
如果你的处理器是上述系列的但是找不到
那么你可能需要更新一下NPU驱动了(有一次驱动更新添加了NPU的可见性)
Installation Instructions — Ryzen AI Software 1.5 documentation
然后安装这个软件flm-setup.exe
安装完成后在powershell中输入
flm list列出所有模型
以Deepseek-R1-Distill-Llama-8B-NPU2为例
flm run deepseek-r1:8b --pmode turbo
其中 --pmode turbo为电源参数,默认为balanced
建议使用turbo计划,效果最好
image
运行本地Rest Api服务端则输入
flm serve deepseek-r1:8b --pmode turbo
运行的本地端口为安装时设置的端口(默认11434)

image

模型的默认位置在文档文件夹内
此时若无模型会自动下载,当然你也可以手动下载,在支持模型列表中选择模型的Files在你的模型目录git clone即可
启动后发送消息:

image

可以看到任务确实是交给NPU的

image

试了一下速度并不是很快,但是能把闲置的东西用起来还是不错的。
可用模型中也有识图的gemma3:4b
输入/input "path/to/image.png" What's in this image?就可以附带图片了

分析了一下L站logo:

image

image1896×932 134 KB

更多还请查看FastFlowLM官方文档:docs.fastflowlm.com