之前写过一篇 M1 Max 用 Docker 部署 qwen 2.5 7b 大模型的简单记录,然而当时的测试结果实在太慢,慢到无法使用的程度,因此装完之后就没再用过。

不过今天重新使用 LM Studio 安装了相同的 7b 模型,结果却是速度快到飞起,达到了 48.25 tok/sec,是 Docker 部署方法的 20 倍以上。

我不知道是我当时安装方法有误,还是说 Docker 部署确实会比较慢,总之今天要分享的这个方法值得推荐给大家。

LM Studio20250113LM Studio009213@2x.png

教程如下。

下载 LM Studio

下载适合你操作系统的版本,然后安装。

202501131900.png

安装完毕,启动 LM Studio 后,先点击右下角的齿轮,然后在 App Settings 中,可以将界面语言修改为中文:

LM Studio20250113LM Studio009217@2x.png

下载通义千问 Qwen 2.5 14b 模型

这里我们还是选择安装通义千问 Qwen 2.5 的模型,点击 LM Studio 中间顶部的「选择要加载的模型」按钮

202501131905.png

然后输入 Qwen 2.5,然后点击 Search 按钮,这里我选择 Qwen2.5-14B-Instruct-MLX-8bit 这个模型,带有 MLX 后缀的模型,是针对苹果 MLX 框架优化的版本,专门用于苹果 Silicon 芯片(M1/M2 等)。

点击右下角绿色的 Download 按钮,即可下载这个模型。

LM Studio20250113LM Studio009225@2x.png

下载完成后,右下角就会弹出一个提示,点击 Load Model 即可载入这个模型

LM Studio20250113LM Studio009227@2x.png

问答测试

可以看到回答的速度达到了 19.49 tok/s,虽然比 7b 模型慢了一半,但也已经很可用了。

202501131914.png

关联阅读

我的 Notion 课程

《Notion 搭建高能效率系统》

  • 从「效率困局」到「生产力中枢」
  • 用 18 个月打磨的 Notion 精进指南
  • 助你在 7 天内掌握精英必备的效率神器
  • 推出一年半,帮助近 6000 位学员精通 Notion
  • 国内销量最高的 Notion 系统课程
  • 小红书好评率超过 98%

详情介绍:点我

202501131915.png