M1 Max 用 Ollama 部署 qwen 2.5 大模型的简单记录

安装 Ollama

我的系统是 M1 Max ，所以使用下面的终端命令进行安装：

1	docker run -d -p 3000:8080 -v ollama:/root/.ollama -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:ollama

其他系统需要参考这个项目里的说明：

等命令走完之后，在 Docker 中启动 webui

点击之后，就会出现类似 ChatGPT 一样的窗口

在 webui 的左上角中，搜索 qwen2.5-coder:7b ，然后点击「从 Ollama.com 拉取」

Arc20241129Open WebUI008434@2x.png

等待下载完毕后，就可以选择 Qwen 2.5 的 7b 模型。如果你想下载小一点的例如 3b 的模型，只需要把 qwen2.5-coder:7b 改成 qwen2.5-coder:3b 即可。

Arc20241129Open WebUI008436@2x.png

效果如下：

Arc20241129Open WebUI008440@2x.png

不过 7b 的模型对于 M1 Max 32G 内存的设备来说，负担还是太大了，只提问一个「你好」，回答花了 18 秒，每秒 2.27 token 数，速度太慢，并且 CPU 占用直接爆掉。

本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。