Mac Studio M4 Max -
Qwen3/Qwen3.5 部署方案
硬件配置概览
| 项目 |
配置 |
| 芯片 |
Apple M4 Max |
| CPU |
16 核 |
| GPU |
40 核图形处理器 |
| Neural Engine |
16 核神经网络引擎 |
| 内存带宽 |
546 GB/s |
| 统一内存 |
48GB / 64GB / 128GB (可选) |
第一部分:Qwen3 系列部署方案
一、Qwen3 模型系列规格
| 模型 |
参数量 |
INT4 量化 |
INT8 量化 |
FP16 |
推荐内存 |
| Qwen3-0.6B |
0.6B |
~0.8GB |
~1.2GB |
~1.2GB |
4GB+ |
| Qwen3-1.8B |
1.8B |
~2.4GB |
~3.6GB |
~3.6GB |
8GB+ |
| Qwen3-4B |
4B |
~4.8GB |
~8GB |
~8GB |
12GB+ |
| Qwen3-8B |
8B |
~9.6GB |
~16GB |
~16GB |
24GB+ |
| Qwen3-14B |
14B |
~16GB |
~28GB |
~28GB |
32GB+ |
| Qwen3-32B |
32B |
~38GB |
~64GB |
~64GB |
80GB+ |
| Qwen3-235B-A22B (MoE) |
235B |
~140GB |
~280GB |
~470GB |
320GB+ |
二、M4 Max 推荐配置
2.1 统一内存 48GB
| 运行方案 |
模型 |
量化精度 |
预估性能 |
适用场景 |
| 推荐 |
Qwen3-8B |
INT4 |
15-20 tok/s |
日常对话、代码生成 |
| 推荐 |
Qwen3-4B |
INT8 |
30-40 tok/s |
快速响应、轻量任务 |
| 可选 |
Qwen3-14B |
INT4 |
10-12 tok/s |
需要更强能力 |
2.2 统一内存 64GB
| 运行方案 |
模型 |
量化精度 |
预估性能 |
适用场景 |
| 推荐 |
Qwen3-14B |
INT4 |
12-15 tok/s |
复杂推理、中等任务 |
| 推荐 |
Qwen3-8B |
INT8 |
18-22 tok/s |
质量与速度平衡 |
| 可选 |
Qwen3-32B |
INT4 |
6-8 tok/s |
大模型测试 |
2.3 统一内存 128GB
| 运行方案 |
模型 |
量化精度 |
预估性能 |
适用场景 |
| 推荐 |
Qwen3-32B |
INT4 |
8-12 tok/s |
强推理能力 |
| 推荐 |
Qwen3-14B |
FP16 |
15-18 tok/s |
全精度需求 |
| 可选 |
Qwen3-35B-A3B (MoE) |
INT4 |
20-30 tok/s |
超大模型体验 |
三、Qwen3 部署方法
3.1 方法一:MLX(推荐,性能最佳)
安装 MLX:
# 安装 mlx
pip install mlx mlx-lm
下载模型:
# 从 HuggingFace 下载 MLX 版本
# INT4 版本
huggingface-cli download mlx-community/Qwen3-8B-4bit --local-dir ./Qwen3-8B-4bit
# INT8 版本
huggingface-cli download mlx-community/Qwen3-8B-8bit --local-dir ./Qwen3-8B-8bit
运行推理:
from mlx_lm import load, generate
model_path = "mlx-community/Qwen3-8B-4bit"
model, tokenizer = load(model_path)
response = generate(
model,
tokenizer,
prompt="你好,请介绍一下自己",
max_tokens=512
)
print(response)
API 服务:
# 使用 MLX 启动 API 服务
mlx_lm.server --model mlx-community/Qwen3-8B-4bit --port 8080
3.2 方法二:Ollama(简单易用)
安装 Ollama:
# Mac 安装
curl -fsSL https://ollama.com/install.sh | sh
运行 Qwen3:
# 查看可用版本
ollama list
# 运行指定模型
ollama run qwen3:8b
ollama run qwen3:4b
ollama run qwen3:14b
配置参数:
# 创建自定义配置
cat > Modelfile << 'EOF'
FROM qwen3:14b
PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER top_k 40
PARAMETER num_ctx 8192
PARAMETER num_gpu 1
EOF
ollama create qwen3-custom -f Modelfile
ollama run qwen3-custom
3.3 方法三:LM Studio(图形界面)
# 下载 LM Studio
# https://lmstudio.ai/
# 在应用内:
# 1. 搜索 "Qwen3"
# 2. 下载 MLX 或 GGUF 版本
# 3. 选择量化精度 (4bit/8bit)
# 4. 点击加载并聊天
3.4 方法四: llama.cpp (GGUF)
安装:
# Mac 版本
brew install llama.cpp
# 或从源码编译
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j $(nproc)
下载 GGUF 模型:
# 搜索 Qwen3 GGUF 模型
# https://huggingface.co/models?search=qwen3+gguf
运行:
./llama-server -m ./models/qwen3-8b-q4_k_m.gguf \
-ngl 1 \
-c 8192 \
--host 0.0.0.0 \
--port 8080
第二部分:Qwen3.5
系列部署方案
一、Qwen3.5 模型系列规格
| 模型 |
参数量 |
INT4 量化 |
INT8 量化 |
FP16 |
推荐内存 |
| Qwen3.5-0.5B |
0.5B |
~0.7GB |
~1GB |
~1GB |
4GB+ |
| Qwen3.5-1.5B |
1.5B |
~2GB |
~3GB |
~3GB |
6GB+ |
| Qwen3.5-3B |
3B |
~3.6GB |
~6GB |
~6GB |
10GB+ |
| Qwen3.5-4B |
4B |
~4.8GB |
~8GB |
~8GB |
12GB+ |
| Qwen3.5-7B |
7B |
~8GB |
~14GB |
~14GB |
20GB+ |
| Qwen3.5-14B |
14B |
~16GB |
~28GB |
~28GB |
32GB+ |
| Qwen3.5-27B |
27B |
~32GB |
~54GB |
~54GB |
64GB+ |
| Qwen3.5-32B |
32B |
~38GB |
~64GB |
~64GB |
80GB+ |
| Qwen3.5-35B-A3B (MoE) |
35B |
~40GB |
~80GB |
~140GB |
96GB+ |
二、M4 Max 推荐配置
2.1 统一内存 48GB
| 运行方案 |
模型 |
量化精度 |
预估性能 |
适用场景 |
| 推荐 |
Qwen3.5-7B |
INT4 |
20-30 tok/s |
日常对话、快速响应 |
| 推荐 |
Qwen3.5-14B |
INT4 |
12-15 tok/s |
较强能力需求 |
| 可选 |
Qwen3.5-4B |
INT8 |
40-50 tok/s |
超快响应 |
2.2 统一内存 64GB
| 运行方案 |
模型 |
量化精度 |
预估性能 |
适用场景 |
| 推荐 |
Qwen3.5-14B |
INT4 |
15-18 tok/s |
平衡性能与质量 |
| 推荐 |
Qwen3.5-27B |
INT4 |
10-12 tok/s |
大模型体验 |
| 可选 |
Qwen3.5-14B |
FP16 |
12-15 tok/s |
全精度需求 |
2.3 统一内存 128GB
| 运行方案 |
模型 |
量化精度 |
预估性能 |
适用场景 |
| 强推 |
Qwen3.5-35B-A3B |
INT4 |
40-50 tok/s |
超强能力 |
| 推荐 |
Qwen3.5-27B |
INT8 |
15-18 tok/s |
大模型高质量 |
| 可选 |
Qwen3.5-32B |
INT4 |
12-15 tok/s |
超大模型 |
三、Qwen3.5 部署方法
3.1 方法一:MLX(推荐)
INT4 量化模型列表:
# 官方 MLX 量化版本
huggingface-cli download mlx-community/Qwen3.5-4B-MLX-4bit --local-dir ./Qwen3.5-4B-MLX-4bit
huggingface-cli download mlx-community/Qwen3.5-7B-MLX-4bit --local-dir ./Qwen3.5-7B-MLX-4bit
huggingface-cli download mlx-community/Qwen3.5-14B-MLX-4bit --local-dir ./Qwen3.5-14B-MLX-4bit
运行代码:
from mlx_lm import load, generate
model_path = "mlx-community/Qwen3.5-14B-MLX-4bit"
model, tokenizer = load(model_path)
response = generate(
model,
tokenizer,
prompt="请用中文解释什么是人工智能",
max_tokens=1024,
temp=0.7
)
print(response)
3.2 方法二:Ollama
# 查看可用 Qwen3.5 模型
ollama search qwen
# 运行
ollama run qwen3.5:7b
ollama run qwen3.5:14b
ollama run qwen3.5:32b
# Docker 方式(MLX 加速)
# 有人专门优化了 MLX 版本,比纯 Python 快 2 倍
3.3 方法三:LM Studio
# 下载地址:https://lmstudio.ai/
# 在 LM Studio 中:
# 1. 搜索 "Qwen3.5"
# 2. 下载 MLX 版本(推荐)或 GGUF 版本
# 3. 加载模型
# 4. 使用本地 API
3.4 性能对比数据
| 设备 |
模型 |
量化 |
速度 |
| M4 Pro (36GB) |
Qwen3.5-14B |
INT4 |
20 tok/s |
| M4 Max (64GB) |
Qwen3.5-14B |
INT4 |
25-30 tok/s |
| M4 Max (128GB) |
Qwen3.5-35B-A3B |
INT4 |
49 tok/s |
| M3 Ultra (512GB) |
Qwen3.5-35B-A3B |
INT4 |
115-120 tok/s |
第三部分:模型下载汇总
官方下载地址
| 平台 |
Qwen3 |
Qwen3.5 |
| HuggingFace |
huggingface.co/Qwen/Qwen3-8B |
huggingface.co/Qwen/Qwen3.5-14B |
| ModelScope |
modelscope.cn/models/Qwen/Qwen3-8B |
modelscope.cn/models/Qwen/Qwen3.5-14B |
MLX 优化版本
| 模型 |
下载链接 |
| Qwen3-4B-4bit |
huggingface.co/mlx-community/Qwen3-4B-4bit |
| Qwen3-8B-4bit |
huggingface.co/mlx-community/Qwen3-8B-4bit |
| Qwen3-14B-4bit |
huggingface.co/mlx-community/Qwen3-14B-4bit |
| Qwen3.5-4B-MLX-4bit |
huggingface.co/mlx-community/Qwen3.5-4B-MLX-4bit |
| Qwen3.5-7B-MLX-4bit |
huggingface.co/mlx-community/Qwen3.5-7B-MLX-4bit |
| Qwen3.5-14B-MLX-4bit |
huggingface.co/mlx-community/Qwen3.5-14B-MLX-4bit |
GGUF 量化版本
| 模型 |
下载链接 |
| Qwen3.5-7B-Q4_K_M |
huggingface.co/Qwen/Qwen3.5-7B-GGUF |
| Qwen3.5-14B-Q4_K_M |
huggingface.co/Qwen/Qwen3.5-14B-GGUF |
| Qwen3.5-32B-Q4_K_M |
huggingface.co/Qwen/Qwen3.5-32B-GGUF |
第四部分:快速启动命令
统一内存 48GB 推荐
# 使用 Ollama(最简单)
ollama run qwen3.5:14b
# 或使用 LM Studio 加载 Qwen3.5-14B-Q4_K_M
统一内存 64GB 推荐
# MLX 方式(性能最佳)
pip install mlx-lm
mlx_lm.server --model mlx-community/Qwen3.5-14B-MLX-4bit --port 8080
统一内存 128GB 推荐
# 体验 35B 大模型
mlx_lm.server --model mlx-community/Qwen3.5-35B-A3B-MLX-4bit --port 8080
# 预估速度:40-50 tok/s
第五部分:性能优化建议
1. MLX 优化
# 启用 Metal 加速
import os
os.environ["MLX_USE_METAL"] = "1"
# 批量推理
from mlx_lm import generate_batch
responses = generate_batch(
model,
tokenizer,
prompts=["问题1", "问题2", "问题3"],
max_tokens=256
)
2. Ollama 优化
# 调整 GPU 层数
# 默认使用一半内存给 GPU
OLLAMA_GPU_LAYERS=24 ollama run qwen3.5:14b
# 调整上下文长度
/param num_ctx 8192
3. LM Studio 优化设置
Settings:
- GPU Acceleration: Metal
- Context Length: 8192+
- Batch Size: 512
- Threads: Auto
总结
按内存配置推荐
| 统一内存 |
Qwen3 推荐 |
Qwen3.5 推荐 |
| 48GB |
Qwen3-8B-4bit |
Qwen3.5-14B-4bit |
| 64GB |
Qwen3-14B-4bit |
Qwen3.5-14B-4bit / 27B-4bit |
| 128GB |
Qwen3-32B-4bit |
Qwen3.5-35B-A3B-4bit |
性能优先级
- 最快速度 → Qwen3.5-4B / Qwen3-4B (40-50 tok/s)
- 平衡之选 → Qwen3.5-14B (20-30 tok/s)
- 最强能力 → Qwen3.5-35B-A3B (40-50 tok/s, 需
128GB)
文档更新时间: 2026-03-07
适用设备: Mac Studio M4 Max (48GB/64GB/128GB)