Mac Studio M4 Max - Qwen 部署方案

Mac Studio M4 Max - Qwen3/Qwen3.5 部署方案

硬件配置概览

项目 配置
芯片 Apple M4 Max
CPU 16 核
GPU 40 核图形处理器
Neural Engine 16 核神经网络引擎
内存带宽 546 GB/s
统一内存 48GB / 64GB / 128GB (可选)

第一部分:Qwen3 系列部署方案

一、Qwen3 模型系列规格

模型 参数量 INT4 量化 INT8 量化 FP16 推荐内存
Qwen3-0.6B 0.6B ~0.8GB ~1.2GB ~1.2GB 4GB+
Qwen3-1.8B 1.8B ~2.4GB ~3.6GB ~3.6GB 8GB+
Qwen3-4B 4B ~4.8GB ~8GB ~8GB 12GB+
Qwen3-8B 8B ~9.6GB ~16GB ~16GB 24GB+
Qwen3-14B 14B ~16GB ~28GB ~28GB 32GB+
Qwen3-32B 32B ~38GB ~64GB ~64GB 80GB+
Qwen3-235B-A22B (MoE) 235B ~140GB ~280GB ~470GB 320GB+

二、M4 Max 推荐配置

2.1 统一内存 48GB

运行方案 模型 量化精度 预估性能 适用场景
推荐 Qwen3-8B INT4 15-20 tok/s 日常对话、代码生成
推荐 Qwen3-4B INT8 30-40 tok/s 快速响应、轻量任务
可选 Qwen3-14B INT4 10-12 tok/s 需要更强能力

2.2 统一内存 64GB

运行方案 模型 量化精度 预估性能 适用场景
推荐 Qwen3-14B INT4 12-15 tok/s 复杂推理、中等任务
推荐 Qwen3-8B INT8 18-22 tok/s 质量与速度平衡
可选 Qwen3-32B INT4 6-8 tok/s 大模型测试

2.3 统一内存 128GB

运行方案 模型 量化精度 预估性能 适用场景
推荐 Qwen3-32B INT4 8-12 tok/s 强推理能力
推荐 Qwen3-14B FP16 15-18 tok/s 全精度需求
可选 Qwen3-35B-A3B (MoE) INT4 20-30 tok/s 超大模型体验

三、Qwen3 部署方法

3.1 方法一:MLX(推荐,性能最佳)

安装 MLX:

# 安装 mlx
pip install mlx mlx-lm

下载模型:

# 从 HuggingFace 下载 MLX 版本
# INT4 版本
huggingface-cli download mlx-community/Qwen3-8B-4bit --local-dir ./Qwen3-8B-4bit

# INT8 版本
huggingface-cli download mlx-community/Qwen3-8B-8bit --local-dir ./Qwen3-8B-8bit

运行推理:

from mlx_lm import load, generate

model_path = "mlx-community/Qwen3-8B-4bit"
model, tokenizer = load(model_path)

response = generate(
    model,
    tokenizer,
    prompt="你好,请介绍一下自己",
    max_tokens=512
)
print(response)

API 服务:

# 使用 MLX 启动 API 服务
mlx_lm.server --model mlx-community/Qwen3-8B-4bit --port 8080

3.2 方法二:Ollama(简单易用)

安装 Ollama:

# Mac 安装
curl -fsSL https://ollama.com/install.sh | sh

运行 Qwen3:

# 查看可用版本
ollama list

# 运行指定模型
ollama run qwen3:8b
ollama run qwen3:4b
ollama run qwen3:14b

配置参数:

# 创建自定义配置
cat > Modelfile << 'EOF'
FROM qwen3:14b
PARAMETER temperature 0.7
PARAMETER top_p 0.9
PARAMETER top_k 40
PARAMETER num_ctx 8192
PARAMETER num_gpu 1
EOF

ollama create qwen3-custom -f Modelfile
ollama run qwen3-custom

3.3 方法三:LM Studio(图形界面)

# 下载 LM Studio
# https://lmstudio.ai/

# 在应用内:
# 1. 搜索 "Qwen3"
# 2. 下载 MLX 或 GGUF 版本
# 3. 选择量化精度 (4bit/8bit)
# 4. 点击加载并聊天

3.4 方法四: llama.cpp (GGUF)

安装:

# Mac 版本
brew install llama.cpp

# 或从源码编译
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
make -j $(nproc)

下载 GGUF 模型:

# 搜索 Qwen3 GGUF 模型
# https://huggingface.co/models?search=qwen3+gguf

运行:

./llama-server -m ./models/qwen3-8b-q4_k_m.gguf \
    -ngl 1 \
    -c 8192 \
    --host 0.0.0.0 \
    --port 8080

第二部分:Qwen3.5 系列部署方案

一、Qwen3.5 模型系列规格

模型 参数量 INT4 量化 INT8 量化 FP16 推荐内存
Qwen3.5-0.5B 0.5B ~0.7GB ~1GB ~1GB 4GB+
Qwen3.5-1.5B 1.5B ~2GB ~3GB ~3GB 6GB+
Qwen3.5-3B 3B ~3.6GB ~6GB ~6GB 10GB+
Qwen3.5-4B 4B ~4.8GB ~8GB ~8GB 12GB+
Qwen3.5-7B 7B ~8GB ~14GB ~14GB 20GB+
Qwen3.5-14B 14B ~16GB ~28GB ~28GB 32GB+
Qwen3.5-27B 27B ~32GB ~54GB ~54GB 64GB+
Qwen3.5-32B 32B ~38GB ~64GB ~64GB 80GB+
Qwen3.5-35B-A3B (MoE) 35B ~40GB ~80GB ~140GB 96GB+

二、M4 Max 推荐配置

2.1 统一内存 48GB

运行方案 模型 量化精度 预估性能 适用场景
推荐 Qwen3.5-7B INT4 20-30 tok/s 日常对话、快速响应
推荐 Qwen3.5-14B INT4 12-15 tok/s 较强能力需求
可选 Qwen3.5-4B INT8 40-50 tok/s 超快响应

2.2 统一内存 64GB

运行方案 模型 量化精度 预估性能 适用场景
推荐 Qwen3.5-14B INT4 15-18 tok/s 平衡性能与质量
推荐 Qwen3.5-27B INT4 10-12 tok/s 大模型体验
可选 Qwen3.5-14B FP16 12-15 tok/s 全精度需求

2.3 统一内存 128GB

运行方案 模型 量化精度 预估性能 适用场景
强推 Qwen3.5-35B-A3B INT4 40-50 tok/s 超强能力
推荐 Qwen3.5-27B INT8 15-18 tok/s 大模型高质量
可选 Qwen3.5-32B INT4 12-15 tok/s 超大模型

三、Qwen3.5 部署方法

3.1 方法一:MLX(推荐)

INT4 量化模型列表:

# 官方 MLX 量化版本
huggingface-cli download mlx-community/Qwen3.5-4B-MLX-4bit --local-dir ./Qwen3.5-4B-MLX-4bit
huggingface-cli download mlx-community/Qwen3.5-7B-MLX-4bit --local-dir ./Qwen3.5-7B-MLX-4bit
huggingface-cli download mlx-community/Qwen3.5-14B-MLX-4bit --local-dir ./Qwen3.5-14B-MLX-4bit

运行代码:

from mlx_lm import load, generate

model_path = "mlx-community/Qwen3.5-14B-MLX-4bit"
model, tokenizer = load(model_path)

response = generate(
    model,
    tokenizer,
    prompt="请用中文解释什么是人工智能",
    max_tokens=1024,
    temp=0.7
)
print(response)

3.2 方法二:Ollama

# 查看可用 Qwen3.5 模型
ollama search qwen

# 运行
ollama run qwen3.5:7b
ollama run qwen3.5:14b
ollama run qwen3.5:32b

# Docker 方式(MLX 加速)
# 有人专门优化了 MLX 版本,比纯 Python 快 2 倍

3.3 方法三:LM Studio

# 下载地址:https://lmstudio.ai/

# 在 LM Studio 中:
# 1. 搜索 "Qwen3.5"
# 2. 下载 MLX 版本(推荐)或 GGUF 版本
# 3. 加载模型
# 4. 使用本地 API

3.4 性能对比数据

设备 模型 量化 速度
M4 Pro (36GB) Qwen3.5-14B INT4 20 tok/s
M4 Max (64GB) Qwen3.5-14B INT4 25-30 tok/s
M4 Max (128GB) Qwen3.5-35B-A3B INT4 49 tok/s
M3 Ultra (512GB) Qwen3.5-35B-A3B INT4 115-120 tok/s

第三部分:模型下载汇总

官方下载地址

平台 Qwen3 Qwen3.5
HuggingFace huggingface.co/Qwen/Qwen3-8B huggingface.co/Qwen/Qwen3.5-14B
ModelScope modelscope.cn/models/Qwen/Qwen3-8B modelscope.cn/models/Qwen/Qwen3.5-14B

MLX 优化版本

模型 下载链接
Qwen3-4B-4bit huggingface.co/mlx-community/Qwen3-4B-4bit
Qwen3-8B-4bit huggingface.co/mlx-community/Qwen3-8B-4bit
Qwen3-14B-4bit huggingface.co/mlx-community/Qwen3-14B-4bit
Qwen3.5-4B-MLX-4bit huggingface.co/mlx-community/Qwen3.5-4B-MLX-4bit
Qwen3.5-7B-MLX-4bit huggingface.co/mlx-community/Qwen3.5-7B-MLX-4bit
Qwen3.5-14B-MLX-4bit huggingface.co/mlx-community/Qwen3.5-14B-MLX-4bit

GGUF 量化版本

模型 下载链接
Qwen3.5-7B-Q4_K_M huggingface.co/Qwen/Qwen3.5-7B-GGUF
Qwen3.5-14B-Q4_K_M huggingface.co/Qwen/Qwen3.5-14B-GGUF
Qwen3.5-32B-Q4_K_M huggingface.co/Qwen/Qwen3.5-32B-GGUF

第四部分:快速启动命令

统一内存 48GB 推荐

# 使用 Ollama(最简单)
ollama run qwen3.5:14b

# 或使用 LM Studio 加载 Qwen3.5-14B-Q4_K_M

统一内存 64GB 推荐

# MLX 方式(性能最佳)
pip install mlx-lm
mlx_lm.server --model mlx-community/Qwen3.5-14B-MLX-4bit --port 8080

统一内存 128GB 推荐

# 体验 35B 大模型
mlx_lm.server --model mlx-community/Qwen3.5-35B-A3B-MLX-4bit --port 8080
# 预估速度:40-50 tok/s

第五部分:性能优化建议

1. MLX 优化

# 启用 Metal 加速
import os
os.environ["MLX_USE_METAL"] = "1"

# 批量推理
from mlx_lm import generate_batch

responses = generate_batch(
    model,
    tokenizer,
    prompts=["问题1", "问题2", "问题3"],
    max_tokens=256
)

2. Ollama 优化

# 调整 GPU 层数
# 默认使用一半内存给 GPU
OLLAMA_GPU_LAYERS=24 ollama run qwen3.5:14b

# 调整上下文长度
/param num_ctx 8192

3. LM Studio 优化设置

Settings:
- GPU Acceleration: Metal
- Context Length: 8192+
- Batch Size: 512
- Threads: Auto

总结

按内存配置推荐

统一内存 Qwen3 推荐 Qwen3.5 推荐
48GB Qwen3-8B-4bit Qwen3.5-14B-4bit
64GB Qwen3-14B-4bit Qwen3.5-14B-4bit / 27B-4bit
128GB Qwen3-32B-4bit Qwen3.5-35B-A3B-4bit

性能优先级

  1. 最快速度 → Qwen3.5-4B / Qwen3-4B (40-50 tok/s)
  2. 平衡之选 → Qwen3.5-14B (20-30 tok/s)
  3. 最强能力 → Qwen3.5-35B-A3B (40-50 tok/s, 需 128GB)

文档更新时间: 2026-03-07 适用设备: Mac Studio M4 Max (48GB/64GB/128GB)