硬件检测与模型适配
根据你的 GPU / 内存配置,分析哪些开源模型可以本地运行
🔍 自动检测硬件
通过 WebGL 自动识别 GPU 型号,检测到后可在下方手动修正
⚙️ 手动配置 / 修正
📋 模型适配结果
部署工具推荐
根据你的硬件和使用场景,智能推荐最合适的本地推理工具
当前配置分析
🔧 全部工具对比
📦 量化格式说明
| 格式 | 适用工具 | 显存需求 | 质量保留 | 适合场景 |
|---|---|---|---|---|
| Q2_K | Ollama · llama.cpp · LM Studio | 极低(约13%) | 约75% | 超低配 / 测试体验 |
| Q4_K_M | Ollama · llama.cpp · LM Studio · GPT4All | 低(约25%) | 约90% | 消费级 GPU 日常首选 |
| Q5_K_M | Ollama · llama.cpp · LM Studio | 中(约31%) | 约93% | 质量优先 / 有余量时 |
| Q8_0 | Ollama · llama.cpp · LM Studio · vLLM | 高(约50%) | 约99% | 16GB+ 显存 / 高精度需求 |
| FP16 | vLLM · llama.cpp · LocalAI | 全量(100%) | 100% | 专业卡 / 生产环境 |
| AWQ/GPTQ | vLLM · text-gen-webui | 低(约25%) | 约95% | NVIDIA GPU 生产高并发 |
本地运行天梯图
横轴为所需显存 · 蓝线 = 你当前可用显存
绰绰有余(≤60%)
刚好可跑(60–100%)
吃力 / 需降级量化
显存不足
你的显存
综合能力雷达
质量 · 速度 · 显存效率 三维评分(基于当前配置)
API 成本计算
实时价格 · 300+ 模型
模型
输入 token
输出 token
调用次数/天
同等级模型横向对比
| 模型 | 厂商 | 单次 | 日成本 | 月成本 | 对比 |
|---|
全模型价格对比
🔍
等级:
厂商:
| 模型 | 厂商 | 输入 USD /1M ↑ | 输出 USD /1M | 上下文 | 等级 |
|---|