AI Token 成本计算器 · 本地运行适配 v4

⚡

AI Token Calculator

实时定价 · OpenRouter

🖥 硬件适配 · 40+ 本地模型加载中…

正在拉取 OpenRouter 实时定价数据…

硬件检测与模型适配

根据你的 GPU / 内存配置，分析哪些开源模型可以本地运行

🔍 自动检测硬件

通过 WebGL 自动识别 GPU 型号，检测到后可在下方手动修正

⚙️ 手动配置 / 修正

GPU 型号

VRAM / 统一内存 (GB)

系统 RAM (GB)

CPU 逻辑核心数

GPU 数量（多卡）

量化偏好

📋 模型适配结果

部署工具推荐

根据你的硬件和使用场景，智能推荐最合适的本地推理工具

当前配置分析

🔧 全部工具对比

📦 量化格式说明

格式	适用工具	显存需求	质量保留	适合场景
Q2_K	Ollama · llama.cpp · LM Studio	极低（约13%）	约75%	超低配 / 测试体验
Q4_K_M	Ollama · llama.cpp · LM Studio · GPT4All	低（约25%）	约90%	消费级 GPU 日常首选
Q5_K_M	Ollama · llama.cpp · LM Studio	中（约31%）	约93%	质量优先 / 有余量时
Q8_0	Ollama · llama.cpp · LM Studio · vLLM	高（约50%）	约99%	16GB+ 显存 / 高精度需求
FP16	vLLM · llama.cpp · LocalAI	全量（100%）	100%	专业卡 / 生产环境
AWQ/GPTQ	vLLM · text-gen-webui	低（约25%）	约95%	NVIDIA GPU 生产高并发

本地运行天梯图

横轴为所需显存 · 蓝线 = 你当前可用显存

绰绰有余（≤60%）

刚好可跑（60–100%）

吃力 / 需降级量化

显存不足

你的显存

综合能力雷达

质量 · 速度 · 显存效率三维评分（基于当前配置）

API 成本计算

实时价格 · 300+ 模型

模型

输入 token

输出 token

调用次数/天

同等级模型横向对比

模型	厂商	单次	日成本	月成本	对比

全模型价格对比

🔍

等级：

厂商：

模型	厂商	输入 USD /1M ↑	输出 USD /1M	上下文	等级