Methodology
评测方法论
分数回答一个问题:这家图片模型中转能不能放心接入生产生图业务?
检测矩阵
- 轻量在线检测:填好 baseUrl / key、选模型(默认 GPT Image 2 / Nano Banana,可自定义)后直接发起文生图:简单文生图 1 次,可选并发 2–3 次,timeout 90–120s,由生成请求本身验证鉴权 / 模型可用性。仅展示本次结果,不计入正式分。
- 官方深度评测:顺序 5 次(c=1)、并发 6 次(c=3)、重活 edit 2 次(6 图 + 长 prompt),timeout 180–300s,输出原始 JSON。
总分结构(100)
| 维度 | 权重 |
|---|---|
| 可靠性 | 40 |
| 稳定性 | 25 |
| 速度 | 20 |
| 成本与透明度 | 10 |
| 数据可信度 | 5 |
封顶规则
封顶规则比加权分更重要,防止不可靠渠道拿到虚高分:
- 鉴权失败或目标模型不可调用:不出正式分(NA)。
- 重活 edit 成功率为 0:总分最高 70。
- 明确 524 / 固定超时墙:总分最高 75。
- 总体成功率 < 80%:总分最高 75。
- 并发失败率 > 30%:总分最高 80。
- 失败仍扣费且失败率 > 10%:总分最高 80。
- 深度评测样本不完整:总分最高 85。
- 最近有效深度评测 > 90 天:总分最高 80,并标「数据过期」。
等级定义
| 等级 | 分数 | 定义 |
|---|---|---|
| S | 90–100 | 可做主用,重活可靠,无明显超时墙 |
| A | 80–89 | 推荐使用,可能偏慢 |
| B | 65–79 | 可做备用或轻量场景 |
| C | 50–64 | 仅建议测试 |
| D | 0–49 | 不推荐 |
| NA | 无分 | 鉴权失败 / 模型不可测 / 数据不足 |