模型超参
MiMo-V2 系列模型的推荐参数配置
推荐参数
下表列出了各 MiMo-V2 模型的推荐参数值:
| 参数 | 说明 | MiMo-V2-Pro | MiMo-V2-Omni | MiMo-V2-Flash |
|---|---|---|---|---|
temperature | 控制随机性,值越高输出越有创意 | 1.0 | 1.0 | 1.0 |
top_p | 核采样阈值 | 0.95 | 0.95 | 0.95 |
max_completion_tokens | 响应中的最大 Token 数 | 1024-128000 | 1024-128000 | 1024-64000 |
frequency_penalty | 对重复 Token 的惩罚系数 | 0 | 0 | 0 |
presence_penalty | 对已出现 Token 的惩罚系数 | 0 | 0 | 0 |
stream | 是否启用流式输出 | true/false | true/false | true/false |
stop | 停止序列 | null | null | null |
参数详解
temperature
控制模型输出的随机性。值为 0 时输出接近确定性结果,值越高则输出越具创意和多样性。所有 MiMo-V2 模型的推荐默认值为 1.0。
- 取值范围: 0.0 到 2.0
- 默认值: 1.0
- 建议: 对于事实性或确定性任务,使用较低的值(如 0.2)。对于创意写作或头脑风暴,使用较高的值(如 1.0-1.5)。
top_p
也称为核采样(nucleus sampling)。模型会从累积概率达到 top_p 的最小 Token 集合中进行采样。0.95 表示模型从累积概率至少为 95% 的最小 Token 集合中采样。
- 取值范围: 0.0 到 1.0
- 默认值: 0.95
- 建议: 一般情况下,建议只调整
temperature或top_p其中之一,不要同时调整。
max_completion_tokens
模型在单次响应中可以生成的最大 Token 数。当启用思考模式时,此数值包含可见输出和内部推理 Token。
- 取值范围: 因模型而异(见上表)
- 默认值: 1024
- 建议: 请根据预期输出长度设置足够大的值。对于复杂推理任务,建议使用较高的值,为模型提供充足的思考空间。
frequency_penalty
根据 Token 在已生成文本中出现的频率进行惩罚。正值可以减少重复。
- 取值范围: -2.0 到 2.0
- 默认值: 0
- 建议: 对于较长的输出,使用较小的正值(如 0.1-0.5)可以减少重复表述。
presence_penalty
根据 Token 是否已在生成的文本中出现过进行惩罚,不考虑出现频率。正值鼓励模型引入新话题。
- 取值范围: -2.0 到 2.0
- 默认值: 0
- 建议: 使用较小的正值可以鼓励更多样化的输出和话题探索。
stream
设置为 true 时,模型会在生成过程中以服务器发送事件(SSE)的形式逐步返回部分响应。这为交互式应用提供了更好的用户体验,可以增量显示输出内容。
- 可选值:
true或false - 默认值:
false - 建议: 对于聊天界面和实时应用,建议启用流式输出。对于批处理或需要完整响应的场景,可以关闭。
stop
指定一组停止序列,当模型生成到任意一个停止序列时,将停止继续生成。
- 类型:
null或字符串数组(最多 4 个序列) - 默认值:
null - 建议: 使用停止序列可以控制输出格式,例如在特定分隔符或标记处停止生成。
MiMo API 文档