快速開始
模型超參
MiMo-V2 系列模型的推薦引數配置
推薦引數
下表列出了各 MiMo-V2 模型的推薦引數值:
| 引數 | 說明 | MiMo-V2-Pro | MiMo-V2-Omni | MiMo-V2-Flash |
|---|---|---|---|---|
temperature | 控制隨機性,值越高輸出越有創意 | 1.0 | 1.0 | 1.0 |
top_p | 核取樣閾值 | 0.95 | 0.95 | 0.95 |
max_completion_tokens | 響應中的最大 Token 數 | 1024-128000 | 1024-128000 | 1024-64000 |
frequency_penalty | 對重複 Token 的懲罰係數 | 0 | 0 | 0 |
presence_penalty | 對已出現 Token 的懲罰係數 | 0 | 0 | 0 |
stream | 是否啟用流式輸出 | true/false | true/false | true/false |
stop | 停止序列 | null | null | null |
引數詳解
temperature
控制模型輸出的隨機性。值為 0 時輸出接近確定性結果,值越高則輸出越具創意和多樣性。所有 MiMo-V2 模型的推薦預設值為 1.0。
- 取值範圍: 0.0 到 2.0
- 預設值: 1.0
- 建議: 對於事實性或確定性任務,使用較低的值(如 0.2)。對於創意寫作或頭腦風暴,使用較高的值(如 1.0-1.5)。
top_p
也稱為核取樣(nucleus sampling)。模型會從累積機率達到 top_p 的最小 Token 集合中進行取樣。0.95 表示模型從累積機率至少為 95% 的最小 Token 集合中取樣。
- 取值範圍: 0.0 到 1.0
- 預設值: 0.95
- 建議: 一般情況下,建議只調整
temperature或top_p其中之一,不要同時調整。
max_completion_tokens
模型在單次響應中可以生成的最大 Token 數。當啟用思考模式時,此數值包含可見輸出和內部推理 Token。
- 取值範圍: 因模型而異(見上表)
- 預設值: 1024
- 建議: 請根據預期輸出長度設定足夠大的值。對於複雜推理任務,建議使用較高的值,為模型提供充足的思考空間。
frequency_penalty
根據 Token 在已生成文字中出現的頻率進行懲罰。正值可以減少重複。
- 取值範圍: -2.0 到 2.0
- 預設值: 0
- 建議: 對於較長的輸出,使用較小的正值(如 0.1-0.5)可以減少重複表述。
presence_penalty
根據 Token 是否已在生成的文字中出現過進行懲罰,不考慮出現頻率。正值鼓勵模型引入新話題。
- 取值範圍: -2.0 到 2.0
- 預設值: 0
- 建議: 使用較小的正值可以鼓勵更多樣化的輸出和話題探索。
stream
設定為 true 時,模型會在生成過程中以伺服器傳送事件(SSE)的形式逐步返回部分響應。這為互動式應用提供了更好的使用者體驗,可以增量顯示輸出內容。
- 可選值:
true或false - 預設值:
false - 建議: 對於聊天介面和實時應用,建議啟用流式輸出。對於批處理或需要完整響應的場景,可以關閉。
stop
指定一組停止序列,當模型生成到任意一個停止序列時,將停止繼續生成。
- 型別:
null或字串陣列(最多 4 個序列) - 預設值:
null - 建議: 使用停止序列可以控制輸出格式,例如在特定分隔符或標記處停止生成。
MiMo API 文件