使用指南多模態理解
語音理解
使用 MiMo-V2-Omni 進行語音理解和轉錄。
MiMo-V2-Omni 支援語音理解功能,你可以傳送音訊資料進行轉錄、分析和基於語音的問答。
傳送 Base64 編碼音訊
音訊需要以 base64 編碼資料的形式包含在訊息內容中:
from openai import OpenAI
import base64
client = OpenAI(
api_key="your_mimo_api_key",
base_url="https://api.mimo-v2.com/v1"
)
with open("audio.wav", "rb") as f:
audio_data = base64.b64encode(f.read()).decode()
completion = client.chat.completions.create(
model="mimo-v2-omni",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "這段音訊說了什麼?"},
{
"type": "input_audio",
"input_audio": {
"data": audio_data,
"format": "wav"
}
}
]
}
]
)
print(completion.choices[0].message.content)支援的格式
| 格式 | 副檔名 |
|---|---|
| WAV | .wav |
| MP3 | .mp3 |
| FLAC | .flac |
| OGG | .ogg |
音訊 Token 消耗與音訊時長相關。音訊越長,消耗的 Token 越多。
MiMo API 文件