语音理解
使用 MiMo-V2-Omni 进行语音理解和转录。
MiMo-V2-Omni 支持语音理解功能,你可以发送音频数据进行转录、分析和基于语音的问答。
发送 Base64 编码音频
音频需要以 base64 编码数据的形式包含在消息内容中:
from openai import OpenAI
import base64
client = OpenAI(
api_key="your_mimo_api_key",
base_url="https://api.mimo-v2.com/v1"
)
with open("audio.wav", "rb") as f:
audio_data = base64.b64encode(f.read()).decode()
completion = client.chat.completions.create(
model="mimo-v2-omni",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "这段音频说了什么?"},
{
"type": "input_audio",
"input_audio": {
"data": audio_data,
"format": "wav"
}
}
]
}
]
)
print(completion.choices[0].message.content)支持的格式
| 格式 | 扩展名 |
|---|---|
| WAV | .wav |
| MP3 | .mp3 |
| FLAC | .flac |
| OGG | .ogg |
音频 Token 消耗与音频时长相关。音频越长,消耗的 Token 越多。
MiMo API 文档