语音理解

MiMo-V2-Omni 支持语音理解功能，你可以发送音频数据进行转录、分析和基于语音的问答。

发送 Base64 编码音频

音频需要以 base64 编码数据的形式包含在消息内容中：

from openai import OpenAI
import base64

client = OpenAI(
    api_key="your_mimo_api_key",
    base_url="https://api.mimo-v2.com/v1"
)

with open("audio.wav", "rb") as f:
    audio_data = base64.b64encode(f.read()).decode()

completion = client.chat.completions.create(
    model="mimo-v2-omni",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "这段音频说了什么？"},
                {
                    "type": "input_audio",
                    "input_audio": {
                        "data": audio_data,
                        "format": "wav"
                    }
                }
            ]
        }
    ]
)

print(completion.choices[0].message.content)

支持的格式

格式	扩展名
WAV	`.wav`
MP3	`.mp3`
FLAC	`.flac`
OGG	`.ogg`

音频 Token 消耗与音频时长相关。音频越长，消耗的 Token 越多。

MiMo-V2-Omni 支持语音理解功能，你可以发送音频数据进行转录、分析和基于语音的问答。

发送 Base64 编码音频

音频需要以 base64 编码数据的形式包含在消息内容中：

from openai import OpenAI
import base64

client = OpenAI(
    api_key="your_mimo_api_key",
    base_url="https://api.mimo-v2.com/v1"
)

with open("audio.wav", "rb") as f:
    audio_data = base64.b64encode(f.read()).decode()

completion = client.chat.completions.create(
    model="mimo-v2-omni",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "这段音频说了什么？"},
                {
                    "type": "input_audio",
                    "input_audio": {
                        "data": audio_data,
                        "format": "wav"
                    }
                }
            ]
        }
    ]
)

print(completion.choices[0].message.content)

支持的格式

格式	扩展名
WAV	`.wav`
MP3	`.mp3`
FLAC	`.flac`
OGG	`.ogg`

音频 Token 消耗与音频时长相关。音频越长，消耗的 Token 越多。

发送 Base64 编码音频

支持的格式

目录

语音理解

发送 Base64 编码音频

支持的格式

目录