LogoMiMo API 文档
LogoMiMo API 文档
首页欢迎使用

语音理解

使用 MiMo-V2-Omni 进行语音理解和转录。

MiMo-V2-Omni 支持语音理解功能,你可以发送音频数据进行转录、分析和基于语音的问答。

发送 Base64 编码音频

音频需要以 base64 编码数据的形式包含在消息内容中:

from openai import OpenAI
import base64

client = OpenAI(
    api_key="your_mimo_api_key",
    base_url="https://api.mimo-v2.com/v1"
)

with open("audio.wav", "rb") as f:
    audio_data = base64.b64encode(f.read()).decode()

completion = client.chat.completions.create(
    model="mimo-v2-omni",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "这段音频说了什么?"},
                {
                    "type": "input_audio",
                    "input_audio": {
                        "data": audio_data,
                        "format": "wav"
                    }
                }
            ]
        }
    ]
)

print(completion.choices[0].message.content)

支持的格式

格式扩展名
WAV.wav
MP3.mp3
FLAC.flac
OGG.ogg

音频 Token 消耗与音频时长相关。音频越长,消耗的 Token 越多。

目录

发送 Base64 编码音频
支持的格式