LogoMiMo API 文件
LogoMiMo API 文件
首頁歡迎使用

快速開始

定價與限速

API 參考

指南

圖片理解語音理解影片理解
語音合成

支援

常見問題
使用指南多模態理解

語音理解

使用 MiMo-V2-Omni 進行語音理解和轉錄。

MiMo-V2-Omni 支援語音理解功能,你可以傳送音訊資料進行轉錄、分析和基於語音的問答。

傳送 Base64 編碼音訊

音訊需要以 base64 編碼資料的形式包含在訊息內容中:

from openai import OpenAI
import base64

client = OpenAI(
    api_key="your_mimo_api_key",
    base_url="https://api.mimo-v2.com/v1"
)

with open("audio.wav", "rb") as f:
    audio_data = base64.b64encode(f.read()).decode()

completion = client.chat.completions.create(
    model="mimo-v2-omni",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "這段音訊說了什麼?"},
                {
                    "type": "input_audio",
                    "input_audio": {
                        "data": audio_data,
                        "format": "wav"
                    }
                }
            ]
        }
    ]
)

print(completion.choices[0].message.content)

支援的格式

格式副檔名
WAV.wav
MP3.mp3
FLAC.flac
OGG.ogg

音訊 Token 消耗與音訊時長相關。音訊越長,消耗的 Token 越多。

圖片理解

使用 MiMo-V2-Omni 進行圖片理解和分析。

影片理解

使用 MiMo-V2-Omni 進行影片理解和分析。

目錄

傳送 Base64 編碼音訊
支援的格式