語音理解

MiMo-V2-Omni 支援語音理解功能，你可以傳送音訊資料進行轉錄、分析和基於語音的問答。

傳送 Base64 編碼音訊

音訊需要以 base64 編碼資料的形式包含在訊息內容中：

from openai import OpenAI
import base64

client = OpenAI(
    api_key="your_mimo_api_key",
    base_url="https://api.mimo-v2.com/v1"
)

with open("audio.wav", "rb") as f:
    audio_data = base64.b64encode(f.read()).decode()

completion = client.chat.completions.create(
    model="mimo-v2-omni",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "這段音訊說了什麼？"},
                {
                    "type": "input_audio",
                    "input_audio": {
                        "data": audio_data,
                        "format": "wav"
                    }
                }
            ]
        }
    ]
)

print(completion.choices[0].message.content)

支援的格式

格式	副檔名
WAV	`.wav`
MP3	`.mp3`
FLAC	`.flac`
OGG	`.ogg`

音訊 Token 消耗與音訊時長相關。音訊越長，消耗的 Token 越多。

MiMo-V2-Omni 支援語音理解功能，你可以傳送音訊資料進行轉錄、分析和基於語音的問答。

傳送 Base64 編碼音訊

音訊需要以 base64 編碼資料的形式包含在訊息內容中：

from openai import OpenAI
import base64

client = OpenAI(
    api_key="your_mimo_api_key",
    base_url="https://api.mimo-v2.com/v1"
)

with open("audio.wav", "rb") as f:
    audio_data = base64.b64encode(f.read()).decode()

completion = client.chat.completions.create(
    model="mimo-v2-omni",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "這段音訊說了什麼？"},
                {
                    "type": "input_audio",
                    "input_audio": {
                        "data": audio_data,
                        "format": "wav"
                    }
                }
            ]
        }
    ]
)

print(completion.choices[0].message.content)

支援的格式

格式	副檔名
WAV	`.wav`
MP3	`.mp3`
FLAC	`.flac`
OGG	`.ogg`

音訊 Token 消耗與音訊時長相關。音訊越長，消耗的 Token 越多。

傳送 Base64 編碼音訊

支援的格式

目錄

語音理解

傳送 Base64 編碼音訊

支援的格式

目錄