使用指南多模態理解
影片理解
使用 MiMo-V2-Omni 進行影片理解和分析。
MiMo-V2-Omni 支援影片理解功能,你可以傳送影片內容進行分析、描述和視覺問答。影片可以透過 URL 或 base64 編碼資料提供。
使用影片 URL
from openai import OpenAI
client = OpenAI(
api_key="your_mimo_api_key",
base_url="https://api.mimo-v2.com/v1"
)
completion = client.chat.completions.create(
model="mimo-v2-omni",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "這個影片裡發生了什麼?"},
{
"type": "video_url",
"video_url": {"url": "https://example.com/video.mp4"}
}
]
}
]
)
print(completion.choices[0].message.content)使用 Base64 編碼影片
from openai import OpenAI
import base64
client = OpenAI(
api_key="your_mimo_api_key",
base_url="https://api.mimo-v2.com/v1"
)
with open("video.mp4", "rb") as f:
video_data = base64.b64encode(f.read()).decode()
completion = client.chat.completions.create(
model="mimo-v2-omni",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "描述這個影片中發生了什麼"},
{
"type": "video_url",
"video_url": {"url": f"data:video/mp4;base64,{video_data}"}
}
]
}
]
)
print(completion.choices[0].message.content)Token 消耗
影片內容的 Token 消耗遠高於圖片或文字,因為模型需要逐幀分析。Token 用量取決於:
- 影片時長:影片越長,消耗的 Token 越多。
- 解析度:解析度越高,取樣細節越多。
- 幀率:模型會按固定間隔從影片中取樣幀。
影片內容可能消耗大量 Token。建議使用較短的片段或較低的解析度來控制成本。對於長影片,建議提取關鍵幀作為圖片輸入。
MiMo API 文件