视频理解

MiMo-V2-Omni 支持视频理解功能，你可以发送视频内容进行分析、描述和视觉问答。视频可以通过 URL 或 base64 编码数据提供。

使用视频 URL

from openai import OpenAI

client = OpenAI(
    api_key="your_mimo_api_key",
    base_url="https://api.mimo-v2.com/v1"
)

completion = client.chat.completions.create(
    model="mimo-v2-omni",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "这个视频里发生了什么？"},
                {
                    "type": "video_url",
                    "video_url": {"url": "https://example.com/video.mp4"}
                }
            ]
        }
    ]
)

print(completion.choices[0].message.content)

使用 Base64 编码视频

from openai import OpenAI
import base64

client = OpenAI(
    api_key="your_mimo_api_key",
    base_url="https://api.mimo-v2.com/v1"
)

with open("video.mp4", "rb") as f:
    video_data = base64.b64encode(f.read()).decode()

completion = client.chat.completions.create(
    model="mimo-v2-omni",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "描述这个视频中发生了什么"},
                {
                    "type": "video_url",
                    "video_url": {"url": f"data:video/mp4;base64,{video_data}"}
                }
            ]
        }
    ]
)

print(completion.choices[0].message.content)

Token 消耗

视频内容的 Token 消耗远高于图片或文本，因为模型需要逐帧分析。Token 用量取决于：

视频时长：视频越长，消耗的 Token 越多。
分辨率：分辨率越高，采样细节越多。
帧率：模型会按固定间隔从视频中采样帧。

视频内容可能消耗大量 Token。建议使用较短的片段或较低的分辨率来控制成本。对于长视频，建议提取关键帧作为图片输入。

视频理解

使用 MiMo-V2-Omni 进行视频理解和分析。

MiMo-V2-Omni 支持视频理解功能，你可以发送视频内容进行分析、描述和视觉问答。视频可以通过 URL 或 base64 编码数据提供。

使用视频 URL

from openai import OpenAI

client = OpenAI(
    api_key="your_mimo_api_key",
    base_url="https://api.mimo-v2.com/v1"
)

completion = client.chat.completions.create(
    model="mimo-v2-omni",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "这个视频里发生了什么？"},
                {
                    "type": "video_url",
                    "video_url": {"url": "https://example.com/video.mp4"}
                }
            ]
        }
    ]
)

print(completion.choices[0].message.content)

使用 Base64 编码视频

from openai import OpenAI
import base64

client = OpenAI(
    api_key="your_mimo_api_key",
    base_url="https://api.mimo-v2.com/v1"
)

with open("video.mp4", "rb") as f:
    video_data = base64.b64encode(f.read()).decode()

completion = client.chat.completions.create(
    model="mimo-v2-omni",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "描述这个视频中发生了什么"},
                {
                    "type": "video_url",
                    "video_url": {"url": f"data:video/mp4;base64,{video_data}"}
                }
            ]
        }
    ]
)

print(completion.choices[0].message.content)

Token 消耗

视频内容的 Token 消耗远高于图片或文本，因为模型需要逐帧分析。Token 用量取决于：

视频时长：视频越长，消耗的 Token 越多。
分辨率：分辨率越高，采样细节越多。
帧率：模型会按固定间隔从视频中采样帧。

视频内容可能消耗大量 Token。建议使用较短的片段或较低的分辨率来控制成本。对于长视频，建议提取关键帧作为图片输入。

使用视频 URL

使用 Base64 编码视频

Token 消耗

目录

视频理解

使用视频 URL

使用 Base64 编码视频

Token 消耗

目录