图像理解(识图)API
图像理解 API (Vision) 支持使用 GPT-4o, Gemini 2.5 Pro, Claude 3.5 Sonnet 等先进模型进行图像内容分析、OCR 文字识别和场景描述。
支持模型
- OpenAI:
gpt-4o,gpt-4o-mini,gpt-4.1-mini - Google:
gemini-2.5-pro,gemini-2.5-flash - Anthropic:
claude-3-5-sonnet-20241022
使用方式
通过 Chat Completions API 的 image_url 字段传入图片(URL 或 Base64)。
Python 示例
from openai import OpenAI
client = OpenAI(
api_key="YOUR_API_KEY",
base_url="https://api.weelinking.com/v1"
)
response = client.chat.completions.create(
model="gpt-4o",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "这张图片里有什么?"},
{
"type": "image_url",
"image_url": {
"url": "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
}
}
]
}
],
max_tokens=300
)
print(response.choices[0].message.content)