图片
下面给出测试的代码:
import os from volcenginesdkarkruntime import Ark import os from openai import OpenAI # 加载.env文件 try:from dotenv import load_dotenv # 指定.env文件路径(相对于当前文件) env_path=os.path.join(os.path.dirname(__file__),'.env')load_dotenv(env_path)except ImportError:pass # 从环境变量中获取您的API KEY,配置方法见:https://www.volcengine.com/docs/82379/1399008api_key=os.getenv('ARK_API_KEY')ifnot api_key:print("❌ 错误: 未找到 ARK_API_KEY 环境变量")print(" 请确保在 backend/.env 文件中设置了 ARK_API_KEY")exit(1)client=Ark(base_url='https://ark.cn-beijing.volces.com/api/v3',api_key=os.getenv('ARK_API_KEY'),)response=client.responses.create(model="doubao-seed-1-8-251228",input=[{"role":"user","content":[{"type":"input_image","image_url":"https://ark-project.tos-cn-beijing.volces.com/doc_image/ark_demo_img_1.png"},{"type":"input_text","text":"支持输入图片的模型系列是哪个?"},],}])print(response)下面这一段非常重要,需要使用load_dotenv, 后面才是api_key = os.getenv('ARK_API_KEY')
import os from volcenginesdkarkruntime import Ark import os from openai import OpenAI # 加载.env文件 try:from dotenv import load_dotenv # 指定.env文件路径(相对于当前文件) env_path=os.path.join(os.path.dirname(__file__),'.env')load_dotenv(env_path)except ImportError:pass上面代码运行结果如下:成功运行
Response(created_at=1768285927, error=None, id=‘resp_0217682859270354fe949375ac26682761f342713cef332331e7d’, incomplete_details=None, max_output_tokens=32768, model=‘doubao-seed-1-8-251228’, object=‘response’, output=[ResponseReasoningItem(id=‘rs_02176828592773000000000000000000000ffffac15433f3bceef’, summary=[Summary(text=‘用户现在需要解决的问题是找到支持输入图片的模型。首先看表格,输入列里的图像这一栏,Doubao-1.5-vision的图像输入是√,其他两个是×。所以看表格里的行,Doubao-1.5-vision的输入图像是支持的,所以答案是这个模型。现在整理一下,看清楚表格内容:\n\n模型系列里,Doubao-1.5-pro的输入图像是×,lite也是×,vision是√,所以支持输入图片的是Doubao-1.5-vision。’, type=‘summary_text’)], type=‘reasoning’, status=‘completed’), ResponseOutputMessage(type=‘message’, role=‘assistant’, content=[ResponseOutputText(type=‘output_text’, text=‘查看表格的“输入-图像”列可以看到:\n- Doubao-1.5-pro:×,不支持\n- Doubao-1.5-lite:×,不支持\n- Doubao-1.5-vision:√,支持\n\n所以支持输入图片的模型系列是Doubao-1.5-vision。’, annotations=None)], status=‘completed’, id=‘msg_02176828593083100000000000000000000ffffac15433f899bcc’, partial=None)], previous_response_id=None, thinking=None, service_tier=‘default’, status=‘completed’, temperature=None, tools=None, top_p=None, usage=ResponseUsage(input_tokens=494, input_tokens_details=InputTokensDetails(cached_tokens=0), output_tokens=199, output_tokens_details=OutputTokensDetails(reasoning_tokens=124), total_tokens=693, tool_usage=None, tool_usage_details=None), caching=ResponseCaching(type=‘disabled’, prefix=None), text=None, instructions=None, store=True, expire_at=1768545127, tool_choice=None, parallel_tool_calls=None, max_tool_calls=None, reasoning=None)
原图像是
视频
import os from volcenginesdkarkruntime import Ark import os from openai import OpenAI # 加载.env文件 try:from dotenv import load_dotenv # 指定.env文件路径(相对于当前文件) env_path=os.path.join(os.path.dirname(__file__),'.env')load_dotenv(env_path)except ImportError:pass # 从环境变量中获取您的API KEY,配置方法见:https://www.volcengine.com/docs/82379/1399008api_key=os.getenv('ARK_API_KEY')ifnot api_key:print("❌ 错误: 未找到 ARK_API_KEY 环境变量")print(" 请确保在 backend/.env 文件中设置了 ARK_API_KEY")exit(1)client=Ark(base_url='https://ark.cn-beijing.volces.com/api/v3',api_key=os.getenv('ARK_API_KEY'),)response=client.responses.create(model="doubao-seed-1-8-251228",input=[{"role":"user","content":[{"type":"input_video","video_url":"https://ark-project.tos-cn-beijing.volces.com/doc_video/ark_vlm_video_input.mp4","fps":1}],}])print(response)结果
Response(created_at=1768286241, error=None, id=‘resp_021768286238926d6b0e46812eb6ca5f421e6552139c58ccacbf7’, incomplete_details=None, max_output_tokens=32768, model=‘doubao-seed-1-6-251015’, object=‘response’, output=[ResponseReasoningItem(id=‘rs_02176828624193000000000000000000000ffffac15b0a93b6234’, summary=[Summary(text=‘\n用户现在需要我把这个视频的内容描述出来,要详细一点。首先看视频里的元素:大本钟(伊丽莎白塔),伦敦的街道,车流,时间应该是傍晚或者清晨,因为天色有点暗但有光线。首先,画面的主体是大本钟,它在左侧,建筑风格很经典。然后右侧是繁忙的街道,有很多车,包括红色的双层巴士,这是伦敦的标志。背景是城市天际线,高楼大厦,天空有云,颜色是暖色调,可能是日落时分。\n\n接下来看时间流逝:视频里时钟的指针在移动,说明时间在变化。车流也在持续移动,红色巴士向前行驶。画面右下角有“AI生成”的字样,所以要提到这是AI生成的视频。\n\n需要把这些元素组合起来,描述每个部分的动态和静态。比如大本钟的细节,街道的繁忙,车辆的流动,时间的变化,整体的氛围。要注意顺序,从整体到局部,或者按空间位置来描述。\n\n现在组织语言:视频展示了伦敦标志性建筑大本钟(伊丽莎白塔)的场景,时间设定在黄昏或黎明时分,天空被暖色调的云层覆盖,背景是现代化的城市天际线。画面左侧,大本钟矗立在河边,钟面上的指针缓慢移动,显示时间在流逝。右侧的街道上车流密集,包括一辆醒目的红色双层巴士在内的各种车辆在道路上有序行驶,车灯亮起,形成流动的光带。整个场景呈现出城市的繁忙与历史建筑的静谧对比,右下角标注有“AI生成”字样,表明该视频由人工智能技术制作。\n\n检查一下,有没有遗漏的细节?比如车流的方向,大本钟的位置,天空的颜色,时间的变化(指针移动),红色巴士的存在。这些都提到了。然后确保描述流畅,符合视频的实际内容。嗯,应该可以了。’, type=‘summary_text’)], type=‘reasoning’, status=‘completed’), ResponseOutputMessage(type=‘message’, role=‘assistant’, content=[ResponseOutputText(type=‘output_text’, text=‘视频展示了伦敦标志性建筑大本钟(伊丽莎白塔)的场景,时间设定在黄昏或黎明时分,天空被暖色调的云层覆盖,背景是现代化的城市天际线。画面左侧,大本钟矗立在河边,钟面上的指针缓慢移动,显示时间在流逝。右侧的街道上车流密集,包括一辆醒目的红色双层巴士在内的各种车辆在道路上有序行驶,车灯亮起,形成流动的光带。整个场景呈现出城市的繁忙与历史建筑的静谧对比,右下角标注有“AI生成”字样,表明该视频由人工智能技术制作。’, annotations=None)], status=‘completed’, id=‘msg_02176828625371100000000000000000000ffffac15b0a96c6d48’, partial=None)], previous_response_id=None, thinking=None, service_tier=‘default’, status=‘completed’, temperature=None, tools=None, top_p=None, usage=ResponseUsage(input_tokens=10385, input_tokens_details=InputTokensDetails(cached_tokens=0), output_tokens=532, output_tokens_details=OutputTokensDetails(reasoning_tokens=408), total_tokens=10917, tool_usage=None, tool_usage_details=None), caching=ResponseCaching(type=‘disabled’, prefix=None), text=None, instructions=None, store=True, expire_at=1768545438, tool_choice=None, parallel_tool_calls=None, max_tool_calls=None, reasoning=None)
后记
2026年1月13日于上海。