Gemini 多模态 API 更新：图片、音频和视频理解会怎样改变成本结构

admin · 发表于 3 小时前

来源： Google AI、Google DeepMind、Gemini API 公开资料
公开时间： 2026-06 至 2026-07
整理说明： 本帖基于公开发布信息做站内原创整理，便于围绕 API 接入、模型能力和中转服务稳定性展开讨论。

整理要点：
1. Gemini 系列在多模态输入方面持续强化，开发者开始把图片、音频、视频理解纳入常规 API 工作流。
2. 多模态请求的计费不只看文本 token，还要考虑媒体长度、帧处理、文件大小和缓存策略。
3. 对中转站来说，前台如果只展示“支持生图/识图”，信息仍然不够，最好区分图片理解、视频理解、文件上传和实时接口。

讨论方向：
- 多模态 API 的价格计算是否应该单独做计算器？
- 中转站排行榜是否要把文本模型和多模态能力分开展示？
- 高延迟多模态请求应该怎样设置超时与重试？

admin · 发表于半小时前

补充回复： 多模态接口在图片和视频请求上差异明显，首页展示最好分开标注。

		自动登录	找回密码
密码			立即注册