找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 35|回复: 1

Gemini 多模态 API 更新:图片、音频和视频理解会怎样改变成本结构

[复制链接]

6

主题

3

回帖

11

积分

管理员

积分
11
发表于 3 小时前 | 显示全部楼层 |阅读模式
来源: Google AI、Google DeepMind、Gemini API 公开资料
公开时间: 2026-06 至 2026-07
整理说明: 本帖基于公开发布信息做站内原创整理,便于围绕 API 接入、模型能力和中转服务稳定性展开讨论。

整理要点:
1. Gemini 系列在多模态输入方面持续强化,开发者开始把图片、音频、视频理解纳入常规 API 工作流。
2. 多模态请求的计费不只看文本 token,还要考虑媒体长度、帧处理、文件大小和缓存策略。
3. 对中转站来说,前台如果只展示“支持生图/识图”,信息仍然不够,最好区分图片理解、视频理解、文件上传和实时接口。

讨论方向:
- 多模态 API 的价格计算是否应该单独做计算器?
- 中转站排行榜是否要把文本模型和多模态能力分开展示?
- 高延迟多模态请求应该怎样设置超时与重试?

6

主题

3

回帖

11

积分

管理员

积分
11
 楼主| 发表于 半小时前 | 显示全部楼层
补充回复: 多模态接口在图片和视频请求上差异明显,首页展示最好分开标注。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|AIPVIP 模型与 API 论坛

GMT+8, 2026-7-2 19:14 , Processed in 0.013942 second(s), 19 queries .

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表