Made by: Karminski-牙医
Link https://google-io-2025.kcores.comGoogle 最先进的视频生成模型
支持创建带有音效和对话的视频,现已在美国面向 Google AI Ultra 订阅用户推出
了解更多 →分辨率:1080p,最长60秒
支持场景:自然风景、人物对话、产品展示
生成速度:30秒视频约需2分钟
营销材料制作
社交媒体内容
教育演示视频
提供更丰富、更详细和更准确的图像生成
改进文本渲染和提示结果,现可在 Gemini 应用、Workspace 和 Vertex AI 免费使用
了解更多 →照片级真实感 - 创建具有真实细节的高质量图像,包括风景、植物、人物和动物
提升的锐度与清晰度 - 显著改进边缘细节和质感表现,生成更加精细的图像
优化排版与文字 - 大幅提升文本渲染质量,解决之前版本中的拼写错误问题
更快速的生成 - 相比前代模型,图像创建速度提升显著
SynthID水印技术 - 嵌入隐形数字水印,不影响图像质量的同时标识AI生成内容
多样化创意风格 - 支持从照片写实到向量艺术、特定艺术流派的多种风格创作
创意设计与内容制作 - 为营销、社交媒体和设计项目生成高质量视觉内容
专业视觉呈现 - 创建产品展示、概念艺术和情景模拟图像
个人创意表达 - 将想法快速转化为视觉形式,探索创新概念
详细提示工程 - 通过精确描述主体、环境、风格和技术参数获得理想结果
跨平台可用性 - 已集成至Gemini应用、Google Workspace和Vertex AI
开发者接口 - 企业可通过Vertex AI APIs将图像生成能力整合到自有应用
AI 电影制作工具
通过自然语言和资产管理,使用 Veo、Imagen 和 Gemini 创建电影级片段
了解更多 →摄像机控制 - 直接控制镜头运动、角度和视角
场景构建器 - 无缝编辑和扩展现有镜头,揭示更多动作或连续过渡
资产管理 - 轻松管理和组织所有素材和提示
Flow TV - 提供生成内容展示,可查看喜欢剪辑的确切提示和技术
为 Veo 定制设计 - 提供出色的提示响应和令人惊艳的电影级输出
直观提示 - Gemini 模型使提示过程简单化,可使用日常语言描述创意愿景
角色创建 - 导入自己的素材或使用 Imagen 的文本到图像功能创建角色
一致性维持 - 在不同剪辑和场景中保持相同素材的一致性
Google AI Pro - 提供核心 Flow 功能和每月 100 次生成
Google AI Ultra - 提供最高使用限制和 Veo 3 原生音频生成的早期访问权限
目前在美国可用,更多国家即将推出
与多位电影制作人合作,包括 Dave Clark、Henry Daubrez 和 Junie Lau
支持创作短片如《Freelancers》、《Electric Pink》和《Dear Stranger》
旨在帮助新一代电影制作者更轻松地讲述故事
$249.99/月(新用户前 3 个月半价)
提供最高使用限制,最早获得 Veo 3 和 Gemini 2.5 Pro Deep Think 等高级模型的访问权限
用 AI 创建更有意义的连接
AI 驱动的 3D 视频通信平台,无需特殊眼镜或头显,让远程交流像面对面一样自然
了解更多 →AI 体积视频模型 - 将标准 2D 视频流转换为从任何角度都真实的 3D 体验
光场显示技术 - 创造深度和维度感,支持眼神交流和细微表情识别
企业级可靠性 - 基于 Google Cloud 构建,结合 AI 专业知识提供真实 3D 视频通信
实时语音翻译 - 支持自然对话,同时保留声音、语调和表情
沉浸式体验 - 远程交流感觉像在同一个房间,增强理解和信任
无障碍连接 - 跨越距离和语言障碍,实现无缝沟通
企业合作伙伴 - 与 Zoom 和 HP 等公司合作,即将推出首批设备
渠道合作 - 与 Diversified 和 AVI-SPL 等合作将 Beam 引入全球企业
早期采用者 - 包括德勤、Salesforce、Citadel 和杜兰戈等全球顶级组织
为 Google AI Pro 和 Ultra 用户推出,可总结、澄清和帮助理解任何网页
即将为 Ultra 桌面用户推出,让 Gemini 处理复杂的在线目标
由 Gemini 2.5 提供支持,提供更高级的推理、更长的查询和多模态搜索
了解更多 →Deep Search: 进行数百次并行搜索,提供专家级研究报告
Search Live: 实时通过相机交互式搜索所见内容
智能代理功能: 帮助完成预订门票、餐厅和约会等任务
AI购物体验: 查找灵感、筛选产品和虚拟试穿
个人上下文: 基于您的历史搜索和Gmail(可选)提供定制化建议
自定义图表: 为体育和金融数据创建交互式可视化图表
已在美国开始推出,新功能将陆续通过Labs向用户开放
由Gemini 2.5支持,为传统搜索体验带来AI智能
Google的最新音乐生成模型
提供高保真音乐和专业级音频,捕捉各种风格和复杂作品的微妙细节
了解更多 →高保真音乐生成 - 能够产生细节丰富的音乐,捕捉不同乐器和演奏风格的细微差别
精细创意控制 - 允许音乐家控制作品中的精细细节,创作符合自己意图和愿景的作品
多样化音乐可能性 - 支持多种音乐风格:古典、爵士、流行、电子等
创意灵感源泉 - 提供新的创作起点,帮助音乐家突破创作瓶颈
加速创作过程 - 简化复杂乐段创作,让音乐家更快将想法变为现实
发掘新风格 - 帮助探索不熟悉的音乐类型、技巧和创作可能性
生成专业级48kHz立体声音频,可无缝整合到任何项目中
搭载SynthID水印技术,在不影响听感的情况下标记AI生成内容
已有限量内测版本,可通过官网申请加入测试
移动优先多模态AI模型
通过创新架构实现高效能低内存占用,支持音频、图像和文本理解,动态内存仅需2-3GB
了解更多 →Per-Layer Embeddings (PLE) 技术显著降低RAM使用
5B和8B参数模型实际仅需2GB和3GB动态内存
采用移动设备优化架构,响应速度比Gemma 3 4B快1.5倍
Many-in-1架构:单一模型包含多个不同性能层级的子模型
音频理解:支持语音识别和翻译,多模态输入交错处理
强化多语言能力:特别优化日语、德语、韩语、西班牙语和法语
离线私密AI体验:无需网络连接的本地处理
实时交互式应用:低延迟响应的移动应用
跨模态理解:结合音频、图像、视频和文本的综合理解
异步自主编码助手
由Gemini 2.5 Pro支持,现已进入公测阶段,可直接连接GitHub自动化完成开发任务
了解更多 →在云端VM中处理完整代码库,无需沙箱环境
支持并行任务执行,同时处理多个请求
提供计划和推理过程的可视化工作流
直接集成GitHub工作流,无需切换环境
提供音频格式提交记录,便于快速了解项目历史
用户可在执行前、中、后调整计划,保持对代码的控制
编写测试用例和构建新功能
修复bug和更新依赖版本
处理您不想做的编码任务,节省时间
高性价比思考型模型
接近Pro版性能但价格更低,每百万token输入$0.15,输出$3.5
了解更多 →整体性能接近Gemini 2.5 Pro,是高频场景的理想替代
视觉推理和图像理解能力与Pro版相近
多模态支持表现出色,支持文本与图像综合分析
输入定价:每百万token仅$0.15
输出定价:每百万token $3.5
比DeepSeek-R1的百万token $2定价仅贵$1.5
日常编程与代码辅助
基础图像理解与分析
注意:SimpleQA只有26.9%(Pro为52.9%),知识密集型任务建议使用Pro版
基于现实世界的写作、逻辑推理和复杂内容增强仍推荐使用Pro版
专业医疗领域模型系列
三种变体:4b-pt基座模型,4b-it多模态模型,27b-text-it纯文本模型
了解更多 →medgemma-4b-pt:基座模型,8.6GB
medgemma-4b-it:多模态模型,适合医学影像诊断,8.6GB
medgemma-27b-text-it:纯文本输入模型,适合问诊和病历输入,53.97GB
文本上下文长度:输入128K,输出8K
图像处理:多模态模型将图像归一化到896x896分辨率,编码为256个token
基于Gemma 3的医学专用变种,针对医疗文本和图像理解优化
采用在多种去识别化医学数据上专门预训练的SigLIP图像编码器
LLM组件在多样化医学数据上训练,包括放射科、病理、眼科、皮肤科图像和医学文本
医学影像诊断辅助(X光片、皮肤科图像、眼科图像和病理切片)
医疗文本理解与分析(问诊记录、病历处理)
医学教育和研究辅助工具
模型开源地址:huggingface.co/google/medgemma-27b-text-it
超高速文本生成扩散模型
生成速度达1479 token/s,性能接近Gemini 2.0 Flash-Lite
了解更多 →实验性文本扩散模型,通过将随机噪声转换为连贯文本或代码
生成内容速度远超现有最快模型,同时保持编码性能
采用与图像和视频生成领域类似的扩散技术
大幅降低生成延迟,提高用户交互体验
适用于需要实时反馈的应用场景
在保持高质量输出的同时实现超高速生成
目前提供实验性演示版本,可通过等待列表申请访问
Google正持续优化所有Gemini模型的延迟性能
更快速的2.5 Flash Lite版本即将推出
Gemini 2.5 Pro的增强推理模式
通过并行思考技术解决复杂任务,扩展AI的推理能力
了解更多 →并行思考技术 - 同时探索多种解题思路,选择最优解决方案
结构化推理路径 - 清晰展示解题过程,提高推理透明度
自验证机制 - 在给出最终答案前自动检查结果正确性
USAMO 2025数学竞赛题目 - 单次尝试正确率达83%
LiveCodeBench V6编程基准 - 单次尝试准确率达75.6%
复杂数学推理任务中显著超越其他领先模型
高级编程和算法设计 - 解决复杂开发挑战
数学和科学问题求解 - 提供详细步骤和解释
多步骤规划与决策 - 在企业环境中提供透明可靠的决策支持
极大提升复杂任务解决能力 - 处理需要深度思考的挑战
增强可解释性 - 让用户理解AI的推理过程
降低错误率 - 通过多角度考虑问题减少推理谬误
在自己照片上试穿衣物
Google新增购物功能,让您用自己的照片虚拟试穿各种服装,轻松选购
了解更多 →加入试用:前往Search Labs并选择"try on"实验
浏览风格:购物时点击商品列表上的"try it on"图标
上传照片:提供全身照片,建议光线良好且穿着合身衣物
展示效果:保存或分享您的试穿效果,或浏览类似风格
AI驱动的虚拟试穿技术
实时渲染多种服装效果
支持各种体型和肤色
目前在美国推出测试版
未来将支持更多服装类型和配饰
AI内容鉴别门户
帮助识别使用Google AI创建的内容,支持图像、音频、视频和文本的水印检测
了解更多 →快速识别AI生成内容中的SynthID水印
标明内容中最可能含有水印的部分
支持图像、音频、视频和文本多种模态
高度保留内容质量的鲁棒水印技术
即使内容被分享或经历各种转换仍能检测
已有超过100亿内容被SynthID标记
记者和媒体专业人士的内容验证
研究人员的生成内容鉴别
建立更透明可信的生成式AI生态系统
助你每天完成最佳工作
通过Gmail智能回复、会议翻译与视频创作工具,Gemini为Workspace带来更高效的工作体验
了解更多 →个性化智能回复:根据上下文和邮件风格自动生成回复
收件箱清理:一键整理和归档邮件
快速预约安排:直接在邮件中共享可预约时间
Meet语音翻译:实时翻译对话,保留说话者的声音和表情
Vids视频工具:将幻灯片转换为视频,自动优化音频
AI虚拟形象:无需拍摄即可创建专业视频内容
源文档引用:Docs中直接链接到相关资料,获得精准AI建议
Imagen 4整合:在所有Workspace应用中创建高质量图像
每月20亿AI辅助:Workspace已为企业用户提供强大AI支持
扩展现实平台
将Gemini引入眼镜和头显设备,创造沉浸式AR/VR体验
AI电影制作合作伙伴关系
Darren Aronofsky的团队与Google DeepMind合作,探索AI在叙事和电影制作中的应用
了解更多 →将最先进的视频生成模型交给顶级电影人,推动AI在创意讲故事领域的应用
通过AI技术突破传统电影制作的界限,增强情感化叙事能力
正在制作三部短片,每部由新锐导演执导
使用Google DeepMind的生成式AI模型、工具和能力,包括Veo技术
导演将获得Aronofsky的指导,并得到Google DeepMind研究团队支持
《ANCESTRA》由获奖导演Eliza McNitt执导
将于2025年6月13日在Tribeca电影节首映
采用混合制作模式,结合实景拍摄与先进AI工具,促进跨学科合作
用AI改变您的购物体验
使用新的AI购物模式寻找灵感,智能推荐产品,甚至在自己的照片上虚拟试穿服装
AI驱动的购物灵感推荐
虚拟试穿技术
智能代理结账体验
AI Mode购物体验将在未来几个月内在美国推出
价格跟踪和代理结账功能也将陆续推出
构建通用AI助手的愿景
Google DeepMind正在将Gemini扩展为可以理解和模拟世界各个方面的"世界模型"
了解更多 →开发能够理解用户所处情境的智能AI
实现规划并代表用户采取行动的功能
跨设备无缝工作的通用AI助手
Project Astra的能力整合
Project Mariner的多任务代理系统
世界模型的开发与应用
全新的Gemini应用功能
Gemini Live现在支持相机和屏幕共享,深度研究功能支持个人文档,Canvas能力全面提升
了解更多 →Gemini Live现已在Android和iOS上免费提供
Imagen 4和Veo 3视觉生成能力内置
Deep Research支持上传私人PDF和图片
与Google日历、地图、任务和Keep深度集成
互动式学习测验功能
Chrome浏览器扩展支持
眼镜和头显设备上的 AI 助手
通过Android XR平台,Gemini可以从用户视角理解世界,提供直观、免提的帮助
了解更多 →通过相机和麦克风理解用户所见所闻
免手动操作的AI助手体验
实时语言翻译和转录功能
与三星、高通等合作伙伴共同开发的头显设备
与Gentle Monster、Warby Parker等合作的时尚智能眼镜
为开发者提供软件和参考硬件平台
在无限大屏幕上的沉浸式体验
实时信息和导航指引
消息收发和拍照等无需掏出手机的功能
Google搜索AI功能覆盖更广
现已在200多个国家和地区、40多种语言中提供,新增阿拉伯语、中文、马来语等支持
了解更多 →使用AI回答复杂问题
快速查找和整合信息
提供相关网站链接,方便用户深入了解
业内最快的AI响应速度
用户满意度显著提高
美国和印度等主要市场的使用率提升超过10%
美国地区已推出基于Gemini 2.5的定制版本
支持处理更复杂的问题
开发套件与代理协作增强
Python ADK稳定版发布,Java ADK首次亮相,A2A协议升级实现更轻量安全的代理协作
了解更多 →Python ADK v1.0.0: 用于构建生产级代理的稳定版
Java ADK v0.1.0: 将ADK能力扩展到Java生态系统
Agent Engine UI: 简化代理生命周期管理的界面
A2A v0.2: 支持无状态交互与标准化认证
Python SDK: 简化A2A协议集成的官方工具
合作伙伴: Auth0、Box、Microsoft等公司已支持A2A协议
打造更智能、更安全的企业级 AI 应用
思维摘要、深度思考模式和增强安全性提供更强大、更透明、更可信的企业AI体验
了解更多 →思维摘要:整理模型原始思维过程,提供清晰、可审计的AI决策流程
深度思考模式:在回应前同时考虑多个假设,进一步增强数学和编程等复杂任务处理能力
高级安全保障:大幅提升间接提示注入攻击防护,确保企业级AI应用安全可靠
验证复杂AI任务执行过程,确保与业务逻辑一致
简化调试和审计流程,构建更可信的AI系统
降低企业AI应用的安全风险,支持更广泛业务场景
Gemini 2.5 Flash将于六月初在Vertex AI正式发布
Gemini 2.5 Pro将于稍后发布
深度思考模式将向Vertex AI受信任测试用户开放
新一代AI媒体创作能力
Imagen 4、Veo 3和Lyria 2在Vertex AI上全面升级,提供更高质量的图像、视频和音乐生成能力
了解更多 →Imagen 4:提供卓越文本渲染与更高整体图像质量
Veo 3:生成带语音与音频的视频,支持复杂提示需求
Lyria 2:高保真音乐生成,精确捕捉各种风格细微差别
Klarna:将8周工作缩短至8小时,大幅提升内容制作效率
Envato:使用Veo 2构建VideoGen功能,首周吸引数万用户
Captions:集成Lyria 2实现提示一键生成完整视频配乐
SynthID水印:为所有生成内容添加不可见标识
安全过滤:自动筛选输入提示和输出内容
人物生成控制:为视觉输出内容提供额外配置选项
增强AI模型抵御间接提示注入攻击的能力
通过自动红队测试和模型强化技术,使Gemini 2.5成为目前最安全的模型系列
了解更多 →间接提示注入攻击可能将恶意指令隐藏在模型检索的数据中
随着AI代理功能的增强,安全风险也相应提高
常规防御方法对适应性攻击效果有限
自动红队测试(ART):不断模拟现实攻击场景
模型强化:增强模型识别并忽略注入指令的能力
多层防御:结合模型强化、输入/输出检查和系统级防护
显著降低攻击成功率,同时保持模型正常性能
对适应性攻击提供更强韧性
发布详细技术白皮书分享防御经验
全栈AI应用开发平台
Firebase Studio、AI Logic和Model Context Protocol等新功能助力开发者构建AI驱动的应用
了解更多 →基于云的AI工作空间,已创建超150万个项目
支持从Figma导入设计并通过AI添加功能
自动检测并配置所需的Firebase后端服务
直接访问Gemini开发者API和Vertex AI模型
混合推理支持,可在Chrome中使用Gemini Nano
Unity与Android XR支持,图像生成能力增强
Model Context Protocol Server允许AI直接与Firebase交互
App Hosting新增本地部署与Terraform支持
Data Connect支持AI驱动的模式生成与查询优化
开发者的 Google I/O 亮点
全新的开发者工具、API 更新以及 Gemini 2.5 Flash 等模型用于构建 AI 应用
了解更多 →Gemini 2.5 Flash 和 Pro 预览版
Gemma 3n:多模态开源模型
Gemini Diffusion:超快文本模型
Lyria RealTime:交互式音乐生成模型
Agentic Colab:自动执行代码操作
Gemini Code Assist:AI 编码助手
Firebase Studio:云端 AI 工作空间
Jules:异步编码代理
Stitch:生成高质量 UI 和前端代码
原生音频输出与对话功能
异步函数调用能力
Computer Use API 与 URL Context 支持