Google I/O 2025 Big Map

Made by: Karminski-牙医

Link https://google-io-2025.kcores.com

Veo 3

Google 最先进的视频生成模型

支持创建带有音效和对话的视频,现已在美国面向 Google AI Ultra 订阅用户推出

了解更多 →

技术规格

分辨率:1080p,最长60秒

支持场景:自然风景、人物对话、产品展示

生成速度:30秒视频约需2分钟

应用场景

营销材料制作

社交媒体内容

教育演示视频

Imagen 4

提供更丰富、更详细和更准确的图像生成

改进文本渲染和提示结果,现可在 Gemini 应用、Workspace 和 Vertex AI 免费使用

了解更多 →

核心技术

照片级真实感 - 创建具有真实细节的高质量图像,包括风景、植物、人物和动物

提升的锐度与清晰度 - 显著改进边缘细节和质感表现,生成更加精细的图像

优化排版与文字 - 大幅提升文本渲染质量,解决之前版本中的拼写错误问题

创新特性

更快速的生成 - 相比前代模型,图像创建速度提升显著

SynthID水印技术 - 嵌入隐形数字水印,不影响图像质量的同时标识AI生成内容

多样化创意风格 - 支持从照片写实到向量艺术、特定艺术流派的多种风格创作

应用场景

创意设计与内容制作 - 为营销、社交媒体和设计项目生成高质量视觉内容

专业视觉呈现 - 创建产品展示、概念艺术和情景模拟图像

个人创意表达 - 将想法快速转化为视觉形式,探索创新概念

使用方式

详细提示工程 - 通过精确描述主体、环境、风格和技术参数获得理想结果

跨平台可用性 - 已集成至Gemini应用、Google Workspace和Vertex AI

开发者接口 - 企业可通过Vertex AI APIs将图像生成能力整合到自有应用

Flow

AI 电影制作工具

通过自然语言和资产管理,使用 Veo、Imagen 和 Gemini 创建电影级片段

了解更多 →

主要功能

摄像机控制 - 直接控制镜头运动、角度和视角

场景构建器 - 无缝编辑和扩展现有镜头,揭示更多动作或连续过渡

资产管理 - 轻松管理和组织所有素材和提示

Flow TV - 提供生成内容展示,可查看喜欢剪辑的确切提示和技术

技术特点

为 Veo 定制设计 - 提供出色的提示响应和令人惊艳的电影级输出

直观提示 - Gemini 模型使提示过程简单化,可使用日常语言描述创意愿景

角色创建 - 导入自己的素材或使用 Imagen 的文本到图像功能创建角色

一致性维持 - 在不同剪辑和场景中保持相同素材的一致性

使用方式

Google AI Pro - 提供核心 Flow 功能和每月 100 次生成

Google AI Ultra - 提供最高使用限制和 Veo 3 原生音频生成的早期访问权限

目前在美国可用,更多国家即将推出

创意合作

与多位电影制作人合作,包括 Dave Clark、Henry Daubrez 和 Junie Lau

支持创作短片如《Freelancers》、《Electric Pink》和《Dear Stranger》

旨在帮助新一代电影制作者更轻松地讲述故事

Google AI Ultra

$249.99/月(新用户前 3 个月半价)

提供最高使用限制,最早获得 Veo 3 和 Gemini 2.5 Pro Deep Think 等高级模型的访问权限

Google Beam

用 AI 创建更有意义的连接

AI 驱动的 3D 视频通信平台,无需特殊眼镜或头显,让远程交流像面对面一样自然

了解更多 →

核心技术

AI 体积视频模型 - 将标准 2D 视频流转换为从任何角度都真实的 3D 体验

光场显示技术 - 创造深度和维度感,支持眼神交流和细微表情识别

企业级可靠性 - 基于 Google Cloud 构建,结合 AI 专业知识提供真实 3D 视频通信

交流突破

实时语音翻译 - 支持自然对话,同时保留声音、语调和表情

沉浸式体验 - 远程交流感觉像在同一个房间,增强理解和信任

无障碍连接 - 跨越距离和语言障碍,实现无缝沟通

商业部署

企业合作伙伴 - 与 Zoom 和 HP 等公司合作,即将推出首批设备

渠道合作 - 与 Diversified 和 AVI-SPL 等合作将 Beam 引入全球企业

早期采用者 - 包括德勤、Salesforce、Citadel 和杜兰戈等全球顶级组织

Chrome 中的 Gemini

为 Google AI Pro 和 Ultra 用户推出,可总结、澄清和帮助理解任何网页

Agent Mode

即将为 Ultra 桌面用户推出,让 Gemini 处理复杂的在线目标

搜索中的 AI 模式

由 Gemini 2.5 提供支持,提供更高级的推理、更长的查询和多模态搜索

了解更多 →

核心功能

Deep Search: 进行数百次并行搜索,提供专家级研究报告

Search Live: 实时通过相机交互式搜索所见内容

智能代理功能: 帮助完成预订门票、餐厅和约会等任务

创新特性

AI购物体验: 查找灵感、筛选产品和虚拟试穿

个人上下文: 基于您的历史搜索和Gmail(可选)提供定制化建议

自定义图表: 为体育和金融数据创建交互式可视化图表

上线信息

已在美国开始推出,新功能将陆续通过Labs向用户开放

由Gemini 2.5支持,为传统搜索体验带来AI智能

Lyria 2

Google的最新音乐生成模型

提供高保真音乐和专业级音频,捕捉各种风格和复杂作品的微妙细节

了解更多 →

核心能力

高保真音乐生成 - 能够产生细节丰富的音乐,捕捉不同乐器和演奏风格的细微差别

精细创意控制 - 允许音乐家控制作品中的精细细节,创作符合自己意图和愿景的作品

多样化音乐可能性 - 支持多种音乐风格:古典、爵士、流行、电子等

应用场景

创意灵感源泉 - 提供新的创作起点,帮助音乐家突破创作瓶颈

加速创作过程 - 简化复杂乐段创作,让音乐家更快将想法变为现实

发掘新风格 - 帮助探索不熟悉的音乐类型、技巧和创作可能性

技术特点

生成专业级48kHz立体声音频,可无缝整合到任何项目中

搭载SynthID水印技术,在不影响听感的情况下标记AI生成内容

已有限量内测版本,可通过官网申请加入测试

Gemma 3n

移动优先多模态AI模型

通过创新架构实现高效能低内存占用,支持音频、图像和文本理解,动态内存仅需2-3GB

了解更多 →

核心技术

Per-Layer Embeddings (PLE) 技术显著降低RAM使用

5B和8B参数模型实际仅需2GB和3GB动态内存

采用移动设备优化架构,响应速度比Gemma 3 4B快1.5倍

创新特性

Many-in-1架构:单一模型包含多个不同性能层级的子模型

音频理解:支持语音识别和翻译,多模态输入交错处理

强化多语言能力:特别优化日语、德语、韩语、西班牙语和法语

使用场景

离线私密AI体验:无需网络连接的本地处理

实时交互式应用:低延迟响应的移动应用

跨模态理解:结合音频、图像、视频和文本的综合理解

Jules

异步自主编码助手

由Gemini 2.5 Pro支持,现已进入公测阶段,可直接连接GitHub自动化完成开发任务

了解更多 →

主要功能

在云端VM中处理完整代码库,无需沙箱环境

支持并行任务执行,同时处理多个请求

提供计划和推理过程的可视化工作流

工作方式

直接集成GitHub工作流,无需切换环境

提供音频格式提交记录,便于快速了解项目历史

用户可在执行前、中、后调整计划,保持对代码的控制

应用场景

编写测试用例和构建新功能

修复bug和更新依赖版本

处理您不想做的编码任务,节省时间

Gemini 2.5 Flash

高性价比思考型模型

接近Pro版性能但价格更低,每百万token输入$0.15,输出$3.5

了解更多 →

性能特点

整体性能接近Gemini 2.5 Pro,是高频场景的理想替代

视觉推理和图像理解能力与Pro版相近

多模态支持表现出色,支持文本与图像综合分析

价格优势

输入定价:每百万token仅$0.15

输出定价:每百万token $3.5

比DeepSeek-R1的百万token $2定价仅贵$1.5

适用场景

日常编程与代码辅助

基础图像理解与分析

注意:SimpleQA只有26.9%(Pro为52.9%),知识密集型任务建议使用Pro版

基于现实世界的写作、逻辑推理和复杂内容增强仍推荐使用Pro版

MedGemma

专业医疗领域模型系列

三种变体:4b-pt基座模型,4b-it多模态模型,27b-text-it纯文本模型

了解更多 →

模型规格

medgemma-4b-pt:基座模型,8.6GB

medgemma-4b-it:多模态模型,适合医学影像诊断,8.6GB

medgemma-27b-text-it:纯文本输入模型,适合问诊和病历输入,53.97GB

文本上下文长度:输入128K,输出8K

图像处理:多模态模型将图像归一化到896x896分辨率,编码为256个token

核心技术

基于Gemma 3的医学专用变种,针对医疗文本和图像理解优化

采用在多种去识别化医学数据上专门预训练的SigLIP图像编码器

LLM组件在多样化医学数据上训练,包括放射科、病理、眼科、皮肤科图像和医学文本

应用场景

医学影像诊断辅助(X光片、皮肤科图像、眼科图像和病理切片)

医疗文本理解与分析(问诊记录、病历处理)

医学教育和研究辅助工具

模型开源地址:huggingface.co/google/medgemma-27b-text-it

Gemini Diffusion

超高速文本生成扩散模型

生成速度达1479 token/s,性能接近Gemini 2.0 Flash-Lite

了解更多 →

模型特点

实验性文本扩散模型,通过将随机噪声转换为连贯文本或代码

生成内容速度远超现有最快模型,同时保持编码性能

采用与图像和视频生成领域类似的扩散技术

性能优势

大幅降低生成延迟,提高用户交互体验

适用于需要实时反馈的应用场景

在保持高质量输出的同时实现超高速生成

使用体验

目前提供实验性演示版本,可通过等待列表申请访问

Google正持续优化所有Gemini模型的延迟性能

更快速的2.5 Flash Lite版本即将推出

Gemini 2.5 Pro Deep Think

Gemini 2.5 Pro的增强推理模式

通过并行思考技术解决复杂任务,扩展AI的推理能力

了解更多 →

核心技术

并行思考技术 - 同时探索多种解题思路,选择最优解决方案

结构化推理路径 - 清晰展示解题过程,提高推理透明度

自验证机制 - 在给出最终答案前自动检查结果正确性

性能表现

USAMO 2025数学竞赛题目 - 单次尝试正确率达83%

LiveCodeBench V6编程基准 - 单次尝试准确率达75.6%

复杂数学推理任务中显著超越其他领先模型

应用场景

高级编程和算法设计 - 解决复杂开发挑战

数学和科学问题求解 - 提供详细步骤和解释

多步骤规划与决策 - 在企业环境中提供透明可靠的决策支持

创新价值

极大提升复杂任务解决能力 - 处理需要深度思考的挑战

增强可解释性 - 让用户理解AI的推理过程

降低错误率 - 通过多角度考虑问题减少推理谬误

Google虚拟试穿

在自己照片上试穿衣物

Google新增购物功能,让您用自己的照片虚拟试穿各种服装,轻松选购

了解更多 →

使用步骤

加入试用:前往Search Labs并选择"try on"实验

浏览风格:购物时点击商品列表上的"try it on"图标

上传照片:提供全身照片,建议光线良好且穿着合身衣物

展示效果:保存或分享您的试穿效果,或浏览类似风格

技术特点

AI驱动的虚拟试穿技术

实时渲染多种服装效果

支持各种体型和肤色

上线信息

目前在美国推出测试版

未来将支持更多服装类型和配饰

SynthID Detector

AI内容鉴别门户

帮助识别使用Google AI创建的内容,支持图像、音频、视频和文本的水印检测

了解更多 →

主要功能

快速识别AI生成内容中的SynthID水印

标明内容中最可能含有水印的部分

支持图像、音频、视频和文本多种模态

技术特点

高度保留内容质量的鲁棒水印技术

即使内容被分享或经历各种转换仍能检测

已有超过100亿内容被SynthID标记

应用场景

记者和媒体专业人士的内容验证

研究人员的生成内容鉴别

建立更透明可信的生成式AI生态系统

Workspace with Gemini 全新升级

助你每天完成最佳工作

通过Gmail智能回复、会议翻译与视频创作工具,Gemini为Workspace带来更高效的工作体验

了解更多 →

Gmail智能功能

个性化智能回复:根据上下文和邮件风格自动生成回复

收件箱清理:一键整理和归档邮件

快速预约安排:直接在邮件中共享可预约时间

视频与语言突破

Meet语音翻译:实时翻译对话,保留说话者的声音和表情

Vids视频工具:将幻灯片转换为视频,自动优化音频

AI虚拟形象:无需拍摄即可创建专业视频内容

文档增强功能

源文档引用:Docs中直接链接到相关资料,获得精准AI建议

Imagen 4整合:在所有Workspace应用中创建高质量图像

每月20亿AI辅助:Workspace已为企业用户提供强大AI支持

Android XR

扩展现实平台

将Gemini引入眼镜和头显设备,创造沉浸式AR/VR体验

Primordial Soup

AI电影制作合作伙伴关系

Darren Aronofsky的团队与Google DeepMind合作,探索AI在叙事和电影制作中的应用

了解更多 →

合作愿景

将最先进的视频生成模型交给顶级电影人,推动AI在创意讲故事领域的应用

通过AI技术突破传统电影制作的界限,增强情感化叙事能力

项目计划

正在制作三部短片,每部由新锐导演执导

使用Google DeepMind的生成式AI模型、工具和能力,包括Veo技术

导演将获得Aronofsky的指导,并得到Google DeepMind研究团队支持

首部作品

《ANCESTRA》由获奖导演Eliza McNitt执导

将于2025年6月13日在Tribeca电影节首映

采用混合制作模式,结合实景拍摄与先进AI工具,促进跨学科合作

Shop with AI Mode

用AI改变您的购物体验

使用新的AI购物模式寻找灵感,智能推荐产品,甚至在自己的照片上虚拟试穿服装

主要功能

AI驱动的购物灵感推荐

虚拟试穿技术

智能代理结账体验

即将上线

AI Mode购物体验将在未来几个月内在美国推出

价格跟踪和代理结账功能也将陆续推出

Universal AI Assistant

构建通用AI助手的愿景

Google DeepMind正在将Gemini扩展为可以理解和模拟世界各个方面的"世界模型"

了解更多 →

主要目标

开发能够理解用户所处情境的智能AI

实现规划并代表用户采取行动的功能

跨设备无缝工作的通用AI助手

关键技术

Project Astra的能力整合

Project Mariner的多任务代理系统

世界模型的开发与应用

Gemini更个性化、更主动、更强大

全新的Gemini应用功能

Gemini Live现在支持相机和屏幕共享,深度研究功能支持个人文档,Canvas能力全面提升

了解更多 →

主要更新

Gemini Live现已在Android和iOS上免费提供

Imagen 4和Veo 3视觉生成能力内置

Deep Research支持上传私人PDF和图片

个人助理体验

与Google日历、地图、任务和Keep深度集成

互动式学习测验功能

Chrome浏览器扩展支持

Android XR 与 Gemini

眼镜和头显设备上的 AI 助手

通过Android XR平台,Gemini可以从用户视角理解世界,提供直观、免提的帮助

了解更多 →

主要功能

通过相机和麦克风理解用户所见所闻

免手动操作的AI助手体验

实时语言翻译和转录功能

设备生态系统

与三星、高通等合作伙伴共同开发的头显设备

与Gentle Monster、Warby Parker等合作的时尚智能眼镜

为开发者提供软件和参考硬件平台

体验创新

在无限大屏幕上的沉浸式体验

实时信息和导航指引

消息收发和拍照等无需掏出手机的功能

AI Overviews全球扩展

Google搜索AI功能覆盖更广

现已在200多个国家和地区、40多种语言中提供,新增阿拉伯语、中文、马来语等支持

了解更多 →

核心功能

使用AI回答复杂问题

快速查找和整合信息

提供相关网站链接,方便用户深入了解

用户体验

业内最快的AI响应速度

用户满意度显著提高

美国和印度等主要市场的使用率提升超过10%

技术升级

美国地区已推出基于Gemini 2.5的定制版本

支持处理更复杂的问题

Agents新动态:ADK与A2A

开发套件与代理协作增强

Python ADK稳定版发布,Java ADK首次亮相,A2A协议升级实现更轻量安全的代理协作

了解更多 →

开发套件升级

Python ADK v1.0.0: 用于构建生产级代理的稳定版

Java ADK v0.1.0: 将ADK能力扩展到Java生态系统

Agent Engine UI: 简化代理生命周期管理的界面

A2A协议提升

A2A v0.2: 支持无状态交互与标准化认证

Python SDK: 简化A2A协议集成的官方工具

合作伙伴: Auth0、Box、Microsoft等公司已支持A2A协议

Gemini 2.5 在 Vertex AI 上扩展

打造更智能、更安全的企业级 AI 应用

思维摘要、深度思考模式和增强安全性提供更强大、更透明、更可信的企业AI体验

了解更多 →

核心功能增强

思维摘要:整理模型原始思维过程,提供清晰、可审计的AI决策流程

深度思考模式:在回应前同时考虑多个假设,进一步增强数学和编程等复杂任务处理能力

高级安全保障:大幅提升间接提示注入攻击防护,确保企业级AI应用安全可靠

企业应用价值

验证复杂AI任务执行过程,确保与业务逻辑一致

简化调试和审计流程,构建更可信的AI系统

降低企业AI应用的安全风险,支持更广泛业务场景

上线信息

Gemini 2.5 Flash将于六月初在Vertex AI正式发布

Gemini 2.5 Pro将于稍后发布

深度思考模式将向Vertex AI受信任测试用户开放

Vertex AI生成式媒体模型

新一代AI媒体创作能力

Imagen 4、Veo 3和Lyria 2在Vertex AI上全面升级,提供更高质量的图像、视频和音乐生成能力

了解更多 →

主要升级

Imagen 4:提供卓越文本渲染与更高整体图像质量

Veo 3:生成带语音与音频的视频,支持复杂提示需求

Lyria 2:高保真音乐生成,精确捕捉各种风格细微差别

企业案例

Klarna:将8周工作缩短至8小时,大幅提升内容制作效率

Envato:使用Veo 2构建VideoGen功能,首周吸引数万用户

Captions:集成Lyria 2实现提示一键生成完整视频配乐

安全保障

SynthID水印:为所有生成内容添加不可见标识

安全过滤:自动筛选输入提示和输出内容

人物生成控制:为视觉输出内容提供额外配置选项

Gemini安全防护升级

增强AI模型抵御间接提示注入攻击的能力

通过自动红队测试和模型强化技术,使Gemini 2.5成为目前最安全的模型系列

了解更多 →

安全挑战

间接提示注入攻击可能将恶意指令隐藏在模型检索的数据中

随着AI代理功能的增强,安全风险也相应提高

常规防御方法对适应性攻击效果有限

防御策略

自动红队测试(ART):不断模拟现实攻击场景

模型强化:增强模型识别并忽略注入指令的能力

多层防御:结合模型强化、输入/输出检查和系统级防护

实际成效

显著降低攻击成功率,同时保持模型正常性能

对适应性攻击提供更强韧性

发布详细技术白皮书分享防御经验

Firebase I/O 2025 新动态

全栈AI应用开发平台

Firebase Studio、AI Logic和Model Context Protocol等新功能助力开发者构建AI驱动的应用

了解更多 →

Firebase Studio

基于云的AI工作空间,已创建超150万个项目

支持从Figma导入设计并通过AI添加功能

自动检测并配置所需的Firebase后端服务

Firebase AI Logic

直接访问Gemini开发者API和Vertex AI模型

混合推理支持,可在Chrome中使用Gemini Nano

Unity与Android XR支持,图像生成能力增强

开发提效工具

Model Context Protocol Server允许AI直接与Firebase交互

App Hosting新增本地部署与Terraform支持

Data Connect支持AI驱动的模式生成与查询优化

Building with AI

开发者的 Google I/O 亮点

全新的开发者工具、API 更新以及 Gemini 2.5 Flash 等模型用于构建 AI 应用

了解更多 →

模型更新

Gemini 2.5 Flash 和 Pro 预览版

Gemma 3n:多模态开源模型

Gemini Diffusion:超快文本模型

Lyria RealTime:交互式音乐生成模型

开发工具

Agentic Colab:自动执行代码操作

Gemini Code Assist:AI 编码助手

Firebase Studio:云端 AI 工作空间

Jules:异步编码代理

Stitch:生成高质量 UI 和前端代码

API 功能

原生音频输出与对话功能

异步函数调用能力

Computer Use API 与 URL Context 支持