Google I/O总结:所有很酷的AI驱动项目都在开发中

AI资讯 2026-01-28 12:16:31 韩纨澜

谷歌今天举行了年度输入输出开发者大会,宣布了新的像素手机、圆形像素手表等硬件,甚至还推出了在增强现实中显示实时语言翻译的未来眼镜。他们还展示了新功能,比如谷歌文档的摘要选项(把它想象成人工智能生成的太长别读)和钱包应用程序,该应用程序也可以保存数字身份证或疫苗卡。

值得注意的是,这家科技巨头还强调了人工智能是如何让他们在一系列服务和应用程序中构建新功能的,包括翻译、搜索、地图等。以下是用户很快和未来可以期待的更新。

翻译

谷歌在语言模型方面的工作使其能够扩展翻译能力。谷歌表示,它正在为谷歌翻译添加24种新语言,包括比哈尔方言、林加拉语和盖丘亚语。除了这些新语言,谷歌还发表了一项研究,研究他们打算如何为没有大型翻译数据集的语言构建机器翻译系统,使用高质量的单语言数据集。他们称这项技术为零镜头机器翻译。

[相关:谷歌的这个新的人工智能工具可能会改变我们在线搜索的方式]

这种技术不需要完整而传统的翻译词典就能生成翻译。据一篇博客报道,为了做到这一点,他们训练了一个语言模型,“使用MASS任务直接从单语文本中学习资源不足语言的表示”,解决这些任务需要模型建立“所讨论语言的复杂表示,对单词与句子中其他单词的关系有一个复杂的理解”

谷歌还在YouTube上推出了16种语言的自动翻译字幕,此外他们已经在使用语音识别模型为视频创建文本转录。这一功能将于下月出现在乌克兰内容中,作为增加对战争准确信息访问的努力的一部分。

搜索

在过去的几年里,谷歌搜索推出了各种不同的工具,让人们更容易以不同的方式找到他们想要的东西,包括语音搜索、哼哼搜索、谷歌镜头,以及最近的多搜索,它允许用户在查询中结合照片和文本提示。多模式技术还使用文本、音频和视频在YouTube视频中创建自动生成的“章节”。

[相关:谷歌正在对其提供健康信息的方式进行重大更新]

今天,谷歌推出了一项名为搜索“我附近”的功能。这是如何工作的:在谷歌应用程序中,用户可以拍照或上传截图,并添加“我附近”的文字,以查找当地零售商和餐馆,这些零售商和餐馆可能有他们正在寻找的服装、商品或食物。例如,如果你正在修理一个坏了的水龙头,你可以拍一张故障部件的照片,并在附近的五金店找到它。

再举一个例子,如果你在网上看到一道看起来很好吃的菜,你想试试,你可以给它拍张照片,谷歌可以告诉你这是什么,并给你指出通过外卖提供这道菜的高评价当地餐馆。谷歌多搜索将“理解这道菜的复杂性,它将把它和你的意图——你正在寻找当地餐馆的事实——结合起来,然后它将扫描地图上数百万张图片、评论和社区贡献,以找到附近的当地景点,”谷歌搜索体验主管尼克·贝尔在新闻发布会上解释道。今年晚些时候,通过多搜索获得的本地信息将以英语在全球范围内提供,并随着时间的推移推广到更多语言。

[相关:谷歌将更好地理解复杂的问题]

谷歌取笑了目前正在开发的另一个功能,叫做“场景内搜索”或“场景探索”。通常,谷歌搜索适用于用单帧捕捉的物体,但是场景探索将允许用户移动他们的相机,并在相机的视野内获得对多个物体的即时洞察。想象一下,你在一家书店,使用这个功能,你将能够看到覆盖在你面前书籍上的信息。贝尔说:“为了实现这一目标,我们将计算机视觉、自然语言理解结合在一起,并将其与网络和设备技术知识结合在一起。”

地图

谷歌地图于2005年作为一个简单的导航应用程序开始,但在过去的几年里,它一直在推动“重新定义地图的功能”,谷歌地图副总裁Miriam Daniel在I/O前的新闻发布会上说。 其中包括添加关于节油路线的信息(现在在美国和加拿大可用,今年晚些时候将扩展到欧洲)、目的地的繁忙程度,以及关于餐馆的说明,比如餐馆是否有户外座位。

此外,谷歌在3D地图和计算机视觉方面的工作使他们能够通过融合数十亿官方收集和用户生成的图像,为街景和航拍图像增加更多的深度和真实感。地图中的“沉浸式视图”将通过“时间滑块”近距离向你展示大本钟等地标的详细建筑,以及一天中不同时间的样子,而不是代表建筑物的不同高度的灰色块。地图还将汇集天气和交通状况的信息,告诉你这个地方会是什么样子。用户还可以滑行到街道水平,在那里他们可以虚拟地进入餐馆或其他空间,在决定参观之前感受一下那里的感觉。这一功能将在智能手机和其他设备上提供。

[相关:谷歌地图已暂时禁用乌克兰的主要功能]

沉浸式视图计划在年底前在洛杉矶、伦敦、纽约、旧金山和东京的地标、社区、餐馆、热门场所和地方推出,更多城市即将推出。

谷歌地图团队宣布,他们还将为第三方开发人员发布基于他们的Live View技术的ARCore地理空间API。Live View和相应的全球本地化软件已在AR中用于覆盖现实世界中可以通过实时摄像头流查看的箭头和方向。打开此API可以使开发人员将此技术集成到他们自己的应用程序中。Daniel指出,一些早期开发人员已经找到了应用此技术的不同方法。例如,微型移动公司Lime已使用此API帮助伦敦、巴黎、特拉维夫、马德里、圣地亚哥和波尔多的通勤者为他们的电动滑板车和电动自行车找到停车位。

助理

谷歌的一个重要研究领域是自然语言处理——也就是说,如何让机器理解人类语音(充满了嗯和停顿)的细微差别和缺陷,并进行对话。他们的一些发现有助于让谷歌助手变得更好。“我们真正关注的是人工智能模型,我们意识到我们需要16种不同的机器学习模型来处理100多个信号,”谷歌语音产品经理尼诺·塔斯卡在新闻发布会上说。“这包括接近、头部方向、凝视检测,甚至用户对短语的意图,只是为了了解他们是否真的在和谷歌助手说话。”

今天,谷歌在其Nest Hub Max设备上推出了一项名为“看和说话”的功能。如果用户选择加入,他们可以看着他们的设备激活谷歌助手来听他们想要的东西,而不用说“嘿,谷歌”这项功能使用面部匹配和语音匹配技术来识别谁在说话,这些互动的视频会在设备上处理(比如张量芯片)。“看和说话”将于本周在安卓系统中推出,并很快iOS设备。

观看下面的完整主题演讲:

© 版权声明

相关文章

软件学会破解验证码

把它想象成幼儿园毕业。在花了三年时间构建机器学习软件后,今天一家公司宣布该软件通过了第一次测试——验证码。
2026-01-28

超级计算机需要40分钟来创建1秒大脑活动的超详细模型

长期以来,未来主义者一直在谈论计算机变得像人脑一样强大和多才多艺的那一天。最近的一项模拟显示,那一天并不是迫在眉睫。据《每日电讯报》报道,在迄今为止对人脑最准确的模拟之一中,一台日本超级计算机模拟了人脑活动1%的一秒钟,这项任务需要40分钟。
2026-01-28

重新思考图灵测试

在6月的一场比赛中,一个名叫尤金的聊天机器人欺骗了一群人类评委,让他们相信这是一名乌克兰少年。评委们称赞这是机器首次通过图灵测试。图灵测试是计算机科学家艾伦·图灵在1950年提出的人工智能的神圣指标。
2026-01-28

Google I/O总结:所有很酷的AI驱动项目都在开发中 暂无评论