时隔三年,品玩/硅星人终于又回到了谷歌IO大会的现场。
在跟谷歌硅谷总部一街之隔的 Shoreline Amphitheatre露天剧场上,开发者和媒体参会者们早早地聚集于此。相较于过去这两年人文气息偏重、重磅产品较少的IO大会,已经拉响了红色警报的谷歌今年显然卯足了劲,无论还是 AI更新还是全新的硬件产品,今年谷歌IO都可以说是近几年来少有的一场科技盛会。
尤其突出的是,谷歌此次重磅打出了一系列AI组合拳,旗下几乎所有产品都开始跟AI进行全面集成、并进行跨越式升级。在当前AI竞赛中起跑慢了一步的谷歌似乎已经不再藏着掖着,作为AI领域的长期领导者,在本次IO上,谷歌充分向大众展现了其巨大的AI能量和潜力。
在正式Keynote开始之前,现场首先预热了几首由谷歌全新音乐AI工具MusicLM 和 Bard参与创作的迷幻电子音乐。
在一片欢乐的气氛中,谷歌CEO皮柴登场,几句简单的寒暄后他直击主题,“众所周知,人工智能今年非常忙碌,而作为一家 AI-first 公司,我们有很多话要谈。所以,让我们开始吧。”
Gmail、Maps等AI升级,创造更智能的生活体验
活动的一开始,谷歌先上了几个“开胃前菜”。皮柴表示,谷歌的AI技术其实已经被大量融入到了一些跟用户日常生活息息相关的软件之中,比如Gmail、Google 地图和图片编辑。
首先,大家期盼已久的Gmail自动写邮件功能终于来了。早在2017 年Gmail就推出了邮件的Smart Compose一键简短回复功能,而今天,谷歌在此基础上推出了一个名为“Help Me Write”的全新功能,能够帮助你快速撰写完整的邮件和回复。
在IO上,谷歌展示了一个向航空公司申请退款用例,你只需告诉Gmail你想要退款的意图,它就会根据你的航班详情写一份完整的邮件,同时也可以调整不同的语气。
谷歌Map则引入了一个全新的3D沉浸式路线视图功能。在 AI 和计算机视觉技术的帮助下,谷歌将数十亿张航拍和街景图像融合在一起创建了空间 3D 模型。也就是说,未来你用Google Maps进行路线导航时,你看到的不仅只是从A到B的2D路线,而是能够以可视化的形式看到道路和周边的建筑情况,甚至包括当地实时天气、交通等。
谷歌表示,这个功能将在今年很快上线,首先将在包括阿姆斯特丹、柏林、都柏林、佛罗伦萨、拉斯维加斯等15个城市推出。
此外,名为Magic Editor图片编辑功能让小白也能轻松改图。跟苹果此前的图片功能类似,Magic Editor可以对照片中的不同事物进行识别,并允许你用拖拉拽的方式进行编辑。比如把人往左边右边拉一下,让构图更加符合你的想象。
最强语言模型PaLM2亮相,Bard能力爆炸跃升
几个小功能热身之后,接下来,谷歌此次真正的硬菜开始接连登场。首先,像此前大家猜测的一样,谷歌推出了下一代超强语言模型PaLM 2。
PaLM 是 Google 在 2022 年 4 月宣布的大语言模型,使用了5400 亿参数进行训练,约是GPT-3的三倍。此次PaLM 2又在PaLM上进一步进行了提升和改进,具有多语言、推理和编码功能。
PaLM 2 在多语言文本方面接受了更多的训练,涵盖了 100 多种语言,对于理解、生成和翻译包括成语、诗歌和谜语在内的细微差别文本的能力非常显著,还通过了“精通”级别的高级语言能力考试。
在推理方面,PaLM 2 的数据集包括科学论文和带有数学表达式的网页,拥有超强的逻辑、常识推理和数学能力。
同时,PaLM2在大量公共源代码数据集上进行了预训练,写代码能力更强了。除了 Python 和 JavaScript,还包括在 Prolog、Fortran 和 Verilog 中生成专用代码等。
值得注意的是,PaLM 2已经被开发出了不同的版本,可以面向不同的客户、部署在不同企业环境中。
目前,PaLM 2有四种规格,从小到大依次为Gecko、Otter、Bison和Unicorn,其中,体积最小的Gecko可以在手机上运行,每秒大约可处理20个Token,也就是约16或17个单词。也就是说,开发者们不用花费大量的时间和资源来创建和调整PaLM 2,而是能够直接拿来就用进行部署。
在谷歌内部, PaLM 2也早已经被用在了自家的25项功能和产品之中,其中也包括AI聊天机器人Bard、谷歌的全线办公套件等。
在PaLM 2的加持下,此次Bard也开始真正的显现出“ChatGPT杀手”的实力。
此前Bard是基于LaMDA 开发,该模型拥有1370亿种参数,但现在Bard已经全面转用PaLM,在答案生成的数据组和更多元化的内容方面能力飞升。同时,谷歌将Bard跟旗下和外部产品的集成,让Bard也跳出了聊天机器人的范畴,而是真正让其成为了一款实用性工具。
比如现在Bard为你提供答案时,除了文字之外,还能提供包括图片、视频、外部链接等多元化的信息。
比如你在问了Bard问题之后,你现在可以将这些问题答案一键导出到Gmail、谷歌文档、表格之中,Bard还可以动帮你给图片、文档等做加标注。未来也将支持更多谷歌应用程序和Bard的集成体验,包括Drive、地图等。
对于软件工程师们来说,Bard提供了改进后的代码引用功能,在提供来源的同时还能解释代码片段。此外,现在开发者们也可以把Bard生成的代码进行导出,不仅能发送到谷歌的Colab平台,还能和另一个基于浏览器的IDE Replit一起使用(目前支持首先Python)。
目前Bard能支持20多种编程语言,基本涵盖了工程师们所有编程开发需要,并为开发者们提供了新的深色界面。开发者们只需输入prompt就能得到完整的代码片段。
此外,跟ChatGPT类似,Bard现在也可以跟其他外部工具进行集成使用。在IO上谷歌也展示了一个Bard跟Adobe Firefly合作生成图片的例子,比如你想给孩子办一个生日派对需要做一个请柬照片,所要做的就是给Bard说“制作一张在儿童派对上独角兽和蛋糕的图像”,接着在Adobe的支持下它会在几秒钟内生成四张图像。这不就是Midjourney复杂操作方法的替代吗?
除了Adobe之外,Bard目前还在推进跟更多外部工具的集成使用,包括 Kayak、OpenTable、ZipRecruiter、Instacart、Wolfram、Khan Academy等。
尤其重要的是,现在人人都可以用上Bard了。谷歌此次取消了等候队列,Bard将面向180多个国家和地区的用户全面开放。此外在英语之外,还增添了日语和韩语两种语言,未来将逐步支持40种语言的交互。
回击微软Copilot,谷歌工作套件迎来“Duet AI”
今年 3 月,微软宣布推出Copilot之后,在生产力工具领域掀起了一场革命。谷歌当时马不停蹄地也为其 Workspace 应用程序套件宣布了一系列人工智能功能,争取在跟微软的竞争中不掉队。当时,这些人工智能功能还比较零散,并没有一个类似于Copilot这样系统性的工具。
但在今天的IO上,谷歌终于给出了它的对标方案——Duet AI。
跟微软Copolit类似,Duet AI将被全面集成至谷歌旗下的Work Space,包括谷歌文档、表格、幻灯片、会议、GmailMeet的自动会议摘要等等。同时还推出了一项名为Sidekick的新功能,能够跨不同的谷歌应用程序进行阅读、总结和回答文档中的问题。
比如在文档之中,直接输入文章主题就能完整的生成一篇文章。
在谷歌表格中,仅需输入一句话“遛狗业务客户和宠物统计”就能自动生成完整的表格,包含狗、地址、电子邮件、日期、时间、持续时间和费用等,还可以通过自然语言命令来对表格进行编辑。
在演示文稿中根据你的在侧边栏输入的要求自动生成PPT和插图,并且按时间要求帮演示者总结每一页的演讲稿的讲话内容等等。
虽然这些功能我们在微软此前办公套件中都多多少少看到过,但对于谷歌来说,此次Duet AI的推出,让我们看到了谷歌在面对Copilot等竞争对手时的应对能力。
而除了应用于办公套件中之外, Duet AI 也将被应用于谷歌云业务之中。借助Duet AI,谷歌云推出了一系列开发者工具,包括可以提供实时代码帮助,指出错误的同时推荐生成的代码块,以及回答代码和谷歌云相关的问题等。该功能支持 Go、Java、Javascript、Python 和 SQL等多种语言。谷歌表示,目前在谷歌云上进行 AI 的训练速度提高了 80%,成本降低了 50%。
但目前,谷歌办公领域的Duet AI功能还没有对公众进行开放,如果想试用这些新工具,需要先注册“工作场景实验室(Workspace Labs)”并加入等候名单。
生成式AI上线谷歌搜索,数十亿用户即将开启搜索新旅程
面对Bing的步步紧逼,作为谷歌的立身之本,搜索业务此次也迎来了重大的AI更新。
跟Bing类似,在用户搜索问题之后,搜索栏的下方会首先出现由AI提供的更直接的答案,以及与这个问题相关的图片、链接、视频等。根据第一次提问返回的信息,你还可以进一步进行交互查询更多的信息,知道你得到最需要的答案。
而当你打算通过谷歌搜索并购买一款产品时,AI不仅能够为你返回你需要的产品链接还能够为你想购买的产品提供摘要,包括提醒你购买时需要注意的事项、产品的特点、最新的评论等等。
这种新的基于搜索的AI 购物体验建立在谷歌的 Shopping Graph之上的,该Shopping Graph 拥有超过 350 亿个产品列表,是目前世界上最全面的、且动态更新的产品、卖家、品牌、评论和库存数据集。但谷歌同时也强调,广告与自然搜索结果将被区分开来,不会影响用户的使用体验。
虽然AI功能登陆谷歌搜索令人振奋,但在全球数十亿用户面前,谷歌的推进步伐仍然相对谨慎。跟Duet AI的工作场景实验室(Workspace Labs)”类似,为了测试全新的搜索功能,谷歌也设立了一个新的“搜索实验室(Search Labs)”,用户如果想要访问这新的搜索功能,必须选择一个名为 Search Generative Experience(简称 SGE)的功能。
此外,谷歌也强调并非所有搜索都会引发 AI 答案,只有当 Google 的算法认为它比标准结果更有用时AI 才会出现,而有关健康、财务等敏感主题的信息则不会出现。
一些全新的硬件亮相,首款可折叠的Pixel手机问世
除了一系列AI更新之外,一些谷歌硬件粉也非常关注谷歌今年的产品更新,此次谷歌也诚意满满,拿出了首款折叠手机、新的平板电脑和更亲民的Pixel手机
而今年的硬件产品中,关注度最高的当属Google的首款折叠屏产品 Pixel Fold。该手机的造型非常类似OPPO发布的Find N系列,也采用“翻开即横屏”的操作理念,让用户在使用折叠屏内屏时无需在旋转90度才可以达到全屏显示的效果。
该机器的内屏使用了一块7.6英寸120Hz OLED柔性显示屏,屏幕比例为5:6,分辨率为2208*1840,官方宣称峰值亮度可达到1450nit。而外屏则为5.8英寸 120Hz OLED外屏,屏幕比例为9:17.4,分辨率2092*1080,峰值亮度可达到1550nit。
性能方面,Google Pixel Fold搭载了与Pixel 7系列相同的自研Tensor G2 处理器+ Titan M2 协处理器,配合12GB LPDDR5 内存 + 256/512GB UFS 3.1 存储组成Google的“性能铁三角”。Pixel Fold拥有4821毫安时电池,支持30W有线快充,但不出意外的话Pixel Fold应该算是今年售价超1万元的旗舰产品中充电速度最慢的产品了。
在发布会之前,Google宣称Pixel Fold会拥有“Pixel级别的影像系统”,与爆料不同的是,Google Pixel Fold的后置镜头模组选择了48MP广角(支持OIS)+10.8MP超广角+10.8MP 5倍长焦的三摄组合。
该机拥有黑白两个配色,12GB+256GB的版本售价1799美元(约12450元人民币),12GB+512GB版本售价1919美元(约13280元人民币),现在预定购买可免费获赠一支Google在去年发售的 Pixel Watch手表。
除去Pixel Fold之外,Google还在这届I/O上正式发布了另一款大屏产品:Google Pixel Tablet。这也是Google沉寂多年后重返平板电脑市场的第一款产品,它的定位与目前市面上的平板电脑不同,更像是一个家庭智能终端设备。
Pixel Tablet并不是一款刚公布的产品,它的首次亮相是在一年之前。Google认为平板电脑更多的使用场景是在家中而非室外,它是智能家居中枢,也是用于流媒体播放及视频通话的多媒体终端。为此,Google为Pixel Tablet配备了一个磁力吸附的充电底座,让它可以长时间处于有电的状态。
Pixel Tablet依旧使用Google自研Tensor G2 处理器,搭配8GB运行内存,128GB/256GB存储,售价499美元起(约3450元人民币),不含底座。
廉价版的Google Pixel a系列一直都会在正代Pixel发布的次年推出,Google Pixel 7a也不例外。该手机的外观与Google Pixel 7采用了相同的设计语言,新增了更加活泼的珊瑚色和海洋蓝两个配色,更加适合有活力的年轻用户。
相比去年发布的Pixel 6a,7a的升级主要体现在处理器与摄像头方面。Pixel 7a使用了与Pixel 7系列相同的自研Tensor G2芯片,并且将镜头模组升级为64MP广角+13MP超广角的组合,成像质量将会有非常明显的进步。
与Google Pixel 7系列不同的是,Pixel 7a仅有8GB+128GB存储这一个容量可选,但却分为支持Sub 6 5G与mmWave 5G(毫米波)两个版本,其中Sub 6 5G版本的售价为499美元(约人民币3450元人民币),而mmWave 5G版本的售价稍贵,为549美元(约3800元人民币)。
总体来看,今天谷歌IO是一场诚意满满的大会,在整个开幕演讲中,谷歌多次提到“大胆而负责任(bold and responsible)”这个词,试图证明谷歌可以在对社会和业务负责任的同时仍然可以快速行动。
在此前的访谈中,皮柴曾表示谷歌并不担心推出语言模型的步伐较对手慢,把事情做对比抢快更加重要。而现在,谷歌似乎已经做好了一切准备。