AI 很美味,你准备好品尝了吗?

姜唯 | 2023-10-28 20:17

早在 2017 年,Google 就在年中的 I/O 大会和年底的 Pixel 2 发布会上反复提及「Machine Learning」,这应该是我认为理科生们对 AI 最贴切的定义(P.S.当然,现在 ML 已经被归类到 AI 的子集里面,不过并不影响我们理解当前的「AI」)。

其实最早的「AI」普遍存在文学或影视创作中,可以说是由文艺工作者们定义的产品,老实说,它们非常影响我们在现实生活中对 AI 的判断(非贬义,只是它们可以非常天马行空),当然,也对现在的 AI 实例做了一定程度的引导。

一个非常奇特的「引导」


在这期间,我们看到非常多 AI 相关的用例,里面不乏一些纯蹭热点的功能,比如某些品牌提出的「AI 充电」、「AI 智能场景」等,实际体验下来别说 AI 了,甚至连 Machine Learning 都达不到,基本等同于在代码中加多几行「if……else」,这也让(彼时的)我对 AI 的态度非常冷漠,甚至有些反感,同样的情况,可以参考「元宇宙」。

现在回过头来看,无非就是这些设备的算力,还没摸到成为 AI 的那条标准线

我们把时间拨到今年,AI 领域有了个非常出圈的产品,由 OpenAI 公司带来的生成式 AI——chatGPT。它可以跟用户对话、能帮忙写代码、做商业活动策划等等,目前甚至进化到模拟真人口吻进行语音对话(中文发音很像费翔)。人们对它的态度也是褒贬不一,有人担心工作被替代,有人则觉得无所谓,AI 想拥有人类的感性认识还很难……总之,它算是个不错的 AI 用例,并且每个人都有机会使用它,只不过需要时刻保持连网,以及付费支持新的数据。

Google I/O 2023 也是紧跟时事,主 Keynote 上多次提及 Generative AI,也就是刚刚提到的生成式 AI(噢对了,友商 Apple 则是在今年的 WWDC 大会上反复提及 Machine Learning ),当时我其实是比较反感的,总觉得它也是在蹭热度,并决定今年的 Pixel 8 Pro 我肯定是不买的了。没想到 10 月份的硬件发布会上,Google 用 Pixel 8 系列狠狠地抽了我一巴掌,我则是非常爽快地付款购买,只因 AI。

在 Pixel 8 系列上,Google 展示了一些在移动设备上比较实用的 AI 用例,比如根据需求生成一张壁纸、抠图并补齐缺失内容、识别视频中的各个音轨并进行编辑,在某些地区,也能利用生成式 AI 对短信、邮件内容进行智能回复。

但是,以上的 AI,得在云端上处理,然后再反馈到设备上,等待时间比较漫长不说,断网后还没法用,隐私安全也是个问题,比如你想处理敏感照片或视频啥的……就不用展开说了吧?

于是,高通来了

没想到,今年竟然也是高通的 AI 大年,甚至在移动平台骁龙 8 Gen3 的介绍视频中,贴出了「Gen AI」来替代。这个 Gen 即是「generation」,也是「generative」,谐音梗了可以说是,得扣钱。

是 Gen 3,也是Gen AI

而且,On-Device AI 成为今年高通骁龙峰会的关键词,高通总裁阿蒙在演讲中提到,以往的 AI 是纯云端运行的,随着设备性能的提升,目前能够让设备和云端一起进行 AI 计算,即混合式 AI(Pixel 8 系列类似,高通在今年的 MWC 上海中,也展示了基于骁龙 8 Gen2 设备的混合 AI ),而未来,则是纯纯的 On-Device 本地处理。

AI everywhere

结合目前的预热信息来看,包括小米、荣耀和 vivo 在内的多家 OEM 厂商,都在利用自家语音助手布局多模态的生成式 AI,大部分功能在旧机型升级新系统后就能体验,如果未来的新设备能在【本地】更快地进行复杂的 AI 运算,能节省不少云端服务器和带宽资源,还能顺势宣传一波个性化、隐私安全等特性,何乐而不为呢?(当然,同样从目前预热的情况来看,国产厂商大概率会继续维持混合 AI )

简单说一下相关的硬件特性:

在骁龙 8 Gen 3 中,主要负责 AI 计算的 Hexagon NPU,性能相较前代提升 98%,能效则是有 40% 提升,最高可支持 4.8GHz LPDDR5x 内存,另外,在智慧感知方面,骁龙传感器中枢新增一枚 Always-sensing ISP,同时性能提升 3.5 倍。于此同时,CPU 和 GPU 性能均有一定程度提升,多者结合的异构算力相结合,组成一整套 AI Engine。具体到功能上,骁龙 8 Gen3 支持多模态生成式 AI 模型,能够在终端侧运行 100 亿参数的模型,而面向 70 亿参数大语言模型,每秒则可以生成 20 个标记,并可以把大模型优化到 INT4,大幅压缩空间……而且重点是,功耗还控制得很好。

我们还是看看实际表现如何。

终端侧 AI 语音助理测试中,它能够用自然语态回应关于毛伊岛(骁龙峰会举办地)咖啡豆、冲浪点等问题,也会按照要求讲述一段小故事,跟 chatGPT 3.5 的体验相似。

觉得还是太简单了?那可以试试创意类创作。展示区有「文生图」演示案例,均为终端侧直接生成,减少连网造成的时延,低分辨率图片在 1 秒内可以完成,几乎等于直接拍张照片的时间,要知道,在几个月前,它们还需要 20 秒左右的时间。即便是提高目标图像的分辨率,也基本可以在 5 秒内生成,效率比纯靠云端处理要高不少。

不单单是文字和图像,AI 也能进行音乐创作,给机器输入简单几个音符,它就能快速生成一段(听起来还算成熟的)音乐,虽说达不到周杰伦上《快本》那么牛吧,但至少比我厉害多了(^-^)想「听」到它创作的全过程,欢迎留意我后续的体验视频(挖坑ing)

键入3个音符,即可生成一段音乐

当然,我必须说明的是,前面两项示例,主要目的在于展现终端侧 AI 在当前拥有的高运算能力,是否被广泛使用、有没有必要被广泛使用,属于另外一个话题。事实上,在骁龙峰会第三天的圆桌会议中,高通公司高级副总裁兼 AI 负责人 Ziad Asghar 就提到,随着 AI 被广泛使用,未来人类可以从机械性重复工作中跳脱出来,拥有更多时间和精力去挥洒创意,当然,这是后话了。

其它复杂运算也还有,比如主 Keynote 上高通全球副总裁候明娟在台上演示的「AI 照片扩展」,能通过运算,将一张广角图片,扩展成非常自然的超广角。另外,高通还开发了一个 vlogger 模式,利用双 ISP 同时开启前后置摄像头的同时,还能将前置镜头画面的背景实时扣除,模拟人和景合一的摄像机视角。

AI 图片扩展

vlogger 模式

这些就足够了吗?

在前面的用例中,AI 大模型获得信息的渠道很少——文字、图像或音频——而且偏被动,如果将它看作一个「人」,那它可能只靠听几句话、看几张图或视频来获取周围的信息,然后根据自己已有的知识来反馈。而真正的人,他拥有五官、六感,获取信息的渠道很多,在对某件事作出判断时,能参考的信息就更多。

高通也意识到这个问题,并携手合作伙伴,展示了一些解决方案。

比如我们可以在手机上增加一个湿度传感器,利用它来获取物体表面的湿度,从而生成对应的判断结果,例如查看饼干曲奇是否因开封太久不新鲜了、皮肤水份不足需要补水了,等等。

还有空气状况,也能通过传感器获取,并实时提供给端侧 AI,结合天气情况,来判断是否可以外出锻炼身体,当然,结合存储在本地的个人信息后,AI 能够对整个健身规划作出相应调整,就看软件厂商的想象力了。

欸,这时候我把 Pixel 8 Pro 翻到背面,感觉这个温度传感器,能做的不应该仅仅是跑骁龙本测试时,充当测温工具啊……(划掉)

温度测试仅供参考

此外,终端侧 AI 还有一个好处就是「个性化」,峰会展示区也有相关的演示,AI 助理会根据不同的用户信息,比如年龄、性别、所处地区等,推荐不同的健身方案。

个性化 AI 结果

除了移动平台,今年的骁龙峰会上还发布了计算平台和音频平台的新品,它们分别是 AI 性能比其它平台强 10 倍的骁龙 X Elite,以及 AI 性能增强 100 倍的骁龙 S7/S7 Pro Gen1。

音频平台 AI 性能百倍提升

值得一提的是,此次音频平台的新品也加入 AI,在会后的群访中我了解到,随着算力的增加,耳机厂商们能实现更多的功能,并且可以通过个人用例和体验,不断学习增强;更重要的是,它能让蓝牙耳机们在降噪场景中变得更智能,例如以往的 TWS 耳机只能针对单个使用场景进行自适应降噪,未来在 AI 的加持下,音频设备可以同时分析环境和通话两条信道的音源,并决定是否需要降噪,以及降谁的噪。

正如高通公司总裁兼 CEO 安蒙所说,随着骁龙 8 Gen 3 移动平台、骁龙 X Elite 计算平台以及骁龙 S7 系列音频平台的发布,我们正在进入将改变用户体验的生成式 AI 时代,也将创造一个移动行业和计算行业的全新周期。

GET READY TO MOVE!

喜欢数码科技资讯的你,就记得点击订阅啦。
关注「锋潮评测室」微信公众号【微信号:fengchaopingceshi】,还会送上更多你想要的哦~

相关标签: 高通 高通骁龙 骁龙8gen3 ai
107