站长之家 - 业界 2025-01-09 13:51

2025 AI手机交互体验:它能说会道,有眼有脑,是更聪明更懂你的AI伙伴

声明:本文来自于微信公众号 量子位 | 公众号 QbitAI,作者:克雷西,授权站长之家转载发布。

终于,5202年了,手机助手也乘着AI的快车,变得越来越好用了!

不仅内置了多模态大模型“大脑”,拥有超强的思考和对话能力,还长出了“眼睛”,可以看到屏幕内外的世界。

实际上,这正是此时此刻AI手机正在呼唤的一种全新交互方式,期待拉近人与设备之间的距离,期待让交互变得更加自然

手机之所以是现在这个形态,主要为了适应多点触控的交互方式,从乔布斯时代、从触屏诞生的那段时间开始就没有过改变。

但能够响应人的自然语言,和人沟通交互、理解并执行指令的助理,才是更加自然的交互方式。

而随着多模态能力的解锁,这种新的科技树也被点亮,手机的软硬件将被重塑。

让手机成为你的专属助理

以最早把“AI手机”这个概念打在公屏上的OPPO为例,OPPO把多模态能力引入到了小布助手当中,让它不再只是一个对话机器,而是能够更全方位地理解并处理人类的意图。

通过语音、电源键和长按导航条这三种方式,我们就能把小布助手召唤出来,然后动动嘴就能向手机发号施令。

不妨先来通过“一键问屏”,看看小布助手的强大视觉本领和思考能力。

假如我们看到一栋建筑(上海中心),想要知道它到底是什么,那就可以叫小布助手出场了。

不用传图,也不用多解释,召唤出小布助手后,直接问它这是啥,就能得到满意的答案。

而且支持多轮对话,可以接着问这里能不能参观,有什么值得看,甚至直接制定出一份旅游攻略。

并且小布助手的这种视觉能力不仅能识别屏幕里的东西,还能借助相机,“看”见身边的一切。

假如我们看到了一堆植物(羽衣甘蓝)十分好奇:

图片

直接打开相机对准它,然后召唤出小布,让它来告诉我们,而且还能接着追问,这东西能不能吃、怎么吃才好吃。

再插播一句,超级小布助手是首家支持在相机界面做识屏问答的,后来很多友商也陆续推出类似功能,说明了小布助手的这种模式,是OPPO的一次成功布局。

而且之所以敢叫超级小布助手,是因为它还有两把刷子——不仅有“眼睛”能看、有“头脑”会思考,还长出了“手脚”,能够执行用户指令。

还是拿一键问屏来举例,假设量子位要从公司出发前往MEET大会现场,那么只要告诉小布助手,我要去屏幕上的这个地方,小布助手就会自动开启导航。

既不用复制粘贴目的地地址,也不用手动设置,说一句话就能即可出发。

总之呢,全面升级的超级小布助手,确实让手机的使用方式变得和以前不一样了。

有更多的用户开始通过小布助手来进行手机的操纵,其中使用电源键唤起小布助手的相比前一代提升30%,电源键成为了小布助手唤起人数Top1入口。

而且超级小布助手,还凭借自身的超能力,顺带也完成了一波“用户教育”的目的——

小布助手的强大能力,反向刺激了用户的需求,光是一项识屏能力,就直接带动了百科和教育类的问答需求提升。

用户数据显示,近30%的一键问屏用户会在相机界面对准想要识别的内容后,直接唤起小布助手进行问答;70%的用户会在多模态交互中使用通用问答的功能。

所以,超级小布助手如此神奇的超能力,到底是来自于哪里呢?

背后是自研大模型和智慧框架

能听、看、说、做的超级小布背后,是集语言、视觉、语音等多种模态于一体的OPPO SenseNow框架

先说听,这是我们和小布助手发生交互的第一个环节,SenseNow框架集成了OPPO自主研发的语音多级唤醒和个性化识别技术,使语音唤醒和识别的准确率达到97%以上。

SenseNow框架通过检索增强多模态理解技术,具备了“看”的能力,是SenseNow智慧框架的核心,让超级小布助手实现了图文混合检索,支持1000多种主体的识别。

像前面看到的一系列场景,超级小布助手能够从根据看到的画面回答我们各式各样的问题,靠的都是这种多模态理解和检索能力。

SenseNow框架还集成了生成式语音合成框架,使超级小布助手能够模拟真人语气和节奏,并支持超过20种个性化音色。

可以说,OPPO SenseNow框架让超级小布助手在看、听、说上都表现得像一个真实的人,能够帮助解答我们所见到的各种疑惑。

但OPPO SenseNow框架还有一大亮点,那就是拥有执行力。

就像前面看到的,只要给出一个指令,超级小布助手就会根据图片中看到的地址唤起导航,按照时间信息加入日程表……

SenseNow智慧框架可以融合语音、文本和图片等不同类型的信息源,理解用户的复杂意图,完成跨应用的无缝操作。

超级小布支持超过1000+项用机指令,让用户只需要简单的语音指令,就可以完成对应的手机设置或应用操作。

领先能力的背后,OPPO拥有在多模态领域拥有领先的布局和前瞻性的思考,所以,全新升级的小布,在手机助手的多模态时代抢先占据了一席之地。

多模态助手正在改变手机交互方式

小布助手是一个缩影,其所代表的多模态手机助手,正在改变着手机的交互方式

比如相机实景持续问答——网络速度的提升和大模型能力的升级,多模态大模型可以支持实时的逐帧视觉识别和分析推理,根据摄像头看到的景象和用户像真人一样交流,把电影《Her》当中的场景搬进现实。

除了我们在大模型领域常见的多模态(文本、视觉、语音)之外,近年来智能传感器的技术也有了飞速的发展。

手机上除了常见的摄像头、麦克风外,温度、气压等传感器技术也正在逐渐成熟。

通过对更多维度的环境信息的感知,智能助手可以更清晰地理解用户当前的状态,通过简单的指令就可以完成用户需求。

举个最简单的例子,如果用户问喉咙不舒服怎么办,AI可以根据传感器获得的体温状况、地理位置、天气情况和环境的温度湿度,综合判断给出咨询建议,比如是要上加湿器,还是要找医生寻求帮助。

并且随着手机助手的不断普及,未来像小布这样搭载多模态能力的语音助手,将改变人与APP的交互方式,随着更多应用和服务API的接入,语音助手调用服务将更加高效和流畅。

并且未来还能够实现跨越不同APP的复杂操作,比如根据旅行攻略让语音助手帮你完成沿途所有的行程/住宿和景点门票的预定安排。

在新的交互模式之下,语音助手不仅可以利用多模态信息推测人类意图并调用适当服务,还可以利用记忆能力,了解你说话的风格,衣食住行的偏好,并基于当前的情况提供个性化服务推荐,变得更加专属化、个性化。

想象一下,未来你掏出手机,简单的一句话AI 就能为你完成所有的安排,那时的手机就像一个私人助理、像一个伙伴。

到那时,人与硬件之间的关系也将发生改变

回到当下,超级小布助手作为OPPO打出的一套AI组合拳中重要的一环,以多模态智能助理的形态,为打造更加智能化的AI系统、AI手机,彻底改变交互形态而铺路。

毫无疑问,超级小布助手这种视觉感知+多模态智能交互的形式,正是这个方向之上诞生的一大成果。

同时,超级小布助手来自于OPPO,来自于终端厂商,因此拥有系统层级的调度能力,这更是第三方智能助手类产品无法比拟的优势。

并且用户数据已经证明,超级小布助手正在逐渐重塑用户的使用习惯,用技术的跨越倒逼用户产生新的需求。

OPPO希望,超级小布助手能够成为实用专属的AI伙伴。而目前市场表现看来,已经获得了初步成果。

作为最早把AI手机打上公屏的手机玩家,OPPO正在持续刷新移动交互形态,让AI重塑手机能力和边界。

推荐关键词

24小时热搜

查看更多内容

大家正在看

手机厂商“AI劫”