• 微信

iPhone 16 正式发布:端侧大模型+云端大模型,开启移动智能生态新篇章

时间:2024-09-10 23:04作者:admin分类:大千世界浏览:214评论:0

北京时间9月10日凌晨,苹果正式发布了iPhone 16,这是苹果第一款真正意义上的AI iPhone。Apple Intelligence采用“端侧大模型+云端大模型”的方式,将为用户带来更丰富的智能体验。而这仅仅是端侧智能的开始,未来我们可以想象,一个由大模型带来的移动智能生态正在缓缓打开。

_iphone引领一个时代_引领app

太长不看版:

1. 技术:端侧模型短期能力有限,端云结合是长期状态

○电池容量和发热

○芯片计算速度

○现有架构下,8G+内存是最低要求

○内存读写速度可能需要进一步技术突破

○端侧模型+云上模型的配合能力将是核心技术点之一

○从用户价值看,端侧模型并不是必要路径

○端侧模型存在合理性是1)降低推理成本,2)响应速度更快3)更好保护隐私

2. 产品:短期以小功能为先导,长期价值期待释放

○短期=新功能亮点提升产品售价+FOMO(Fear of Missing Out)

○长期=争夺新的流量入口

○理解用户+智能唤醒APP(siri升级)

○直接access APP内的数据和服务,可能绕过APP的UI,直接完成用户指令

○拆解指令,多APP共同完成任务(严重依赖AI Agent的能力提升)

○(optional)对于常用服务手捏个人APP

引子:

问题1:从用户角度出发,“智慧手机”的“价值”是什么?

○从“物品”到“帮手”的转变

○翻阅式->搜索式->推荐式->服务式(秘书+陪伴)

问题2:对于用户来讲,为什么要在端侧搭载模型?

○~1B级别=“锦上添花”:P图,聊天,搜索支持……

○~10B级别=效果会更好,也有不确定性;要看哪些是这个级别也可以实现的新能力

○~100B级别+AI Agent=AI原生体验的潜力

问题3:从厂商角度出发,手机端侧模型的“价值”是什么?

一、苹果等手机厂商纷纷推出端侧大模型

去年以来,各厂商已经推出了多款端侧大模型手机。

苹果的新款iphone16搭载了更快的CPU、GPU,且在能耗上有更好的表现。以GPU为例,A18芯片是四年前iphone 12的A14芯片速度的2倍。

引领app__iphone引领一个时代

相比去年A16芯片,在速度提升40%的同时,功耗下降了30%,为大模型的本地运算提供了更好的电源保障。

引领app__iphone引领一个时代

利用端侧大模型,iphone16不仅可以生成、润色文字、总结文本、回复邮件等,还可以生成表情符号,搜索照片、视频等,并执行多种任务。

_iphone引领一个时代_引领app

发布会中最为惊艳的功能之一,是视觉智能。比如,当你看到一家餐厅,你可以通过按压相机控制按钮拍下餐厅,然后就能通过Apple Intelligence获得该餐厅的营业时间以及点评,并查看菜单或预订餐厅。

引领app__iphone引领一个时代

该功能也支持和第三方APP联动,比如,看到你喜欢的自行车,只需点击一下,即可快速Google到类似的自行车并购买。

iphone引领一个时代__引领app

除了苹果,去年以来,各大手机厂商已经陆续发布了其端侧大模型的产品:

_引领app_iphone引领一个时代

二、如何评价端侧模型的成熟度?

1. 参数规模:“智商”水平至关重要,端侧模型任重道远

为什么“智商”重要?“锦上添花”vs“底层革命”。

大参数+量化vs小参数:大参数+量化效果上优于小参数。

当前量化已到极限:BF16量化基本安全;INT4量化是当前大多手机使用的方式,但经常出现过拟合和稳定性问题;当前在探索INT8量化的折衷方案。

~10B模型是当前模型能力分水岭。

提升参数规模的瓶颈包括计算、内存读写和能耗,其中能耗最难突破。

_引领app_iphone引领一个时代

2. 推理速度:良好用户体验的基准是20token/s,目前刚刚达标

现状推理速度:最高达20token/s,刚刚达到可用门槛,仅有PC端的20%,差距明显。

引领app_iphone引领一个时代_

推理加速技术+预判

引领app_iphone引领一个时代_

AI agent的推理速度要求:50~100 tokens/s

3. 能耗:发热&续航表现短期不会大幅优化,是手机端侧大模型的主要瓶颈

现状:目前没有大规模测试端侧模型推理的功耗;以游戏运行为benchmark,功率大约在4~7W,续航时间仅为3~4小时。

崩坏:星穹铁道最高画质各机型实测结果(by小白测评数据库,续航时间基于标准输出电压3.7V估算):

_引领app_iphone引领一个时代

电池容量增长分析预测:未来每年增长不超过5~10%

以iPhone和三星galaxy为例,近10年平均每年增长5~6%,尤其是21年以来,手机尺寸不再增大后电池容量也几乎没有增长

_引领app_iphone引领一个时代

注:电池容量单位mAh,每年取该系列电池容量最高的机型数据

制约手机电池电量增长的因素包括:

4. 搭载~10B模型的时间预计=3~4年

引领app_iphone引领一个时代_

3-4年后:

3年内看不到纯端侧模型驱动的AI原生OS,复杂任务都需要云上实现。

5. 端侧多模态大模型:端侧的价值主要在多模态理解,而不在多模态生成

价值有限:端侧多模态能完成的生成场景(例如修图),已有CV技术也能解决;新的生成功能(例如AI扩图)需要上云

吃算力:多模态模型的推理,占用的算力可能会数倍于大语言模型

基于LLM-backbone,在输入端增加多模态编码器和输入投影,参数量增加~10%

以开源模型MobileVLM为例;1.4B和2.7B两个版本,输入投影~20M,图像编码器~300M

其中,1.4B版本INT4量化,在骁龙888(20年,RAM8GB,26TOPS)上速度21.54 tokens/s

录屏理解的目标是辅助用户进行手机操作,广义上属于操作系统的一部分。

手机厂商通过合作等方式获取root授权,然后在APP内操作,这是更加AI原生的OS实现方式。

具体节奏除了取决于技术进展,还取决于手机厂商和APP厂商的合作探索。

长期端侧多模态模型的任务则退化为读取、理解APP内部的图片、视频等信息(非截图),不一定需要重大技术突破。

三、未来实现多功能调用的关键技术-AI Agent

AI Agent:正长期持续快速发展;但到达大学生智能的Agent还有距离。

1. Agent=通用-自动化-决策&执行能力

2. Agent需要包含哪些部分

Lilian Weng(OpenAI)对Agent能力的拆解:

iphone引领一个时代_引领app_

3. 有关“记忆”

事实性记忆(概念、事实)

程序性记忆(事情的先后顺序)

非描述性记忆(骑自行车、潜意识)

当前处理“记忆”的主流方案:

引领app__iphone引领一个时代

引领app__iphone引领一个时代

_iphone引领一个时代_引领app

但现状做法有很多“不自然”的地方:

iphone引领一个时代__引领app

_iphone引领一个时代_引领app

4. Agent的发展阶段

1. Agent 1.0(现状)

前置工具描述数据集+Retrieval做update

但受制于前置工具集的文档精确性、及时性;当前的成功的比例仍难以直接满足商用

大模型self-instruct指令生成工具调用数据集,对agent进行微调

通过System prompt预先设定agent的角色、工作流程、能力栈等

基本的任务拆解(CoT)

通过Self-refine/Reflexion/ReAct增加可靠性

Finetune作为一种方式,但目前成效有限

有思路认为通过“超长文本”,可以不解决长期记忆问题。“把人类一生的经历都用文本框输入,就不用记忆了”

2. Agent 2.0(未来1~2年)

目标线性拆解

群聊总结

3. Agent 3.0(3+年)完全自主?

iphone引领一个时代__引领app

四、端侧VS云上的应用场景展望

1. 现状是云上为主,端侧为辅

引领app_iphone引领一个时代_

2. 端侧&云上的长期并存是大势所趋

既定事实:1)端侧模型能力

2.1 技术限制

a.算力:复杂任务(长Token,Agent等)需要依赖云上模型

b.电池能耗:复杂任务需要依赖云上模型

c.存储:需要读写大量数据的任务需要依赖云上

2.2 用户价值

d.网络延时:离线模型可以提升网络不佳情况的效果

i.需要技术:线上任务&离线任务热迁移

e.权限&隐私

i.APP内信息/服务access:可能端侧模型更容易访问;取决于APP与手机厂商的协商

ii.本地数据访问:本地设置了加密的数据,可以要求只有端侧模型能访问

iii.在线数据访问:不需要端侧模型

f.个性化

i.Prompt里加入个人信息可以“假装”个性化体验

ii.也可以用线上账号的方式实现;且训练/精调只能在线上

2.3 商业价值

g.流量/收数

i.AI原生OS是手机厂商与APP生态建设的重点

ii.AI OS的功能理论上可以通过云上模型解决,但端侧+云上的模式会是多方协商合作的结果

h.变现:

i.端侧模型=手机价格提升的增值

ii.端侧+云上搭配=云上服务可以收订阅费用

i.成本:端侧模型降低云上推理成本支出

五、小结与启示

文章评论