当前位置:新城娱乐资讯

苹果用AI重新发明了图像压缩:同样画质,文件只要三分之一

发布日期:2026/5/31 18:21:23 访问次数:11


2025年JPEG AI正式落地,标志着三十年图像编码行业正式迈入AI时代,但行业始终存在一个无解痛点:所有主流编码标准,都在优化机器看懂的数学分数,而非人眼真实看到的画面质感。
就在全行业困在PSNR等传统指标内卷时,苹果悄无声息发布PICO感知图像编解码论文,跳出过往所有技术框架:不追求冰冷的像素误差数值,一切优化围绕人眼视觉感知出发。最终实现颠覆性结果:同等肉眼画质下,图片体积直接压缩至原有三分之一,手机端可实时跑满,无卡顿无伪影。
这不是一次算法微调,而是图像压缩三十年来,第一次从「服务机器」转向「服务人眼」的范式革命。

---
导语
1992年诞生的JPEG格式,统治全球图像存储与传输整整33年,是手机拍照、网络配图、相册存储最基础的底层标准。2025年2月,首款AI原生图像编码国际标准JPEG AI正式发布,行业普遍认为:AI终于补齐了传统图像压缩的短板。
但狂欢之下藏着行业心知肚明的短板:哪怕是JPEG AI,依旧没有摆脱传统编码的底层逻辑,依旧在为PSNR这类机器指标优化,始终做不到真正贴合人眼感知的「感知压缩」。
苹果研究院团队直接瞄准这一行业空白,发布重磅论文《What Matters in Practical Learned Image Compression》,推出端侧可用的AI感知编解码器PICO。依托三大原创损失函数与创新编码架构,彻底解决AI图像压缩速度慢、文字失真、分块拼接瑕疵三大工程难题,实测碾压JPEG AI、AV1、VVC等新旧主流标准。
论文地址:https://arxiv.org/pdf/2605.05148

---
一、行业死局:机器觉得画质完美,人眼早已不堪忍受
图像压缩的本质:选择性遗忘画面信息
所有图像压缩技术,本质都是一道取舍题:在有限存储空间内,丢弃人眼无法感知的无效信息,保留核心视觉内容,同时让人眼无法察觉画面损伤。
过去三十年,JPEG、AV1、VVC、HEVC乃至最新的JPEG AI,全部采用人工设计规则:图像切块、数学变换、量化压缩、熵编码,整套流程依靠工程师数十年人工经验堆砌而成。
致命偏差:机器指标和人眼感知完全脱节
行业通用评判标准为PSNR峰值信噪比,数值越高代表像素误差越小,机器判定画质越好。但现实存在巨大偏差:
- 一张PSNR高分图片:像素误差极低,但画面发闷、边缘模糊、文字扭曲,肉眼观感很差;
- 一张PSNR低分图片:像素存在微小误差,但纹理清晰、边缘锐利、观感真实自然。
人眼从来不是精准的像素检测仪,我们对路牌文字、物体边缘、自然纹理敏感度极高。传统编码为了拉高机器分数,刻意保留无用像素信息,反而牺牲了人眼最在意的视觉细节。
过往AI压缩的通病:实验室能打,手机无法落地
此前学界多款学习型AI编解码器,理论感知效果远超传统标准,但始终无法量产落地:要么编码解码速度极慢,只能跑在服务器显卡上;要么码率无法灵活调控;要么画面容易生成AI虚假纹理幻觉,完全不适合手机端日常拍照使用。

---
二、PICO三大核心创新:一次性解决AI压缩三大工程难题
PICO全称Perceptual Image Codec(感知图像编解码器),研发团队遍历数百万种模型结构,针对性破解行业三大卡脖子问题,兼顾人眼画质、端侧速度、画面保真度,实现商用级落地能力。
问题1:自回归熵编码精度高但速度极慢
行业痛点:高精度熵编码依赖逐像素自回归计算,压缩每一个像素,都需要反复参考周边已压缩像素,精度拉满但运行速度极低,完全不适合手机实时拍照压缩。
苹果解法:一次性上下文模型(One-shot Context Model)
将熵编码核心尺度参数单独拆分,单次前向传播完成全部计算,其余参数并行运算。在完全保留自回归编码高精度的前提下,彻底消除串行等待的速度瓶颈。
消融实验数据:移除该模块,模型整体压缩性能直接下跌10.28%;搭载后,画质无损,运行速度几乎无损耗。
问题2:GAN生成画面易产生幻觉,文字极易变形
行业痛点:依靠GAN网络优化人眼观感,极易生成虚假纹理:头发丝变成杂乱花纹、墙面凭空多出噪点;尤其是画面内文字,轻微形变就会被人眼精准捕捉,观感断崖式下跌。
苹果解法:TextFidelityLoss文字保真损失函数
内置专用文字检测器,自动识别图片内所有文字区域,对文字区块施加强像素保真约束,强制压制GAN网络无意义的纹理编造能力。
实测效果:图片文字区域像素绝对误差直接降低50%,路牌、字幕、文档截图等场景几乎零失真。
问题3:图像分块处理,拼接处出现明显色差边界
行业痛点:为适配手机芯片算力,大图需要切割为504×504像素瓦片分开处理,GAN网络容易忽略低频色彩信息,瓦片拼接后出现肉眼可见的色块缝隙,画面割裂感极强。
苹果解法:TilingArtifactLoss分块瑕疵抑制损失函数
引入多分辨率L1损失,从多空间维度强制统一相邻瓦片色彩、亮度参数,抹平拼接缝隙。
实测效果:图像分块拼接边界误差下降超50%,整张图片浑然一体,无任何拼接痕迹。

---
三、大规模盲测数据:画质相同,体积直接砍至1/3
区别于行业只看机器指标的评测方式,苹果联合第三方平台Mabyduck,开展真人盲测主观评分实验,数据具备极强参考性:
- 评测人员:610名通过色盲检测、压缩伪影专项测试的专业评审;
- 评测形式:两两图片盲测对比,无任何参数提示;
- 有效样本:累计完成74925组图片配对对比,最终以Bayesian ELO分数评判人眼偏好。
核心实测结果
1. 对比新旧国际编码标准(AV1、AV2、VVC、ECM、JPEG AI):同等肉眼画质下,PICO图片体积仅为对手的30%-43%,也就是同样好看的图片,存储空间只需三分之一左右;
2. 对比业内顶尖AI感知编解码器(HiFiC、MRIC):依旧可以再节省20%-40%存储空间;
3. 端侧运行速度(iPhone 17 Pro Max):1200万像素照片编码仅230ms,解码仅150ms,手机端实时无压力;速度远超多数跑在NVIDIA V100服务器显卡上的同类AI压缩模型。
关键反常识结论:在传统机器指标PSNR上,PICO表现平平,甚至不如VVC、DCVC-RT。这直接印证核心观点:优化机器分数和优化人眼观感,是两条完全互斥的技术路线,无法兼得。

---
四、客观局限:并非全能,精准适配手机真实拍摄场景
论文客观披露了PICO的适用短板,保证技术结论严谨中立:
针对卡通图片、线条示意图、办公矢量图这类规则化合成图像,PICO压缩效率不如传统编码。这类画面结构规律、纹理单一,更适合传统人工规则编码,无需AI感知优化。
但放眼手机日常使用场景:人像拍照、风景实拍、街景画面、含文字实拍图,占据日常相册90%以上内容,PICO具备碾压级优势。未来落地iOS相册、iCloud云盘、图片隔空投递、社交原图分享,价值极大。

---
五、幕后团队:深耕AI压缩8年,整支团队被苹果全资收购
本次论文通讯作者Oren Rippel,是全球学习型图像压缩领域元老级研究员,本次PICO并非临时研发,而是团队长达8年技术积累的成果:
1. 2017年:任职初创公司WaveOne,发布实时AI图像压缩论文,首次实现AI编码实时端侧运行,轰动学术圈;
2. 后续迭代:团队推出视频压缩模型ELF-VC,相比H.264节省44%码率,速度领先同类AI模型5倍以上;
3. 团队并入苹果:WaveOne核心研发团队整体加入苹果,依托苹果自研芯片算力、端侧生态与海量实拍图片数据,打磨出可直接落地消费电子产品的PICO编解码器。

---
六、行业总结:图像压缩,正式告别像素误差内卷时代
过去33年,所有图像编码技术迭代,都在追逐更高的PSNR分数,一直在讨好机器,从未真正贴合人眼。
JPEG AI的出现,只是给旧框架加装了AI插件;而苹果PICO,是从底层重构编码逻辑:放弃无用的像素精度冗余,全力保留人眼真正在意的视觉细节。
一旦后续PICO正式下放至iOS、macOS系统底层:
- 手机相册同等容量可多存2倍照片;
- 手机原图分享无需压缩画质,秒传无等待;
- iCloud云存储成本大幅下降,用户可用空间变相免费扩容。
AI重塑图像行业的终极答案很简单:技术不该让机器满意,而该让人舒服。

联系人:卧虎

TG:xylmwohu

QQ:5243865