苹果用AI重新发明了图像压缩：同样画质，文件只要三分之一

发布日期：2026/5/31 18:21:23 访问次数：33

2025年JPEG AI正式落地，标志着三十年图像编码行业正式迈入AI时代，但行业始终存在一个无解痛点：所有主流编码标准，都在优化机器看懂的数学分数，而非人眼真实看到的画面质感。
就在全行业困在PSNR等传统指标内卷时，苹果悄无声息发布PICO感知图像编解码论文，跳出过往所有技术框架：不追求冰冷的像素误差数值，一切优化围绕人眼视觉感知出发。最终实现颠覆性结果：同等肉眼画质下，图片体积直接压缩至原有三分之一，手机端可实时跑满，无卡顿无伪影。
这不是一次算法微调，而是图像压缩三十年来，第一次从「服务机器」转向「服务人眼」的范式革命。

---
导语
1992年诞生的JPEG格式，统治全球图像存储与传输整整33年，是手机拍照、网络配图、相册存储最基础的底层标准。2025年2月，首款AI原生图像编码国际标准JPEG AI正式发布，行业普遍认为：AI终于补齐了传统图像压缩的短板。
但狂欢之下藏着行业心知肚明的短板：哪怕是JPEG AI，依旧没有摆脱传统编码的底层逻辑，依旧在为PSNR这类机器指标优化，始终做不到真正贴合人眼感知的「感知压缩」。
苹果研究院团队直接瞄准这一行业空白，发布重磅论文《What Matters in Practical Learned Image Compression》，推出端侧可用的AI感知编解码器PICO。依托三大原创损失函数与创新编码架构，彻底解决AI图像压缩速度慢、文字失真、分块拼接瑕疵三大工程难题，实测碾压JPEG AI、AV1、VVC等新旧主流标准。
论文地址：https://arxiv.org/pdf/2605.05148

---
一、行业死局：机器觉得画质完美，人眼早已不堪忍受
图像压缩的本质：选择性遗忘画面信息
所有图像压缩技术，本质都是一道取舍题：在有限存储空间内，丢弃人眼无法感知的无效信息，保留核心视觉内容，同时让人眼无法察觉画面损伤。
过去三十年，JPEG、AV1、VVC、HEVC乃至最新的JPEG AI，全部采用人工设计规则：图像切块、数学变换、量化压缩、熵编码，整套流程依靠工程师数十年人工经验堆砌而成。
致命偏差：机器指标和人眼感知完全脱节
行业通用评判标准为PSNR峰值信噪比，数值越高代表像素误差越小，机器判定画质越好。但现实存在巨大偏差：
- 一张PSNR高分图片：像素误差极低，但画面发闷、边缘模糊、文字扭曲，肉眼观感很差；
- 一张PSNR低分图片：像素存在微小误差，但纹理清晰、边缘锐利、观感真实自然。
人眼从来不是精准的像素检测仪，我们对路牌文字、物体边缘、自然纹理敏感度极高。传统编码为了拉高机器分数，刻意保留无用像素信息，反而牺牲了人眼最在意的视觉细节。
过往AI压缩的通病：实验室能打，手机无法落地
此前学界多款学习型AI编解码器，理论感知效果远超传统标准，但始终无法量产落地：要么编码解码速度极慢，只能跑在服务器显卡上；要么码率无法灵活调控；要么画面容易生成AI虚假纹理幻觉，完全不适合手机端日常拍照使用。

---
二、PICO三大核心创新：一次性解决AI压缩三大工程难题
PICO全称Perceptual Image Codec（感知图像编解码器），研发团队遍历数百万种模型结构，针对性破解行业三大卡脖子问题，兼顾人眼画质、端侧速度、画面保真度，实现商用级落地能力。
问题1：自回归熵编码精度高但速度极慢
行业痛点：高精度熵编码依赖逐像素自回归计算，压缩每一个像素，都需要反复参考周边已压缩像素，精度拉满但运行速度极低，完全不适合手机实时拍照压缩。
苹果解法：一次性上下文模型（One-shot Context Model）
将熵编码核心尺度参数单独拆分，单次前向传播完成全部计算，其余参数并行运算。在完全保留自回归编码高精度的前提下，彻底消除串行等待的速度瓶颈。
消融实验数据：移除该模块，模型整体压缩性能直接下跌10.28%；搭载后，画质无损，运行速度几乎无损耗。
问题2：GAN生成画面易产生幻觉，文字极易变形
行业痛点：依靠GAN网络优化人眼观感，极易生成虚假纹理：头发丝变成杂乱花纹、墙面凭空多出噪点；尤其是画面内文字，轻微形变就会被人眼精准捕捉，观感断崖式下跌。
苹果解法：TextFidelityLoss文字保真损失函数
内置专用文字检测器，自动识别图片内所有文字区域，对文字区块施加强像素保真约束，强制压制GAN网络无意义的纹理编造能力。
实测效果：图片文字区域像素绝对误差直接降低50%，路牌、字幕、文档截图等场景几乎零失真。
问题3：图像分块处理，拼接处出现明显色差边界
行业痛点：为适配手机芯片算力，大图需要切割为504×504像素瓦片分开处理，GAN网络容易忽略低频色彩信息，瓦片拼接后出现肉眼可见的色块缝隙，画面割裂感极强。
苹果解法：TilingArtifactLoss分块瑕疵抑制损失函数
引入多分辨率L1损失，从多空间维度强制统一相邻瓦片色彩、亮度参数，抹平拼接缝隙。
实测效果：图像分块拼接边界误差下降超50%，整张图片浑然一体，无任何拼接痕迹。

---
三、大规模盲测数据：画质相同，体积直接砍至1/3
区别于行业只看机器指标的评测方式，苹果联合第三方平台Mabyduck，开展真人盲测主观评分实验，数据具备极强参考性：
- 评测人员：610名通过色盲检测、压缩伪影专项测试的专业评审；
- 评测形式：两两图片盲测对比，无任何参数提示；
- 有效样本：累计完成74925组图片配对对比，最终以Bayesian ELO分数评判人眼偏好。
核心实测结果
1. 对比新旧国际编码标准（AV1、AV2、VVC、ECM、JPEG AI）：同等肉眼画质下，PICO图片体积仅为对手的30%-43%，也就是同样好看的图片，存储空间只需三分之一左右；
2. 对比业内顶尖AI感知编解码器（HiFiC、MRIC）：依旧可以再节省20%-40%存储空间；
3. 端侧运行速度（iPhone 17 Pro Max）：1200万像素照片编码仅230ms，解码仅150ms，手机端实时无压力；速度远超多数跑在NVIDIA V100服务器显卡上的同类AI压缩模型。
关键反常识结论：在传统机器指标PSNR上，PICO表现平平，甚至不如VVC、DCVC-RT。这直接印证核心观点：优化机器分数和优化人眼观感，是两条完全互斥的技术路线，无法兼得。

---
四、客观局限：并非全能，精准适配手机真实拍摄场景
论文客观披露了PICO的适用短板，保证技术结论严谨中立：
针对卡通图片、线条示意图、办公矢量图这类规则化合成图像，PICO压缩效率不如传统编码。这类画面结构规律、纹理单一，更适合传统人工规则编码，无需AI感知优化。
但放眼手机日常使用场景：人像拍照、风景实拍、街景画面、含文字实拍图，占据日常相册90%以上内容，PICO具备碾压级优势。未来落地iOS相册、iCloud云盘、图片隔空投递、社交原图分享，价值极大。

---
五、幕后团队：深耕AI压缩8年，整支团队被苹果全资收购
本次论文通讯作者Oren Rippel，是全球学习型图像压缩领域元老级研究员，本次PICO并非临时研发，而是团队长达8年技术积累的成果：
1. 2017年：任职初创公司WaveOne，发布实时AI图像压缩论文，首次实现AI编码实时端侧运行，轰动学术圈；
2. 后续迭代：团队推出视频压缩模型ELF-VC，相比H.264节省44%码率，速度领先同类AI模型5倍以上；
3. 团队并入苹果：WaveOne核心研发团队整体加入苹果，依托苹果自研芯片算力、端侧生态与海量实拍图片数据，打磨出可直接落地消费电子产品的PICO编解码器。

---
六、行业总结：图像压缩，正式告别像素误差内卷时代
过去33年，所有图像编码技术迭代，都在追逐更高的PSNR分数，一直在讨好机器，从未真正贴合人眼。
JPEG AI的出现，只是给旧框架加装了AI插件；而苹果PICO，是从底层重构编码逻辑：放弃无用的像素精度冗余，全力保留人眼真正在意的视觉细节。
一旦后续PICO正式下放至iOS、macOS系统底层：
- 手机相册同等容量可多存2倍照片；
- 手机原图分享无需压缩画质，秒传无等待；
- iCloud云存储成本大幅下降，用户可用空间变相免费扩容。
AI重塑图像行业的终极答案很简单：技术不该让机器满意，而该让人舒服。

联系人：卧虎

TG：xylmwohu