顾名思义,所谓超分,就是让视频的画面变得更清晰。 我们的业务场景下有一个需求,是将原本竖屏导出的画面变得更清晰。经过两天的技术调研,得出了一个结论: 不论云上还是端上都做不到很哇塞的程度,云上有效果,成本比较高,手机端上看不到正向效果,且处理时间长。
以下测试以9s的竖屏视频为基准的测试
| 解决方案 | 效果评价 | 转化时间 | 转化费用 | 方案类型 |
|---|---|---|---|---|
| 剪映会员高清(PC) | 效果最好 | 30s | nil | nil |
| 火山画质增强 | 效果差,还不如不优化,应该是我们用的不太对 | 高质量5min 标准 10s |
不足1分钟按1分钟算 忙时2元 闲时0.6元 |
云端 |
| topazlabs/video-upscale | 效果仅次于剪映会员高清(PC) | 23.8s | 0.24 美元 | 云端 |
| iOS SR | 看不到正向效果 | 240s | nil | 本地 |
| iOS 同分辨率锐化 | 效果差,还不如不优化 | 2s | nil | 本地 |
| iOS LL-SR | 这是ios 26 的新技术新,调不通 | 2s | nil | 本地 |
那么这个时候有一个问题,video-upscale 和 剪影的超清 对某个视频做了超分, 隐约看能清晰了一些,比如树叶,红墙, 比较小的人的面部 还是不行,这是不是已经是超分的极限了呢?AI给出的答复如下
Video Upscale + 剪映/剪影的“超清画质”在当前消费级AI超分下的实际极限了,尤其是对视频里特别小、距离远的人脸。 不是工具坏了,也不是操作问题,而是AI超分辨率(超分)技术本身的原理限制。
简单说说AI超分到底是怎么工作的
AI超分不是“把模糊的像素 magically 变清晰”,而是*通过深度学习*模型(GAN、扩散模型等)“猜”**出缺失的高频细节。它在海量高清训练数据上学过“树叶应该长什么样”“红墙纹理是什么样”“人脸五官大概怎么分布”,然后根据你视频里残留的低分辨率信息,智能填充/预测更清晰的像素。
你们观察到的树叶、红墙变清晰:这是超分最擅长的部分。这些属于自然纹理和重复图案,原始视频里即使模糊,也还有足够的低频结构(颜色块、大致轮廓),AI很容易“补”出合理的高频细节,看起来就很自然。
小人脸还是不行:这是最典型的“极限场景”。远处小人脸在原始视频里可能只有几个像素宽,信息量极少(信噪比很低),AI“猜”的依据太少。它要么过度平滑(变成蜡像脸),要么幻觉出不对的五官(眼睛歪、嘴巴怪),或者直接保留模糊。模型再强也无法“无中生有”创造真实不存在的信息。