纠偏AI周刊的焦点,回归初衷——促进个人的深度阅读。AI新鲜资讯的获取和阅读通过「AI资讯简报」实现。

2023年第11周 (03-13 ~ 03-19),本周阅读摘录。


ChatGPT 是网络文本的一张“JPEG” ^eef0dd

可将 ChatGPT 等大语言模型视为网上巨量文本的压缩数据。就像一张模糊的JPEG,是对图片的有损压缩。GPT对文本内容的补全和JPEG数据恢复成图像,都是在已有数据基础上,根据概率,对缺失数据进行填充。
这一精妙的类比来自 Ted Chiang 发表在 Newyorker 的文章。Ted Chiang 是科幻小说《你一生的故事》的作者,这部小说在2016年被改编成电影《降临》。

文中还有提到压缩文本和理解文本的关系,也做了一个类比:

假设有个写了一百万个加减乘除四则算式的文本文件要压缩。尽管任何压缩算法都可以减小这个文件的大小,但要达到最大压缩率的方法可能是推导出算术原理,然后编写计算器程序的代码。使用计算器,你不仅可以完美地重构文件中的数百万个示例,还可以重构原文本中没有的,将来可能遇到的任何的四则算式。

对于人类学生来说,死记硬背并不是真正学习的指标,因此 ChatGPT 无法从网页中生成准确的引述正是让我们认为它学到了一些东西的原因。当我们处理单词序列时,有损压缩看起来比无损压缩更聪明。

当然,ChatGPT 还推导不出算数原理。这些类比也只是辅助我们理解技术。


用AIGC制作动画片,如何解决画面抖动问题

CorridorDigital 社区,使用AIGC技术制作了一部二维动画短片《ROCK, PAPER, SCISSORS》,主要是使用了 StableDiffusion 这一开源技术。

该团队公布了整个工作流程,并做了详细讲解。参见视频 Did We Just Change Animation Forever? 和该部动画的官方页面

他们说:是热爱+大量劳动完成了这个项目。因为了不起的开源社区,有了各种技术和方法可以使用。希望通过分享我们的发现和技术,能够帮助推动这项技术的发展,能够以更低门槛创作更好的作品,让任何人都可以用这种开创性的技术制作动画片。

传统二维动画片的制作方式,需要熟练的绘画技师,逐帧绘制画面,这样高昂的人力成本不是小团队可以做到的。他们看到 Stable Diffusion 以图生图的能力,想到一种将现实变成卡通的方式。

主要攻克的问题就是画面“闪烁”问题。
其次是统一每一帧画面的转换风格。

画风迁移已经成熟,可以通过一张图片生成各种其它风格。但由于稳定扩散技术(Stable Diffusion)是基于已有的“噪点”像素数据(有损图片),通过“脑补”全部的像素生成一张新图片。所以每次生成的图像都会有差别。视频需要每一帧画面之间是连续的,而扩散技术生成的每一帧画面在细节上会有不一致,导致画面看起来跳跃闪烁。

其中关键的工作流如下:
1, 从已有的动画片中选出想要的风格。然后从该动画中截图各种对象的图片,例如人脸、物品、建筑物等,用来微调训练专门的 Stable Diffusion 模型,实现统一的转换风格。
2, 根据剧本,配上少量服化道,实拍角色视频。
3, 使用训练好的AI模型将实拍视频转换成动画风格。这个过程中通过控制“随机数种子”,尽量降低画面的闪烁。
4, 通过影视后期软件,进一步弱化闪烁。
5, 动画片中的场景是基于三维模型,截图,再通过AI模型转换风格。

这是朝着真正的创作自由又迈进一步。

(END)


AI展望周刊,个人向的阅读摘录,关注AI、理解AI,注视正在发生的未来。