🗞️ 缓坡漫步

2023.14 从神经网络到GPT的15年探索之路

2023年第14周 (04-03～04-09) 本期阅读/摘录内容是来自 Nvidia 2023年开发者大会的一期炉边谈话：Ilya Sutskever and Jensen Huang: AI Today and Vision of the Future 一窥深度学习如何从无到有，到GPT 1、2、3，到今天的ChatGPT，十五年的探索之路。 Ilya Sutskever，OpenAI 的联合创始人和首席科学家 Jensen Huang (黄仁勋) ，Nvidia 的创始人和首席执行官深度学习黄仁勋首先问：为什么你认为深度学习(deep learning) 会有效？ Ilya 答：首先是个人对人工智能、什么是意识的好奇心。把时间拉回到2003年之前，计算机还无法学习任何东西，甚至在理论上也不清楚是否可行。但人类是可以学习的，如果在机器学习方面能取得进步，将是人工智能的大进展。幸运的是我的大学教授 Geoffrey Hinton，正在研究神经网络。而神经网络具备学习和自动编程的能力，其中蕴含着极大的潜力。开始研究深度学习和神经网络时，人们并没有意识到规模的重要性。当时使用的神经网络规模非常小，最多只有数百个神经元，一百万个参数被认为非常大。研究人员对神经网络做了很多实验，试图找到有趣的现象和观察规律。虽然在当时这并不是显而易见的正确之路，但这些研究奠定了未来深度学习领域的基础。 Geoffrey Hinton 当时对在小数字上训练神经网络很感兴趣，这既是为了分类(classification)，也是他对生成(generating)数字非常感兴趣。因此，生成模型的开端就在那里。但当时所有这些很酷的东西漂浮在周围，哪个是正确的方向并不明显。在构建 AlexNet 的两年前（2010年），我们清楚地知道监督学习是对的方向。传统的贝叶斯模型等方法在理论上很优雅，但不能代表一个好的解决方案。意识到大型深度神经网络是解决困难问题的关键，为了能够很好的实现，需要一个大的数据集，以及大量的计算做这个工作。如何优化计算是一个瓶颈，实验室的另一位研究员 James Martens 在此取得了突破。重点是，这证明了我们可以实际训练这些神经网络。那么下一个问题是，用什么数据？ ImageNet 数据集，是当时非常有挑战难度的数据集。开始用上GPU进行计算，也是在多伦多实验室，因为 Geoffrey 的建议，开始尝试使用GPU进行实验。当在 ImageNet 数据集基础上训练时，发现卷积神经网络与GPU的高度契合，意识到GPU可以用于训练神经网络模型，并成功训练出了史无前例的庞大模型。无监督学习刚我们开始时，也不是100%清楚该如何做。该领域与今日相比也截然不同，研究者也非常少。2016年初，该领域也只有约100位研究者。虽然现在深度学习的发展已经非常迅猛，但当时人们对它的认可度却并不高。 OpenAI在成立之初，有两个重要的初始想法。第一个主要想法，是通过压缩实现无监督学习。今天，我们理所当然地认为无监督学习是一件很容易的事情。你只要对所有的东西进行预训练，它就会完全按照你的预期来做。在2016年之前，无监督学习一直是机器学习领域中的难题，没有人知道该怎么做。现在许多人发现，GPT实际上是对训练数据做压缩。Ted Chiang 发表在《Newyorker》的文章中也暗指了这一点。从数学意义上讲，训练这些自回归生成模型确实是对数据进行压缩。从直觉上讲，你可以看到为什么这应该是有效的。因为如果你想把数据压缩得非常好，你必须提取其中存在的所有隐藏的秘密。因此，这就是关键所在。（注：例如压缩大量数学题目文本最好的办法是推理出四则运算规则，写一个计算器程序）要提及一下研究情感神经元(sentiment neuron)的这项工作在对我们的思考产生了非常大的影响。当时我们训练一个神经网络（还是小型循环神经网络LSTM，还没有 Transformer），训练它预测亚马逊评论中的下一个字符。我们发现，如果预测得足够好，那么在LSTM中会有一个神经元与文本的情绪相对应。这真的很酷，因为它展示了无监督学习的优势。并且它验证了这样一个想法，那就是做到非常好的预测下一个字符、压缩，会具有发现数据中的秘密的特性。这就是我们在这些 GPT 模型中看到的，不仅只是人们说的统计相关性。 ...

2023.13 什么是 Stable Diffusion

2023年第13周 (03-27 ~ 04-02) 这期，通过阅读 Stable Diffusion 相关资料来了解当前主流AI画图工具背后的技术。现在热门的 AI 画图产品 Midjourney、Stable Diffusion 和 DALL·E 都是基于扩散模型合成图像的技术。（还有一种合成图像的技术是 GAN——生成式对抗网络）什么是 Stable Diffusion? Stable Diffusion 是一款文本到图像的人工神经网络模型，能够以给定文本作为输入条件，生成图像。于2022年发布，由德国大学的计算机视觉小组(ComVis)和 Runway 公司合作研发。得益于 Stability AI 公司的资助，和 LAION 的数据集支持。 * 该模型权重和代码均已开源，相关链接：代码 | 论文 | 项目技术原理 Stable Diffusion 模型，也称作潜空间扩散模型（LDM），是一种基于深度学习的扩散模型，用于合成高分辨率图片。 * 简单来说，是准备一组原图像，将原图像进行不同程度的高斯模糊得到多张满是噪点的模糊图像。用这些图像训练扩散模型，让其对模糊后的图像去噪，尽量还原出原图像。而生成新图像的过程，是先随机生成一张噪点图片，让训练后的扩散模型对其进行多次去噪，逐步的“还原出”一张不曾存在的图像，等于是合成了一张新图片。 (图片来自 Wikipedia) 扩散模型允许建立引导机制控制图像生成过程，而无需重新训练模型。Stable Diffusion 将「交叉注意力层」引入到模型架构，将扩散模型转变为一种支持通用条件输入（例如文本或边界框）的强大且灵活的图像生成器。 (截图自论文) 更深入的了解「潜在扩散模型」，需要先了解一些前置概念，从潜变量 -> 潜变量模型 -> 扩散模型，再到潜空间扩散模型。 Latent variables * 潜变量/隐变量，用于代指有意义但无法直接测得的变量，只能通过数学方法从其它可直接观测到的变量间接推断出来。相对的概念就是 observable variables（显变量）或指标。例如心理学中的“智力”，需要间接通过各种测量来综合评估智力水平。经济学中的“生活质量”、“商业信心”。医学领域中疾病的“进展阶段”。通过这些潜变量，方便我们理解数据和表示概念。 Latent variable model * 潜变量模型，是一种统计模型，描述了显变量与潜变量之间的关系。 ...

2023.12 AI展望周刊

水一期，写代码更快乐～近半年AI技术的快速迭代和AI应用的普及，燃起的热情和增添的信心，似乎一扫社会被疫情折磨三年后的无力感，以及全球各经济体的危机带来的焦虑。 2023年第12周 (03-20 ~ 03-26)，本周阅读摘录。 ■ ChatGPT 敲开了 LUI 的大门以下内容摘录/总结/删改自——播客《（Sarah & 王建硕）大白话聊 ChatGPT》 🔗播客音频 , 🔗播客文稿施乐的研究中心发明了图形用户界面(GUI)，乔布斯借鉴之后做出了 Macintosh，微软又抄袭做出了Windows，GUI 开启了个人电脑浪潮。浏览器的诞生为存在了二十几年的互联网添加了“GUI”，开启了 Web 浪潮。 iPhone的多点触控，把手机的整块屏幕变成了可交互的GUI，开启了智能手机和移动互联网浪潮。 ChatGPT的推出，是真自然语言交互（Language UI）的开始。人机交互方式的改变，亦是人机关系的一次重构。 ■ 拥抱AI，还是被AI干掉？以下内容摘录/删改自——Bear Liu - 狗熊来信17 比起目前还可信可不信的加密货币，以及模糊的Web3，发展到今天的 AI 真的是人生中难得碰到的技术改变世界的转折点。上一次是瓦特的蒸汽机，福特的汽车，Licklider等人创造的互联网，家酿俱乐部开创的个人计算机时代，罗伯特·诺伊斯和戈登·摩尔发明微处理器的时代。时代拐点到来的时候，个人往往缺乏觉察与行动。 AI迟早取代大部分的现有工作。这一点在尤瓦尔·赫拉利的《未来简史》和KK的《必然》里，已经说得很清楚了。与其焦虑自己的工作是否会被取代，先从运用它开始。现在要做的，就是拥抱这个时代的变化。投入其中，感知变化，学习变化。这是一个不必非得是程序员才能投入其中的变革。开始主动收集AI的资讯，教程，运用它来提升自己的各项事务的效能，甚至借助它来创造机会。何必排斥AI。 AI展望周刊，个人向的阅读摘录，关注AI、理解AI，注视正在发生的未来。

2023.11 AI展望周刊

纠偏AI周刊的焦点，回归初衷——促进个人的深度阅读。AI新鲜资讯的获取和阅读通过「AI资讯简报」实现。 2023年第11周 (03-13 ~ 03-19)，本周阅读摘录。 ■ ChatGPT 是网络文本的一张“JPEG” ^eef0dd 可将 ChatGPT 等大语言模型视为网上巨量文本的压缩数据。就像一张模糊的JPEG，是对图片的有损压缩。GPT对文本内容的补全和JPEG数据恢复成图像，都是在已有数据基础上，根据概率，对缺失数据进行填充。这一精妙的类比来自 Ted Chiang 发表在 Newyorker 的文章。Ted Chiang 是科幻小说《你一生的故事》的作者，这部小说在2016年被改编成电影《降临》。文中还有提到压缩文本和理解文本的关系，也做了一个类比：假设有个写了一百万个加减乘除四则算式的文本文件要压缩。尽管任何压缩算法都可以减小这个文件的大小，但要达到最大压缩率的方法可能是推导出算术原理，然后编写计算器程序的代码。使用计算器，你不仅可以完美地重构文件中的数百万个示例，还可以重构原文本中没有的，将来可能遇到的任何的四则算式。对于人类学生来说，死记硬背并不是真正学习的指标，因此 ChatGPT 无法从网页中生成准确的引述正是让我们认为它学到了一些东西的原因。当我们处理单词序列时，有损压缩看起来比无损压缩更聪明。当然，ChatGPT 还推导不出算数原理。这些类比也只是辅助我们理解技术。 ■ 用AIGC制作动画片，如何解决画面抖动问题 CorridorDigital 社区，使用AIGC技术制作了一部二维动画短片《ROCK, PAPER, SCISSORS》，主要是使用了 StableDiffusion 这一开源技术。该团队公布了整个工作流程，并做了详细讲解。参见视频 Did We Just Change Animation Forever? 和该部动画的官方页面。他们说：是热爱+大量劳动完成了这个项目。因为了不起的开源社区，有了各种技术和方法可以使用。希望通过分享我们的发现和技术，能够帮助推动这项技术的发展，能够以更低门槛创作更好的作品，让任何人都可以用这种开创性的技术制作动画片。传统二维动画片的制作方式，需要熟练的绘画技师，逐帧绘制画面，这样高昂的人力成本不是小团队可以做到的。他们看到 Stable Diffusion 以图生图的能力，想到一种将现实变成卡通的方式。主要攻克的问题就是画面“闪烁”问题。其次是统一每一帧画面的转换风格。画风迁移已经成熟，可以通过一张图片生成各种其它风格。但由于稳定扩散技术（Stable Diffusion）是基于已有的“噪点”像素数据（有损图片），通过“脑补”全部的像素生成一张新图片。所以每次生成的图像都会有差别。视频需要每一帧画面之间是连续的，而扩散技术生成的每一帧画面在细节上会有不一致，导致画面看起来跳跃闪烁。其中关键的工作流如下： 1, 从已有的动画片中选出想要的风格。然后从该动画中截图各种对象的图片，例如人脸、物品、建筑物等，用来微调训练专门的 Stable Diffusion 模型，实现统一的转换风格。 2, 根据剧本，配上少量服化道，实拍角色视频。 3, 使用训练好的AI模型将实拍视频转换成动画风格。这个过程中通过控制“随机数种子”，尽量降低画面的闪烁。 4, 通过影视后期软件，进一步弱化闪烁。 5, 动画片中的场景是基于三维模型，截图，再通过AI模型转换风格。这是朝着真正的创作自由又迈进一步。 (END) AI展望周刊，个人向的阅读摘录，关注AI、理解AI，注视正在发生的未来。

2023.10 AI展望周刊

2023年第10周 (03-06 ~ 03-12) ■ Runway 发布用于生成视频的新模型 Gen-1 🔗 项目主页 https://research.runwayml.com/gen1 🔗 论文: https://arxiv.org/abs/2302.03011 （以下图文摘录自seven_的文章，有删改） Gen-1可以提供相比之前方法更加逼真的生成效果以及更加细粒度的语言控制。例如：给Gen-1一段相机拍摄的视频，并且给他输入一个目标指令“Claymation style”，模型会自动将当前视频转换为出粘土动画风格。 (图片来自官方网站视频截图) Gen-1 不仅可以稳定的处理静态镜头（下图第一行），也可以稳定处理抖动的自拍视频（第二行），无需对输入视频进行任何显式的跟踪调整。 Gen-1 从大规模图像和视频数据集进行训练获得的泛化能力，因此不限于特定的主题领域，支持很多视频编辑功能。例如改变视频风格，如动漫（第一行）或粘土动画（第二行）。也能够识别物体对象，可以改变场景环境，例如将白天改为日落（第三行）或将夏季改为冬季（第四行）；可以改变主体角色，例如将徒步旅行者变成外星人（第五行）或将自然界中的熊变成在星空下行走的太空熊（第六行）。也可以编辑替换背景（最后一行）。 ■ 和ChatGPT探讨AI对教育的影响 Reid Hoffman 在这期播客节目中和 ChatGPT 探讨了AI 在教育领域的应用和影响。 “ AI可以通过个性化课程设计、引入新的教学方法等方式来改变教育，但也可能会加剧教育中现存的问题并扩大不同阶层学生之间的差距。 AI可以提供个性化的学习体验，通过实时反馈、自适应课程设计等方式帮助学生掌握知识和技能，而人类教师则需要在其中扮演重要的角色。尽管AI的应用有很大的潜力，但仍需要认真考虑可能带来的风险和负面影响，并制定相关的规范和实践指南。 K-12教育应当优先考虑培养学生适应快速变化的世界所需的技能，AI工具可以辅助实现这一目标，但应该看到它们不能替代大规模的教育改革所需的努力。为确保AI工具能够在教育领域发挥应有的作用，需要政府投资、教师培训、合作等多方面的支持，并注重教育从业者、学生和其他利益相关者的参与。 ” ■ Stable Attribution，帮助找到AIGC图像背后的人类创作者 Jon Stokes 在文章 Stable Attribution: A New Tool Could Ruin Generative AI, Or It Could Save It 中详细探讨了 Stable Attribution 这款工具。我们知道 Stable Diffusion（稳定扩散）模型，会从在线艺术网站上抓取图像用作训练。这已引起了艺术家的不满，并最终对其提起诉讼。 Stable Attribution（稳定归因）是一款新的工具，用于识别生成模型训练数据中给定生成图像的“源图像”，其目的是为了帮助AIGC可以向艺术家付费，以激励艺术家将其作品包含在Stable Diffusion的训练数据中，并为他们创造一条新的收入流。 ...