2023.14 从神经网络到GPT的15年探索之路
2023年第14周 (04-03~04-09) 本期阅读/摘录内容是来自 Nvidia 2023年开发者大会的一期炉边谈话:Ilya Sutskever and Jensen Huang: AI Today and Vision of the Future 一窥深度学习如何从无到有,到GPT 1、2、3,到今天的ChatGPT,十五年的探索之路。 Ilya Sutskever,OpenAI 的联合创始人和首席科学家 Jensen Huang (黄仁勋) ,Nvidia 的创始人和首席执行官 深度学习 黄仁勋首先问:为什么你认为深度学习(deep learning) 会有效? Ilya 答:首先是个人对人工智能、什么是意识的好奇心。把时间拉回到2003年之前,计算机还无法学习任何东西,甚至在理论上也不清楚是否可行。但人类是可以学习的,如果在机器学习方面能取得进步,将是人工智能的大进展。 幸运的是我的大学教授 Geoffrey Hinton,正在研究神经网络。而神经网络具备学习和自动编程的能力,其中蕴含着极大的潜力。 开始研究深度学习和神经网络时,人们并没有意识到规模的重要性。当时使用的神经网络规模非常小,最多只有数百个神经元,一百万个参数被认为非常大。 研究人员对神经网络做了很多实验,试图找到有趣的现象和观察规律。虽然在当时这并不是显而易见的正确之路,但这些研究奠定了未来深度学习领域的基础。 Geoffrey Hinton 当时对在小数字上训练神经网络很感兴趣,这既是为了分类(classification),也是他对生成(generating)数字非常感兴趣。 因此,生成模型的开端就在那里。但当时所有这些很酷的东西漂浮在周围,哪个是正确的方向并不明显。 在构建 AlexNet 的两年前(2010年),我们清楚地知道监督学习是对的方向。传统的贝叶斯模型等方法在理论上很优雅,但不能代表一个好的解决方案。 意识到大型深度神经网络是解决困难问题的关键,为了能够很好的实现,需要一个大的数据集,以及大量的计算做这个工作。如何优化计算是一个瓶颈,实验室的另一位研究员 James Martens 在此取得了突破。重点是,这证明了我们可以实际训练这些神经网络。 那么下一个问题是,用什么数据? ImageNet 数据集,是当时非常有挑战难度的数据集。 开始用上GPU进行计算,也是在多伦多实验室,因为 Geoffrey 的建议,开始尝试使用GPU进行实验。当在 ImageNet 数据集基础上训练时,发现卷积神经网络与GPU的高度契合,意识到GPU可以用于训练神经网络模型,并成功训练出了史无前例的庞大模型。 无监督学习 刚我们开始时,也不是100%清楚该如何做。该领域与今日相比也截然不同,研究者也非常少。2016年初,该领域也只有约100位研究者。虽然现在深度学习的发展已经非常迅猛,但当时人们对它的认可度却并不高。 OpenAI在成立之初,有两个重要的初始想法。第一个主要想法,是通过压缩实现无监督学习。 今天,我们理所当然地认为无监督学习是一件很容易的事情。 你只要对所有的东西进行预训练,它就会完全按照你的预期来做。在2016年之前,无监督学习一直是机器学习领域中的难题,没有人知道该怎么做。 现在许多人发现,GPT实际上是对训练数据做压缩。Ted Chiang 发表在《Newyorker》的文章 中也暗指了这一点。 从数学意义上讲,训练这些自回归生成模型确实是对数据进行压缩。从直觉上讲,你可以看到为什么这应该是有效的。 因为如果你想把数据压缩得非常好,你必须提取其中存在的所有隐藏的秘密。因此,这就是关键所在。(注:例如压缩大量数学题目文本最好的办法是推理出四则运算规则,写一个计算器程序) 要提及一下研究情感神经元(sentiment neuron)的这项工作在对我们的思考产生了非常大的影响。 当时我们训练一个神经网络(还是小型循环神经网络LSTM,还没有 Transformer),训练它预测亚马逊评论中的下一个字符。我们发现,如果预测得足够好,那么在LSTM中会有一个神经元与文本的情绪相对应。这真的很酷,因为它展示了无监督学习的优势。...