2023年第2周 (01-09 ~ 01-15)
闲言:同步在学习怎么使用AI模型来辅助过滤信息,留给阅读的时间不多。
跟着李沐精读 InstructGPT 论文
- 讲解视频: B站、Youtube (2022-12-29)
- InstructGPT 论文 (2022-05-04)
ChatGPT 是基于 InstructGPT 实现的,InstructGPT 是从 GPT-3 训练而来。训练函数目标是让生成的结果和人类期望的目标更加对齐:有用、真实、无害。根据人类反馈的强化学习,仿照人生成答案,或生成符合人偏好的答案。
第1步,首先准备人类标注的「问题和答案」数据集,用于对 GPT-3 模型进行监督学习的微调训练,得到一个模型(SFT)。
方法上和之前的模型的预训练没有多大差别。这时候这个模型也能用,但是受限于「问题和答案」的数据量有限(成本高)。
第2步,使用多个模型根据提示词生成多个答案,人类对答案的质量进行排序。用这些数据训练得到一个奖励模型(RM)。
第3步,再用RM模型对第一步得到的SFT模型进行强化训练的微调。
BTW: 论文中还介绍如何招工对数据进行标注,比图片标注复杂。从业者可以参考。再以实验性功能提供给外部用户使用,获得更多的问答样本。
李沐总结:InstructGPT 还是一个比较实用的技术,怎么样通过一些标注数据能快速的把一个大语言模型训练出来,使模型在某一个你关心的领域上的性能得到提升,达到实用程度。如果想用这种生成模型做产品,InstructGPT 提供了一个实际可操作的思路。
自然语言交互或将成为新一代UI,降低软件使用复杂度
Adept 在其官网中放出的几个预览视频,展示了其第一个AI模型——The Action Transformer (ACT-1)的能力。通过自然语言告知电脑我们我需要搜索的信息,ACT-1会自动操作浏览器,在网站中根据要求搜索信息。或者在电子表格中处理数据。(目前还没有提供可供试用的产品)
Adept 展望未来大多数与计算机的互动将使用自然语言,软件新用户可以不再需要专业培训,能够用语言表达自己想法的人都可以使用软件的高级功能,不再受限于下拉菜单的长度。
软件文档、手册和常见问答将是为AI模型服务,用户将不再需要学习每个软件工具的大量使用细节而头痛。(真是令人期待啊)
Alberto Romero 写了一篇文章(2022-09-21)对 Adept ACT-1 有更加详细的介绍。
这篇文章要早于上周提到的数字化个人助理(Ditial Personal Asistant)。ACT-1 的预览展示也早于 ChatGTP 的发布。
不过,Alberto Romero 在文中也提到当前所面临的最大挑战(注:我想这也是迟迟没能推出产品试用的原因):Transformer 这类AI模型(例如 ACT-1, GPT-3)都有个局限,是输出的答案不够可靠(不够精确?),这是因为这类模型的训练方式是给定上文,让其预测下一个词或动作,并没有理解意图的能力。虽然可以通过更多数据更大模型的训练来优化,但此问题是这种设计的内在缺陷。
如果你知道 Excel 怎么用,你可以判断AI的操作是否正确的完成了你提的需求。但是如果你并不熟悉一款软件的用法,你如何相信AI的操作是对的?这是一个很大的问题。即使优化的很好,用户盲目信任,出现不能预知的错误操作时,则可能给用户带来更大的麻烦。
如 Gary Marcus 教授所说,在我们能够建立可以信任的人工智能之前,像ACT-1这样的探索或许只能处于研究阶段,美好的期望仍旧只是一个承诺。