2023.02 AI展望周刊

2023年第2周 (01-09 ~ 01-15)

闲言：同步在学习怎么使用AI模型来辅助过滤信息，留给阅读的时间不多。

跟着李沐精读 InstructGPT 论文

讲解视频: B站、Youtube (2022-12-29)
InstructGPT 论文（2022-05-04）

ChatGPT 是基于 InstructGPT 实现的，InstructGPT 是从 GPT-3 训练而来。训练函数目标是让生成的结果和人类期望的目标更加对齐：有用、真实、无害。根据人类反馈的强化学习，仿照人生成答案，或生成符合人偏好的答案。

第1步，首先准备人类标注的「问题和答案」数据集，用于对 GPT-3 模型进行监督学习的微调训练，得到一个模型(SFT)。
方法上和之前的模型的预训练没有多大差别。这时候这个模型也能用，但是受限于「问题和答案」的数据量有限（成本高）。

第2步，使用多个模型根据提示词生成多个答案，人类对答案的质量进行排序。用这些数据训练得到一个奖励模型(RM)。

第3步，再用RM模型对第一步得到的SFT模型进行强化训练的微调。

BTW: 论文中还介绍如何招工对数据进行标注，比图片标注复杂。从业者可以参考。再以实验性功能提供给外部用户使用，获得更多的问答样本。

李沐总结：InstructGPT 还是一个比较实用的技术，怎么样通过一些标注数据能快速的把一个大语言模型训练出来，使模型在某一个你关心的领域上的性能得到提升，达到实用程度。如果想用这种生成模型做产品，InstructGPT 提供了一个实际可操作的思路。

自然语言交互或将成为新一代UI，降低软件使用复杂度

Adept 在其官网中放出的几个预览视频，展示了其第一个AI模型——The Action Transformer (ACT-1)的能力。通过自然语言告知电脑我们我需要搜索的信息，ACT-1会自动操作浏览器，在网站中根据要求搜索信息。或者在电子表格中处理数据。（目前还没有提供可供试用的产品）

Adept 展望未来大多数与计算机的互动将使用自然语言，软件新用户可以不再需要专业培训，能够用语言表达自己想法的人都可以使用软件的高级功能，不再受限于下拉菜单的长度。
软件文档、手册和常见问答将是为AI模型服务，用户将不再需要学习每个软件工具的大量使用细节而头痛。（真是令人期待啊）

Alberto Romero 写了一篇文章(2022-09-21)对 Adept ACT-1 有更加详细的介绍。

这篇文章要早于上周提到的数字化个人助理（Ditial Personal Asistant)。ACT-1 的预览展示也早于 ChatGTP 的发布。

不过，Alberto Romero 在文中也提到当前所面临的最大挑战（注：我想这也是迟迟没能推出产品试用的原因）：Transformer 这类AI模型（例如 ACT-1, GPT-3）都有个局限，是输出的答案不够可靠（不够精确？），这是因为这类模型的训练方式是给定上文，让其预测下一个词或动作，并没有理解意图的能力。虽然可以通过更多数据更大模型的训练来优化，但此问题是这种设计的内在缺陷。

如果你知道 Excel 怎么用，你可以判断AI的操作是否正确的完成了你提的需求。但是如果你并不熟悉一款软件的用法，你如何相信AI的操作是对的？这是一个很大的问题。即使优化的很好，用户盲目信任，出现不能预知的错误操作时，则可能给用户带来更大的麻烦。
如 Gary Marcus 教授所说，在我们能够建立可以信任的人工智能之前，像ACT-1这样的探索或许只能处于研究阶段，美好的期望仍旧只是一个承诺。

推广：

阿里云百炼大模型 9折优惠 + 所有模型各百万免费Token →

即梦免费AI画图、生成视频。每日领免费额度，可累加 →

跟着李沐精读 InstructGPT 论文#

自然语言交互或将成为新一代UI，降低软件使用复杂度#

跟着李沐精读 InstructGPT 论文

自然语言交互或将成为新一代UI，降低软件使用复杂度