2023.07 AI展望周刊

2023年第7周 (02-13 ~ 02-19) “从长远来看,人类进步和经济增长的唯一真正驱动力是能够促进科学进步的社会结构,然后是科学进步本身。” —— Sam Altman 下一个时代的人工智能 OpenAI 的CEO Sam Altman 在2022年9月(是在12月发布ChatGPT之前)的一次论坛中谈论人工智能的新前沿,有很多前瞻性的观点或洞察,非常值得一读。 原文: 文字版,视频版 Sam Altman 认为: 这些强大的模型将成为新的技术平台,将诞生大量新公司基于模型接口提供商业服务。 初创企业不必创建基础大模型,只需在细分场景中优化微调出一个特定版本的模型,关键是拥有唯一的数据,并产生飞轮效应。称之为中间层,将创造很多价值。 当前人们最大的认知错误是“认为AI是基于已有数据训练出来的,不能产生新知识。能够降低智能的成本,但不会增加人类的知识总和” 在科学方面,正在发生两件事,一是科学专用产品,例如 AlphaFold (注:可以找到新的蛋白质结构),正在产生巨大的价值,这种方式也会越来越多。二是基于AI的工具可以让我们所有人都更有效率,帮助我们思考新的研究方向,或编写代码,这对工程师或科学家的净产出的影响,是对科学作出贡献的另外一种方式。 以上两件事是很大的进步、且会加速。这将是技术发展、科学发展发生方式的重大变化。 “我坚信,从长远来看,人类进步和经济增长的唯一真正驱动力是能够促进科学进步的社会结构,然后是科学进步本身。” 然后是一件更大的事——很好,但也更让人害怕的事——开始探索让AI成为AI科学家和自我改进。我们是否能让人工智能作为一名开发者,把我们(OpenAI)在做的事自动化?帮助我们解决我们还不知道如何解决的真正困难——AI模型对齐问题? 什么是对齐问题(alignment problem)? 我们要制造这个非常强大的系统,如果它不按我们的意愿行事,或者它的目标与我们的目标相冲突,那将是非常糟糕的,这些科幻作品中有很多描述,或者它并不那么关心我们的目标。 所以我们如何构建 AGI 来做最符合人类利益的事情?我们如何确保人类能够决定人类的未来?我们如何避免意外误用,即出现我们没有预料到的错误情况?还有故意误用,即坏人使用AGI造成巨大危害,即使这正是另一个人想要的。以及内部对齐问题,如果这个系统变成了一个把我们视为威胁的生物怎么办? 关于人工智能接下来的走向:语言模型会比人们想象的走得更远,很多人所说的计算耗尽、数据耗尽的说法是对的。但算法上还会有很多进步,我们将度过一段非常激动人心的时光。1,将会有真正的多模态模型,不仅是文本和图像。2,将拥有不断学习的模型。现在的模型,例如GPT,只停留在训练后的状态,使用它的次数越多,它并没有变得更好。 AI 将无处不在。未来十年的一个基本趋势是——智能的边际成本和能源的边际成本都将迅速趋向于零。这是两个最基础的成本,当社会的整个成本结构发生变化时,我们知道各方面都会发生巨大变化,但无法预测具体怎么变化。 观众提问类似GPT-3这样的技术将对生命科学的研究产生什么影响? S.A. 答道:目前可用的模型并不足以对该领域产生重大影响,只是在某些情况下有点帮助。不过,我认为这种情况将会改变,这是一个少有的有机会创立新的千亿美元到万亿美元公司的领域之一。 生物学的限制仍将存在,人体试验需要花费很长时间。因此,一个有趣的点在于:你可以在哪些方面避免这种情况?我所见过的最有趣的合成生物公司,都找到了一种让循环时间变得超级快的方法。这有利于AI为你提供很多好的想法,但你仍然需要测试它们,这就是现在的情况。 “我认为AI不会改变所有深层的生物学因素。我认为我们仍然会非常关注与他人的互动,100年后人们所关心的事情更有可能是人类5万年前关心的事情,而不是100年前。” 提示词工程(prompt engineering)是一个过渡,之后自然语言就是通用的交互接口,直接用语言告诉计算机你想让它做的任何事。所以永远重要的是想法的质量和对你想要的东西的理解。艺术家仍然会在图像生成方面做得最好,但不是因为他们想出了某个魔法提示词,而是因为他们能够用我没有的创造性来表达它。 随着 AI 的持续发展,显然对社会和经济的影响将是巨大的。我们必须弄清楚的事情是——我们如何考虑公平分配财富、访问 AGI 系统的途径(这个时代的商品)。以及治理方式,如何集体决定它们可以做什么,不能做什么等等。我认为找出这些问题的答案将非常重要。 大模型是基础设施,大量创业机会在“中间层”。是在已有的大模型基础上,为每个垂直领域训练自己的模型。 相关资讯 晚点LatePost的这篇文章:《火鸡追上雄鹰,OpenAI 的成功为何难以复制》,描述了OpenAI 的诞生和发展的过程。 硅谷101这期播客:《生命科学走出一百年黑暗探索|AIGC特辑》,嘉宾来自生物医药行业,从业内角度聊了现阶段AI技术和生物医药已有的结合方式和成果。 Toolformer: 一款可以自主学习使用工具的语言模型 模型的论文 以下是翻译和摘录@anita在tweets 写的介绍: 要克服当今语言模型的局限性,简单的方法就是赋予它们使用外部工具(通过API调用)的能力,如搜索引擎、计算器或日历。更好的是,模型可以自主学习如何使用这些工具。 那么它是如何实现的呢?训练过程非常简单: 使用几个API调用示例,生成未来的潜在API请求数据集。 过滤出效果良好的样本。 在这些“有用”的样本上对LLM进行微调。 最终,模型可以决定: 调用哪些API, 何时调用它们, 传递哪些参数,以及 如何最好地将结果融入未来的标记预测中。 通过使用计算器作为例子,Toolformer 在数学和算术问题上表现优于 GPT-3,但也存在一些限制,例如不能在不同工具之间链接 API 调用、只能使用非交互式工具,需要大量示例才能生成良好的 API 请求等。 ...

February 19, 2023

2023.06 AI展望周刊

2023年第6周 (02-06 ~ 02-12) 闲言:为网站开启了RSS全文输出,可以通过RSS自由的订阅。 ChatGPT 对人才需求带来的变化,以及应对措施和机会 @starzqeth 在推文中围绕以下3点分享其认为 ChatGPT 带来的变化和机遇: ChatGPT会替代大量职位,我们需要具备差异化能力:想象力、决策和沟通能力 ChatGPT 几乎完全可替代 第一类 Entry Level (问题明确,解法唯一) 人才,客服/实习生的职位会被压缩甚至取消。举例: AI 成本为1/800, 初级画师被抢活 对于 Middle Level (问题明确,方法不唯一) 的问题,若才基于历史信息的总结和小幅度创新,篇幅较短的情况下,ChatGPT 基本也能胜任。举例:用ChatGPT + Midjourney + Clipchamp,生成的绘本故事媲美市面上80%的产品 High Level ( 问题不明确,方法也不唯一)的问题,核心是定义问题,ChatGPT 暂不能胜任:想象力、决策和沟通能力。 传统的人才培养体系将失效,我们需要为自己设计培训系统 2023将是 solopreneur(个体企业家)元年,个人创作者必须升级自己 更多内容见 推特原帖。 ChatGPT vs. iPhone 两种技术带来的思考 @Szhans 在即刻发起讨论:ChatGPT vs. iPhone 两种技术有何异同? 就它们制造产业变革和影响来说,对比思考能否启发对未来的想象? @数字游民Jarod 的观点:智能触摸屏和LLMs都是人类在人机交互领域做出的重大突破,前者从硬件物理层面简化了人类携带及操控强计算设备的方式,而后者则将抹平人机之间的语言和逻辑障碍,进一步帮助人类解锁生产力。 智能触摸屏其实是在传统GUI操作系统基础上(Win/Mac鼠标键盘)做的改进,而LLMs则更像是一种全新的技术形态,所以从革新程度角度来看,二者并不具有可比性,后者带来的变革将无疑会更加深刻。 @Rename 的观点: 把Internet类比成一个超大的图书馆。 Google是这个图书馆的管理员,他总能快速找到你想看的书。 ChatGPT是这个图书馆的老者,他几乎看完了里面的书,但很多东西理解还很浅。你问他很多东西,他都能给你说个大概。 那iPhone是什么? 本来我去图书馆要坐2趟巴士花10几分钟,现在下楼就有专车送我过去,而且这趟专车只为我服务,24小时待命,想去哪就去哪。 终极问题:图书馆的书由谁去写?老者能写吗?依靠老者答案去认知世界的人能写吗? 生成式AI,不断逼近真实的创作 原文:Ben Buchanan:Generative AI and the shrinking time-gap between unrecognizable realities ...

February 12, 2023

2023.05 AI展望周刊

2023年第5周 (01-30 ~ 02-05) 闲言:AIGC 蓬勃发展,AI对创作性工作的冲击来得如此迅猛。文本、图像、人声、音乐、视频的生成都已逐步进展到可以融入日常工作生活的实用阶段。模型和产品层出不穷。 你唱歌,AI给你伴奏 谷歌推出 SingSong 模型,可以根据唱歌的人声,生成合适的配乐。巧妙的使用了已有的人声和背景音乐分离的模型,对大量的音乐语料进行分离,获得大量的人声-音乐音频训练数据,再反过来训练 SingSong 模型。 🔗 项目页面,论文 (视频来源) 最近有多个文本到音频的模型发布: AudioLDM: Text-to-Audio Generation with Latent Diffusion Models Moûsai: Text-to-Music Generation with Long-Context Latent Diffusion Google MusicLM: Generating Music From Text 音乐生成模型才刚刚开始 DrJimFan:最新的音乐模型仍然缺乏人类作曲家的长期连贯性和全局结构。如果用图像模型来类比,大致相当于DALL-E v1的技能水平。但我们会在 2023 年看到 MidJourney 级别的真正有能力的 AI 音乐家吗? AI模仿盲人实现“无地图”导航代理 人类有能力依靠触觉和记忆来导航光线不足的空间。@MetaAI 发表新论文,其训练盲人 AI 代理进行导航——即除了自我运动之外没有任何感官输入,并在他们的记忆中发现了墙面跟随、碰撞检测神经元和类似地图的表征。 这为“无地图”导航代理的成功提供了新的见解。 大脑回放机制的研究帮助我们深度学习与推理的结合 @DeepMind: 我们大脑中的重放被比作人工智能代理的 “经验重放”。🔁 🧠 但新的研究表明,这种现象在计算上比我们想象的更丰富–而且可以帮助我们理解大脑如何将深度学习与推理结合起来。 论文:Replay and compositional computation Dreamix 一款视频生成模型 论文 Dreamix: Video Diffusion Models are General Video Editors 项目主页 https://dreamix-video-editing.github.io/ ...

February 5, 2023

2023.04 AI展望周刊

2023年第4周 (01-23 ~ 01-29) “大多数人并不关心人工智能研究。他们关心的是他们能否使用人工智能。” —— Sparrow VS ChatGPT WolframAlpha 和 ChatGPT 实现互补 原文: 中文译稿,英文原文 用 WolframAlpha 补足ChatGTP的数学(精确计算)短板。 ChatGPT 生成的是“统计上可信的” 随机答案,其回答数学这类问题,语言上看似有道理,而答案很可能是错误。 而这正是 Wolfram|Alpha 知识引擎擅长的事情:充分利用其结构化、高精准的知识将某事转化为精确计算。 两者的构建基础不同,ChatGPT 这类大语言模型使用 “统计方法”,Wolfram|Alpha 是基于 “符号方法”。 文本到图像的合成,GANs方法被抛弃了吗 文本到图像的合成方面,生成式AI模型(例如 DALL·E, StableDiffusion等)风头正劲。 本月23号谷歌发布了一篇论文 StyleGAN-T: 释放GANs的力量,实现快速的大规模文本到图像的合成,说到 StyleGAN-T 在样本质量和速度方面比以前的GANs有明显的改进,并超过了蒸馏扩散模型(outperforms distilled diffusion models)。 Jim Fan :(生成的图像)质量目前仍落后于大的扩散模型,但GANs正在进行反击! ORBIT,机器人的“大数据”训练 @DrJimFan: 数据是新的石油。但物理世界的速度太慢,机器人无法收集大量的训练数据。所以我们就在模拟环境中,把速度提高1000倍。🔗 @NVIDIAAI 介绍了IsaacSim上的ORBIT,这是一个由GPU驱动的虚拟训练馆,供机器人“锻炼身体”。ORBIT还提供了与外围设备如键盘和3D “Spacemouse “的集成,以收集人类的演示。然后简单地运行监督学习来模仿人类的专家策略。 最后,将训练好的神经网部署到现实世界里的机器人种。 视频来源 文本到音乐的生成,来自谷歌的新模型 MusicLM 原文: TechCruch的英文报道, 机器之心的中文报道和论文解读, MusicLM项目主页 @机器之心: MusicLM 不是第一个生成歌曲的 AI 系统。其他更早的尝试包括 Riffusion,这是一种通过可视化来创作音乐的 AI,以及 Dance Diffusion,谷歌自己也发布过 AudioML,OpenAI 则推出过 Jukebox。 虽然生成音乐的 AI 系统早已被开发出来,但由于技术限制和训练数据有限,还没有人能够创作出曲子特别复杂或保真度特别高的歌曲。不过,MusicLM 可能是第一个做到的。 ...

January 29, 2023

2023.02 AI展望周刊

2023年第2周 (01-09 ~ 01-15) 闲言:同步在学习怎么使用AI模型来辅助过滤信息,留给阅读的时间不多。 跟着李沐精读 InstructGPT 论文 讲解视频: B站、Youtube (2022-12-29) InstructGPT 论文 (2022-05-04) ChatGPT 是基于 InstructGPT 实现的,InstructGPT 是从 GPT-3 训练而来。训练函数目标是让生成的结果和人类期望的目标更加对齐:有用、真实、无害。根据人类反馈的强化学习,仿照人生成答案,或生成符合人偏好的答案。 第1步,首先准备人类标注的「问题和答案」数据集,用于对 GPT-3 模型进行监督学习的微调训练,得到一个模型(SFT)。 方法上和之前的模型的预训练没有多大差别。这时候这个模型也能用,但是受限于「问题和答案」的数据量有限(成本高)。 第2步,使用多个模型根据提示词生成多个答案,人类对答案的质量进行排序。用这些数据训练得到一个奖励模型(RM)。 第3步,再用RM模型对第一步得到的SFT模型进行强化训练的微调。 BTW: 论文中还介绍如何招工对数据进行标注,比图片标注复杂。从业者可以参考。再以实验性功能提供给外部用户使用,获得更多的问答样本。 李沐总结:InstructGPT 还是一个比较实用的技术,怎么样通过一些标注数据能快速的把一个大语言模型训练出来,使模型在某一个你关心的领域上的性能得到提升,达到实用程度。如果想用这种生成模型做产品,InstructGPT 提供了一个实际可操作的思路。 自然语言交互或将成为新一代UI,降低软件使用复杂度 Adept 在其官网中放出的几个预览视频,展示了其第一个AI模型——The Action Transformer (ACT-1)的能力。通过自然语言告知电脑我们我需要搜索的信息,ACT-1会自动操作浏览器,在网站中根据要求搜索信息。或者在电子表格中处理数据。(目前还没有提供可供试用的产品) Adept 展望未来大多数与计算机的互动将使用自然语言,软件新用户可以不再需要专业培训,能够用语言表达自己想法的人都可以使用软件的高级功能,不再受限于下拉菜单的长度。 软件文档、手册和常见问答将是为AI模型服务,用户将不再需要学习每个软件工具的大量使用细节而头痛。(真是令人期待啊) Alberto Romero 写了一篇文章(2022-09-21)对 Adept ACT-1 有更加详细的介绍。 这篇文章要早于上周提到的数字化个人助理(Ditial Personal Asistant)。ACT-1 的预览展示也早于 ChatGTP 的发布。 不过,Alberto Romero 在文中也提到当前所面临的最大挑战(注:我想这也是迟迟没能推出产品试用的原因):Transformer 这类AI模型(例如 ACT-1, GPT-3)都有个局限,是输出的答案不够可靠(不够精确?),这是因为这类模型的训练方式是给定上文,让其预测下一个词或动作,并没有理解意图的能力。虽然可以通过更多数据更大模型的训练来优化,但此问题是这种设计的内在缺陷。 如果你知道 Excel 怎么用,你可以判断AI的操作是否正确的完成了你提的需求。但是如果你并不熟悉一款软件的用法,你如何相信AI的操作是对的?这是一个很大的问题。即使优化的很好,用户盲目信任,出现不能预知的错误操作时,则可能给用户带来更大的麻烦。 如 Gary Marcus 教授所说,在我们能够建立可以信任的人工智能之前,像ACT-1这样的探索或许只能处于研究阶段,美好的期望仍旧只是一个承诺。

January 14, 2023