2023.04 AI展望周刊

2023年第4周 (01-23 ~ 01-29) “大多数人并不关心人工智能研究。他们关心的是他们能否使用人工智能。” —— Sparrow VS ChatGPT WolframAlpha 和 ChatGPT 实现互补 原文: 中文译稿,英文原文 用 WolframAlpha 补足ChatGTP的数学(精确计算)短板。 ChatGPT 生成的是“统计上可信的” 随机答案,其回答数学这类问题,语言上看似有道理,而答案很可能是错误。 而这正是 Wolfram|Alpha 知识引擎擅长的事情:充分利用其结构化、高精准的知识将某事转化为精确计算。 两者的构建基础不同,ChatGPT 这类大语言模型使用 “统计方法”,Wolfram|Alpha 是基于 “符号方法”。 文本到图像的合成,GANs方法被抛弃了吗 文本到图像的合成方面,生成式AI模型(例如 DALL·E, StableDiffusion等)风头正劲。 本月23号谷歌发布了一篇论文 StyleGAN-T: 释放GANs的力量,实现快速的大规模文本到图像的合成,说到 StyleGAN-T 在样本质量和速度方面比以前的GANs有明显的改进,并超过了蒸馏扩散模型(outperforms distilled diffusion models)。 Jim Fan :(生成的图像)质量目前仍落后于大的扩散模型,但GANs正在进行反击! ORBIT,机器人的“大数据”训练 @DrJimFan: 数据是新的石油。但物理世界的速度太慢,机器人无法收集大量的训练数据。所以我们就在模拟环境中,把速度提高1000倍。🔗 @NVIDIAAI 介绍了IsaacSim上的ORBIT,这是一个由GPU驱动的虚拟训练馆,供机器人“锻炼身体”。ORBIT还提供了与外围设备如键盘和3D “Spacemouse “的集成,以收集人类的演示。然后简单地运行监督学习来模仿人类的专家策略。 最后,将训练好的神经网部署到现实世界里的机器人种。 视频来源 文本到音乐的生成,来自谷歌的新模型 MusicLM 原文: TechCruch的英文报道, 机器之心的中文报道和论文解读, MusicLM项目主页 @机器之心: MusicLM 不是第一个生成歌曲的 AI 系统。其他更早的尝试包括 Riffusion,这是一种通过可视化来创作音乐的 AI,以及 Dance Diffusion,谷歌自己也发布过 AudioML,OpenAI 则推出过 Jukebox。...

January 29, 2023

2023.03 AI展望周刊

2023年第3周 (01-16 ~ 01-22) Santiago: AI will not replace you. A person using AI will. 将 Siri/Alexa 语音助理能力提升 10 倍的秘诀 原文 (2023-01-10) DrJimFan: 1. Whisper 将语音转换为文本,这是当前最好的开源语音模型。 2. ChatGPT 生成响应文本。 3. VALL-E 合成语音。它可以模仿任何人的声音样本! 1和3都已经开源了模型,2也有API。单个开发者就可以整合这些功能,实现更智能的语音助手。 今年内AI在商业和社会领域的趋势 原文 (2022-10-17) 作者(Bernard Marr)综述了AI当前发展和应用的情况,并预估2023年的几个趋势: 正在进行中的AI普及化。得益于越来越多的AI-based应用、API、低代码平台,使企业和组织能够抹平缺乏专业人才造成在AI技术能力方面的差距,人工智能的力量和效用将变得对我们所有人都触手可及。 生成系AI(或AIGC),该技术已经取得了主流曝光率,在今年我们将看到它被越来越频繁地用于创建合成数据,可供企业用于各种用途。从代码、文本、图片到视频、语音。 要努力克服AI黑箱问题,开发出有道德和可解释的AI。为了解决当下紧迫的需求——对AI的信任。能够解释AI如何做出决策,给出依据,我们才能信任并接受AI在司法和医疗等等方便给出的决策建议,并能够放心的将我们的信息提交给AI。(注:我认为是和答案缺乏可靠性是同一个问题,不能是根据统计学规律给你胡编乱造一个答案。) 工作增强。更多的人将发现自己与机器人和智能机器一起工作,这些机器是专门为帮助我们更好、更有效地完成工作而设计的。例如结合AR提供即时访问数据和分析的能力。为团队提供实时仪表板和报告,即时了解到运营效率的最新情况。虚拟助理将更加普遍,能够快速回答问题,并自动提出完成目标的其他更有效方法。 可持续的AI。AI训练本身也很耗能(对应碳排放)。不过可以协助众多企业改善能效。 提示语(Prompting)——未来的人机交互方式(以及缺陷) 原文 (2022-09-21, by Alberto Romero) 生成式AI模型 例如 GPT-3, LaMDA, DALL·E, Stable Diffusion, 等等都是通过提示词来使用的。 提示与编程语言的区别,对我们来说,更接近自然语言而更直观,使用的门槛更低。和无代码工具的区别是,无代码工具仍然需要用户学习各种工具以及有编程的逻辑思维和架构能力。 从卡带打孔、机器码、汇编、低级编程语言和高级编程语言,到提示语,使人机交互越来越容易,隐藏了背后的技术复杂性。提示语的直观和简单,将数字用户的障碍减少到最低限度。因此基于提示语的人机交互方式将成为一个我们每天都会使用的工具,用于任何与数字世界有关的事情。 不过,即使提示语是目前与计算机交流的最自然的方式,但它仍然是一种需要学习和掌握的技能。可以把它看作是一种新的话语模式,需要时间来掌握。 同时,提示语并不完美,有一个重要的缺点。人类语言固有的模糊性加上上下文的缺乏。编程语言(包括无代码工具),语法是僵硬而清晰的,它只能表示一件事,计算机不需要 “推理 “或 “理解 “它的意思。 ChatGPT 错误数据库 Gary Marcus和Ernest Davis建立了一个 “错误跟踪器",以捕捉和分类像ChatGPT这样的语言模型所犯的错误。(他们发布了一篇文章 说明了为什么要编纂这个文件以及打算用它来做什么)。...

January 22, 2023

2023.02 AI展望周刊

2023年第2周 (01-09 ~ 01-15) 闲言:同步在学习怎么使用AI模型来辅助过滤信息,留给阅读的时间不多。 跟着李沐精读 InstructGPT 论文 讲解视频: B站、Youtube (2022-12-29) InstructGPT 论文 (2022-05-04) ChatGPT 是基于 InstructGPT 实现的,InstructGPT 是从 GPT-3 训练而来。训练函数目标是让生成的结果和人类期望的目标更加对齐:有用、真实、无害。根据人类反馈的强化学习,仿照人生成答案,或生成符合人偏好的答案。 第1步,首先准备人类标注的「问题和答案」数据集,用于对 GPT-3 模型进行监督学习的微调训练,得到一个模型(SFT)。 方法上和之前的模型的预训练没有多大差别。这时候这个模型也能用,但是受限于「问题和答案」的数据量有限(成本高)。 第2步,使用多个模型根据提示词生成多个答案,人类对答案的质量进行排序。用这些数据训练得到一个奖励模型(RM)。 第3步,再用RM模型对第一步得到的SFT模型进行强化训练的微调。 BTW: 论文中还介绍如何招工对数据进行标注,比图片标注复杂。从业者可以参考。再以实验性功能提供给外部用户使用,获得更多的问答样本。 李沐总结:InstructGPT 还是一个比较实用的技术,怎么样通过一些标注数据能快速的把一个大语言模型训练出来,使模型在某一个你关心的领域上的性能得到提升,达到实用程度。如果想用这种生成模型做产品,InstructGPT 提供了一个实际可操作的思路。 自然语言交互或将成为新一代UI,降低软件使用复杂度 Adept 在其官网中放出的几个预览视频,展示了其第一个AI模型——The Action Transformer (ACT-1)的能力。通过自然语言告知电脑我们我需要搜索的信息,ACT-1会自动操作浏览器,在网站中根据要求搜索信息。或者在电子表格中处理数据。(目前还没有提供可供试用的产品) Adept 展望未来大多数与计算机的互动将使用自然语言,软件新用户可以不再需要专业培训,能够用语言表达自己想法的人都可以使用软件的高级功能,不再受限于下拉菜单的长度。 软件文档、手册和常见问答将是为AI模型服务,用户将不再需要学习每个软件工具的大量使用细节而头痛。(真是令人期待啊) Alberto Romero 写了一篇文章(2022-09-21)对 Adept ACT-1 有更加详细的介绍。 这篇文章要早于上周提到的数字化个人助理(Ditial Personal Asistant)。ACT-1 的预览展示也早于 ChatGTP 的发布。 不过,Alberto Romero 在文中也提到当前所面临的最大挑战(注:我想这也是迟迟没能推出产品试用的原因):Transformer 这类AI模型(例如 ACT-1, GPT-3)都有个局限,是输出的答案不够可靠(不够精确?),这是因为这类模型的训练方式是给定上文,让其预测下一个词或动作,并没有理解意图的能力。虽然可以通过更多数据更大模型的训练来优化,但此问题是这种设计的内在缺陷。 如果你知道 Excel 怎么用,你可以判断AI的操作是否正确的完成了你提的需求。但是如果你并不熟悉一款软件的用法,你如何相信AI的操作是对的?这是一个很大的问题。即使优化的很好,用户盲目信任,出现不能预知的错误操作时,则可能给用户带来更大的麻烦。 如 Gary Marcus 教授所说,在我们能够建立可以信任的人工智能之前,像ACT-1这样的探索或许只能处于研究阶段,美好的期望仍旧只是一个承诺。

January 14, 2023

2023.01 AI展望周刊

2023年第1周 (01-02 ~ 01-08) 闲言:输出AI相关资讯的周刊,这是今年立的 Flag 之一。 几位AI领域领导者的2023年期望 🔗原文 (2023-01-04) @AndrewYNg: 1/Several leaders share their hopes for AI in 2023, including finding key missing pieces that will enable algorithms to reason, building a personal data timeline, improving AI processes, discovering new principles for explainability, and using generative AI for active learning. 1/几位领导人分享了他们对2023年人工智能的希望,包括找到使算法能够推理的关键缺失部分,建立个人数据时间线,改进人工智能流程,发现可解释的新原则,以及使用生成式人工智能进行主动学习。 2/Yoshua Bengio wants to develop new architectures that can discover and reason with high-level concepts, rather than just brute force the learning process by scaling up existing models’ data and compute....

January 8, 2023