2023.23 Minecraft 成为AI的试炼场
2023年第23周(06-05 ~ 06-11) Minecraft 成为AI的试炼场,探索 agent 自主应对开放世界的挑战。 (图片取自 minedojo.org) 2019年,MineRL 项目,开放了数据集,并设立了挑战赛,以促进使用深度强化学习(deep RL)应对开放世界的各种挑战。 2023年2月,北京大学 Zihao Wang 领导的团队发表了“第一个能够稳健地完成70+个Minecraft任务的多任务代理”。 2023年5月 来自 Nvida 和多家大学联合研究团队发表的 Voyager —— 具有大型语言模型的开放式具身代理,与其他自动化代理的比较,在完成新任务方面速度明显更快,并且是迄今为止唯一可以解锁珍贵的钻石级工具的 Minecraft 自动化代理。 2023年6月,OpenAI 花费16万美元邀请 Minecraft 玩家,以便捕获人类玩家的游戏视频片段,用于开发/训练AI来玩此游戏。 OpenAI 该项目主页:通过视频预训练学习玩《我的世界》 Voyager 玩 Minecraft 以三种方式使用到 GPT-4 以下内容摘录自文章 How Nvidia uses GPT-4 to make AI better at Minecraft 第一种,生成挑战任务 GPT-4被用于根据Minecraft中当前的物品清单,提出新的挑战任务给Voyager程序。 Voyager 通过格式化的自然语言提示,向GPT-4提供一个物品清单描述,例如: Inventory (5/36): {'oak_planks': 3, 'stick': 4, 'crafting_table': 1, 'stone': 3, 'wooden_pickaxe': 1}, GPT-4 将输出一个关于新挑战的自然语言描述,并解释为什么这是一个合适的新任务,例如: Reasoning: Since you have a wooden pickaxe and some stones, it would be beneficial to upgrade your pickaxe to a stone pickaxe for better efficiency....
AI展望周刊 2023.21~23
2023年第21周(05-22 ~ 05-28) 多模态任务联合训练实现更少参数更优表现 Google AI 提出了一种 多模态任务联合训练 的框架 MaMMUT 。以更简单的架构、更少的参数量实现媲美甚至超过单项大模型的能力表现。 (2023-05-04) MaMMUT 是一种简单紧凑的视觉编码器-语言解码器(vision-encoder language-decoder)模型,2B 参数量。 它共同训练了许多相互冲突的目标,以调和 类似对比(contrastive-like)和 文本生成(text-generative)的任务。 由于它是针对这些不相交的任务进行训练的,因此它可以无缝地应用于多个应用程序,例如图像-文本和文本-图像检索、视觉问答(VQA) 和视频字幕(video captioning)和开放词汇检测(open-vocabulary detection),且优于现有一些大模型实现有竞争力的性能。 还可以更轻松适应视频语言任务。以前的方法使用视觉编码器单独处理每一帧,这需要多次应用视觉编码器,造成速度很慢,并且限制了模型可以处理的帧数,通常只有 6-8 帧。 使用 MaMMUT,使用稀疏视频管直接通过视频中的时空信息进行轻量级适应,只需要执行一次视觉编码器。 第23周(06-05 ~ 06-11) AI写出了更快的算法程序 以下内容摘录自 🔗 官方博文 和机器之心的中文报道 Google DeepMind 的全新强化学习系统 AlphaDev 发现了一种比以往更快的排序算法和哈希算法。这两者都是计算机科学领域中的基本算法,该算法成果已开源并将纳入到主要 C++ 库中供开发人员使用。「估计这次发现的排序和哈希算法每天会在全世界被调用数万亿次。」 现阶段 AlphaDev 探索新算法使用的语言是汇编指令。从头开始探索更快的算法,而不是基于现有算法之上。 Google DeepMind 认为这个层次存在许多改进的空间,而这些改进在更高级的编程语言中可能很难被发现。在这个层次上,计算机的存储和操作更加灵活,这意味着存在更多潜在的改进可能性,这些改进可能对速度和能源使用产生更大的影响。 「这只是 AI 提升代码效率进步的开始。」 现阶段大模型的知识落后问题 T5, GPT-3, PaLM, Flamingo 和 PaLI 等大型模型已经证明了在扩展到数百亿个参数并在大型文本和图像数据集上进行训练时存储大量知识的能力。这些模型在下游任务上实现了最先进的结果,例如图像字幕、视觉问答和开放式词汇识别。 尽管取得了这些成就,但这些模型需要大量的数据进行训练,最终会产生大量的参数(在许多情况下是数十亿个),从而导致大量的计算需求。 此外,用于训练这些模型的数据可能会过时,每次更新世界知识时都需要重新训练。例如,两年前训练的模型可能会产生有关现任美国总统的过时信息。 摘录翻译自 Google Blog Minecraft 成为AI的试炼场 Minecraft 成为AI的试炼场,探索 agent 自主应对开放世界的挑战。...
2023.20 这轮AI模型带来的范式变化
2023年第20周 (05-15 ~ 05-21) 人工神经网络能否实现AGI(通用人工智能) 观看 AlphaGo 的纪录片,回顾 2016 年 AlphaGo 与 李世石的围棋对战,仍然让我感到激动。 IBM开发的 深蓝 战胜了国际象棋大师卡斯帕罗夫,使用的是穷举法。与国际象棋不同,围棋的棋盘规模更大,规则简单,可能的走法空间非常大,这导致穷举法无法在合理的时间内计算出最优解。 由 DeepMind 开发的 AlphaGo 战胜围棋世界冠军李世石,和战胜柯洁的 AlphaMaster 都是基于人工神经网络,这使得它们不仅能在局部战术上计算多步走棋,更能学习和判断全盘局势。 如今,GPT 3.5 等大型语言模型具备阅读、理解和推理能力。Midjourney 和 StableDiffusion 扩散模型具有绘画能力,OpenAI 的 Whisper 具有de 语音识别能力,Meta 的 Segment-anything 对图像语义分割的能力,单项智能已经等于甚至超过了一般人类,而这些都是基于深度学习的人工神经网络。 当单个跨模态(多模态)的大型神经网络模型逐步具备所有这些能力,“脑容量”继续扩大,其智能肯定会一步步向人类靠近。但是否会产生意识呢?另外一种可能是其智能达到可以开始改进自身智能的程度,智能开始指数提升,也将是另外一番景象。目前,人工神经网络的上限还是未知数。 ~ OpenAI GPT模型的技术进展 GPT-1 的重要性是看到了预训练一个大的(自然语言处理)模型,其表现比传统的针对单个具体任务进行训练的专门模型效果还要好。 GPT-2 的关键是验证了预训练大模型具有迁移能力,可以把预训练中学到的东西,通过微调迁移到新的下游任务模型中。 GPT-3 的核心是验证了大模型具有很强的泛化能力,在少样本和零样本情况下,尤其是通过场景下学习(In-context-learning)和给定提示解决问题,无需微调。 GPT-3.5 的重要突破是「可用」,引入了指令微调。 ChatGPT 就是基于此在人类对话方面做指令微调,以及在安全性、可靠性方便的对齐。 GPT-4 开始跨模态,在语言(文本)的基础上加入了对图像的认知。 陆奇演讲:大模型带来的新范式 以下内容摘录自 陆奇的 演讲视频 和 文字版, 以《新范式 新时代 新机会》为主题阐述了他对这轮AI技术变革的观点。 范式拐点 人类社会是复杂体系,复杂体系都有三个子系统,它包括: 信息子系统(subsystem of information),体系必须从环境中获得信息。 模型子系统(subsystem of model),用模型对信息进行表达。它必须充分有效地表达信息,这种表达方式让它可以做推理、做分析、做规划。(注:例如语言) 行动子系统(subsystem of action) ,根据推理和规划与环境互动,来达到这个复杂体系的目的。 (视频截图)...
2023.19 大模型与医疗
2023年第19周 (05-08 ~ 05-14) 大模型与医疗 安全问题 微软研究院的这篇访谈文章 提到: 将计算机技术整合到医疗健康和医学工作流程中的实际挑战,是要确保它的安全性,并且真正发挥计算机技术的最大能力,但这是非常困难的。 在医学实际应用中,诊断和治疗过程都发生在不稳定的环境中,这就导致在机器学习的环境中涉及很多混杂因素。由于医学是建立在对因果关系的精确理解和推理之上的,所以这些混杂因素至关重要,但现在机器学习里最好的工具本质上是相关性的机器(correlation machines)。相关性和因果关系是不同的,例如,吸烟是否会致癌,考虑到混杂因素的影响并了解其中存在的因果关系是非常重要的。 另一方面,我们不必完全专注于临床应用。GPT-4 很擅长填写表格,减轻文本工作的负担,它知道如何申请医保报销的事先授权,这是医生目前主要的行政和文本负担。相关工作并没有真正影响到攸关生死的诊断或治疗的决定。 GPT3/4 是第一个可以问它没有任何已知答案的问题的人工智能系统。而问题是,我们能完全相信它所给出的答案吗? “负责任的人工智能”一直是整个计算机科学领域的重要研究课题,但我想这个词现在有可能不再合适了,我们可以称之为“社会性的人工智能(societal AI)”或其他的术语。 它不是正确与错误的问题,也不仅仅是它会被误用而产生有害的信息,而是在监管层面的更大的问题,还有在社会层面的工作流失,新的数字鸿沟,以及富人和穷人获得这些工具的权利。这些亟待解决的问题也会直接影响着它在医疗健康领域的应用。 能力问题 Google AI 的文章 提到: 尽管最近在医学人工智能 (AI) 领域取得了进展,但大多数现有模型都是狭窄的单任务系统,需要大量标记数据进行训练。此外,这些模型不能轻易地在新的临床环境中重复使用,因为它们通常需要为每个新的部署环境收集、去识别和注释特定于站点的数据,这既费力又昂贵。数据高效泛化的问题(模型使用最少的新数据泛化到新设置的能力)仍然是医学机器学习 (ML) 模型的关键转化挑战,并反过来阻碍了它们在现实世界医疗保健环境中的广泛采用。 Google 研究团队提出了一种降低 AI 模型训练成本并提高泛化能力的思路和时间: (图片取自 Google AI Blog) Google REMEDIS 使用自然图像和未标记的医学图像相结合的方法,采用两步预训练策略进行大规模自监督学习,使用 SimCLR 方法训练模型学习医学数据表示,该方法避免了耗时、费用高的标注数据的过程。模型训练完成后,通过标记的任务特定医学数据对其进行微调,并使用少量的分布不同的数据进行评估,从而实现数据高效泛化。 (图片取自 Google AI Blog) 该研究评估了REMEDIS模型在多种医学成像任务和模态下的性能,相对于强监督基线模型在诊断准确性上有着高达11.5%的相对改进,并且可以实现医学成像模型的数据高效泛化,相当于减少了3-100倍的重新训练数据需求。同时,该方法适用于多种模型架构大小,并且与多种对比自监督学习方法兼容。 AI展望周刊,个人向的阅读摘录,关注AI、理解AI,注视正在发生的未来。 📡 全文RSS | 往期留存网页版 📰 推荐「AI资讯简报」一览每日AI新鲜资讯。
2023.18 可汗学院将大模型应用于教学
2023年第18周 (05-01 ~ 05-07) 教育变革的希望真的来了 以下内容摘录/修改自 Sal Khan 的TED演讲视频 、 @starzq.eth的 tweets, 和 @宝玉xp的微博。 一对一辅导成为可能 Sal Khan(可汗学院创始人),在TED演讲视频 中演示了可汗学院如何使人工智能为学生和老师提供的指导。 并以此展示AI可能引发教育领域有史以来最大的积极变革。 演讲首先引用了 1984年就有的研究结果,表明1对1辅导可以大幅提升学生表现。但现实是一直以来全球各地都要面对的师资不足和成本高昂的问题。而 AI 让每个人都可以有机会获得一对一的辅导。 可汗学院基于 GPT-4 大语言模型开发了一个名为“Khanmigo”的AI导师,可为每个学生提供个人导师,实现个性化的教育。并可以为每位教师提供AI助教,来帮助教师节省时间和精力。以此实现教育的积极变革。 (图片取自 starzqeth) 是引导解题不是给答案 很多人担忧学生使用AI直接获取答案,可汗认为如果正确的使用AI,可以解决这个问题。 首先无论有没有 AI,学生都可以抄作业。 而 Khanmigo 应对的措施有: 对话框上会提醒:「所有的聊天记录都会被老师看到」,警惕学生自律不要「走捷径」 对话模式上,当学生要求「告诉我答案」时,Khanmigo 不会给出答案,而是带着学生一步步解题 例如视频中演示了一道数学题,当学生问AI助教问题时,AI在引导学生一步步解出答案过程中会向学生提问,要求解释他们的解题过程。 当学生犯错误的时候,AI不仅能发现错误,还能洞察学生潜在的知识盲点。这就是一个「授之以渔」的过程,让学生知其然并知其所以然。这是优秀的辅导老师才能做到的。 文科、理科都能行 解答疑惑、引导学习的兴趣。 例如学生问「为什要学细胞尺寸学?我的目标是专业运动员」。Khanmigo 回答「太棒了!作为一名专业运动员,了解尺寸科学可以帮助您在细胞水平上理解身体的工作方式。例如,了解细胞、蛋白质和分子之间的相互作用可以帮助您…」 (演讲视频截图) 辅助学生阅读文学作品,例如演示的案例中,学生让AI扮演《了不起的盖茨比》中的杰·盖茨比,并问杰·盖茨“你为什么一直盯着远处的绿光?” 这种方式让学习更加生动有趣,更深入的理解文学著作。 辅助学生锻炼阅读理解。比如当学生正在阅读史蒂夫·乔布斯在斯坦福的著名演讲,学生可以针对文章的某一段向AI助教提问: “为什么作者使用那个词?” “他们的意图是什么?” “这支持了他们的论点吗?” (演讲视频截图) 学生和AI结对写作,培养写作的兴趣和能力。例如通过一起写一个小故事的方式,孩子写两句,AI写两句,共同完成作品。或者AI帮助给出写作大纲,或者用苏格拉底式帮助学生梳理思路。 (演讲视频截图) 理越辩越明。但合适的「辩手」难求。 借助大语言模型的能力,Khanmigo 可以和每一个学生进行苏格拉底式的对话和辩论,探究本质,锻炼思辨能力。 除了学生模式还有教师模式 Khanmigo 还可以切换到教师模式,就像一个超级教师指南,解释答案及如何教学,可以帮助老师们创建课程计划、进度报告,最终还能评分。 AI已可以帮助解决扩大小组教学规模的挑战,使其以经济的方式为每位学生都提供服务。 付出的努力 可汗说他们花了 6 个月时间,基于 GPT-4 做 prompt 工程,以及大量 fine-tune, 让 Khanmigo 学会如何一步步「授之以渔」。...