🗞️ 缓坡漫步

2023.20 这轮AI模型带来的范式变化

2023年第20周 (05-15 ~ 05-21) 人工神经网络能否实现AGI（通用人工智能）观看 AlphaGo 的纪录片，回顾 2016 年 AlphaGo 与李世石的围棋对战，仍然让我感到激动。 IBM开发的深蓝战胜了国际象棋大师卡斯帕罗夫，使用的是穷举法。与国际象棋不同，围棋的棋盘规模更大，规则简单，可能的走法空间非常大，这导致穷举法无法在合理的时间内计算出最优解。由 DeepMind 开发的 AlphaGo 战胜围棋世界冠军李世石，和战胜柯洁的 AlphaMaster 都是基于人工神经网络，这使得它们不仅能在局部战术上计算多步走棋，更能学习和判断全盘局势。如今，GPT 3.5 等大型语言模型具备阅读、理解和推理能力。Midjourney 和 StableDiffusion 扩散模型具有绘画能力，OpenAI 的 Whisper 具有de 语音识别能力，Meta 的 Segment-anything 对图像语义分割的能力，单项智能已经等于甚至超过了一般人类，而这些都是基于深度学习的人工神经网络。当单个跨模态（多模态）的大型神经网络模型逐步具备所有这些能力，“脑容量”继续扩大，其智能肯定会一步步向人类靠近。但是否会产生意识呢？另外一种可能是其智能达到可以开始改进自身智能的程度，智能开始指数提升，也将是另外一番景象。目前，人工神经网络的上限还是未知数。 ~ OpenAI GPT模型的技术进展 GPT-1 的重要性是看到了预训练一个大的（自然语言处理）模型，其表现比传统的针对单个具体任务进行训练的专门模型效果还要好。 GPT-2 的关键是验证了预训练大模型具有迁移能力，可以把预训练中学到的东西，通过微调迁移到新的下游任务模型中。 GPT-3 的核心是验证了大模型具有很强的泛化能力，在少样本和零样本情况下，尤其是通过场景下学习（In-context-learning）和给定提示解决问题，无需微调。 GPT-3.5 的重要突破是「可用」，引入了指令微调。 ChatGPT 就是基于此在人类对话方面做指令微调，以及在安全性、可靠性方便的对齐。 GPT-4 开始跨模态，在语言（文本）的基础上加入了对图像的认知。陆奇演讲：大模型带来的新范式以下内容摘录自陆奇的演讲视频和文字版，以《新范式新时代新机会》为主题阐述了他对这轮AI技术变革的观点。范式拐点人类社会是复杂体系，复杂体系都有三个子系统，它包括：信息子系统（subsystem of information)，体系必须从环境中获得信息。模型子系统（subsystem of model)，用模型对信息进行表达。它必须充分有效地表达信息，这种表达方式让它可以做推理、做分析、做规划。（注：例如语言）行动子系统（subsystem of action) ，根据推理和规划与环境互动，来达到这个复杂体系的目的。 (视频截图) ...

2023.19 大模型与医疗

2023年第19周 (05-08 ~ 05-14) 大模型与医疗安全问题微软研究院的这篇访谈文章提到：将计算机技术整合到医疗健康和医学工作流程中的实际挑战，是要确保它的安全性，并且真正发挥计算机技术的最大能力，但这是非常困难的。在医学实际应用中，诊断和治疗过程都发生在不稳定的环境中，这就导致在机器学习的环境中涉及很多混杂因素。由于医学是建立在对因果关系的精确理解和推理之上的，所以这些混杂因素至关重要，但现在机器学习里最好的工具本质上是相关性的机器（correlation machines）。相关性和因果关系是不同的，例如，吸烟是否会致癌，考虑到混杂因素的影响并了解其中存在的因果关系是非常重要的。另一方面，我们不必完全专注于临床应用。GPT-4 很擅长填写表格，减轻文本工作的负担，它知道如何申请医保报销的事先授权，这是医生目前主要的行政和文本负担。相关工作并没有真正影响到攸关生死的诊断或治疗的决定。 GPT3/4 是第一个可以问它没有任何已知答案的问题的人工智能系统。而问题是，我们能完全相信它所给出的答案吗？ “负责任的人工智能”一直是整个计算机科学领域的重要研究课题，但我想这个词现在有可能不再合适了，我们可以称之为“社会性的人工智能（societal AI）”或其他的术语。它不是正确与错误的问题，也不仅仅是它会被误用而产生有害的信息，而是在监管层面的更大的问题，还有在社会层面的工作流失，新的数字鸿沟，以及富人和穷人获得这些工具的权利。这些亟待解决的问题也会直接影响着它在医疗健康领域的应用。能力问题 Google AI 的文章提到：尽管最近在医学人工智能 (AI) 领域取得了进展，但大多数现有模型都是狭窄的单任务系统，需要大量标记数据进行训练。此外，这些模型不能轻易地在新的临床环境中重复使用，因为它们通常需要为每个新的部署环境收集、去识别和注释特定于站点的数据，这既费力又昂贵。数据高效泛化的问题（模型使用最少的新数据泛化到新设置的能力）仍然是医学机器学习 (ML) 模型的关键转化挑战，并反过来阻碍了它们在现实世界医疗保健环境中的广泛采用。 Google 研究团队提出了一种降低 AI 模型训练成本并提高泛化能力的思路和时间： (图片取自 Google AI Blog) Google REMEDIS 使用自然图像和未标记的医学图像相结合的方法，采用两步预训练策略进行大规模自监督学习，使用 SimCLR 方法训练模型学习医学数据表示，该方法避免了耗时、费用高的标注数据的过程。模型训练完成后，通过标记的任务特定医学数据对其进行微调，并使用少量的分布不同的数据进行评估，从而实现数据高效泛化。 (图片取自 Google AI Blog) 该研究评估了REMEDIS模型在多种医学成像任务和模态下的性能，相对于强监督基线模型在诊断准确性上有着高达11.5%的相对改进，并且可以实现医学成像模型的数据高效泛化，相当于减少了3-100倍的重新训练数据需求。同时，该方法适用于多种模型架构大小，并且与多种对比自监督学习方法兼容。 AI展望周刊，个人向的阅读摘录，关注AI、理解AI，注视正在发生的未来。

2023.18 可汗学院将大模型应用于教学

2023年第18周 (05-01 ~ 05-07) 教育变革的希望真的来了以下内容摘录/修改自 Sal Khan 的TED演讲视频、 @starzq.eth的 tweets，和 @宝玉xp的微博。一对一辅导成为可能 Sal Khan（可汗学院创始人），在TED演讲视频中演示了可汗学院如何使人工智能为学生和老师提供的指导。并以此展示AI可能引发教育领域有史以来最大的积极变革。演讲首先引用了 1984年就有的研究结果，表明1对1辅导可以大幅提升学生表现。但现实是一直以来全球各地都要面对的师资不足和成本高昂的问题。而 AI 让每个人都可以有机会获得一对一的辅导。可汗学院基于 GPT-4 大语言模型开发了一个名为“Khanmigo”的AI导师，可为每个学生提供个人导师，实现个性化的教育。并可以为每位教师提供AI助教，来帮助教师节省时间和精力。以此实现教育的积极变革。 (图片取自 starzqeth) 是引导解题不是给答案很多人担忧学生使用AI直接获取答案，可汗认为如果正确的使用AI，可以解决这个问题。首先无论有没有 AI，学生都可以抄作业。而 Khanmigo 应对的措施有：对话框上会提醒：「所有的聊天记录都会被老师看到」，警惕学生自律不要「走捷径」对话模式上，当学生要求「告诉我答案」时，Khanmigo 不会给出答案，而是带着学生一步步解题例如视频中演示了一道数学题，当学生问AI助教问题时，AI在引导学生一步步解出答案过程中会向学生提问，要求解释他们的解题过程。当学生犯错误的时候，AI不仅能发现错误，还能洞察学生潜在的知识盲点。这就是一个「授之以渔」的过程，让学生知其然并知其所以然。这是优秀的辅导老师才能做到的。文科、理科都能行解答疑惑、引导学习的兴趣。例如学生问「为什要学细胞尺寸学？我的目标是专业运动员」。Khanmigo 回答「太棒了！作为一名专业运动员，了解尺寸科学可以帮助您在细胞水平上理解身体的工作方式。例如，了解细胞、蛋白质和分子之间的相互作用可以帮助您…」 (演讲视频截图) 辅助学生阅读文学作品，例如演示的案例中，学生让AI扮演《了不起的盖茨比》中的杰·盖茨比，并问杰·盖茨“你为什么一直盯着远处的绿光？” 这种方式让学习更加生动有趣，更深入的理解文学著作。辅助学生锻炼阅读理解。比如当学生正在阅读史蒂夫·乔布斯在斯坦福的著名演讲，学生可以针对文章的某一段向AI助教提问： “为什么作者使用那个词？” “他们的意图是什么？” “这支持了他们的论点吗？” (演讲视频截图) 学生和AI结对写作，培养写作的兴趣和能力。例如通过一起写一个小故事的方式，孩子写两句，AI写两句，共同完成作品。或者AI帮助给出写作大纲，或者用苏格拉底式帮助学生梳理思路。 (演讲视频截图) 理越辩越明。但合适的「辩手」难求。借助大语言模型的能力，Khanmigo 可以和每一个学生进行苏格拉底式的对话和辩论，探究本质，锻炼思辨能力。除了学生模式还有教师模式 Khanmigo 还可以切换到教师模式，就像一个超级教师指南，解释答案及如何教学，可以帮助老师们创建课程计划、进度报告，最终还能评分。 AI已可以帮助解决扩大小组教学规模的挑战，使其以经济的方式为每位学生都提供服务。付出的努力可汗说他们花了 6 个月时间，基于 GPT-4 做 prompt 工程，以及大量 fine-tune, 让 Khanmigo 学会如何一步步「授之以渔」。 ...

2023.17 AI展望周刊

2023年第17周 (04-24 ~ 04-30) 长期预测领域的新模型谷歌研究团队提出一种新的模型架构用于长期预测领域。 TiDE（Time-series Dense Encoder，时间序列密集编码器），是一种基于多层感知器（MLP, Multi-layer Perceptron）的编码器-解码器模型。既具有线性模型的简单性和速度，又能够处理协变量和非线性依赖关系。在流行的基准测试中，保持相同准确度的情况下，训练速度比基于Transformer的模型快5-10倍，同时推理的速度也更快。时间序列预测是一个重要的研究领域，对零售供应链优化、能源和交通预测以及天气预报等多种科学和工业应用至关重要。例如，在零售用例中，据观察，提高需求预测的准确性可以显着降低库存成本并增加收入。谷歌博文：Recent advances in deep long-horizon forecasting 论文：Long-term Forecasting with TiDE: Time-series Dense Encoder 基于AI的网络安全工作台谷歌云在 2023 年 RSA 大会上宣布推出 Google Cloud Security AI Workbench，是基于大语言模型 Sec-PaLM 为行业安全提供支持的可扩展平台。 @RAyH4c 总结的场景工具和功能简介： Mandiant Threat Intelligence AI：提供由 AI 驱动的功能，可帮助汇总、评估专有和公共来源的威胁情报数据并确定其优先级。 Chronicle AI：能够搜索安全事件并与结果进行对话交互、提出后续问题并快速生成检测结果。 Security Command Center AI：将复杂的攻击图转换为攻击暴露的纯文本解释，包括受影响的资产和建议的缓解措施。 VirusTotal AI：帮助分析和解释潜在恶意样本的行为。 Mandiant Breach Analytics for Chronicle AI：根据来自Mandiant的最新威胁情报对真实业务环境中的威胁进行情境化和总结。看当前 GPT-4 和 Claude+ 的能力一、考试水平 Rosey Eason 将 GPT-3 和 GPT-4 在各种考试中的表现结果做成了一张信息图，更加直观。图中的分数不是卷面分数，是指其成绩在所有人类应试者中的位置（超过了多少人的百分比）。 ...

2023.16 涌现新能力、多模态和通用基础模型

2023年第16周 (04-17 ~ 04-23) 大模型涌现出新能力、多模态的必然趋势和通用基础模型。能力的涌现扩大语言模型的规模已被证明可以可靠地提高泛化能力（即提高下游任务的性能和样本效率）。 Jason Wei 等人在2022年8月的一篇论文中论述了另一种不可预测的现象——大型语言模型能涌现出新的能力。论文中给出的定义是：如果一种能力在小型模型中不存在但会在大型模型中出现，则称其为是涌现出的能力。因此，涌现能力不能简单地通过推断小模型的能力来进行预测。这种涌现出的能力的存在引发了一个问题，即是否可以通过进一步扩大语言模型的规模来进一步扩展语言模型的能力范围？下图展示了在仅用少量样本作为提示的测试中，语言模型的尺寸在小于某个规模之前，其执行任务的表现是随机的。模型的参数量超过某个规模之后，回答的结果准确性大幅提高，明显高于随机的程度。 (图片取自 https://openreview.net/pdf?id=yzkSU5zdwD) Jason Wei 在其博文中整理列出了 137 中大语言模型涌现出来的能力。由于涌现是非线性的，这也使得要预测它的发展极为困难。如果今天的模型暂时还不能解决某一类任务，你无法估计模型要再扩张多少才能涌现出新的能力去解决这些任务。可能永远不行，可能下一个阈值会超出硬件的能力极限，可能你需要的全新的网络架构。所有这些问题都无法用简单的外推来回答。这种非线性或也是人工智能波浪形发展的根源：你会在好几年里觉得一事无成（比如前几年大量声音说大模型已死），接着忽然迎来一个剧烈爆发的增长，然后可能又进入下一个等待期。（此段摘录/修改自木遥的文章，2023年2月）多模态什么是多模态（Multimodal）？多模态是指通过多种不同的感官模式（例如视觉、听觉、触觉等）进行信息的处理和表达。在计算机科学领域，多模态通常指的是使用多种不同的数据类型（例如图像、文本、音频、视频等）进行机器学习或人工智能任务。这些数据类型可以同时输入到同一个模型中，或者经过前期的处理后融合在一起，以提高模型的准确性和表现力。 2017年谷歌的研究团队在论文 One Model To Learn Them All 就提出了多模态架构。其摘要中说到：从语音识别、图像分类到翻译，深度学习在许多领域都取得了很好的成果。但对于每个问题，要使深度模型良好运行，都需要对架构进行研究和长时间的调优。我们提出了一个单一模型，该模型在跨越多个领域的许多问题上产生了良好的结果。 2021年11月的谷歌的一篇博客文章开篇就以翻译为例，说明了多模态的有效性：对于许多概念，没有从一种语言到另一种语言的直接一对一翻译，即使有，这种翻译也常常带有不同的联想和内涵，非母语人士很容易忘记这些联想和内涵。然而，在这种情况下，当基于视觉示例时，含义可能会更加明显。以“婚礼”这个词为例。在英语中，人们通常会联想到穿着白色礼服的新娘和穿着燕尾服的新郎，但当翻译成印地语 (शादी) 时，更合适的联想可能是穿着鲜艳色彩的新娘和穿着 sherwani 的新郎。每个人对这个词的联想可能会有很大差异，但如果向他们展示预期概念的图像，其含义就会变得更加清晰。（摘录/翻译自谷歌博客） (图片取自谷歌博客) 英语和印地语中的“婚礼”一词传达了不同的心理意象。亚马逊研究团队2023年2月发表的一篇论文中，分享了对多模态思维链推理能力的研究，也说明加上图片信息的处理，多模态，小语言模型就能实现很好的推理效果。摘要如下：大型语言模型(LLMs)通过使用思维链(chain-of-thought, CoT)提示来生成中间推理链以推断答案，展现了在复杂推理方面惊人的性能。然而，现有的CoT研究仅关注于语言形式。我们提出了一种Multimodal-CoT方法，将语言(文本)和视觉(图像)模态纳入一个分离了理由生成和答案推断的两阶段框架中。这样，答案推断可以利用基于多模态信息生成的更好的理由。通过Multimodal-CoT，我们的模型在10亿参数以下的情况下，在ScienceQA基准测试中比之前的最先进LLM(GPT-3.5)高出16个百分点(75.17%->91.68%准确率)，甚至超过人类表现。下图展示给AI模型一幅图片，上面画着饼干和薯条，然后问 AI“这两者的共同点在哪里？”，提供两个答案选项“A：都是软的。B：都是咸的。” （图片取自 github@amazon-science/mm-cot) 2023年3月，谷歌发布的 PaLM-E 多模态大模型，展示了文本+视觉+机器人传感器数据的融合，打造通用型机器人的进展。 2023年3月，OpenAI 首席科学家 Ilya 和 Nvidia CEO 老黄在炉边对谈中也提到， GPT-4 扩展到多模态有两个维度的因素，第一个维度是它有用的，神经网络通过视觉模态可以更好地理解世界；因为世界是非常视觉的，人类是非常视觉化的动物，人类大脑皮层的三分之一是用于视觉的。第二个维度则是可供学习的数据量。除了从文本中学习外，我们还可以通过从图像中学习来了解这个世界。实际的效果是，在需要理解图表的测试中，GPT3.5 的正确率是2%～20%，多模态的GPT-4准确率提高到40％。视觉信息可以帮助我们更好地理解和推理世界，并有助于更好地进行视觉交流。未来的神经网络可能能够通过视觉方式来解释问题，而不仅仅是提供文本解释。人的感知和智能天生就是多模态的，不会局限在文本或图像等单一的模态上。因此，多模态是未来一个重要的研究和应用方向。另外，由于大规模预训练模型的进展，AI 的研究呈现出大学科趋势，不同领域的范式、技术和模型也在趋近大一统。跨学科、跨领域的合作将更加容易和普遍，不同领域的研究进展也更容易相互推进，从而进一步促进人工智能领域的快速发展。（此段摘录自木遥的文章，2023年2月） ...