2023.28 AI帮助医疗民主化

2023年第28周 (07-12 ~ 07-18) AI帮助医疗民主化 文:How To Democratize Healthcare: AI Gives Everyone The Very Best Doctor 主要观点: 美国医疗保健中的最大问题不是医疗质量,而是医疗服务的获取。约20%的成年人没有常规的医疗来源。 富人和穷人的预期寿命差距在不断加大。原因之一是医生和医疗资源分配不均。 医疗成本的飞速增长也是问题的关键所在。 人工智能和机器学习可以通过编码专家知识来放大和加速人类技能,为每个病人提供多名顶级医生的咨询。 人工智能可以持续学习,不断从大量病例中获取知识。它可以记住每个病人的完整病史。 人工智能可以实现医疗民主化,缩小病人与医生的距离,降低医疗成本,使全球每个角落的人都能获得最好的医疗服务。 人工智能不会取代医生,而是放大医生的影响力,延展他们的触角。它有助于实现医疗资源的均等化。 (END)

June 18, 2023

2023.23-02 Minecraft 成为AI的试炼场

2023年第23周(06-05 ~ 06-11) Minecraft 成为AI的试炼场,探索 agent 自主应对开放世界的挑战。 (图片取自 minedojo.org) 2019年,MineRL 项目,开放了数据集,并设立了挑战赛,以促进使用深度强化学习(deep RL)应对开放世界的各种挑战。 2023年2月,北京大学 Zihao Wang 领导的团队发表了“第一个能够稳健地完成70+个Minecraft任务的多任务代理”。 2023年5月 来自 Nvida 和多家大学联合研究团队发表的 Voyager —— 具有大型语言模型的开放式具身代理,与其他自动化代理的比较,在完成新任务方面速度明显更快,并且是迄今为止唯一可以解锁珍贵的钻石级工具的 Minecraft 自动化代理。 2023年6月,OpenAI 花费16万美元邀请 Minecraft 玩家,以便捕获人类玩家的游戏视频片段,用于开发/训练AI来玩此游戏。 OpenAI 该项目主页:通过视频预训练学习玩《我的世界》 Voyager 玩 Minecraft 以三种方式使用到 GPT-4 以下内容摘录自文章 How Nvidia uses GPT-4 to make AI better at Minecraft 第一种,生成挑战任务 GPT-4被用于根据Minecraft中当前的物品清单,提出新的挑战任务给Voyager程序。 Voyager 通过格式化的自然语言提示,向GPT-4提供一个物品清单描述,例如: Inventory (5/36): {'oak_planks': 3, 'stick': 4, 'crafting_table': 1, 'stone': 3, 'wooden_pickaxe': 1}, GPT-4 将输出一个关于新挑战的自然语言描述,并解释为什么这是一个合适的新任务,例如: Reasoning: Since you have a wooden pickaxe and some stones, it would be beneficial to upgrade your pickaxe to a stone pickaxe for better efficiency. Task: Craft 1 stone pickaxe. 第二种,生成下一步操作代码 GPT-4 根据输入新的挑战任务,生成用于在Minecraft中进行下一步操作的代码(LLM的编程能力),每段代码都会在Minecraft中进行测试,然后反馈信息被送回GPT-4进行代码的改进。 ...

June 11, 2023

2023.23 AI展望周刊

2023年第21周(05-22 ~ 05-28) 多模态任务联合训练实现更少参数更优表现 Google AI 提出了一种 多模态任务联合训练 的框架 MaMMUT 。以更简单的架构、更少的参数量实现媲美甚至超过单项大模型的能力表现。 (2023-05-04) MaMMUT 是一种简单紧凑的视觉编码器-语言解码器(vision-encoder language-decoder)模型,2B 参数量。 它共同训练了许多相互冲突的目标,以调和 类似对比(contrastive-like)和 文本生成(text-generative)的任务。 由于它是针对这些不相交的任务进行训练的,因此它可以无缝地应用于多个应用程序,例如图像-文本和文本-图像检索、视觉问答(VQA) 和视频字幕(video captioning)和开放词汇检测(open-vocabulary detection),且优于现有一些大模型实现有竞争力的性能。 还可以更轻松适应视频语言任务。以前的方法使用视觉编码器单独处理每一帧,这需要多次应用视觉编码器,造成速度很慢,并且限制了模型可以处理的帧数,通常只有 6-8 帧。 使用 MaMMUT,使用稀疏视频管直接通过视频中的时空信息进行轻量级适应,只需要执行一次视觉编码器。 第23周(06-05 ~ 06-11) AI写出了更快的算法程序 以下内容摘录自 🔗 官方博文 和机器之心的中文报道 Google DeepMind 的全新强化学习系统 AlphaDev 发现了一种比以往更快的排序算法和哈希算法。这两者都是计算机科学领域中的基本算法,该算法成果已开源并将纳入到主要 C++ 库中供开发人员使用。「估计这次发现的排序和哈希算法每天会在全世界被调用数万亿次。」 现阶段 AlphaDev 探索新算法使用的语言是汇编指令。从头开始探索更快的算法,而不是基于现有算法之上。 Google DeepMind 认为这个层次存在许多改进的空间,而这些改进在更高级的编程语言中可能很难被发现。在这个层次上,计算机的存储和操作更加灵活,这意味着存在更多潜在的改进可能性,这些改进可能对速度和能源使用产生更大的影响。 「这只是 AI 提升代码效率进步的开始。」 现阶段大模型的知识落后问题 T5, GPT-3, PaLM, Flamingo 和 PaLI 等大型模型已经证明了在扩展到数百亿个参数并在大型文本和图像数据集上进行训练时存储大量知识的能力。这些模型在下游任务上实现了最先进的结果,例如图像字幕、视觉问答和开放式词汇识别。 尽管取得了这些成就,但这些模型需要大量的数据进行训练,最终会产生大量的参数(在许多情况下是数十亿个),从而导致大量的计算需求。 此外,用于训练这些模型的数据可能会过时,每次更新世界知识时都需要重新训练。例如,两年前训练的模型可能会产生有关现任美国总统的过时信息。 摘录翻译自 Google Blog

May 28, 2023

2023.20 这轮AI模型带来的范式变化

2023年第20周 (05-15 ~ 05-21) 人工神经网络能否实现AGI(通用人工智能) 观看 AlphaGo 的纪录片,回顾 2016 年 AlphaGo 与 李世石的围棋对战,仍然让我感到激动。 IBM开发的 深蓝 战胜了国际象棋大师卡斯帕罗夫,使用的是穷举法。与国际象棋不同,围棋的棋盘规模更大,规则简单,可能的走法空间非常大,这导致穷举法无法在合理的时间内计算出最优解。 由 DeepMind 开发的 AlphaGo 战胜围棋世界冠军李世石,和战胜柯洁的 AlphaMaster 都是基于人工神经网络,这使得它们不仅能在局部战术上计算多步走棋,更能学习和判断全盘局势。 如今,GPT 3.5 等大型语言模型具备阅读、理解和推理能力。Midjourney 和 StableDiffusion 扩散模型具有绘画能力,OpenAI 的 Whisper 具有de 语音识别能力,Meta 的 Segment-anything 对图像语义分割的能力,单项智能已经等于甚至超过了一般人类,而这些都是基于深度学习的人工神经网络。 当单个跨模态(多模态)的大型神经网络模型逐步具备所有这些能力,“脑容量”继续扩大,其智能肯定会一步步向人类靠近。但是否会产生意识呢?另外一种可能是其智能达到可以开始改进自身智能的程度,智能开始指数提升,也将是另外一番景象。目前,人工神经网络的上限还是未知数。 ~ OpenAI GPT模型的技术进展 GPT-1 的重要性是看到了预训练一个大的(自然语言处理)模型,其表现比传统的针对单个具体任务进行训练的专门模型效果还要好。 GPT-2 的关键是验证了预训练大模型具有迁移能力,可以把预训练中学到的东西,通过微调迁移到新的下游任务模型中。 GPT-3 的核心是验证了大模型具有很强的泛化能力,在少样本和零样本情况下,尤其是通过场景下学习(In-context-learning)和给定提示解决问题,无需微调。 GPT-3.5 的重要突破是「可用」,引入了指令微调。 ChatGPT 就是基于此在人类对话方面做指令微调,以及在安全性、可靠性方便的对齐。 GPT-4 开始跨模态,在语言(文本)的基础上加入了对图像的认知。 陆奇演讲:大模型带来的新范式 以下内容摘录自 陆奇的 演讲视频 和 文字版, 以《新范式 新时代 新机会》为主题阐述了他对这轮AI技术变革的观点。 范式拐点 人类社会是复杂体系,复杂体系都有三个子系统,它包括: 信息子系统(subsystem of information),体系必须从环境中获得信息。 模型子系统(subsystem of model),用模型对信息进行表达。它必须充分有效地表达信息,这种表达方式让它可以做推理、做分析、做规划。(注:例如语言) 行动子系统(subsystem of action) ,根据推理和规划与环境互动,来达到这个复杂体系的目的。 (视频截图) ...

May 21, 2023

2023.19 大模型与医疗

2023年第19周 (05-08 ~ 05-14) 大模型与医疗 安全问题 微软研究院的这篇访谈文章 提到: 将计算机技术整合到医疗健康和医学工作流程中的实际挑战,是要确保它的安全性,并且真正发挥计算机技术的最大能力,但这是非常困难的。 在医学实际应用中,诊断和治疗过程都发生在不稳定的环境中,这就导致在机器学习的环境中涉及很多混杂因素。由于医学是建立在对因果关系的精确理解和推理之上的,所以这些混杂因素至关重要,但现在机器学习里最好的工具本质上是相关性的机器(correlation machines)。相关性和因果关系是不同的,例如,吸烟是否会致癌,考虑到混杂因素的影响并了解其中存在的因果关系是非常重要的。 另一方面,我们不必完全专注于临床应用。GPT-4 很擅长填写表格,减轻文本工作的负担,它知道如何申请医保报销的事先授权,这是医生目前主要的行政和文本负担。相关工作并没有真正影响到攸关生死的诊断或治疗的决定。 GPT3/4 是第一个可以问它没有任何已知答案的问题的人工智能系统。而问题是,我们能完全相信它所给出的答案吗? “负责任的人工智能”一直是整个计算机科学领域的重要研究课题,但我想这个词现在有可能不再合适了,我们可以称之为“社会性的人工智能(societal AI)”或其他的术语。 它不是正确与错误的问题,也不仅仅是它会被误用而产生有害的信息,而是在监管层面的更大的问题,还有在社会层面的工作流失,新的数字鸿沟,以及富人和穷人获得这些工具的权利。这些亟待解决的问题也会直接影响着它在医疗健康领域的应用。 能力问题 Google AI 的文章 提到: 尽管最近在医学人工智能 (AI) 领域取得了进展,但大多数现有模型都是狭窄的单任务系统,需要大量标记数据进行训练。此外,这些模型不能轻易地在新的临床环境中重复使用,因为它们通常需要为每个新的部署环境收集、去识别和注释特定于站点的数据,这既费力又昂贵。数据高效泛化的问题(模型使用最少的新数据泛化到新设置的能力)仍然是医学机器学习 (ML) 模型的关键转化挑战,并反过来阻碍了它们在现实世界医疗保健环境中的广泛采用。 Google 研究团队提出了一种降低 AI 模型训练成本并提高泛化能力的思路和时间: (图片取自 Google AI Blog) Google REMEDIS 使用自然图像和未标记的医学图像相结合的方法,采用两步预训练策略进行大规模自监督学习,使用 SimCLR 方法训练模型学习医学数据表示,该方法避免了耗时、费用高的标注数据的过程。模型训练完成后,通过标记的任务特定医学数据对其进行微调,并使用少量的分布不同的数据进行评估,从而实现数据高效泛化。 (图片取自 Google AI Blog) 该研究评估了REMEDIS模型在多种医学成像任务和模态下的性能,相对于强监督基线模型在诊断准确性上有着高达11.5%的相对改进,并且可以实现医学成像模型的数据高效泛化,相当于减少了3-100倍的重新训练数据需求。同时,该方法适用于多种模型架构大小,并且与多种对比自监督学习方法兼容。 AI展望周刊,个人向的阅读摘录,关注AI、理解AI,注视正在发生的未来。

May 14, 2023