AI展望周刊 2023.17

2023年第17周 (04-24 ~ 04-30) 长期预测领域的新模型 谷歌研究团队提出一种新的模型架构用于长期预测领域。 TiDE(Time-series Dense Encoder,时间序列密集编码器),是一种基于多层感知器(MLP, Multi-layer Perceptron)的编码器-解码器模型。既具有线性模型的简单性和速度,又能够处理协变量和非线性依赖关系。 在流行的基准测试中,保持相同准确度的情况下,训练速度比基于Transformer的模型快5-10倍,同时推理的速度也更快。 时间序列预测是一个重要的研究领域,对零售供应链优化、能源和交通预测以及天气预报等多种科学和工业应用至关重要。例如,在零售用例中,据观察,提高需求预测的准确性可以显着降低库存成本并增加收入。 谷歌博文:Recent advances in deep long-horizon forecasting 论文:Long-term Forecasting with TiDE: Time-series Dense Encoder 基于AI的网络安全工作台 谷歌云在 2023 年 RSA 大会上宣布推出 Google Cloud Security AI Workbench,是基于大语言模型 Sec-PaLM 为行业安全提供支持的可扩展平台。 @RAyH4c 总结的场景工具和功能简介: Mandiant Threat Intelligence AI:提供由 AI 驱动的功能,可帮助汇总、评估专有和公共来源的威胁情报数据并确定其优先级。 Chronicle AI:能够搜索安全事件并与结果进行对话交互、提出后续问题并快速生成检测结果。 Security Command Center AI:将复杂的攻击图转换为攻击暴露的纯文本解释,包括受影响的资产和建议的缓解措施。 VirusTotal AI:帮助分析和解释潜在恶意样本的行为。 Mandiant Breach Analytics for Chronicle AI:根据来自Mandiant的最新威胁情报对真实业务环境中的威胁进行情境化和总结。 看当前 GPT-4 和 Claude+ 的能力 一、考试水平 Rosey Eason 将 GPT-3 和 GPT-4 在各种考试中的表现结果做成了一张信息图,更加直观。图中的分数不是卷面分数,是指其成绩在所有人类应试者中的位置(超过了多少人的百分比)。...

April 30, 2023 · 芦苇Z

2023.16 涌现新能力、多模态和通用基础模型

2023年第16周 (04-17 ~ 04-23) 大模型涌现出新能力、多模态的必然趋势和通用基础模型。 能力的涌现 扩大语言模型的规模已被证明可以可靠地提高泛化能力(即提高下游任务的性能和样本效率)。 Jason Wei 等人在2022年8月的一篇论文中论述了另一种不可预测的现象——大型语言模型能涌现出新的能力。论文中给出的定义是:如果一种能力在小型模型中不存在但会在大型模型中出现,则称其为是涌现出的能力。 因此,涌现能力不能简单地通过推断小模型的能力来进行预测。这种涌现出的能力的存在引发了一个问题,即是否可以通过进一步扩大语言模型的规模来进一步扩展语言模型的能力范围? 下图展示了在仅用少量样本作为提示的测试中,语言模型的尺寸在小于某个规模之前,其执行任务的表现是随机的。模型的参数量超过某个规模之后,回答的结果准确性大幅提高,明显高于随机的程度。 (图片取自 https://openreview.net/pdf?id=yzkSU5zdwD) Jason Wei 在其博文中整理列出了 137 中大语言模型涌现出来的能力。 由于涌现是非线性的,这也使得要预测它的发展极为困难。如果今天的模型暂时还不能解决某一类任务,你无法估计模型要再扩张多少才能涌现出新的能力去解决这些任务。可能永远不行,可能下一个阈值会超出硬件的能力极限,可能你需要的全新的网络架构。所有这些问题都无法用简单的外推来回答。这种非线性或也是人工智能波浪形发展的根源:你会在好几年里觉得一事无成(比如前几年大量声音说大模型已死),接着忽然迎来一个剧烈爆发的增长,然后可能又进入下一个等待期。 (此段摘录/修改自 木遥的文章,2023年2月) 多模态 什么是多模态(Multimodal)? 多模态是指通过多种不同的感官模式(例如视觉、听觉、触觉等)进行信息的处理和表达。在计算机科学领域,多模态通常指的是使用多种不同的数据类型(例如图像、文本、音频、视频等)进行机器学习或人工智能任务。这些数据类型可以同时输入到同一个模型中,或者经过前期的处理后融合在一起,以提高模型的准确性和表现力。 2017年谷歌的研究团队在论文 One Model To Learn Them All 就提出了多模态架构。 其摘要中说到:从语音识别、图像分类到翻译,深度学习在许多领域都取得了很好的成果。但对于每个问题,要使深度模型良好运行,都需要对架构进行研究和长时间的调优。我们提出了一个单一模型,该模型在跨越多个领域的许多问题上产生了良好的结果。 2021年11月的谷歌的一篇博客文章 开篇就以翻译为例,说明了多模态的有效性: 对于许多概念,没有从一种语言到另一种语言的直接一对一翻译,即使有,这种翻译也常常带有不同的联想和内涵,非母语人士很容易忘记这些联想和内涵。然而,在这种情况下,当基于视觉示例时,含义可能会更加明显。以“婚礼”这个词为例。在英语中,人们通常会联想到穿着白色礼服的新娘和穿着燕尾服的新郎,但当翻译成印地语 (शादी) 时,更合适的联想可能是穿着鲜艳色彩的新娘和穿着 sherwani 的新郎。每个人对这个词的联想可能会有很大差异,但如果向他们展示预期概念的图像,其含义就会变得更加清晰。(摘录/翻译自谷歌博客) (图片取自谷歌博客) 英语和印地语中的“婚礼”一词传达了不同的心理意象。 亚马逊研究团队2023年2月发表的一篇论文 中,分享了对多模态思维链推理能力的研究,也说明加上图片信息的处理,多模态,小语言模型就能实现很好的推理效果。摘要如下: 大型语言模型(LLMs)通过使用思维链(chain-of-thought, CoT)提示来生成中间推理链以推断答案,展现了在复杂推理方面惊人的性能。然而,现有的CoT研究仅关注于语言形式。我们提出了一种Multimodal-CoT方法,将语言(文本)和视觉(图像)模态纳入一个分离了理由生成和答案推断的两阶段框架中。这样,答案推断可以利用基于多模态信息生成的更好的理由。通过Multimodal-CoT,我们的模型在10亿参数以下的情况下,在ScienceQA基准测试中比之前的最先进LLM(GPT-3.5)高出16个百分点(75.17%->91.68%准确率),甚至超过人类表现。 下图展示给AI模型一幅图片,上面画着饼干和薯条,然后问 AI“这两者的共同点在哪里?”,提供两个答案选项“A:都是软的。B:都是咸的。” (图片取自 github@amazon-science/mm-cot) 2023年3月,谷歌发布的 PaLM-E 多模态大模型,展示了文本+视觉+机器人传感器数据的融合,打造通用型机器人的进展。 2023年3月,OpenAI 首席科学家 Ilya 和 Nvidia CEO 老黄在炉边对谈中也提到, GPT-4 扩展到多模态有两个维度的因素,第一个维度是它有用的, 神经网络通过视觉模态可以更好地理解世界;因为世界是非常视觉的,人类是非常视觉化的动物,人类大脑皮层的三分之一是用于视觉的。 第二个维度则是可供学习的数据量。除了从文本中学习外,我们还可以通过从图像中学习来了解这个世界。 实际的效果是,在需要理解图表的测试中,GPT3.5 的正确率是2%~20%,多模态的GPT-4准确率提高到40%。视觉信息可以帮助我们更好地理解和推理世界,并有助于更好地进行视觉交流。未来的神经网络可能能够通过视觉方式来解释问题,而不仅仅是提供文本解释。 人的感知和智能天生就是多模态的,不会局限在文本或图像等单一的模态上。因此,多模态是未来一个重要的研究和应用方向。另外,由于大规模预训练模型的进展,AI 的研究呈现出大学科趋势,不同领域的范式、技术和模型也在趋近大一统。跨学科、跨领域的合作将更加容易和普遍,不同领域的研究进展也更容易相互推进,从而进一步促进人工智能领域的快速发展。 (此段摘录自 木遥的文章,2023年2月)...

April 23, 2023 · 芦苇Z

2023.14 从神经网络到GPT的15年探索之路

2023年第14周 (04-03~04-09) 本期阅读/摘录内容是来自 Nvidia 2023年开发者大会的一期炉边谈话:Ilya Sutskever and Jensen Huang: AI Today and Vision of the Future 一窥深度学习如何从无到有,到GPT 1、2、3,到今天的ChatGPT,十五年的探索之路。 Ilya Sutskever,OpenAI 的联合创始人和首席科学家 Jensen Huang (黄仁勋) ,Nvidia 的创始人和首席执行官 深度学习 黄仁勋首先问:为什么你认为深度学习(deep learning) 会有效? Ilya 答:首先是个人对人工智能、什么是意识的好奇心。把时间拉回到2003年之前,计算机还无法学习任何东西,甚至在理论上也不清楚是否可行。但人类是可以学习的,如果在机器学习方面能取得进步,将是人工智能的大进展。 幸运的是我的大学教授 Geoffrey Hinton,正在研究神经网络。而神经网络具备学习和自动编程的能力,其中蕴含着极大的潜力。 开始研究深度学习和神经网络时,人们并没有意识到规模的重要性。当时使用的神经网络规模非常小,最多只有数百个神经元,一百万个参数被认为非常大。 研究人员对神经网络做了很多实验,试图找到有趣的现象和观察规律。虽然在当时这并不是显而易见的正确之路,但这些研究奠定了未来深度学习领域的基础。 Geoffrey Hinton 当时对在小数字上训练神经网络很感兴趣,这既是为了分类(classification),也是他对生成(generating)数字非常感兴趣。 因此,生成模型的开端就在那里。但当时所有这些很酷的东西漂浮在周围,哪个是正确的方向并不明显。 在构建 AlexNet 的两年前(2010年),我们清楚地知道监督学习是对的方向。传统的贝叶斯模型等方法在理论上很优雅,但不能代表一个好的解决方案。 意识到大型深度神经网络是解决困难问题的关键,为了能够很好的实现,需要一个大的数据集,以及大量的计算做这个工作。如何优化计算是一个瓶颈,实验室的另一位研究员 James Martens 在此取得了突破。重点是,这证明了我们可以实际训练这些神经网络。 那么下一个问题是,用什么数据? ImageNet 数据集,是当时非常有挑战难度的数据集。 开始用上GPU进行计算,也是在多伦多实验室,因为 Geoffrey 的建议,开始尝试使用GPU进行实验。当在 ImageNet 数据集基础上训练时,发现卷积神经网络与GPU的高度契合,意识到GPU可以用于训练神经网络模型,并成功训练出了史无前例的庞大模型。 无监督学习 刚我们开始时,也不是100%清楚该如何做。该领域与今日相比也截然不同,研究者也非常少。2016年初,该领域也只有约100位研究者。虽然现在深度学习的发展已经非常迅猛,但当时人们对它的认可度却并不高。 OpenAI在成立之初,有两个重要的初始想法。第一个主要想法,是通过压缩实现无监督学习。 今天,我们理所当然地认为无监督学习是一件很容易的事情。 你只要对所有的东西进行预训练,它就会完全按照你的预期来做。在2016年之前,无监督学习一直是机器学习领域中的难题,没有人知道该怎么做。 现在许多人发现,GPT实际上是对训练数据做压缩。Ted Chiang 发表在《Newyorker》的文章 中也暗指了这一点。 从数学意义上讲,训练这些自回归生成模型确实是对数据进行压缩。从直觉上讲,你可以看到为什么这应该是有效的。 因为如果你想把数据压缩得非常好,你必须提取其中存在的所有隐藏的秘密。因此,这就是关键所在。(注:例如压缩大量数学题目文本最好的办法是推理出四则运算规则,写一个计算器程序) 要提及一下研究情感神经元(sentiment neuron)的这项工作在对我们的思考产生了非常大的影响。 当时我们训练一个神经网络(还是小型循环神经网络LSTM,还没有 Transformer),训练它预测亚马逊评论中的下一个字符。我们发现,如果预测得足够好,那么在LSTM中会有一个神经元与文本的情绪相对应。这真的很酷,因为它展示了无监督学习的优势。...

April 9, 2023 · 芦苇Z

2023.13 什么是 Stable Diffusion

2023年第13周 (03-27 ~ 04-02) 这期,通过阅读 Stable Diffusion 相关资料来了解当前主流AI画图工具背后的技术。 现在热门的 AI 画图产品 Midjourney、Stable Diffusion 和 DALL·E 都是基于扩散模型合成图像的技术。(还有一种合成图像的技术是 GAN——生成式对抗网络) 什么是 Stable Diffusion? Stable Diffusion 是一款文本到图像的人工神经网络模型,能够以给定文本作为输入条件,生成图像。 于2022年发布,由德国大学的计算机视觉小组(ComVis)和 Runway 公司合作研发。得益于 Stability AI 公司的资助,和 LAION 的数据集支持。 * 该模型权重和代码均已开源,相关链接: 代码 | 论文 | 项目 技术原理 Stable Diffusion 模型,也称作潜空间扩散模型(LDM),是一种基于深度学习的扩散模型,用于合成高分辨率图片。 * 简单来说,是准备一组原图像,将原图像进行不同程度的高斯模糊得到多张满是噪点的模糊图像。用这些图像训练扩散模型,让其对模糊后的图像去噪,尽量还原出原图像。 而生成新图像的过程,是先随机生成一张噪点图片,让训练后的扩散模型对其进行多次去噪,逐步的“还原出”一张不曾存在的图像,等于是合成了一张新图片。 (图片来自 Wikipedia) 扩散模型允许建立引导机制控制图像生成过程,而无需重新训练模型。Stable Diffusion 将「交叉注意力层」引入到模型架构,将扩散模型转变为一种支持通用条件输入(例如文本或边界框)的强大且灵活的图像生成器。 (截图自 论文) 更深入的了解「潜在扩散模型」,需要先了解一些前置概念,从 潜变量 -> 潜变量模型 -> 扩散模型,再到潜空间扩散模型。 Latent variables * 潜变量/隐变量, 用于代指有意义但无法直接测得的变量,只能通过数学方法从其它可直接观测到的变量间接推断出来。相对的概念就是 observable variables(显变量)或指标。 例如心理学中的“智力”,需要间接通过各种测量来综合评估智力水平。经济学中的“生活质量”、“商业信心”。医学领域中疾病的“进展阶段”。通过这些潜变量,方便我们理解数据和表示概念。 Latent variable model * 潜变量模型,...

April 1, 2023 · 芦苇Z

AI展望周刊 2023.12

水一期,写代码更快乐~ 近半年AI技术的快速迭代和AI应用的普及,燃起的热情和增添的信心,似乎一扫社会被疫情折磨三年后的无力感,以及全球各经济体的危机带来的焦虑。 2023年第12周 (03-20 ~ 03-26),本周阅读摘录。 ■ ChatGPT 敲开了 LUI 的大门 以下内容摘录/总结/删改自——播客《(Sarah & 王建硕)大白话聊 ChatGPT》 🔗播客音频 , 🔗播客文稿 施乐的研究中心发明了图形用户界面(GUI),乔布斯借鉴之后做出了 Macintosh,微软又抄袭做出了Windows,GUI 开启了个人电脑浪潮。 浏览器的诞生为存在了二十几年的互联网添加了“GUI”,开启了 Web 浪潮。 iPhone的多点触控,把手机的整块屏幕变成了可交互的GUI,开启了智能手机和移动互联网浪潮。 ChatGPT的推出,是真自然语言交互(Language UI)的开始。 人机交互方式的改变,亦是人机关系的一次重构。 ■ 拥抱AI,还是被AI干掉? 以下内容摘录/删改自——Bear Liu - 狗熊来信17 比起目前还可信可不信的加密货币,以及模糊的Web3,发展到今天的 AI 真的是人生中难得碰到的技术改变世界的转折点。 上一次是瓦特的蒸汽机,福特的汽车,Licklider等人创造的互联网,家酿俱乐部开创的个人计算机时代,罗伯特·诺伊斯和戈登·摩尔发明微处理器的时代。 时代拐点到来的时候,个人往往缺乏觉察与行动。 AI迟早取代大部分的现有工作。 这一点在尤瓦尔·赫拉利的《未来简史》和KK的《必然》里,已经说得很清楚了。 与其焦虑自己的工作是否会被取代,先从运用它开始。 现在要做的,就是拥抱这个时代的变化。投入其中,感知变化,学习变化。这是一个不必非得是程序员才能投入其中的变革。 开始主动收集AI的资讯,教程,运用它来提升自己的各项事务的效能,甚至借助它来创造机会。 何必排斥AI。 AI展望周刊,个人向的阅读摘录,关注AI、理解AI,注视正在发生的未来。 📡 全文RSS免费订阅 | 往期周刊见网页版 👨‍💻 电子邮件 联系与交流 📰 推荐「AI资讯简报」一览每日AI新鲜资讯。

March 26, 2023 · 芦苇Z