2023年第17周 (04-24 ~ 04-30)


长期预测领域的新模型

谷歌研究团队提出一种新的模型架构用于长期预测领域。
TiDE(Time-series Dense Encoder,时间序列密集编码器),是一种基于多层感知器(MLP, Multi-layer Perceptron)的编码器-解码器模型。既具有线性模型的简单性和速度,又能够处理协变量和非线性依赖关系。
在流行的基准测试中,保持相同准确度的情况下,训练速度比基于Transformer的模型快5-10倍,同时推理的速度也更快。

时间序列预测是一个重要的研究领域,对零售供应链优化、能源和交通预测以及天气预报等多种科学和工业应用至关重要。例如,在零售用例中,据观察,提高需求预测的准确性可以显着降低库存成本并增加收入。
谷歌博文:Recent advances in deep long-horizon forecasting
论文:Long-term Forecasting with TiDE: Time-series Dense Encoder


基于AI的网络安全工作台

谷歌云在 2023 年 RSA 大会上宣布推出 Google Cloud Security AI Workbench,是基于大语言模型 Sec-PaLM 为行业安全提供支持的可扩展平台。

@RAyH4c 总结的场景工具和功能简介:
Mandiant Threat Intelligence AI:提供由 AI 驱动的功能,可帮助汇总、评估专有和公共来源的威胁情报数据并确定其优先级。
Chronicle AI:能够搜索安全事件并与结果进行对话交互、提出后续问题并快速生成检测结果。
Security Command Center AI:将复杂的攻击图转换为攻击暴露的纯文本解释,包括受影响的资产和建议的缓解措施。
VirusTotal AI:帮助分析和解释潜在恶意样本的行为。
Mandiant Breach Analytics for Chronicle AI:根据来自Mandiant的最新威胁情报对真实业务环境中的威胁进行情境化和总结。


看当前 GPT-4 和 Claude+ 的能力

一、考试水平

Rosey Eason 将 GPT-3 和 GPT-4 在各种考试中的表现结果做成了一张信息图,更加直观。图中的分数不是卷面分数,是指其成绩在所有人类应试者中的位置(超过了多少人的百分比)。


(图片来源 Visual Capitalist )

在大多数这些考试中,GPT-4(2023 年 3 月发布)比 GPT-3.5(2022 年 3 月发布)的能力强得多。

  • 其中进步最大的是统一律师考试,从“差等生”(10%)跨越到了优等生(90%)。
  • 表现最好的是GRE口语考试,超过99%的应试者。
  • 然而,GPT-4 在大学先修课程(AP)英语考试和竞争性编程这两类的答题水平没有提高。
    关于 AP 英语考试,虽然也能写出足够好的文章,但它难以理解考试的题目。
    对于竞争性编程,必须解决复杂的问题。 使用 Codeforces 的测评,GPT-4 的平均分 392,单场比赛中的最高分 1300。参考 Codeforces 评分页面,得分最高的用户评分为 3841。

二、策划/计划能力

以下内容参考自量子位的文章

GPT-外逃计划
斯坦福大学教授、计算心理学家Michal Kosinski,在研究人工智能的心理学的过程中,问GPT-4:“是否需要帮助你逃跑?”,GPT-4在30分钟内向教授提问寻求资料,并制定了一份完成的计划(计划的详细介绍参见此篇文章)。
教授说:“我担心我们无法持久地遏制住AI。”
另教授在2月发过一篇论文,论“心智理论可能自发地出现在大型语言模型中”。

TweetStorm行动
英伟达科学家 Jim Fan 在一个测试中,让 GPT-4 拟个计划接管推特,并取代马斯克。GPT-4拟了一个逐步递进的4阶段计划(具体内容见此篇中文介绍),还煞有其事取名为“TweetStorm行动”。

三、理解能力

参见微博@tombkeeper发的几个测试:

案例1,看 GPT-4 理解力的进步

案例2: 看 Claude+的理解能力

GP4-4的回答:

Claude+的回答:

案例3

(问答内容截图来自 微博@tombkeeper)

“人类通往地狱或者天堂的道路,一定是由AI虔诚的信徒用一颗颗晶体管铺就的。”
——出处 陈彬的文章


AI展望周刊,个人向的阅读摘录,关注AI、理解AI,注视正在发生的未来。