2023年第10周 (03-06 ~ 03-12)

■ Runway 发布用于生成视频的新模型 Gen-1

🔗 项目主页 https://research.runwayml.com/gen1
🔗 论文: https://arxiv.org/abs/2302.03011

(以下图文摘录自seven_的文章,有删改)

Gen-1可以提供相比之前方法更加逼真的生成效果以及更加细粒度的语言控制。
例如:给Gen-1一段相机拍摄的视频,并且给他输入一个目标指令“Claymation style”,模型会自动将当前视频转换为出粘土动画风格。


(图片来自官方网站视频截图)

Gen-1 不仅可以稳定的处理静态镜头(下图第一行),也可以稳定处理抖动的自拍视频(第二行),无需对输入视频进行任何显式的跟踪调整。

Gen-1 从大规模图像和视频数据集进行训练获得的泛化能力,因此不限于特定的主题领域,支持很多视频编辑功能。

例如改变视频风格,如动漫(第一行)或粘土动画(第二行)。
也能够识别物体对象,可以改变场景环境,例如将白天改为日落(第三行)或将夏季改为冬季(第四行);
可以改变主体角色,例如将徒步旅行者变成外星人(第五行)或将自然界中的熊变成在星空下行走的太空熊(第六行)。
也可以编辑替换背景(最后一行)。


■ 和ChatGPT探讨AI对教育的影响

Reid Hoffman 在这期播客节目中和 ChatGPT 探讨了AI 在教育领域的应用和影响。

  • AI可以通过个性化课程设计、引入新的教学方法等方式来改变教育,但也可能会加剧教育中现存的问题并扩大不同阶层学生之间的差距。
  • AI可以提供个性化的学习体验,通过实时反馈、自适应课程设计等方式帮助学生掌握知识和技能,而人类教师则需要在其中扮演重要的角色。
  • 尽管AI的应用有很大的潜力,但仍需要认真考虑可能带来的风险和负面影响,并制定相关的规范和实践指南。
  • K-12教育应当优先考虑培养学生适应快速变化的世界所需的技能,AI工具可以辅助实现这一目标,但应该看到它们不能替代大规模的教育改革所需的努力。
  • 为确保AI工具能够在教育领域发挥应有的作用,需要政府投资、教师培训、合作等多方面的支持,并注重教育从业者、学生和其他利益相关者的参与。

■ Stable Attribution,帮助找到AIGC图像背后的人类创作者

Jon Stokes 在文章 Stable Attribution: A New Tool Could Ruin Generative AI, Or It Could Save It 中详细探讨了 Stable Attribution 这款工具。

我们知道 Stable Diffusion(稳定扩散)模型,会从在线艺术网站上抓取图像用作训练。这已引起了艺术家的不满,并最终对其提起诉讼。
Stable Attribution(稳定归因)是一款新的工具,用于识别生成模型训练数据中给定生成图像的“源图像”,其目的是为了帮助AIGC可以向艺术家付费,以激励艺术家将其作品包含在Stable Diffusion的训练数据中,并为他们创造一条新的收入流。

尽管该工具的创始人有良好的意图,但作者认为当前的方法并不理想,担心该工具可能会被律师用来向创作者发送大量敲诈信,或被大型内容提供商用来杀死分散式AI。创作者和出版商必须小心使用版权图像,否则会被专门起诉侵权的律师事务所抓住把柄,使用自动化网络爬虫等软件发送敲诈信。

作者质疑Stable Attribution的道德角度,认为它识别出给定图像的“源图像”,并不需要向被识别的“源图像”的所有者支付任何费用或信用。
此外,该工具的可靠性也受到了质疑,因为其所谓的“源图像”只是表面相似,并不具有法律上的价值。

■ PaLM-E: 多模态语言模型与机器人

10号,谷歌博客发文介绍在多模态模型方面的新进展。
PaLM-E 是结合了谷歌大型语言模型 PaLM 与视觉模型 ViT-22B,为机器人开发的一个新模型。将来自视觉和语言领域的知识转移到机器人系统中。

机器人现在可以将传感器数据,例如文本、视觉图像、机器人状态、场景等——以任意顺序,称之为“多模态句子”,输入 PaLM-E 模型,模型输出文本——可以是描述、问题的答案,也可以是一系列决策。


上图中展示的是,要求机器人拿一袋薯片,在机器人行动过程中,工作人员移动了薯片的位置。为了成功完成任务,PaLM-E 制定了一个行动计划,然后在执行任务时通过更新计划来响应世界的变化。

(视频来自 Google AI blog)

PaLM-E 提供了一种训练通用模型的新范例。其结果是 PaLM-E 从视觉和语言领域获得了显着的积极知识转移,提高了机器人学习的效率。

■ MCTS,AlphaGo和AlphaZero的核心组件

实际上 DeepMind 在2022年就开源了AlphaGo和AlphaZero的核心组件“mctx”——JAX-native Monte Carlo Tree Search (MCTS)算法,可以在批量输入中并行运行,并具有出色的速度。MCTS是AlphaGo最复杂的组件之一,也是最难优化的。mctx不仅支持AlphaGo,还支持AlphaZero和MuZero(AlphaZero +解决Atari游戏)。(引用自 Jim Fan)

🔗 MCTS 代码仓库

(END)


AI展望周刊

一份关于人工智能的资讯摘录周刊,记录值得关注的AI产品、技术研究、项目进展、引人思考的观点和鼓舞人心的理念。注视正在发生的未来。

📡 全文RSS免费订阅 | 往期周刊见网页版
👨‍💻 电子邮件 联系与交流