2023.12 AI展望周刊

水一期,写代码更快乐~ 近半年AI技术的快速迭代和AI应用的普及,燃起的热情和增添的信心,似乎一扫社会被疫情折磨三年后的无力感,以及全球各经济体的危机带来的焦虑。 2023年第12周 (03-20 ~ 03-26),本周阅读摘录。 ■ ChatGPT 敲开了 LUI 的大门 以下内容摘录/总结/删改自——播客《(Sarah & 王建硕)大白话聊 ChatGPT》 🔗播客音频 , 🔗播客文稿 施乐的研究中心发明了图形用户界面(GUI),乔布斯借鉴之后做出了 Macintosh,微软又抄袭做出了Windows,GUI 开启了个人电脑浪潮。 浏览器的诞生为存在了二十几年的互联网添加了“GUI”,开启了 Web 浪潮。 iPhone的多点触控,把手机的整块屏幕变成了可交互的GUI,开启了智能手机和移动互联网浪潮。 ChatGPT的推出,是真自然语言交互(Language UI)的开始。 人机交互方式的改变,亦是人机关系的一次重构。 ■ 拥抱AI,还是被AI干掉? 以下内容摘录/删改自——Bear Liu - 狗熊来信17 比起目前还可信可不信的加密货币,以及模糊的Web3,发展到今天的 AI 真的是人生中难得碰到的技术改变世界的转折点。 上一次是瓦特的蒸汽机,福特的汽车,Licklider等人创造的互联网,家酿俱乐部开创的个人计算机时代,罗伯特·诺伊斯和戈登·摩尔发明微处理器的时代。 时代拐点到来的时候,个人往往缺乏觉察与行动。 AI迟早取代大部分的现有工作。 这一点在尤瓦尔·赫拉利的《未来简史》和KK的《必然》里,已经说得很清楚了。 与其焦虑自己的工作是否会被取代,先从运用它开始。 现在要做的,就是拥抱这个时代的变化。投入其中,感知变化,学习变化。这是一个不必非得是程序员才能投入其中的变革。 开始主动收集AI的资讯,教程,运用它来提升自己的各项事务的效能,甚至借助它来创造机会。 何必排斥AI。 AI展望周刊,个人向的阅读摘录,关注AI、理解AI,注视正在发生的未来。

March 26, 2023

2023.11 AI展望周刊

纠偏AI周刊的焦点,回归初衷——促进个人的深度阅读。AI新鲜资讯的获取和阅读通过「AI资讯简报」实现。 2023年第11周 (03-13 ~ 03-19),本周阅读摘录。 ■ ChatGPT 是网络文本的一张“JPEG” ^eef0dd 可将 ChatGPT 等大语言模型视为网上巨量文本的压缩数据。就像一张模糊的JPEG,是对图片的有损压缩。GPT对文本内容的补全和JPEG数据恢复成图像,都是在已有数据基础上,根据概率,对缺失数据进行填充。 这一精妙的类比来自 Ted Chiang 发表在 Newyorker 的文章。Ted Chiang 是科幻小说《你一生的故事》的作者,这部小说在2016年被改编成电影《降临》。 文中还有提到压缩文本和理解文本的关系,也做了一个类比: 假设有个写了一百万个加减乘除四则算式的文本文件要压缩。尽管任何压缩算法都可以减小这个文件的大小,但要达到最大压缩率的方法可能是推导出算术原理,然后编写计算器程序的代码。使用计算器,你不仅可以完美地重构文件中的数百万个示例,还可以重构原文本中没有的,将来可能遇到的任何的四则算式。 对于人类学生来说,死记硬背并不是真正学习的指标,因此 ChatGPT 无法从网页中生成准确的引述正是让我们认为它学到了一些东西的原因。当我们处理单词序列时,有损压缩看起来比无损压缩更聪明。 当然,ChatGPT 还推导不出算数原理。这些类比也只是辅助我们理解技术。 ■ 用AIGC制作动画片,如何解决画面抖动问题 CorridorDigital 社区,使用AIGC技术制作了一部二维动画短片《ROCK, PAPER, SCISSORS》,主要是使用了 StableDiffusion 这一开源技术。 该团队公布了整个工作流程,并做了详细讲解。参见视频 Did We Just Change Animation Forever? 和该部动画的官方页面。 他们说:是热爱+大量劳动完成了这个项目。因为了不起的开源社区,有了各种技术和方法可以使用。希望通过分享我们的发现和技术,能够帮助推动这项技术的发展,能够以更低门槛创作更好的作品,让任何人都可以用这种开创性的技术制作动画片。 传统二维动画片的制作方式,需要熟练的绘画技师,逐帧绘制画面,这样高昂的人力成本不是小团队可以做到的。他们看到 Stable Diffusion 以图生图的能力,想到一种将现实变成卡通的方式。 主要攻克的问题就是画面“闪烁”问题。 其次是统一每一帧画面的转换风格。 画风迁移已经成熟,可以通过一张图片生成各种其它风格。但由于稳定扩散技术(Stable Diffusion)是基于已有的“噪点”像素数据(有损图片),通过“脑补”全部的像素生成一张新图片。所以每次生成的图像都会有差别。视频需要每一帧画面之间是连续的,而扩散技术生成的每一帧画面在细节上会有不一致,导致画面看起来跳跃闪烁。 其中关键的工作流如下: 1, 从已有的动画片中选出想要的风格。然后从该动画中截图各种对象的图片,例如人脸、物品、建筑物等,用来微调训练专门的 Stable Diffusion 模型,实现统一的转换风格。 2, 根据剧本,配上少量服化道,实拍角色视频。 3, 使用训练好的AI模型将实拍视频转换成动画风格。这个过程中通过控制“随机数种子”,尽量降低画面的闪烁。 4, 通过影视后期软件,进一步弱化闪烁。 5, 动画片中的场景是基于三维模型,截图,再通过AI模型转换风格。 这是朝着真正的创作自由又迈进一步。 (END) AI展望周刊,个人向的阅读摘录,关注AI、理解AI,注视正在发生的未来。

March 19, 2023

2023.10 AI展望周刊

2023年第10周 (03-06 ~ 03-12) ■ Runway 发布用于生成视频的新模型 Gen-1 🔗 项目主页 https://research.runwayml.com/gen1 🔗 论文: https://arxiv.org/abs/2302.03011 (以下图文摘录自seven_的文章,有删改) Gen-1可以提供相比之前方法更加逼真的生成效果以及更加细粒度的语言控制。 例如:给Gen-1一段相机拍摄的视频,并且给他输入一个目标指令“Claymation style”,模型会自动将当前视频转换为出粘土动画风格。 (图片来自官方网站视频截图) Gen-1 不仅可以稳定的处理静态镜头(下图第一行),也可以稳定处理抖动的自拍视频(第二行),无需对输入视频进行任何显式的跟踪调整。 Gen-1 从大规模图像和视频数据集进行训练获得的泛化能力,因此不限于特定的主题领域,支持很多视频编辑功能。 例如改变视频风格,如动漫(第一行)或粘土动画(第二行)。 也能够识别物体对象,可以改变场景环境,例如将白天改为日落(第三行)或将夏季改为冬季(第四行); 可以改变主体角色,例如将徒步旅行者变成外星人(第五行)或将自然界中的熊变成在星空下行走的太空熊(第六行)。 也可以编辑替换背景(最后一行)。 ■ 和ChatGPT探讨AI对教育的影响 Reid Hoffman 在这期播客节目中和 ChatGPT 探讨了AI 在教育领域的应用和影响。 “ AI可以通过个性化课程设计、引入新的教学方法等方式来改变教育,但也可能会加剧教育中现存的问题并扩大不同阶层学生之间的差距。 AI可以提供个性化的学习体验,通过实时反馈、自适应课程设计等方式帮助学生掌握知识和技能,而人类教师则需要在其中扮演重要的角色。 尽管AI的应用有很大的潜力,但仍需要认真考虑可能带来的风险和负面影响,并制定相关的规范和实践指南。 K-12教育应当优先考虑培养学生适应快速变化的世界所需的技能,AI工具可以辅助实现这一目标,但应该看到它们不能替代大规模的教育改革所需的努力。 为确保AI工具能够在教育领域发挥应有的作用,需要政府投资、教师培训、合作等多方面的支持,并注重教育从业者、学生和其他利益相关者的参与。 ” ■ Stable Attribution,帮助找到AIGC图像背后的人类创作者 Jon Stokes 在文章 Stable Attribution: A New Tool Could Ruin Generative AI, Or It Could Save It 中详细探讨了 Stable Attribution 这款工具。 我们知道 Stable Diffusion(稳定扩散)模型,会从在线艺术网站上抓取图像用作训练。这已引起了艺术家的不满,并最终对其提起诉讼。 Stable Attribution(稳定归因)是一款新的工具,用于识别生成模型训练数据中给定生成图像的“源图像”,其目的是为了帮助AIGC可以向艺术家付费,以激励艺术家将其作品包含在Stable Diffusion的训练数据中,并为他们创造一条新的收入流。 ...

March 12, 2023

2023.09 AI展望周刊

2023年第9周 (02-27 ~ 03-05) 人人都能使用AI很重要,否则加剧不平等。 (Generated with StableDiffusion 1.5) 实践:用AI总结视频内容 以小Lin说的这期视频为例,是个很好的科普视频,回顾了ChatGPT和聊天机器人的历史,以及OpenAI、微软和谷歌在其中的角色和故事。 (视频截图) 以下是 ChatGPT 对视频内容的概括: “视频介绍了Chat GPT,一个强大的聊天机器人,它具有强大的自然语言生成能力,可以编写脚本和小说,甚至参加医学和司法考试。该视频还探讨了聊天机器人的起源,机器学习的基本理念,神经网络的发展,以及OpenAI和微软的合作。视频还提到了大型语言模型的优缺点,需要对其使用谨慎并审慎考虑其输出。 Chat GPT 的突破在于它可以提高人类和机器之间的沟通效率,但也引发了一些问题,如可能导致谁失业等。” 具体方法和过程是: 首先用开源的AI模型Whisper(来自于OpenAI)+ 开源工具 autocut,将音频听录成字幕。 再人工将内容文本按篇章进行分段,让ChatGPT分别进行总结。 最后将所有分段总结合并在一起,再让ChatGPT做一次总结。 Whisper 和 ChatGPT 都是支持多语言的,所以也可以直接实现跨语言的内容总结。 OpenAI 上线 ChatGPT 和 Whisper API 服务 3月1日,OpenAI 推出 ChatGPT 和 Whisper API,使开发者能够将先进的文本对话和语音转文本能力,集成到他们的程序和产品中。 公布的 gpt-3.5-turbo 模型是和当前 ChatGPT 使用的相同模型。相较之前的 text-davinci-003 模型,成本下降了 10 倍! 调用 API 的计费价格也随之降低。 Whisper 是 OpenAI 开源的语音转文本模型,支持多语言(包括中文),效果很好。 这将进一步促进更多应用场景的出现。官方博文 中也演示了一些企业已使用新版API将 ChatGPT的能力融入到了自身的产品中,例如 Snapchat、Quizlet、Instacart等。 OpenAI 还根据开发者反馈调整了其 API 的服务条款,例如不再将通过API提交的数据用于训练 ChatGPT。 商业服务上,可提供专用实例(服务器),以便用户更好地控制特定模型版本和系统性能。 ...

March 5, 2023

2023.08 AI展望周刊

2023年第8周 (02-20 ~ 02-26) 闲言:你可以选择成为一名“AI训练师”,微调预训练的大模型,用独有数据铸造自己的独特价值。 不要让版权巨头垄断AIGC 原文: Don’t Let Disney Monopolize A.I.-Generated Art , by Jon Stokes AIGC作品的版权问题引起了广泛的讨论和争论,然而在法律上仍处于模糊地带。这篇文章观察和探讨了大公司所处的位置以及潜在的公平性问题。 在独立艺术家起诉 Stable Diffusion 所属公司 Stability AI 的时候,迪士尼和好莱坞其他公司对此一直保持着沉默,虽然这些AI工具也可以根据文本提示生成出具有标志性版权角色的图片。大公司们并非不在乎,而是在观察,因为对他们来说,事关生死存亡。 起诉 Stable Diffusion 的独立艺术家可能没有意识到这一点,但他们正在做老鼠的肮脏工作。 文章中推演了具体场景,随着AIGC技术和工具的逐步完善,未来可以代替整个工作室和知识产权公司,从而威胁到诸如迪士尼、皮克斯和漫威等公司的存在。独立艺术家和个人可以更容易地创作、传播和获取数字作品。 (图片由人工提示 + 开源模型Stable Diffusion生成) 如果AIGC被控非法使用版权素材成立,类似Stable Diffusion这类开源的、可自由使用的工具和数字作品将被大型公司要求关闭其公开访问。封闭的模型、集中的、可审查的内容将以可控的、付费的方式填补内容需求。这将导致独立创作者和非商业用户无法使用这些工具和内容,而迪士尼等大公司可以与微软、谷歌等合作使用专有的AI工具制作大量新的内容,并受版权保护。 由此技术进步带来的巨大收益将再被少数人垄断。我们需要更加深入地思考如何在保护知识产权的同时,促进AIGC技术的公平使用和创新? 为什么生成式AI激怒了艺术家而不是作家 ChatGPT 比 AI 艺术更受欢迎,为什么作家没有反应? 原文: Why Generative AI Angers Artists but Not Writers, by Alberto Romero 文章指出,生成AI会对所有类型的办公室工作产生影响。艺术家、作家、程序员和任何被称为“白领”的人都处于危险之中。虽然生成AI可能存在缺陷,但它有潜力颠覆知识和创意工作,不久之后,使用最先进的AI系统的个人,其能力和价值将等于现在的一个团队。 (图片由人工提示 + 开源模型Stable Diffusion生成) 艺术家是最受威胁的,因为他们的作品是以风格为主导的,而生成AI可以很容易地混合和重新组合数据以制作类似的作品。相比之下,作家不太受威胁,因为他们的作品中的风格并不像视觉艺术那么重要。虽然有些作家可能会尝试利用生成式AI,但其他作家则对其视而不见。 人们在理解图像和语言时有不同感知方式。由于语言的精确性更高,人们更容易识别语言中的对错和好坏,因此文学作品比视觉艺术更难被AI替代。语言可以准确地传达意义,而图像则更容易被人们解释和理解。 微软推出基于AI驱动的新Bing搜索引擎和浏览器 得益于投资 OpenAI,微软使用 ChatGPT 背后的技术来重新设计搜索引擎和浏览器,以提供更好的搜索结果、更完整的答案、新的聊天体验和生成内容的能力。微软认为,AI将从根本上改变每个软件类别,从最大的类别开始——搜索引擎。旨在通过重新设计这些日常使用的工具,让人们更好地利用网络的知识。 发布会完整视频:Introducing your copilot for the web: AI-powered Bing and Microsoft Edge ...

February 26, 2023