芦苇读摘,个人向的阅读摘录。涉及主题——科技、人工智能、加密经济。
== CHANGELOG ==
2024/03,调整为『芦苇读摘』。保持阅读、回顾以加深认知。
2023/01,以『AI展望周刊(AI Prospects Weekly)』开始,通过阅读关注AI、了解AI,注视正在发生的未来。
芦苇读摘,个人向的阅读摘录。涉及主题——科技、人工智能、加密经济。
== CHANGELOG ==
2024/03,调整为『芦苇读摘』。保持阅读、回顾以加深认知。
2023/01,以『AI展望周刊(AI Prospects Weekly)』开始,通过阅读关注AI、了解AI,注视正在发生的未来。
2023年第9周 (02-27 ~ 03-05) 人人都能使用AI很重要,否则加剧不平等。 (Generated with StableDiffusion 1.5) 实践:用AI总结视频内容 以小Lin说的这期视频为例,是个很好的科普视频,回顾了ChatGPT和聊天机器人的历史,以及OpenAI、微软和谷歌在其中的角色和故事。 (视频截图) 以下是 ChatGPT 对视频内容的概括: “视频介绍了Chat GPT,一个强大的聊天机器人,它具有强大的自然语言生成能力,可以编写脚本和小说,甚至参加医学和司法考试。该视频还探讨了聊天机器人的起源,机器学习的基本理念,神经网络的发展,以及OpenAI和微软的合作。视频还提到了大型语言模型的优缺点,需要对其使用谨慎并审慎考虑其输出。 Chat GPT 的突破在于它可以提高人类和机器之间的沟通效率,但也引发了一些问题,如可能导致谁失业等。” 具体方法和过程是: 首先用开源的AI模型Whisper(来自于OpenAI)+ 开源工具 autocut,将音频听录成字幕。 再人工将内容文本按篇章进行分段,让ChatGPT分别进行总结。 最后将所有分段总结合并在一起,再让ChatGPT做一次总结。 Whisper 和 ChatGPT 都是支持多语言的,所以也可以直接实现跨语言的内容总结。 OpenAI 上线 ChatGPT 和 Whisper API 服务 3月1日,OpenAI 推出 ChatGPT 和 Whisper API,使开发者能够将先进的文本对话和语音转文本能力,集成到他们的程序和产品中。 公布的 gpt-3.5-turbo 模型是和当前 ChatGPT 使用的相同模型。相较之前的 text-davinci-003 模型,成本下降了 10 倍! 调用 API 的计费价格也随之降低。 Whisper 是 OpenAI 开源的语音转文本模型,支持多语言(包括中文),效果很好。 这将进一步促进更多应用场景的出现。官方博文 中也演示了一些企业已使用新版API将 ChatGPT的能力融入到了自身的产品中,例如 Snapchat、Quizlet、Instacart等。 OpenAI 还根据开发者反馈调整了其 API 的服务条款,例如不再将通过API提交的数据用于训练 ChatGPT。 商业服务上,可提供专用实例(服务器),以便用户更好地控制特定模型版本和系统性能。 内容参考自官方博文。 以及 Chat completions 的API 文档。...
2023年第8周 (02-20 ~ 02-26) 闲言:你可以选择成为一名“AI训练师”,微调预训练的大模型,用独有数据铸造自己的独特价值。 不要让版权巨头垄断AIGC 原文: Don’t Let Disney Monopolize A.I.-Generated Art , by Jon Stokes AIGC作品的版权问题引起了广泛的讨论和争论,然而在法律上仍处于模糊地带。这篇文章观察和探讨了大公司所处的位置以及潜在的公平性问题。 在独立艺术家起诉 Stable Diffusion 所属公司 Stability AI 的时候,迪士尼和好莱坞其他公司对此一直保持着沉默,虽然这些AI工具也可以根据文本提示生成出具有标志性版权角色的图片。大公司们并非不在乎,而是在观察,因为对他们来说,事关生死存亡。 起诉 Stable Diffusion 的独立艺术家可能没有意识到这一点,但他们正在做老鼠的肮脏工作。 文章中推演了具体场景,随着AIGC技术和工具的逐步完善,未来可以代替整个工作室和知识产权公司,从而威胁到诸如迪士尼、皮克斯和漫威等公司的存在。独立艺术家和个人可以更容易地创作、传播和获取数字作品。 (图片由人工提示 + 开源模型Stable Diffusion生成) 如果AIGC被控非法使用版权素材成立,类似Stable Diffusion这类开源的、可自由使用的工具和数字作品将被大型公司要求关闭其公开访问。封闭的模型、集中的、可审查的内容将以可控的、付费的方式填补内容需求。这将导致独立创作者和非商业用户无法使用这些工具和内容,而迪士尼等大公司可以与微软、谷歌等合作使用专有的AI工具制作大量新的内容,并受版权保护。 由此技术进步带来的巨大收益将再被少数人垄断。我们需要更加深入地思考如何在保护知识产权的同时,促进AIGC技术的公平使用和创新? 为什么生成式AI激怒了艺术家而不是作家 ChatGPT 比 AI 艺术更受欢迎,为什么作家没有反应? 原文: Why Generative AI Angers Artists but Not Writers, by Alberto Romero 文章指出,生成AI会对所有类型的办公室工作产生影响。艺术家、作家、程序员和任何被称为“白领”的人都处于危险之中。虽然生成AI可能存在缺陷,但它有潜力颠覆知识和创意工作,不久之后,使用最先进的AI系统的个人,其能力和价值将等于现在的一个团队。 (图片由人工提示 + 开源模型Stable Diffusion生成) 艺术家是最受威胁的,因为他们的作品是以风格为主导的,而生成AI可以很容易地混合和重新组合数据以制作类似的作品。相比之下,作家不太受威胁,因为他们的作品中的风格并不像视觉艺术那么重要。虽然有些作家可能会尝试利用生成式AI,但其他作家则对其视而不见。 人们在理解图像和语言时有不同感知方式。由于语言的精确性更高,人们更容易识别语言中的对错和好坏,因此文学作品比视觉艺术更难被AI替代。语言可以准确地传达意义,而图像则更容易被人们解释和理解。 微软推出基于AI驱动的新Bing搜索引擎和浏览器 得益于投资 OpenAI,微软使用 ChatGPT 背后的技术来重新设计搜索引擎和浏览器,以提供更好的搜索结果、更完整的答案、新的聊天体验和生成内容的能力。微软认为,AI将从根本上改变每个软件类别,从最大的类别开始——搜索引擎。旨在通过重新设计这些日常使用的工具,让人们更好地利用网络的知识。 发布会完整视频:Introducing your copilot for the web: AI-powered Bing and Microsoft Edge...
2023年第7周 (02-13 ~ 02-19) “从长远来看,人类进步和经济增长的唯一真正驱动力是能够促进科学进步的社会结构,然后是科学进步本身。” —— Sam Altman 下一个时代的人工智能 OpenAI 的CEO Sam Altman 在2022年9月(是在12月发布ChatGPT之前)的一次论坛中谈论人工智能的新前沿,有很多前瞻性的观点或洞察,非常值得一读。 原文: 文字版,视频版 Sam Altman 认为: 这些强大的模型将成为新的技术平台,将诞生大量新公司基于模型接口提供商业服务。 初创企业不必创建基础大模型,只需在细分场景中优化微调出一个特定版本的模型,关键是拥有唯一的数据,并产生飞轮效应。称之为中间层,将创造很多价值。 当前人们最大的认知错误是“认为AI是基于已有数据训练出来的,不能产生新知识。能够降低智能的成本,但不会增加人类的知识总和” 在科学方面,正在发生两件事,一是科学专用产品,例如 AlphaFold (注:可以找到新的蛋白质结构),正在产生巨大的价值,这种方式也会越来越多。二是基于AI的工具可以让我们所有人都更有效率,帮助我们思考新的研究方向,或编写代码,这对工程师或科学家的净产出的影响,是对科学作出贡献的另外一种方式。 以上两件事是很大的进步、且会加速。这将是技术发展、科学发展发生方式的重大变化。 “我坚信,从长远来看,人类进步和经济增长的唯一真正驱动力是能够促进科学进步的社会结构,然后是科学进步本身。” 然后是一件更大的事——很好,但也更让人害怕的事——开始探索让AI成为AI科学家和自我改进。我们是否能让人工智能作为一名开发者,把我们(OpenAI)在做的事自动化?帮助我们解决我们还不知道如何解决的真正困难——AI模型对齐问题? 什么是对齐问题(alignment problem)? 我们要制造这个非常强大的系统,如果它不按我们的意愿行事,或者它的目标与我们的目标相冲突,那将是非常糟糕的,这些科幻作品中有很多描述,或者它并不那么关心我们的目标。 所以我们如何构建 AGI 来做最符合人类利益的事情?我们如何确保人类能够决定人类的未来?我们如何避免意外误用,即出现我们没有预料到的错误情况?还有故意误用,即坏人使用AGI造成巨大危害,即使这正是另一个人想要的。以及内部对齐问题,如果这个系统变成了一个把我们视为威胁的生物怎么办? 关于人工智能接下来的走向:语言模型会比人们想象的走得更远,很多人所说的计算耗尽、数据耗尽的说法是对的。但算法上还会有很多进步,我们将度过一段非常激动人心的时光。1,将会有真正的多模态模型,不仅是文本和图像。2,将拥有不断学习的模型。现在的模型,例如GPT,只停留在训练后的状态,使用它的次数越多,它并没有变得更好。 AI 将无处不在。未来十年的一个基本趋势是——智能的边际成本和能源的边际成本都将迅速趋向于零。这是两个最基础的成本,当社会的整个成本结构发生变化时,我们知道各方面都会发生巨大变化,但无法预测具体怎么变化。 观众提问类似GPT-3这样的技术将对生命科学的研究产生什么影响? S.A. 答道:目前可用的模型并不足以对该领域产生重大影响,只是在某些情况下有点帮助。不过,我认为这种情况将会改变,这是一个少有的有机会创立新的千亿美元到万亿美元公司的领域之一。 生物学的限制仍将存在,人体试验需要花费很长时间。因此,一个有趣的点在于:你可以在哪些方面避免这种情况?我所见过的最有趣的合成生物公司,都找到了一种让循环时间变得超级快的方法。这有利于AI为你提供很多好的想法,但你仍然需要测试它们,这就是现在的情况。 “我认为AI不会改变所有深层的生物学因素。我认为我们仍然会非常关注与他人的互动,100年后人们所关心的事情更有可能是人类5万年前关心的事情,而不是100年前。” 提示词工程(prompt engineering)是一个过渡,之后自然语言就是通用的交互接口,直接用语言告诉计算机你想让它做的任何事。所以永远重要的是想法的质量和对你想要的东西的理解。艺术家仍然会在图像生成方面做得最好,但不是因为他们想出了某个魔法提示词,而是因为他们能够用我没有的创造性来表达它。 随着 AI 的持续发展,显然对社会和经济的影响将是巨大的。我们必须弄清楚的事情是——我们如何考虑公平分配财富、访问 AGI 系统的途径(这个时代的商品)。以及治理方式,如何集体决定它们可以做什么,不能做什么等等。我认为找出这些问题的答案将非常重要。 大模型是基础设施,大量创业机会在“中间层”。是在已有的大模型基础上,为每个垂直领域训练自己的模型。 相关资讯 晚点LatePost的这篇文章:《火鸡追上雄鹰,OpenAI 的成功为何难以复制》,描述了OpenAI 的诞生和发展的过程。 硅谷101这期播客:《生命科学走出一百年黑暗探索|AIGC特辑》,嘉宾来自生物医药行业,从业内角度聊了现阶段AI技术和生物医药已有的结合方式和成果。 Toolformer: 一款可以自主学习使用工具的语言模型 模型的论文 以下是翻译和摘录@anita在tweets 写的介绍: 要克服当今语言模型的局限性,简单的方法就是赋予它们使用外部工具(通过API调用)的能力,如搜索引擎、计算器或日历。更好的是,模型可以自主学习如何使用这些工具。 那么它是如何实现的呢?训练过程非常简单: 使用几个API调用示例,生成未来的潜在API请求数据集。 过滤出效果良好的样本。 在这些“有用”的样本上对LLM进行微调。 最终,模型可以决定: 调用哪些API, 何时调用它们, 传递哪些参数,以及 如何最好地将结果融入未来的标记预测中。 通过使用计算器作为例子,Toolformer 在数学和算术问题上表现优于 GPT-3,但也存在一些限制,例如不能在不同工具之间链接 API 调用、只能使用非交互式工具,需要大量示例才能生成良好的 API 请求等。...
2023年第6周 (02-06 ~ 02-12) 闲言:为网站开启了RSS全文输出,可以通过RSS自由的订阅。 ChatGPT 对人才需求带来的变化,以及应对措施和机会 @starzqeth 在推文中围绕以下3点分享其认为 ChatGPT 带来的变化和机遇: ChatGPT会替代大量职位,我们需要具备差异化能力:想象力、决策和沟通能力 ChatGPT 几乎完全可替代 第一类 Entry Level (问题明确,解法唯一) 人才,客服/实习生的职位会被压缩甚至取消。举例: AI 成本为1/800, 初级画师被抢活 对于 Middle Level (问题明确,方法不唯一) 的问题,若才基于历史信息的总结和小幅度创新,篇幅较短的情况下,ChatGPT 基本也能胜任。举例:用ChatGPT + Midjourney + Clipchamp,生成的绘本故事媲美市面上80%的产品 High Level ( 问题不明确,方法也不唯一)的问题,核心是定义问题,ChatGPT 暂不能胜任:想象力、决策和沟通能力。 传统的人才培养体系将失效,我们需要为自己设计培训系统 2023将是 solopreneur(个体企业家)元年,个人创作者必须升级自己 更多内容见 推特原帖。 ChatGPT vs. iPhone 两种技术带来的思考 @Szhans 在即刻发起讨论:ChatGPT vs. iPhone 两种技术有何异同? 就它们制造产业变革和影响来说,对比思考能否启发对未来的想象? @数字游民Jarod 的观点:智能触摸屏和LLMs都是人类在人机交互领域做出的重大突破,前者从硬件物理层面简化了人类携带及操控强计算设备的方式,而后者则将抹平人机之间的语言和逻辑障碍,进一步帮助人类解锁生产力。 智能触摸屏其实是在传统GUI操作系统基础上(Win/Mac鼠标键盘)做的改进,而LLMs则更像是一种全新的技术形态,所以从革新程度角度来看,二者并不具有可比性,后者带来的变革将无疑会更加深刻。 @Rename 的观点: 把Internet类比成一个超大的图书馆。 Google是这个图书馆的管理员,他总能快速找到你想看的书。 ChatGPT是这个图书馆的老者,他几乎看完了里面的书,但很多东西理解还很浅。你问他很多东西,他都能给你说个大概。 那iPhone是什么? 本来我去图书馆要坐2趟巴士花10几分钟,现在下楼就有专车送我过去,而且这趟专车只为我服务,24小时待命,想去哪就去哪。 终极问题:图书馆的书由谁去写?老者能写吗?依靠老者答案去认知世界的人能写吗? 生成式AI,不断逼近真实的创作 原文:Ben Buchanan:Generative AI and the shrinking time-gap between unrecognizable realities...
2023年第5周 (01-30 ~ 02-05) 闲言:AIGC 蓬勃发展,AI对创作性工作的冲击来得如此迅猛。文本、图像、人声、音乐、视频的生成都已逐步进展到可以融入日常工作生活的实用阶段。模型和产品层出不穷。 你唱歌,AI给你伴奏 谷歌推出 SingSong 模型,可以根据唱歌的人声,生成合适的配乐。巧妙的使用了已有的人声和背景音乐分离的模型,对大量的音乐语料进行分离,获得大量的人声-音乐音频训练数据,再反过来训练 SingSong 模型。 🔗 项目页面,论文 (视频来源) 最近有多个文本到音频的模型发布: AudioLDM: Text-to-Audio Generation with Latent Diffusion Models Moûsai: Text-to-Music Generation with Long-Context Latent Diffusion Google MusicLM: Generating Music From Text 音乐生成模型才刚刚开始 DrJimFan:最新的音乐模型仍然缺乏人类作曲家的长期连贯性和全局结构。如果用图像模型来类比,大致相当于DALL-E v1的技能水平。但我们会在 2023 年看到 MidJourney 级别的真正有能力的 AI 音乐家吗? AI模仿盲人实现“无地图”导航代理 人类有能力依靠触觉和记忆来导航光线不足的空间。@MetaAI 发表新论文,其训练盲人 AI 代理进行导航——即除了自我运动之外没有任何感官输入,并在他们的记忆中发现了墙面跟随、碰撞检测神经元和类似地图的表征。 这为“无地图”导航代理的成功提供了新的见解。 大脑回放机制的研究帮助我们深度学习与推理的结合 @DeepMind: 我们大脑中的重放被比作人工智能代理的 “经验重放”。🔁 🧠 但新的研究表明,这种现象在计算上比我们想象的更丰富–而且可以帮助我们理解大脑如何将深度学习与推理结合起来。 论文:Replay and compositional computation Dreamix 一款视频生成模型 论文 Dreamix: Video Diffusion Models are General Video Editors...