芦苇读摘,个人向的阅读摘录。涉及主题——科技、人工智能、加密经济。
== CHANGELOG ==
2024/03,调整为『芦苇读摘』。保持阅读、回顾以加深认知。
2023/01,以『AI展望周刊(AI Prospects Weekly)』开始,通过阅读关注AI、了解AI,注视正在发生的未来。
芦苇读摘,个人向的阅读摘录。涉及主题——科技、人工智能、加密经济。
== CHANGELOG ==
2024/03,调整为『芦苇读摘』。保持阅读、回顾以加深认知。
2023/01,以『AI展望周刊(AI Prospects Weekly)』开始,通过阅读关注AI、了解AI,注视正在发生的未来。
是否人机结合是你能选择的吗? 摘录自:《科幻世界 2022/9》/谢文龙《钢铁之躯才是“超人”》 英文“Cyborg”是“cybernetic organism”的结合,表示任何混合了有机体与电子机器的生物。 英国科学家,也是赛博格先驱者,彼得·斯科特·摩根,渐冻症患者。彼得通过多次手术改造,将眼动追踪、AI语音合成、3D合成影像等技术融入自己的身体。 彼得最令人敬佩的地方也是让英国医学界众多从业者不解的地方。彼得在渐冻症的症状恶化之前,意识到了自己需要采取行动来改造身体。在进行了资料的收集以及研究后,他选择了三重造口术,即胃造口术、结肠造口术、膀胱造口术。许多人无法理解彼得为什么要破坏并改造自己原本健康的器官,用套管分别插入他的胃部、结肠以及膀胱,来解决他的进食以及排泄问题。他这一激进的做法在英国医学界引起广泛讨论,质疑声、好奇声接踵而至。 技术的发展必然深度介入人类的演化进程,从身体的“外部组件”,逐步演化为身体的“内部组件”。借助科技力量,将人体改造成强壮又灵活的半机械半肉体,人类无论是感知、认知还是力量都到达了新的层面,出现了自然人类向技术化人类的转变。 ~ 人工耳蜗、人工假肢给众多身体功能残缺的人带去了生的希望,方便了他们的生活。 雾霾来的时候,每个人都会戴上口罩或防毒面具,心脏有问题的时候,很多人并不排斥被放上支架。 现代人生活中形影不离的手机和智能手表,也让我们在一定程度上成了初级的赛博格。 所以说会不会有生化人和基因强化人,并不取决于人本身的选择,而会更多地取决于世界变成什么样子,外部环境对人有什么样的要求。 ~ 日本动漫《攻壳机动队》的通过台词探讨说:“如此说来,我认为你们人类的DNA也不过是一段被设计用来自我储存的程序。生命就像诞生在信息洪流中的一个节点,DNA对生命而言,就像是人类的记忆系统一样,独一无二的记忆造就了独一无二的人。虽则记忆本身就像是虚无的梦幻,人还是要依赖记忆而存活。当电脑已能使记忆外部化时,你们应该认真考虑一下其中的意义……我是诞生于信息海洋中的生命体。” #cyborg #身体改造
AI领域为什么大公司没有护城河? 原文(2023-5-4): https://www.semianalysis.com/p/google-we-have-no-moat-and-neither 中文翻译: https://juejin.cn/post/7229593695653314597 为什么在大语言模型领域,像谷歌和 OpenAI这样的大公司很难建立竞争优势。 开源社区可以更快迭代小型模型。 使用LORA等技术,个人研究人员就可以在短时间内调优小型模型,实现与大型模型相当的效果。这种迭代速度远超大公司。 开源模型更便宜、更可定制。 个人只需几百美元就可以训练出高质量模型,而大公司需要数百万美元训练同等规模的模型。开源模型也没有使用限制。 数据质量比数据量更重要。 开源社区使用小而高质量的数据集就可以获得很好的效果。 拥有整个生态系统的公司才能真正赢得竞争。 比如Meta通过泄露模型赢得了开源社区的大量免费劳动。 开源社区的创新很难被大公司完全控制和吸收。 随着模型和技术的开源,大公司很难长期保持核心技术的优势。 所以,开源的快速迭代能力和低门槛,让社区可以超越大公司在AI模型领域的研发能力,分享成果,削弱竞争优势。
2023年第28周 (07-12 ~ 07-18) AI帮助医疗民主化 文:How To Democratize Healthcare: AI Gives Everyone The Very Best Doctor 主要观点: 美国医疗保健中的最大问题不是医疗质量,而是医疗服务的获取。约20%的成年人没有常规的医疗来源。 富人和穷人的预期寿命差距在不断加大。原因之一是医生和医疗资源分配不均。 医疗成本的飞速增长也是问题的关键所在。 人工智能和机器学习可以通过编码专家知识来放大和加速人类技能,为每个病人提供多名顶级医生的咨询。 人工智能可以持续学习,不断从大量病例中获取知识。它可以记住每个病人的完整病史。 人工智能可以实现医疗民主化,缩小病人与医生的距离,降低医疗成本,使全球每个角落的人都能获得最好的医疗服务。 人工智能不会取代医生,而是放大医生的影响力,延展他们的触角。它有助于实现医疗资源的均等化。 (END)
2023年第23周(06-05 ~ 06-11) Minecraft 成为AI的试炼场,探索 agent 自主应对开放世界的挑战。 (图片取自 minedojo.org) 2019年,MineRL 项目,开放了数据集,并设立了挑战赛,以促进使用深度强化学习(deep RL)应对开放世界的各种挑战。 2023年2月,北京大学 Zihao Wang 领导的团队发表了“第一个能够稳健地完成70+个Minecraft任务的多任务代理”。 2023年5月 来自 Nvida 和多家大学联合研究团队发表的 Voyager —— 具有大型语言模型的开放式具身代理,与其他自动化代理的比较,在完成新任务方面速度明显更快,并且是迄今为止唯一可以解锁珍贵的钻石级工具的 Minecraft 自动化代理。 2023年6月,OpenAI 花费16万美元邀请 Minecraft 玩家,以便捕获人类玩家的游戏视频片段,用于开发/训练AI来玩此游戏。 OpenAI 该项目主页:通过视频预训练学习玩《我的世界》 Voyager 玩 Minecraft 以三种方式使用到 GPT-4 以下内容摘录自文章 How Nvidia uses GPT-4 to make AI better at Minecraft 第一种,生成挑战任务 GPT-4被用于根据Minecraft中当前的物品清单,提出新的挑战任务给Voyager程序。 Voyager 通过格式化的自然语言提示,向GPT-4提供一个物品清单描述,例如: Inventory (5/36): {'oak_planks': 3, 'stick': 4, 'crafting_table': 1, 'stone': 3, 'wooden_pickaxe': 1}, GPT-4 将输出一个关于新挑战的自然语言描述,并解释为什么这是一个合适的新任务,例如: Reasoning: Since you have a wooden pickaxe and some stones, it would be beneficial to upgrade your pickaxe to a stone pickaxe for better efficiency....
2023年第21周(05-22 ~ 05-28) 多模态任务联合训练实现更少参数更优表现 Google AI 提出了一种 多模态任务联合训练 的框架 MaMMUT 。以更简单的架构、更少的参数量实现媲美甚至超过单项大模型的能力表现。 (2023-05-04) MaMMUT 是一种简单紧凑的视觉编码器-语言解码器(vision-encoder language-decoder)模型,2B 参数量。 它共同训练了许多相互冲突的目标,以调和 类似对比(contrastive-like)和 文本生成(text-generative)的任务。 由于它是针对这些不相交的任务进行训练的,因此它可以无缝地应用于多个应用程序,例如图像-文本和文本-图像检索、视觉问答(VQA) 和视频字幕(video captioning)和开放词汇检测(open-vocabulary detection),且优于现有一些大模型实现有竞争力的性能。 还可以更轻松适应视频语言任务。以前的方法使用视觉编码器单独处理每一帧,这需要多次应用视觉编码器,造成速度很慢,并且限制了模型可以处理的帧数,通常只有 6-8 帧。 使用 MaMMUT,使用稀疏视频管直接通过视频中的时空信息进行轻量级适应,只需要执行一次视觉编码器。 第23周(06-05 ~ 06-11) AI写出了更快的算法程序 以下内容摘录自 🔗 官方博文 和机器之心的中文报道 Google DeepMind 的全新强化学习系统 AlphaDev 发现了一种比以往更快的排序算法和哈希算法。这两者都是计算机科学领域中的基本算法,该算法成果已开源并将纳入到主要 C++ 库中供开发人员使用。「估计这次发现的排序和哈希算法每天会在全世界被调用数万亿次。」 现阶段 AlphaDev 探索新算法使用的语言是汇编指令。从头开始探索更快的算法,而不是基于现有算法之上。 Google DeepMind 认为这个层次存在许多改进的空间,而这些改进在更高级的编程语言中可能很难被发现。在这个层次上,计算机的存储和操作更加灵活,这意味着存在更多潜在的改进可能性,这些改进可能对速度和能源使用产生更大的影响。 「这只是 AI 提升代码效率进步的开始。」 现阶段大模型的知识落后问题 T5, GPT-3, PaLM, Flamingo 和 PaLI 等大型模型已经证明了在扩展到数百亿个参数并在大型文本和图像数据集上进行训练时存储大量知识的能力。这些模型在下游任务上实现了最先进的结果,例如图像字幕、视觉问答和开放式词汇识别。 尽管取得了这些成就,但这些模型需要大量的数据进行训练,最终会产生大量的参数(在许多情况下是数十亿个),从而导致大量的计算需求。 此外,用于训练这些模型的数据可能会过时,每次更新世界知识时都需要重新训练。例如,两年前训练的模型可能会产生有关现任美国总统的过时信息。 摘录翻译自 Google Blog