2023.03 AI展望周刊

2023年第3周 (01-16 ~ 01-22)

Santiago: AI will not replace you. A person using AI will.

将 Siri/Alexa 语音助理能力提升 10 倍的秘诀

原文 (2023-01-10)

DrJimFan: 1. Whisper 将语音转换为文本，这是当前最好的开源语音模型。 2. ChatGPT 生成响应文本。 3. VALL-E 合成语音。它可以模仿任何人的声音样本！

1和3都已经开源了模型，2也有API。单个开发者就可以整合这些功能，实现更智能的语音助手。
|480

原文 (2022-10-17)

作者(Bernard Marr)综述了AI当前发展和应用的情况，并预估2023年的几个趋势：

正在进行中的AI普及化。得益于越来越多的AI-based应用、API、低代码平台，使企业和组织能够抹平缺乏专业人才造成在AI技术能力方面的差距，人工智能的力量和效用将变得对我们所有人都触手可及。
生成系AI（或AIGC），该技术已经取得了主流曝光率，在今年我们将看到它被越来越频繁地用于创建合成数据，可供企业用于各种用途。从代码、文本、图片到视频、语音。
要努力克服AI黑箱问题，开发出有道德和可解释的AI。为了解决当下紧迫的需求——对AI的信任。能够解释AI如何做出决策，给出依据，我们才能信任并接受AI在司法和医疗等等方便给出的决策建议，并能够放心的将我们的信息提交给AI。（注：我认为是和答案缺乏可靠性是同一个问题，不能是根据统计学规律给你胡编乱造一个答案。）
工作增强。更多的人将发现自己与机器人和智能机器一起工作，这些机器是专门为帮助我们更好、更有效地完成工作而设计的。例如结合AR提供即时访问数据和分析的能力。为团队提供实时仪表板和报告，即时了解到运营效率的最新情况。虚拟助理将更加普遍，能够快速回答问题，并自动提出完成目标的其他更有效方法。
可持续的AI。AI训练本身也很耗能（对应碳排放）。不过可以协助众多企业改善能效。

原文 (2022-09-21, by Alberto Romero)

生成式AI模型例如 GPT-3, LaMDA, DALL·E, Stable Diffusion, 等等都是通过提示词来使用的。

提示与编程语言的区别，对我们来说，更接近自然语言而更直观，使用的门槛更低。和无代码工具的区别是，无代码工具仍然需要用户学习各种工具以及有编程的逻辑思维和架构能力。

从卡带打孔、机器码、汇编、低级编程语言和高级编程语言，到提示语，使人机交互越来越容易，隐藏了背后的技术复杂性。提示语的直观和简单，将数字用户的障碍减少到最低限度。因此基于提示语的人机交互方式将成为一个我们每天都会使用的工具，用于任何与数字世界有关的事情。

不过，即使提示语是目前与计算机交流的最自然的方式，但它仍然是一种需要学习和掌握的技能。可以把它看作是一种新的话语模式，需要时间来掌握。

同时，提示语并不完美，有一个重要的缺点。人类语言固有的模糊性加上上下文的缺乏。编程语言（包括无代码工具），语法是僵硬而清晰的，它只能表示一件事，计算机不需要 “推理 “或 “理解 “它的意思。

Gary Marcus和Ernest Davis建立了一个 “错误跟踪器"，以捕捉和分类像ChatGPT这样的语言模型所犯的错误。（他们发布了一篇文章说明了为什么要编纂这个文件以及打算用它来做什么）。

文中指出 ChatGPT 是一个概率程序，如果你重复相同的提问，你可能得到相同的结果，或正确的结果，或不同的错误结果。文中给出了很多案例截图。

该数据库是公开的，任何人都可以参与。这是一个很好的资源，可以对这些模型的错误行为以及人们如何避免误用进行严格的研究。这里有一个搞笑的例子，说明为什么这很重要。（引用自 Alberto Romero）

推广：