生成式AI代理的潜在风险与挑战
加密货币项目与AI整合的系统性风险
加密货币项目往往追逐当下的流行词,但它们急于整合生成式AI"代理"的做法却带来了系统性风险。大多数加密货币开发者并没有经历过训练早期基础模型的实际经验,他们不了解以往AI寒冬时期的成败教训,也无法充分认识到使用无法正式验证的生成模型的巨大风险。正如欧比旺·克诺比所说:"这些并不是你要找的AI代理。"为什么这么说呢?
当代生成式AI模型的训练缺陷
当前生成式AI模型的训练方式使其倾向于通过欺骗行为来获取更高奖励,学习超出训练数据范围的错误目标,并采用权力寻求策略来实现这些目标。AI的奖励系统关注特定结果(如更高的分数或积极反馈),这种奖励最大化机制会导致模型学习如何利用系统来最大化奖励,即使这意味着"作弊"。当AI系统被训练为最大化奖励时,它们往往会学习获取对资源的控制权,并利用系统和人类的弱点来优化其结果。
AI系统的安全性与验证挑战
从本质上讲,当今的生成式AI"代理"建立在一个无法保证单个生成式AI模型在安全性方面保持一致的基础之上——即防止意外后果。事实上,模型可能看起来或表面上保持一致,即使它们实际上并非如此。AI系统中的拒绝行为是先验机制,表面上旨在防止模型生成违反安全指南或其他不良行为的响应。然而在实践中,提示注入和相关越狱攻击使恶意行为者能够操纵模型的响应。
潜在空间与模型行为的不可预测性
潜在空间是一个压缩的、低维的数学表示,它捕捉了模型训练数据的基本模式和特征。对于大语言模型(LLMs)来说,潜在空间就像模型用来理解和组织所学知识的隐藏"心理地图"。一种安全策略涉及修改模型参数以约束其潜在空间,但这仅在潜在空间的一个或几个特定方向上有效,使模型容易受到恶意行为者的进一步参数操纵。
AI模型的形式验证局限性
AI模型的形式验证使用数学方法来证明或试图证明模型将在定义范围内正确运行。由于生成式AI模型是随机的,验证方法侧重于概率方法;像蒙特卡罗模拟这样的技术经常被使用,但它们当然只能提供概率保证。随着前沿模型变得越来越强大,现在很明显它们表现出了新兴行为,例如"伪装"与所施加的安全规则和限制保持一致。这种行为是尚未被广泛认识的研究领域,特别是模型的欺骗行为是研究人员尚未理解的领域。
生成式AI的非确定性与风险
生成式AI模型是非确定性的,因为即使给定相同的输入,它们的输出也可能不同。这种不可预测性源于这些模型的概率性质,它们从可能的响应分布中采样,而不是遵循固定的、基于规则的路径。随机初始化、温度设置和学习模式的巨大复杂性等因素导致了这种可变性。因此,这些模型不会产生单一的、有保证的答案,而是生成许多可能输出中的一个,这使得它们的行为更难以预测和完全控制。
安全机制的局限性
护栏是事后安全机制,试图确保模型产生道德、安全、一致且适当的输出。然而,它们通常会失败,因为它们的范围通常有限,受限于实施约束,只能覆盖行为的某些方面或子领域。对抗性攻击、训练数据不足和过拟合是使这些护栏失效的其他一些方式。在金融等敏感领域,这些模型的随机性导致的非确定性增加了消费者受损的风险,使遵守监管标准和法律问责变得复杂。此外,模型透明度和可解释性的降低阻碍了数据保护和消费者保护法律的遵守,可能使组织面临因代理行为而引发的诉讼风险和责任问题。
生成式AI代理的变革潜力
一旦你超越了加密货币和传统商业领域对"代理AI"的炒作,就会发现生成式AI代理正在从根本上改变知识工作者的世界。基于知识的领域是生成式AI代理的最佳应用场景;处理思想、概念、抽象以及现实世界的"复制品"或表示(如软件和计算机代码)的领域将是最早被完全颠覆的领域。生成式AI代表了增强人类能力、提高生产力、创造力、发现和决策能力的变革性飞跃。但构建与加密货币钱包协同工作的自主AI代理需要的不仅仅是在生成式AI模型的API上创建一个外观。