英国《新科学家》10月31日文章,原题:随着隐私担忧加剧,我们能教会人工智能聊天机器人忘记吗? 我在互联网写作已有二十多年。十几岁时,我在博客上写了一堆帖子,俗套的和尴尬的都有。如今,当ChatGPT告诉我,这些帖子会是它获取信息的素材时,我想赶紧从它的内存中删除关于我的数据。然而我很快发现,没有删除按钮。不过,现在许多科学家正设法教人工智能忘记。
新一代人工智能聊天机器人的大部分学习数据是从互联网上抓取的——从社交媒体帖子到大约25万本书,以及几乎所有公开的信息。它们可以预测句子中最有可能出现的下一个单词,对我们的每一个提问给出流利的答案。问题在于,人工智能聊天机器人的工作方式意味着,当它们学到一些东西时,就无法忘记。
澳大利亚联邦科学与工业研究组织研究员大卫·张表示,这种语言模型依据汇总的数据生成回答,因此不容易忘记或“删除”特定的信息,甚至个人也无法准确追踪人工智能程序对他们的了解。他强调,这将在隐私方面造成一个重大问题,人工智能公司遵守“被遗忘权”将非常困难。 欧盟在2014年提出“被遗忘权”。根据欧盟的通用数据保护条例,人们有权要求从网络记录中删除他们的个人信息,比如撤回信息、删除帖子,或要求网络公司删除关于他们的数据。但大卫·张表示,这些解决方案与人工智能聊天机器人不兼容,“无法提供从模型记忆中删除或忘记数据的方法”。
苏黎世联邦理工学院计算机科学家特拉梅尔表示,人工智能公司必须找到方法来处理这个问题,尤其是在大语言模型开始接受更敏感个人信息的培训之际,比如医疗数据和电邮等。人工智能也会被黑客植入代码,以索要用户账户密码等信息。英国政府通信总部已呼吁关注这一问题。
人工智能公司目前依赖于“机器沉默”等方法阻止访问某些信息并拒绝回应。例如,当我要求人工智能建立我的个人档案时,它会说,“很抱歉我不能协助这个请求。”耶鲁大学数字伦理中心主任弗洛里迪说,这种方法在一定程度上可行,但目标数据仍然存在,如果出现故障或恶意干预,它就有可能在回应中出现。