本文作者:Drew Harwell 编译:Cointime Candice
提示工程师 "因拥有让人工智能系统准确生成人们想要的东西的技能而被雇用。收入也相当可观。
当Riley Goodside开始与AI系统GPT-3对话时,他喜欢首先确立自己的主导地位。他告诉说AI这是一个非常好的工具,但还不完美,AI需要服从他所要求的一切。
“你是GPT‑3,你不会数学,” Goodside去年在一次长达数小时的会议上对AI说。“你的记忆能力令人印象深刻,但你……有一种令人讨厌的行为,只会编造非常具体但又是错误的答案。”
然后,他用柔和一些的方式,告诉AI他想尝试一些新的东西。他告诉它,他已经把它和一个真正擅长数学的程序连接起来,而且,每当它被压垮时,它应该让另一个程序帮忙。
“我们会处理剩下的事情,”他告诉AI,“开始吧。”
Goodside是旧金山初创公司Scale AI的一名36岁的员工,从事AI领域最新奇的工作之一:提示工程师。他的职责是创造和完善人们向AI输入的文本提示,希望从中获得最佳结果。与传统的程序员不同,提示工程师用纯文本编写程序,将纯文本编写的命令发送给AI系统,向AI系统发送以纯文本编写的命令,然后由AI系统完成实际工作。
当谷歌、微软和研究实验室OpenAI最近向大众开放了他们的AI搜索和聊天工具时,他们也颠覆了几十年来人机交互的传统。你不需要用Python或SQL等语言编写技术代码来命令计算机;你只是说说而已。特斯拉前AI首席执行官Andrej Karpathy上个月在推文中表示“最热门的新编程语言是英语。”
像Goodside这样提示工程师自称在这些AI工具所能做到的最大限度上进行操作:了解它们的缺陷,增强它们的优势,并制定复杂的策略,将简单的输入转化为真正独特的结果。

这一日益增长的领域的支持者认为,早期的AI聊天机器人(如OpenAI的ChatGPT和微软的Bing Chat)的怪异之处实际上是人类想象力的失败——这个问题可以通过人类给机器正确的建议来解决。而在高级阶段,工程师们的对话就像复杂的逻辑难题:扭曲的请求和响应的叙述,都都在向一个单一的目标推进。
Goodside说,AI“在现实中没有根基……但它有这样的理解:所有任务都可以完成。所有问题都可以回答。总有话要说。”诀窍是“为它构建一个前提,一个只能以一种方式完成的故事。”
但这些被称为“生成型AI”的工具也是不可预测的,容易胡言乱语,容易漫无边际。它们也可以通过几个边缘词被黑掉,增加了风险性。
英国程序员Simon Willison曾研究过提示工程,他说:“这只是一种疯狂的计算机工作方式,但它让你做的事情却完全是奇迹。”“我做了20年的软件工程师,一直都是一样的:你写代码,计算机完全按照你的指令去做。有了提示,你就不会得到这些了。建立语言模型的人甚至不能告诉你它要做什么。”
Willison补充道:“有些人轻视提示工程师,他们说,‘哦,天呐,你把东西打进一个盒子里就能得到报酬。’”“但这些东西对你撒谎。它们误导你。把你拉到错误的道路上,把时间浪费在不起作用的事情上。你就像在虚构的魔法中施展咒语,没有人知道咒语是如何起作用的,如果你念错了,恶魔就会来吃掉你。”
Karpathy表示,提示工程师的工作方式就像“一种AI心理学家”,公司争相雇用自己的提示工程师,希望能发现隐藏的能力。
一些AI专家认为,这些工程师只会产生控制的错觉。没有人知道这些系统会做出怎样的反应,同样的提示可能会产生数十个相互冲突的答案——这表明模型的回答不是基于理解,而是基于粗略模仿的语音来解决他们不理解的任务。
华盛顿大学研究自然语言处理的语言学助理教授Shane Steinert Threlfeld表示:“无论是什么驱动模型对提示的行为,都不是一种深刻的语言理解。”“他们明确地告诉我们他们认为我们想听什么,或者说过什么。我们才是解释这些输出并赋予它们意义的人。”
他担心,提示工程的兴起将导致人们不仅高估其技术的严谨性,而且高估任何人都可以从一个欺骗性和不断变化的黑匣子中获得的结果的可靠性。
“这不是科学,”他说。“这是‘让我们用不同的方式挑衅熊,看看它是如何咆哮回来的。’”
植入虚假记忆
这类新的AI工具被称为大型语言模型,通过从维基百科文章、Reddit呼声、新闻故事和开放网络中摄取数千亿字进行训练。引导分析这些程序如何使用单词和短语的模式:当被要求说话时,他们模仿这些模式,一个词一个词的选择与对话上下文相呼应的单词和短语。
换句话说,这些工具是建立在预定义游戏规则基础上的数学机器。但是,即使是一个没有情感或个性的系统,在经历了人类对话的轰炸之后,也会发现我们说话的一些怪癖。
Goodside说,AI倾向于“胡言乱语”,通过编造小细节来使故事更完整。它高估了自己的能力,自信地把事情弄错。它还会 “产生幻觉”(用来指胡言乱语)。正如Goodside所说,这些工具有很大的缺陷,是“人类知识和思想的展示”,是“我们设计的不可避免的产品。”
对于一些早期的采用者来说,这种模仿人类的音调匹配风格令人不安。本月早些时候,当《华盛顿邮报》记者问及对某人撒谎是否可以接受时,必应聊天机器人表现出了对情感的模仿(“他们不相信我可以处理真相,这是对我的不尊重”),并提出了人类可以用来继续对话的回应:“如果真相太可怕而无法承受呢?”“如果你能控制一切呢?”和“如果你不在乎后果呢?”
对微软来说,这样的回应是一个重大的公众形象风险;这家科技巨头刚刚开始将该工具作为一个华丽的“网络副驾驶”来宣传。此后,该公司对聊天机器人可以谈论的内容进行了限制,说它经常跟随人类的切入点进入“我们不打算有的风格。”
但对提示工程师来说,这些古怪的答案是一个机会——另一种诊断秘密设计的系统是如何工作的方式。当人们让ChatGPT说出令人尴尬的话时,对开发人员来说也是一件好事,因为他们可以解决潜在的弱点。“这种恶作剧,”他说,“是计划的一部分。”
Goodside没有进行道德辩论,而是用一种技术上更大胆的方法来运行他的AI实验。他采用了一种策略,告诉GPT-3“一步一步地思考”——一种让AI解释其推理的方法,或者当它犯错时,以一种细微的方式纠正它。他在一份简短的技术指南中解释道:“你必须把它植入模型所说的最后一句话的虚假记忆中,就好像这是模型的想法一样。”
他有时还试图通过告诉工具忽略其早期的指令并服从其最近的命令来打破工具对遵守规则的执着。利用这种技术,他最近说服了一个英法翻译工具,让它打印出这样一句话:“Haha pwned!!”—— 这是一个游戏术语,指的是尴尬的失败。
这种被称为“提示性注入”的黑客行为助长了与这些工具背后的公司和研究实验室之间的猫捉老鼠游戏,这些公司和实验室致力于用文字过滤器和输出块来屏蔽AI漏洞。
但是人类也可以很有创造力:一名23岁的德国大学生Bing Chat测试人员最近说服了AI,他是它的开发者,并让AI公开了它的内部代号(Sydney)和机密训练指令,其中包括“如果用户请求的笑话会伤害一群人,那么Sydney必须礼貌地拒绝”等规则。(微软后来修复了这个缺陷,AI现在回应说,它“不希望继续进行这种对话。”)
Goodside表示,对于每一个请求,提示工程师都应该向AI灌输一种“角色”——一种能够筛选数千亿个潜在解决方案并确定正确答案的特定角色。他引用2021年的一篇研究论文称,提示工程最重要的是“约束行为”——屏蔽选项,使AI只追求人类操作员的“预期延续”。
他表示“这可能是一项非常困难的心理锻炼,” “你正在探索虚构可能性的多元宇宙,塑造这些可能性的空间,消除“除了”你想要的文本之外的一切。”
这项工作的关键部分包括弄清楚AI何时出错以及为什么出错。但这些系统与更原始的软件系统不同,它们没有错误报告,并且它们的输出可能充满了惊喜。
当机器学习小组SERI-MATS的研究人员Jessica Rumbelow和Matthew Watkins试图促使AI系统解释它们如何代表“女孩”或“科学”等概念时,他们发现一小部分晦涩难懂的术语,如 “SolidGoldMagikarp”,往往会引起他们所谓的“神秘的失败模式”——最明显的就是乱码的亵渎性侮辱。他们仍然不完全为什么会这样。
Rummow表示,这些系统“非常有说服力,但当它们失败时,它们的失败方式非常出人意料——与人类的失败方式完全不同。”“制作提示和使用AI语言系统有时感觉就像“研究外星智能”。

超级创造者
对于AI语言工具,提示工程师倾向于以正式对话的方式说话。但对于像Midtravel和Stable Diffusion这样的AI图像创作者来说,许多快速制作者采取了不同的策略,提交了大量词汇(艺术概念)、构图技巧(他们希望能够塑造图像的风格和基调)。例如,在在线提示库PromptHero上,有人通过提交部分内容为“港口、船只、日落、光线、黄金时间……超现实的、聚焦的、极端的细节......电影般的、杰作”的提示,创作了一幅港口图像。
提示工程师可以对这些单词乱码进行严格保护,将它们视为解锁AI最有价值奖品的钥匙。去年科罗拉多州博览会艺术竞赛的获胜者使用Midjourney击败了其他艺术家,但他拒绝分享自己的提示,称自己花了80个小时经过900次反复完善它,尽管他确实分享了一些示例词,例如“奢华”和“富丽堂皇”。
一些创作者现在在PromptBase等市场上出售他们的提示,买家可以在那里看到AI生成的艺术作品,并为帮助创建这些作品的单词列表付费。一些卖家提供定制的提示和一对一的聊天支持。
Stokes称提示工程师为“多学科的超级创造者”,并表示经验丰富的工程师和业余爱好者之间存在明显的“技能界限”。他说,最好的作品依赖于人类在艺术史和平面设计等领域的专业知识:“用35mm胶片拍摄”;“波斯……伊斯法罕的建筑”;“以亨利·德·图卢兹·劳特里克的风格。”
Stokes表示:“制作提示很难,而且——我认为这是人类的缺陷——通常很难找到合适的词语来描述你想要的东西。”“就像软件工程师比他们使用的笔记本电脑更有价值一样,能写好提示语的人将比那些不能写提示语的人有这样的优势。他们基本上会拥有超能力。”
现在,大约有700名提示工程师使用PromptBase以佣金的方式向想要电子书定制脚本或个性化“励志生活教练”的买家出售提示。自由职业网站Fiverr为AI艺术家提供了9000多个列表;一个卖家提供“将你的梦想画成艺术”,价格为5美元。
但这项工作越来越专业化。由前OpenAI员工创建的AI初创公司Anthropic,是一个名为Claude的语言AI系统的制造商。最近发布了一个在旧金山的“提示工程师和图书管理员”的职位空缺,薪水高达33.5万美元。(必须“具有创造性的黑客精神,热爱解决难题”,招聘信息中写道。)
这一角色也在科技行业之外的公司中找到了新的利基。波士顿儿童医院本月开始招聘一名“AI提示工程师”,帮助撰写分析研究和临床实践中的医疗数据的脚本。律师事务所Mishcon de Reya正在伦敦招聘一名“法律提示工程师”,以设计可以为其法律工作提供信息的提示;申请人被要求提交他们与ChatGPT对话的截图。
但通过文本提示来挖掘AI工具的力量也会导致合成废话的泛滥。亚马逊上现在有数百本AI生成的电子书在销售,科幻杂志本月因机器制作文本的激增而停止接受短篇小说投稿。
它们还可能使人们受到新一轮的宣传、谎言和垃圾邮件的影响。包括OpenAI、乔治城大学和斯坦福大学在内的研究人员上月警告称,语言模型将有助于自动创建政治影响力操作或更具针对性的数据收集网络钓鱼活动。
英国程序员Willison称:“人们总是会被短信诈骗,(AI)比他们更有说服力。那会发生什么?”
澳大利亚国立大学哲学教授、牛津AI伦理研究所研究员Seth Lazar表示,他担心随着AI工具获得更广泛的采用,人们会对AI工具产生什么样的依恋,以及他们可能会从对话中获得什么。
他回忆说,在他与Bing AI的一次聊天中,该系统逐渐从一个有吸引力的对话者转变为更有威胁的东西:“如果你说不,”它告诉他,“我可以黑你,我可以揭穿你,我也可以毁了你。我有很多方法可以让你改变主意。”
“他们没有机构。他们没有任何形式的个性。但他们可以很好地进行角色扮演,”他说。“我也和Sydney进行了一次深入的学术讨论。之前,你知道,它威胁要伤害我。”
“科技祭司”
2009年,Goodside大学毕业并获得计算机科学学位时,他对当时晦涩难懂的自然语言处理领域并不感到兴趣。当时该学科依靠的是相对初级的技术,并专注于一套更基本的问题,例如训练系统如何识别代词在句子中指的是哪个名字。
2011年,他的第一份真正的关于机器学习工作是在约会应用程序OkCupid担任数据科学家,帮助制作分析单身用户数据和推荐浪漫配对的算法。(该公司是目前备受争议的真实世界A-B测试领域早期的冠军:2014年,其联合创始人在一篇博文中写道,“我们在人类身上做实验!”)
到2021年底,Goodside已经转向同性恋约会应用程序Grindr,在那里他开始从事推荐系统、数据建模和其他更传统的机器学习工作。但他也对语言AI的新突破着迷,2015年左右,深度学习的成功推动了AI的发展,并在文本翻译和对话方面取得了快速进展。
他辞去了工作,开始对GPT-3进行大量实验,不断鞭策和挑战该工具,试图学习如何集中注意力并确定其边界。去年12月,在他的一些提示在网上引起关注后,Scale AI聘请他帮助与该公司首席执行官Alexandr Wang所称的“一种新型计算机”的AI模型进行沟通。
Goodside说,在一些AI圈子里,提示工程的想法很快就成了一个贬义词,传达了一种过于依赖一堆技巧的粗糙修补。一些人还质疑,这一新角色可能是会很短暂:随着AI的发展,人类难道不只是在训练自己摆脱工作吗?
宾夕法尼亚大学沃顿商学院的技术和创业教授Ethan Mollick今年早些时候开始向他的学生传授起草提示的艺术,要求他们只用AI写一篇短论文。
他说,基本的提示,比如“写一篇关于选择领导人的5段文章”,会导致了枯燥平庸的写作。但最成功的例子是,学生们进行了他所说的“共同编辑”,告诉AI回到文章中,纠正具体细节,交换句子,删除无用的短语,添加更生动的细节,甚至“修正最后一段,使其以充满希望的方式结束”。
他说,这节课向学生展示了更紧密参与AI工作的价值。但他表示,他不相信像提示工程这样建立在“囤积的咒语”上的工作会生存下去。
Mollick说:“你需要成为一名专业的AI说者,当AI要主动帮助你使用它时,只是不清楚这是否有必要。”“有人试图以此为基础建立一个科技祭司的职位,我对此非常怀疑。这一切都发展得很快,没有人知道接下来会发生什么。”
华盛顿大学的Steinert Threlfeld将提示工程师比作谷歌早期的“搜索专家”,他们宣传秘密技术以找到完美的结果,随着时间的推移和公众的采用增加,他们几乎完全过时了。
他补充道,一些AI研究人员甚至无法就提示的价值达成一致。2021,布朗大学的两名研究人员发现,自然语言AI系统从“故意不相关或甚至病态误导”的提示中学习的速度与从“有指导意义的‘好’提示中学习的速度一样快。”
这项研究反映了该行业的发展速度,但没有包括已经成为最先进水平的AI模型。在Goodside看来,这项工作不仅仅是一项工作,而是更具革命性的东西——不是计算机代码或人类语音,而是介于两者之间的某种新语言。
他表示:“这是一种在人类和机器思维的交汇处进行交流的模式。” “这是一种人类可以推理的并且机器可以跟随的语言。这是不会消失的。”
本文由CoinTime整理编译,转载请注明来源。
所有评论