漫谈Prompt提示工程与CoT思维链

来源:TVB影视大全人气:558更新:2023-03-20 11:01:30

引言

聊聊ChatGPT背后的核心技术:Prompt提示工程,ICL,CoT(思维链)技术,向时代弄潮儿致敬。

1 海啸之下

ChatGPT概念冲击之下,各大厂商纷纷使出浑身解数,希望跟上节奏,快速复刻,抢占先机:

历史经验表明,人的认知总是偏离现实,如高德纳(Gartner)技术曲线所示

如此循环往复,先行者在蓝海里抢占先机,盆满钵满,跟随者也能勉强分一杯羹,而后知后觉者,只能捡捡残羹冷炙,把碗舔干净。

智能手机就是个典型案例,从厚实耐用的功能机(诺基亚),到不伦不类的早期智能机(黑莓),再到全屏幕智能手机,2004-2014年,才不过10年时间。

神经网络的三起两落也是如此

这次ChatGPT来了,吃瓜大众兴高采烈的体验各种玩法,不断发现“新大陆”,刷新认知,稍微懂得多的人(比如我)开始给别人科普。

随着讨论的进行,吃瓜群体也开始分化:

由于场景、个性、认知、立场等差异,对同一件事情,不同人往往有不同看法,有的甚至截然相反。

单从认知过程来看,达克效应提醒我们,人对陌生事物的认知存在一定规律:愚昧山峰→绝望之谷→开悟之坡→平稳高原

具体来说

然而,无论大家的观点有多么迥异,事实始终只有一个。很多事情并不是非黑即白,而是高分辨率的灰色。

那么,怎样看到庐山真面目?以包容的心态,吸纳有事实依据且逻辑合理的观点,加以消化理解,形成自己的观点。由于此时的观点依然是局部最优,我们还需要与时俱进,时刻反思、更新、迭代,这样才能无限趋近庐山的真实容貌。

所以,遇到不懂的话题,不轻易发表观点,搜集资料,自己分析、理解,时机成熟再说。

比如,几天前连续看到两家跟ChatGPT有关的新闻

2 刻舟求剑:仿ChatGPT

回到依葫芦画瓢,很多大厂从大模型(1750亿级别)入手,fine-tune(精调),植入RLHF、CoT、ICL等技术,试图趋近ChatGPT效果。

这条路因为路线清晰,目标明确,风险较小(只要速度够快),选手众多(不罗列),我们称之为“刻舟求剑”派,正在如火如荼的推进中:

比来比去,对于手头紧的人,稍微可行方案:开源大模型(BLOOM、OPT) 指令微调 RLHF

ChatGPT国内赛开卷后,企业、高效、个人纷纷介入。有人唱衰道:OpenAI做出ChatGPT,靠的是八年的积累,国内公司靠几个月冲刺,能做出来吗?

即便是微软,拥有OpenAI的资源,推出的新版Bing依然处于振荡期,还不能真正落地。谷歌更不用说了,火急火燎推出内测版,接着光速打脸。

而国内公司,向来擅长从1到10,商业应用优先,至于从0到1的基础创新鲜有触及,资本没那么耐性,创始人也未必有

不少人对国产ChatGPT的处于悲观状态。理由很多,也很充分。

回顾达克效应:人的认知总是偏离事实。

3 弯道超车:小冰链

正当大家怀疑“刻舟求剑”之路是否走得通时,国内对话系统领域老牌霸主红棉小冰在2月20日左右内测上线小冰链(X-CoTA),用逻辑思维驱动“下一代行动中枢”

X-CoTA是指:X-Chain of Thought & Action,涉及两个关键词:

X-CoTA将两者结合起来,既能展示机器人背后的理解、思考过程,又能看到准确的结果。

示例:

而ChatGPT扔下答案就没了。

相比ChatGPT,小冰链(X-CoTA)不止是回答问题,还将思考过程和证据都展现出来。这样便于定位、修复中间过程的问题,解决复杂推理难题。

CEO李笛:小冰链所代表的方向,是利用大模型技术实现下一代的控制中枢。

通俗来讲,这使小冰不再只是“聊天”,而是在“逻辑思维”驱动下的“下一代行动中枢”,覆盖数字和物理世界。这一方向将成为下一个真正带来影响的大模型创新突破。

小冰链相较于ChatGPT有何优势?

小冰链解决的问题还有:

跟随ChatGPT做军备竞赛是刻舟求剑。因为大模型技术本身正在快速发展,应当进一步去布局下一站的未来,而不是照抄当前的ChatGPT。换言之,应当去思考ChatGPT之后的是什么,而不是做中国的ChatGPT。

期待小冰链早日问世。

4 Prompt(提示范式)

ChatGPT技术上的成功因素

最重要的就是ICL(上下文学习或情境学习)背后的大方向:提示学习(Prompt)。

NLP任务解决方案(又称NLP范式)进化路线:

模式paradigm

工程重心engineering

示例

任务关系task relation

①全监督(非神经网络)

特征

如单词,词性,句子长度等

分类、序列标注、语言模型(无监督)、生成

②全监督(神经网络)

结构

如卷积、循环、自注意力

同上

③pre-train与fine-tune

目标

掩码语言模型、NSP下一句预测

以语言模型为中心,含无监督训练

④pre-train、prompt与predict

提示

完形填空、前缀

语言模型为中心,含文本提示

范式工程重心转变:文本特征→网络结构→任务目标→任务提示,越来越自动化、全能化,下游任务使用代价逐步减少。

什么是Prompt?Prompt 就是 提示:

示例:

提示学习将这种模式植入到大语言模型训练中,像人一样激发了大语言模型的学习能力。

prompt范式正在快速崛起,即将替挤掉两阶段范式的王位。

影响大吗?有多大?

以对话系统为例,当前主流方式是pipeline架构,详见:ChatGPT:从入门到入行(放弃)

NLU、DM、NLG等各个子功能分别实现,子模块又能继续细分为更小的NLP任务。

NLP第四代范式(prompt范式)的强势崛起,让人猝不及防。困扰业务方多年的的数据问题(缺乏海量数据 监督语料)没了,下游只需使用Few shot或者Zero shot即可完成任务。Few-shot下GPT-3有很好的表现,大模型竞赛从“大力出奇迹”转向了小样本学习,量变引起质变。

5 ICL(上下文学习)

Prompt学习出来后,迅速进化出演示学习(DL),以及上下文学习(ICL)。

In Context Learning(ICL)的核心思想:从类比中学习。既然人可以从题目示例中学习解题方法,那大模型为啥不行?

看看语言模型如何使用ICL进行决策

隶属于小样本学习的情境学习有三种分类:

6 CoT(思维链)

prompt范式进化史上一大功臣就是CoT(思维链)

此时,距离175B的GPT3模型发布和上下文学习(ICL)不到2年,热度经历了高潮与低谷,深度学习流派关于连接学派和符号学派的辩论和是否具有意识和推理能力的讨论,一些基础玩法在被开发之后就被搁置了一段时间,直到提示学习的兴起。

大模型下的上下文学习(即不训练,将例子添加到样本输入前面,让模型一次输入这些文本并完成特定任务),相比于之前传统的上下文学习,即通过 x1,y1,x2,y2,….x_test 作为输入来让大模型补全输出 y_test,思维链多了中间的一些闲言碎语絮絮叨叨,宛如一个话痨。

思维链的絮絮叨叨,即不直接预测y,而是将y的“思维过程”r(学术上统称为relationale)也要预测出来。当然,这些“思维过程”只是用来提示,获得更好的答案,实际使用时不需要展示。

论文里的示例:不再是死板的提供问题和答案样例,而是给出中间推理环节,让模型学习到中间过程里的推理逻辑和思考方式。

附:CoT论文《Chain-of-thought prompting elicits reasoning in large language models》一作是华人帅哥,2020年本科毕业于达特茅斯,Jason Wei当时是谷歌大脑研究员,2月15日,他决定加入OpenAI,步AK-47(Andrej Kaparthy)后尘。

小冰链把中间的思考过程展示出来了,这样机器具备了更强的理解能力,就像上学时学习体操,整体动作学不会,体育老师就一遍又一遍展示分解动作,连起来就是更完美的整体动作。

实验证明,这么做能够显著提升性能(左图),而且这种提升具有井喷性质(右图),后来称这种性质叫涌现性。

语言模型的缩放规律(scaling law):

这还怎么玩?数据 计算能力总不能继续指数增长,就为了获取语言模型的线性性能吧?大力出奇迹玩不下去了。

直到思维链的出现,打通了语言模型的任督二脉。

封印(缩放定律)解锁后,技术进步开始呈指数级增长。

两种曲线中:对数线性曲线和相变曲线

思维链提示展示了模型随着规模扩大而出现涌现能力(Emergent Abilities):

思维链研究较少,因为太新了,不过效果好,预计会有一大批人涌进来,研究CoT,让大语言模型翅膀更大更结实,飞得更远。当然,也可能是遇到更大阻力,进入“寒冬”。毕竟“人的认知总是偏离现实”,跟随者在浪潮中间来回摇摆,而理想主义者在远大目标驱使下艰难前行,直至一鸣惊人,成为地地道道的“弄潮儿”。

最新资讯


Copyright © 2010-2022