2022年度小结：科研、ChatGPT与疫情

时至年末，恰逢最近圈内新闻（AIGC, ChatGPT）和想法都比较多，在此小结一下。

关于科研

工作方式的转变

今年我们在实验室内组建了一个基础模型小组，因此相比之前想到哪做到哪的工作方式开始更多的考虑更long-term的研究方向，这些想法其实早在之前的回答中都提到了，如

2022 年 NLP 模型发展趋势是什么样的？196 赞同 · 3 评论回答

其实熟悉我的都知道我是一个对自己要做的方向很挑剔的人（当然受限于眼光和能力不一定做的好），于是在做一个东西之前我会费比较大的力气去说服自己这个方向值得做，关于怎么分辨什么是好的方向我在今年四月份有一个在组内的分享，感兴趣的同学也可以看一下

https://txsun1997.github.io/slides/nlp-discuss-20220419.pdftxsun1997.github.io/slides/nlp-discuss-20220419.pdf

今年（主要是上半年）我们在里面的几个方向完成了几个工作：Black-Box Tuning (ICML), BBTv2 (EMNLP), Late Prompt Tuning (EMNLP findings), Metric Fairness (EMNLP), DiffusionBERT (arxiv)，还有稍早一点的ElasticBERT&ELUE (NAACL), HashEE (ACL findings), Paradigm Shift Survey (MIR). 下半年我们参与组织了一个语言模型无梯度调优竞赛，加上各种杂事和塞尔达，生产力大幅降低，深感multitasking能力受到了挑战。

站在今天看，这些工作并不是特别满意，一方面是因为怎么在自己认准的方向上成体系地推进一系列工作确实是一件很有挑战的事情，另一方面是在2022年末之前NLP已经相对平静了比较久了（可以从2019年BERT开始算起），很少有让人感到兴奋的东西可做，不过现在都不重要了，因为ChatGPT来了。

永远会有好东西出来

站在2022年初，在梳理了这些年来NLP发展脉络（见上面的slides）之后，我是比较失落的——因为大的机会已经过去了。几乎所有高影响力的工作都是在word2vec/LSTM4NLP/Transformer/BERT级别的工作刚出来的窗口期完成的，留给后面的工作大多是修修补补的，当然有修的很漂亮的，但技巧不等于影响。从已有的发展逻辑（具体还是见前面的slides）来看，当时的我确实看不到后面能做什么了：

把越来越多的模块放到预训练里来：embedding (word2vec) –> encoder AND/OR decoder (BERT, GPT, etc.) –> MLM/NSP head (prompt) –> data form (instruction tuning)，已经基本见顶；把强大的预训练模型用在机器学习流程中的其他部分：数据 (retrieval), 优化 (learn to optimize), 指标 (BERTScore, MoverScore, etc.)，各个赛道也已经挤满人了。

此外，我在之前某个回答里也提到了，NLP的下一个BERT还能在哪体现它的效果呢？难道是把GLUE/SuperGLUE突破天际？已经没有意义了。难道是把逻辑任务刷爆？我不认为目前的DL范式能做到这个。所以，当时确实觉得可以做的好东西不那么多了，当然天上还是飘着几片乌云的，比如in-context learning, chain-of-thought, modularity等等，这些暂且按下不表了。

但是，NLP这个领域最大的魅力就在于永远会有好东西出来。每当人们觉得用已有的工具也就做到这了的时候，总有人就拿现成的工具做了一个划时代的好东西给你看。近年来的好工作（word2vec, ELMo, Transformer, BERT, GPT, ChatGPT）几乎没有用到任何遥远领域里的工具，都是组合和scale up正确的工具。

2022年末，ChatGPT终于来了，前面提到的发展逻辑和问题立刻有了新的答案，过去的发展逻辑被放在了一个更大的发展逻辑当中，以第一人称为主的交互式AI的发展已经势在必行了。下一个BERT果真不是刷榜型选手，而是直接以人作为衡量指标。经过了这么多年的发展，AI终于走到了宿命中的最后一个考官面前，这个考官就是人类。之后，如何更好的align with human会成为新的高影响力工作高产方向，但尴尬的是我们在有自己的强大基础模型之前还无法研究这个。

语言模型即服务与黑箱优化

ChatGPT出来后，我相信很多人和我一样重新思考了自己过去工作的意义（当然有些在2022年还在用LSTM+attention连连看的领域是无需思考的），比较明确的事情是，ChatGPT在大多数常见NLP任务上会比各位过去做的工作性能要好。那么，语言模型即服务（Language-Model-as-a-Service, LMaaS）与黑箱优化（Black-Box Tuning）呢？我认为是利好的。

LMaaS的假设是我们只能获取大模型的API而无法获取其参数和梯度，因此我对LMaaS最焦虑的时候是BLOOM和OPT出现的时候，研究社区对于开源模型的追求令人感动。可惜魔高一丈，OpenAI不open。Percy Liang的HELM已经表明不开源的模型通常远远强于开源的模型，新出的ChatGPT又是一个只有API的模型，甚至这次连paper都不给看了。可以预计的是，随着大模型预训练和部署成本的急剧增大，未来好用的基础大模型可能都会采取这种方式，而这种方式就是LMaaS。

最近Sam Altman (OpenAI CEO)也提到，未来在少数几个底层基础模型和上层应用之间应当还会出现一个中间层，基于底层模型的服务适配特定的上层应用，这就是LMaaS和黑箱优化要做的事。

关于ChatGPT

铺垫了这么久，终于可以聊一聊ChatGPT了。最近线上线下有非常密集的关于ChatGPT的讨论，关于其中用到的具体技术有很多文章了，当然由于ChatGPT本身没有放出paper这些文章都不是完全准确的。今天主要想聊一下它带给我的感受和启发。

ChatGPT改变了什么？

ChatGPT对不同背景的NLPer来说观感是不大一样的，但总体来说，大部分人对于GPT-3之后ChatGPT之前的模型价值是under-estimate的，而对于ChatGPT是over-estimate的。

对很多不太关注大模型的人来说，ChatGPT从根本上改变了他对于大模型的认识，似乎很多他觉得大模型做不了的事ChatGPT做成了，这让人很震撼。据我的观察，很多国内的研究者对于GPT-3以及in-context learning、chain-of-thought的能力是严重低估的，大多停留在“不过是更大的模型”和“玄学prompt”之类的层面上。但我想很多在国外的同仁也不必阴阳怪气，OpenAI对大陆的API限制客观上造成了这个认知代差，并且这个代差并不只存在于中国 vs 国外，而是存在于OpenAI vs 全世界的绝大多数机构。工业界不存在主流认知，学术界更不存在，美国的高校基于大模型API做研究的多一些，但也并不是主流，近年来也美国顶尖高校也罕见押对宝的（Luke Zettlemoyer是个人才）。

但是对大陆的API限制总是有办法绕开的，实际上对于想办法经常玩GPT-3系列的人来说，特别是体验过davinci-002及其后的模型，ChatGPT几乎没有表现出任何新的能力，ChatGPT带来的这种震撼早在之前就感受到了，只不过大多数人把GPT-3.5本身的震撼归功到了ChatGPT上。那么刨除GPT-3.5的功劳，ChatGPT改变了什么？要我说就是用户体验。玩过ChatGPT的人很明显会察觉到，它的回答很全面，不拉踩，像一个滴水不漏的话唠，就好像把GPT-3.5的知识套入了某个pattern/style输出出来，这个pattern/style就是人的说话方式。这是模型的一小步，却是用户体验的一大步。

为什么是模型的一小步呢？首先至少是参数更新的一小步，因为align with human的数据量不会很大，根据InstructGPT中显示的只有几万条样本，但这几万条样本对用户体验的提升是多少呢？从下图可以看出来，即使最小的1.3B的InstructGPT也要比175B的初代GPT-3的用户体验好很多，所以说是用户体验的一大步。最近percy liang的HALIE也给出了相关的佐证（眼光真好，在ChatGPT出来之前就意识到了interactive benchmark的必要性）。

想补课GPT-3到ChatGPT之间的发展同学可以看一下符尧的博客，是个不错的入门科普。

ChatGPT没有改变什么？

前面解释了为什么大部分人对于GPT-3之后ChatGPT之前的模型价值是under-estimate的，那么为什么对于ChatGPT是over-estimate的？因为它本质上并没有离通用AI (AGI)更接近，他只是GPT-3.5说人话了。但这个观点要暂时保留一下，因为让GPT-3.5社会化，能够跟人交互，也算是某种程度上的embodied AI，或许还真的可以演化出更高层面的智能，但可能性不太大。因此，ChatGPT并没有本质上改变目前模型的智能水平。

后ChatGPT时代我们能做什么？

从国内来讲，首先当然是复现一个，但是落下的课总要补上，首先要有一个在高质量数据上训练的大模型，还要在大量代码数据上继续训练，还要收集一定数量的instruction让模型理解人的意图，这时如果顺利的话你大概就有了一个text/code-davinci-002了，那么就可以开始RLHF训练自己的ChatGPT或者叫什么其他神仙名字的模型了。当然那个时候最好的算法不一定是现在的RLHF，更有可能是更好的算法来align with human。当然最后一步也不能落下，一切训练好之后，不能发完PR就丢下不管了，你得部署大量的资源把推理时延降下来并且给别人用。

很多人在讨论国内一年之内能否复现出ChatGPT，只要把资源给正确的人一定可以，但问题就在这。

那么对于没有足够资源的大多数来说可以做什么呢？一个是前面讲的中间层，在LMaaS场景下用好大模型的API做好一个特定的任务或者应用也会创造很大价值；另一个就是更好的RLHF，这件事未必一定需要特别大的模型，就像前面的图展示的，一个well-aligned 1.3B的InstructGPT也可以远超175B的GPT-3。

如果跳出具体技术路线，从科研方式来讲，ChatGPT对包括我在内的很多人带来的改变应该也是很大的（当然对于paper/award-optimizer选手来说可以毫无影响）。如果冲击不大的话，我现在应该在赶ACL而不是在这里写知乎。冲击来源于哪呢？一方面是对自己过去工作的怀疑，但过去了的就过去了，好歹总能留下点有意义的工作，更重要的是另一方面对未来做研究的方式的冲击。最大的改变在于，不能再刷榜了，或者要刷也得去刷一个类似HALIE这样的interactive benchmark。NLP的研究回归到人机交互是一个回归本质的事情，这应当也是未来几年的大趋势了。走了这么久的路，NLP模型终于走到了真正的人类的面前。从第一人称视角作为用户体验自己打造的模型，肯定比连数据都不看只管刷一个个冰冷的数字要有意思的多。

另一个感受就是，现在一个高影响力的工作更像一个产品，而不是一篇论文。甚至相比于GPT-3 API，基于ChatGPT API来做研究发论文都有一定困难了。相比于研究社区，更大的热情可能来自工业界和投资界，资本对于计算机科学的发展来说可能是最大的推动力。

关于疫情

写到这里耐心逐渐用完，想到哪写到哪，有空再来补。

与技术的突飞猛进相对比的是疫情的高歌猛进。人们总是由社会建构所维持的表面秩序获得充分的安全感，现在又通过万物娱乐化获得心理上的愉悦感，但现实永远在那里，炫饭株不止让人骄傲地炫饭，还可能让人得糖尿病。病毒朝哪里变异，我们所在的这艘大船开往何方，没有人知道，你不能指望船长预知一切。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。