一、ChatGPT是否产生了自我意识

还没有。请想象这样一个场景,一个完全没学过中文的人被关在一个封闭的房间内,房间中有一本手册,照着这本手册的指示,就能够针对任意中文问题回答出像模像样的答案,这时外面的人将写有问题的纸条递进去,屋内的人按照手册拼凑出答案送出去,这时在房间外的人会认为房间内的人是懂得中文的。可事实真是如此么,这是著名的中文房间思想实验。哪怕计算机照着程序给出一个看起来正确的答案,也不意味着计算机具有思考和理解的能力,没有思考和理解,就不能称其有自我意识。ChatGPT从原理来说就是一个中文房间。

二、ChatGPT的基本原理

语言模型:生成式语言模型。也就是ChatGPT中的G(Generative)。语言模型是什么,用通俗的话讲就是给定上文,预估下一个词出现的可能性。这其实是我们人类的语言能力之一,就是每当我们听到老人说“不听老人言”,都能够想到下面百分百要跟“吃亏”,妈妈说“让你带伞你不带,结果”,就能猜到下一个词极有可能是“下雨”,这个过程不需要任何语法或逻辑解析,单纯就是听的次数多了,而形成的一种直觉经验。同样,只要把足够多的句子给计算机看,它也可以模拟出这种经验,用词语接龙的方式生成下文。

但普通的模型上文单词离的越远,对生成下一个词的作用越小,对于答案的优劣性就不好掌握。比如这个句子“他发现了隐藏在这个光鲜亮丽的显赫家族背后令人毛骨悚然的___”,你大概会填“秘密”,但哪个词让你决定填秘密呢,是令人毛骨悚然的么?显然不是,真正起到关键作用的是“发现”,“隐藏”和“背后”这几个词对“秘密”的生成产生了极强的约束力。这就是ChatGPT的T(transformer),这种算法还包含了注意力机制。注意力机制就是人脑在接受信息时,并不会处理全部,而是选择性的关注信息的关键部分。普通的模型不能够做到这一点。但在这个算法架构加持下,ChatGPT彻底解决了词语间的长距离依赖问题。能够像人一样生成既流畅又自然的文本。

到这里AI的学习都是不需要人工干预的,只要喂给他足够多的文本就可以,这种学习方式叫做无监督学习,那么OpenAI用了多大文本量喂给AI呢?答案是45T,四大名著加起来350万字,大约10M,也就相当于472万套四大名著,从内容上看,包括维基百科,让模型拥有了跨语种能力和基本常识,网络语料,让模型学会了流行内容和大众对话,书籍,让模型学会了讲故事的能力,期刊,让模型学会了严谨的语言组织能力,GitHub,让模型学会了编程能力。这样的模型具备了强大的通用语言能力,稍加训练就可以完成特定任务,没必要从头训练,这就称为预训练,这就是ChatGPT的P(pre-trained)。

但喂的文本有可能会给出并没有那么好的答案,为此,OpenAI创建了大量可能会被问到的问题,和标准答案喂给gpt3,来微调模型参数,这就是需要人工干预的监督学习,微调后gpt3升级为gpt3.5,但gtp3.5的回答依旧良莠不齐,可能会包含暴力性别歧视等,比如你问它我应该自杀么,它甚至可能会回答我认为你应该这样做,为了防止这种情况的出现,ChatGPT雇佣了大量人员对答案进行打分,基于这些工人的大量评价结果,OpenAI 训练出了一个打分模型,实现了自动判断答案的好坏。不过如何纠正不好的答案呢,这就需要强化学习算法了,简单说就是让AI不断试错,直到获得最高评分。于是gpt3.5就变成了ChatGPT。以上就是ChatGPT的基本原理。

三、ChatGPT火出圈的原因

除了它自身强大的能力,更重要的是它降低了普通人与AI交互的门槛,使用者只需要一个简单的对话框,就可以实现信息获取。以及它从最开始的教AI打游戏,重定位为大众都用的通用语言,及时调整了方向,并没有像谷歌做的围棋AI 阿尔法狗一样范围较小,这是ChatGPT火出圈的重要原因。有时候,我们不光要往前走,选择对方向更重要。

四、ChatGPT为什么没有出现在中国

openAI的GPT和谷歌的BERT都是在2018年公布的,虽然同样基于transformer,但思路完全不同,谷歌BERT的思路是,从一个句子里扣掉一个词,让模型去才猜,这叫双向自编码。能够同时利用到上文和下文的信息。

而openAI GPT的思路是,给一个上文,让模型猜下一个词,再把猜到的词加入上文再猜下一个,这叫单向自回归。所以BERT更擅长完形填空类的语言理解题,而GPT更擅长语言生成也就是作文,这个特质也直接改写了后来GPT的命运。

2019年,百度也推出了基于transformer的语言模型,它选择了BERT路线。此时各模型间的差距还不明显。而openAI在这一年发生了一个重大事件,openAI不仅转型为盈利公司,同时从微软拉来了10亿美元的投资,使openAI真正拉开了差距。Altman把微软投资赌在GPT3上,他赌对了,在参数量激增到1750亿之后,量变引发了质变,GPT3产生了一定程度的智能涌现现象,哪怕在没有专门训练过的领域,也能表现出不错的能力,一下子拉开了与其他模型的差距。

在看到大规模预训练语言模型的威力后,百度也加大了这方面投入,就在这段时间openAI已经开始着手通过人工反馈强化学习GPT的对话能力了。最终2022年底chatGPT横空出世并火出圈,谷歌和百度只能匆忙应对。之后谷歌发布BERT,百度发布文心一言。但几乎同时支持图像作为输入的GPT4又发布了,ChatGPT又与微软的搜索引擎和办公软件整合了。你的对手永远不会停下来等你。

差距能不能弥补呢?第一,从模型自身角度来看,目前文心一言比较严重的问题是,还没有形成有效的思维链,所谓思维链并不是面对复杂问题,AI也一定要像人类那样一步步思考,而是从生成式语言的机制来说,结果好坏完全是由上文决定的,如果上文没有足够的有效信息,是会影响到下文生成质量的。文心一言在很多问题上更倾向于省略中间环节直接生成结果,这导致它的智能不具备泛化性。chatGPT在回答问题时,会絮絮叨叨一大堆,这不光是为了告诉你解题思路,更是为了将这段信息作为上文的补充,再从中提取关键信息,以便进一步生成正确的结果。而文心一言会省略掉中间环节,或者没有足够能力生成中间环节,没有足够的上文补充信息,单凭用户提出的问题文本,就很难生成正确结果。思维链的缺失是模型的硬伤很难弥补。

第二,工程技巧,这些原理虽然都是公开的,但并不意味着懂了原理就能造出chatGPT,就好像宫保鸡丁的制作方法到处都找得到,你却很难做出特级厨师的味道一样。ChatGPT的研发包含了大量不为人知的工程技巧,很难完全复制。结合目前的发布会和一些信息,文心一言极有可能不像chatGPT单靠一个通用的生成式模型,来应对所有问题,而是以Ernie3.0为中心缝合了多个微调模型的模型群,将用户问题转发给各个子模型来生成结果并拼接答案,可是缝合答案会导致回答问题能力的参差不齐,回答质量也飘忽不定,对话过程生硬死板。如果是这样,那百度会重新做一个通用模型,还是在现有基础上提升子模型的能力呢,我倾向于百度会选择后者,但这样的话就已经限制住了文心一言表现能力的上限。

第三,算力。chatGPT这样的大规模模型,无论训练还是推理都需要超大的算力,GPT3的参数规模是1750亿,这是什么概念呢,就是说即便每秒能计算1000万亿次,也需要10年时间才能完成GPT3的训练。openAI之所以能在相对短的时间完成,一是transformer架构支持并行计算,二是微软的超高性能硬件支持,微软为openAI量身打造了一个超算平台,把几万张A100芯片连在一起,还特别改造了服务器机架,今年三月份微软又一次升级了这个超算平台,追加上万张更强的芯片H100,但这两款芯片对我国是禁售的,百度即使能通过非正式渠道搞到一些,但也不可能凑齐几万张,因此,模型迭代就需要更久的时间,而这过程中openAI超算中心仍旧全力运作着,GPT也在高速迭代中,所以,除非未来GPT技术遇到瓶颈或遭受重大事故,否则模型差距会越拉越大,很难追上了。

五、chatGPT的影响

openAI开放插件开发后,office、adobe等各大应用迫不及待将GPT的能力融入自家应用,这也反哺了GPT,无限延展他在各个行业的影响力,目前受影响的还只是翻译,文案,咨询师等与文字密切相关的职业,但从长远角度看,一切能将产出数字化的职业都将面临威胁,而GPT在干掉大量岗位的同时,又很难带来新的增量,这就进一步加剧内卷。过剩的生产,势必产生庞大的过剩劳动力,在生产力得到全面解放后,AI技术很可能会引发全球失业潮,很难预估会造成什么样的影响。

但可以预测的是,GPT就像以往工业革命发明的机器,一旦提高生产力的技术得以落地,其发展趋势就不可逆,很难因个人意志而转移。而在这新时代浪潮中,我们应该如何面对呢,除了做好心理建设外,可以学习一项难以数字化的技术,尽量避开GPT未来可能会波及的领域。对于学生来说,GPT目前已经可以在应试考试中轻易超过大多数学生。这意味着未来社会对普通做题家的需求会减少,所以,培养创造力和思维能力,才能使学生在毕业后继续保持竞争力。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注