实现多点开花「GPT4多点开花但技术细节却点到为止|ChatAI」

来源:TVB影视大全人气:95更新:2023-03-19 15:18:52

不久前,OpenAI开放的ChatGPT模型API已经以显著的成本优势惊艳了众人。

而OpenAI的胃口已经越来越大。今天凌晨,OpenAI以Twitter和YouTube为宣传渠道,公布了又一个重磅消息如约而至——GPT-4上线。

Youtube观看量已经突破110万

目前,ChatGPT PLUS用户已经能够提前尝鲜;同时,GPT-4的模型API也已对部分开发者开放。

OpenAI将在2023年发布GPT-4的筹谋早已是公开的秘密,但尘埃落定后,一些答案浮出水面,一些答案却“点到为止”。

多模态、图像处理、真实性等等特点,是GPT4公开的答案;而关于数据集规模、参数规模等,OpenAI却并没有回复此前大家的猜想。

性能提升的背后,也是商业竞争的进一步白热化。

GPT-4究竟有何不同?总的来看,模型在图像理解、文本处理、安全性和事实性提升等方面实现了多点开花。

正如3月9日微软德国 CTO Andreas Braun对外宣称的,GPT-4是一个多模态模型。

尽管GPT-4没有和人们预料的一样,可以支持视频、音频等输入方式,但是,支持图像输入已经成为板上钉钉的事实。也就是说,GPT-4附带了图像理解能力,可以对图像内容作出说明、进行分类和分析。但目前,OpenAI还在和合作伙伴「Be My Eyes」共同测试该能力,因此尚未对OpenAI所有客户开放。

除了这一“理所当然”的变化,GPT-4在文本处理方面的能力又有了较大提升。一方面,GPT-4能够处理的文本长度增加了;另一方面,GPT-4的文本记忆能力增加了。

同时,GPT-4 支持的最大token数量为 32,768,相当于64,000个单词或 50 页文字。相比之下,GPT-3.5 和上一版ChatGPT 的token限制为4,096 个,大约 8,000个单词。因此,在对话时,GPT-4能够记住更多的聊天内容,降低重复回答或者“神游”的可能性;在生成长文时,连续性也会更强。

就上述两个改进而言,有业内人士分析,其究竟能够在应用层产生多大的威力,需分情况讨论。据悉,图像理解能力的提升,从理论上来讲,是比较大的突破。但其是否能够在各类场景中得到广泛应用,还取决于不同场景下的具体业务逻辑。需要对业务进行拆解后,进一步甄别是否具有多模态理解的需求,以及如何接入这样的能力。相比之下,文本处理能力的提升可能会在应用层被更迅速地采纳。

虽然GPT-4的上述改进在应用层能掀起何种波澜仍未可知,但能够确定的是,要想实现这样的能力提升,GPT-4无论是在模型架构、模型训练,还是迭代优化路径等各方面都会有一定的突破。

遗憾的是,由于本次OpenAI未在技术报告中透露有关模型参数、硬件、训练方法和训练数据量等细节,我们还无从得知,这些突破可能是什么。目前的已知努力是,OpenAI为了训练GPT-4,在过去两年里联合微软在Azure 云上重新搭建了一个专用的超算平台。

此外,在技术层面,OpenAI其实也公布了一些看似不那么重要,却是保障AI未来可以得到人类正确使用的关键突破。

例如,OpenAI构建了可预测扩展(predictable scaling)的深度学习堆栈,支持使用更少的计算量来评估模型训练性能,预测训练期间优化的指标(损失)。OpenAI表示,通过从使用相同方法训练,但使用万分之一的计算量对模型训练性能进行了推断,准确预测了 GPT-4 在其内部代码库上的最终损失。

另外,在安全性提升方面,OpenAI还做了另一件事:花费了6个月的时间对模型进行了针对性的迭代优化。当然,迭代后的GPT-4在回答的准确性、事实性、可操作性等多个方面也有了提升。

OpenAI表示,他们已经在2022年8月就完成了模型训练,但是为了推出GPT4,又进行了6个月的迭代,而迭代主要是针对ChatGPT此前饱受诟病的点,比如事实性不够、风格难以控制、信息隔离不够好,等进行了提升:“利用对抗性测试计划和ChatGPT的经验教训,迭代调整GPT-4,在事实性、可操纵性和拒绝走出护栏方面取得了有史以来最好的结果。”

尽管GPT4的整体训练时长我们不得而知,但模型性能提升主要是得益于模型之前的预训练过程,因此只花了6个月的时间。

在官网上,OpenAI迭代调整的提升比例,比如事实性这个功能里,“在我们的内部对抗性事实评估中,GPT-4的得分比我们最新的GPT-3.5高40%”;在安全性角度,“与GPT-3.5相比,我们将模型响应不允许内容请求的趋势降低了82%,GPT-4根据我们的政策响应敏感请求(例如医疗建议和自我伤害)的频率增加了29%”。

40%、82%、29%,这些数字背后,迭代调整的时间仅有6个月。

作为OpenAI设计的一系列模型中的第五个,此前还出现了GPT - 1、GPT - 2 、 GPT - 3、GPT-3.5,前三个分别官宣于2018、2019、2020,GPT3已经出现了重大飞跃,参数是上一代的百倍,同时在商业上也表现出稳定性和实用性(比如估值15亿美元的JasperAI此前就使用的GPT3)。

此前OpenAI就曾表示,GPT3.5只是一个中间版本,或许叫“PreGPT4”会比“GPT3.5”更贴合,因为GPT3.5在技术路线上与之前有较大差异,是基于人工标注数据 强化学习的推理和生成。正如同ChatGPT最初是以“demo”形态被OpenAI推出,其原因也是为了测试在安全性、真实性等方面的改进空间。

而GPT4的整体训练,在官网上,OpenAI仅用了几段话作为简单描述。抽象来看,主要是从几个维度进行了加强训练:

GPT4能用万分之一计算量就可以预测出准确率

OpenAI这次也提供了一个官方的论文来解释相关的功能和训练过程,但是关于具体的比如数据集规模、参数规模等都没有透露。虽然也提供了一个开源工具“Evals”,但这是为了让更多开发者给GPT4提建议的,而并非共享的。

这并不符合以往OpenAI的作风,也似乎与OpenAI创始人Sam Altman此前说到的OpenAI成立之初的愿景——AGI,让更多的人使用AI技术,并从中获利——并不相符。

对具体参数和规模缄口不言,背后的原因可以从两个方向分析:技术角度和商业角度,都要建立壁垒。

在GPT4公布前,不少人判断GPT4将是百万亿大模型,比此前GPT3.5的千亿大模型还要多100倍量级。但同样也在GPT4公布前,Altman也亲自下场辟谣,他表示,GPT-4的参数量不会大很多,但可能会用到更多的计算资源。在此前的分析文章中,36氪也有提到,这可能意味着OpenAI正在寻求其他创新性地提升模型能力的路径,而非一味求大。

但Altman同时也表示,GPT4模型还是以文本训练为主。但目前来看,GPT4并不是仅仅以本文为主,已经能够支持图片、视频等多种交互方式。这从侧面或许证明,Altman的“辟谣”或许并不是真的“辟谣”,外界的猜测,有可能是真的——的确在规模上有了更大、更令人难以想象的突破。

不少人猜测,虽然并没有达到百万级别,但会落在 1 万亿或 10 万亿参数范围内。相关分析指出,在这样的情况下,模型可能会受益于稀疏网络(sparse networks)的使用,以获得更好的模型扩展性。也就是说,OpenAI或将以往密集网络(dense networks)方法改为稀疏网络,并开发新的训练算法。同时,使用稀疏网络也可能导致模型架构的变化—— GPT-4 或许具有神经形态架构,即类似于人脑,可以根据需要适时激活特定部分的任务执行区域。

不过,也有从业者认为,OpenAI或许是出于安全负责的考虑,才没有披露具体细节,后续可能会公布。

但无论从什么角度考虑,壁垒的建立都是箭在弦上。毕竟,以Google、Meta为代表的大厂已经虎视眈眈许久,并且炮火声在最近越来越响:

Google开放其API接口

开放API接口、用更低的参数、用更高的参数……参与者们都在寻找更适合的角度,想要与OpenAI及其“爸爸”微软,正面竞争。

或许这也是OpenAI着急将GPT4推出的重要原因——你们还在围绕我的3.5比拼,而我已经跳到下一阶段了。这无疑能够帮助OpenAI依旧当仁不让成为“AI引领者”。

当下,由ChatGPT引发的系列讨论热度在持续升高,其中比较主流的讨论,集中在成本和模型规模两个维度。

对于全球所有模型层的公司来说,都在思考还要不要继续做、怎么做才能让自己成本更低;对于所有应用层的公司来说,都希望可以以如此低的接入成本,成为不同领域的“Jaseper”。

另一方面,到底需不需要如此大的模型,也成为业内讨论的话题之一。不少人认为,如果能够实现相同的效果,用更大的模型训练就是浪费资源。

但此刻看来,必要不充分条件依旧成立:虽然模型不是越大越好,但是更好地效果实现,还是必须得有更大的模型。

此刻,OpenAI的GPT4再次甩开了自以为能够与其竞争的“竞争者们”。未来,OpenAI一定会以更低的价格继续开放更好的模型,那时AI格局或许已经不会再出现变化了。

ChatGPT模型API接口1折开放,全球AI格局巨变进行时 | Chat AI

ChatGPT走红背后:苦熬五年,三次AI路线迭代|Chat AI

Chat AI | 最快月活过亿,但ChatGPT或终将被开源打败

ChatGPT背后:一个天才、百亿融资和1亿月活 | 全球独角兽

5月,36氪将举办“颠覆AIGC”主题峰会

最新资讯


Copyright © 2010-2022