第一财经周刊

为什么说OpenAI o1带来的是范式变化

吴洋洋

Key Points

OpenAI的o1模型开启了大模型从深度学习向强化学习过渡的新范式;

新范式下,不仅训练可以scaling,推理也可以;

新范式意味着AI未来可以执行分钟级别、小时级别甚至天级别的任务;

未来会有越来越多online-learning过程,将有更多计算向推理转移;

除了self-play,OpenAI具体如何训练出o1还是个秘密。

 

OpenAI发布最新模型o1一周后,阿里云举办了每年一次的开发者大会「云栖大会」。生成式AI——尤其o1成为这次大会多个场合讨论最多的议题之一。一个取得多数共识的说法是,o1模型带来的是AI的一次「范式变化」。

 

从深度学习(DL)到强化学习(RL)

阶跃星辰创始人兼CEO姜大昕认为,o1模型第一次证明了语言模型也可以有类似人脑系统2的慢思考能力。如果说2018年以来的GPT系列模型的范式是Predict next Token(预测下一个token)的深度学习框架,9月12日发布的o1系列模型(指OpenAI o1 preview和OpenAI o1 mini),则是一个强化学习框架。差别在于对复杂问题的拆解和处理上,GPT 4虽然有时候也可以把一个复杂问题拆解成很多步,然后分步去解决,但它是直线性地完成这一过程。而o1系列模型能够像人脑系统2(注:系统2一般指缓慢专注理性的思考模式,这个概念由心理学家丹尼尔·卡尼曼提出)一样拆解复杂问题后探索不同的路径,并且能够自我反思、自我纠错,通过不断试错找到一个正确途径。

在此之前,业界将强化学习与语言模型结合的主要模式是将语言模型加载到机器人上去。然而o1证明,模型可以不走进现实世界,也能在虚拟世界中通过强化学习增强智能水平。

阿里云CTO周靖人同样认为o1带来的是AI范式上的变化,「它把agent(智能体)中的很多工作自动化了」他对「新皮层」说,模型能够自动分析、策划、通过试错去将一个复杂问题拆解并自动化完成,这是o1最具价值的地方。此前,这些工作需要通过一个人为构建的MoE(Mixture of Experts:混合专家模型)去完成还不一定能拆解好。而在推理过程中通过强化学习来改进决策水平,意味着未来会有越来越多online-learning过程,即在推理过程中学习,而不像传统预训练模型那样学习与推理分开,未来,推理即学习,将有更多计算向推理转移,这个变化令人兴奋。

 

数据、算力和产品都将经历重塑

姜大昕和月之暗面创始人杨植麟都认为,o1在算法上的新范式将开启新的Scaling Law(规模定律,指效果与数量成正比),即不止参数量、训练数据量可以scaling,推理阶段的强化学习过程可能也可以scaling。「我们不妨称之为RL Scaling。」姜大昕说。

姜大昕了解到的数据显示,GPT 4到了万亿级参数后,再去提升它的参数量,边际收益是下降的。「但如果强化学习的方法能产生放大器作用,能加倍模型边际收益,是不是总的收益ROI又打正了?这是一个不太确定的事情,可以留在后面去验证。」姜大昕说。

杨植麟认为,强化学习的引入、与大模型结合,可以降低大家对数据的焦虑。「之前大家会担心现在互联网上大部分优质数据都已经被使用完了,那继续scaling就会有问题。」他说,他认为o1模型很大程度上解决了这个问题——至少证明了它加入的强化学习过程初步可行,这对业界是个重要的新开端,意味着训练和推理两样东西都可以scaling。

反映到算力上,强化学习带来的推理即学习,会使推理测的算力成倍提升——理论上没有上限。姜大昕提到的数据称,Open AI在训练Strawberry模型(草莓模型,即o1推出前外界猜测的名字)时用了几万张卡、训练了几个月,而现在还是o1模型的preview(预览阶段),训练还没有完全完成,意味着训练这类模型的代价高昂。而且,OpenAI在o1模型进入推理阶段后可能也用了英伟达的最高端芯片H100。这是因为o1在回答问题时比传统模型更为缓慢,往往要消耗十几秒甚至几十秒时间,若要加快反应速度,对推理芯片的要求会提到更高。如果未来使用在推理阶段的芯片也要达到与训练阶段所用芯片的性能,这会大大提升模型的使用成本。

产品形态上,杨植麟认为,o1带来的新范式和能力,将带来新一轮的应用繁荣。但要从中找到PMF(产品市场匹配)机会,还需要在任务属性和模型延时之间做好平衡。因为有系统2式思考能力的模型,延时会增加,对于用户想要尽快得到结果的任务来说会是一种负面体验;但同时也存在另一种更为复杂的任务,用户愿意为更好的结果等待。这种场景会率先在一些生产力场景中出现,而不是娱乐场景。

目前流行的聊天产品可能会迎接一轮变化,未来,它们可能不仅不一定立即回答问题、思考个20秒、40秒才回答,还可能要经过漫长的思考或者调用各种工具,执行分钟级别、小时级别甚至天级别的任务。杨植麟认为,这样的产品形态上可能会更接近一个人,更接近「助理」的概念。

 

除了self-play,OpenAI具体如何训练出o1还是个秘密

过去,强化学习多被用于语言学习之外的领域,比如游戏、图像识别、机器人行走。Google旗下的DeepMind一直是这一路线的探索者。姜大昕认为,o1的出现意味着强化学习在通用性和泛化性上又上了一个台阶。它能用这种新的学习方法把语言学得更好了,不再只是在玩文字游戏。

强化学习意味着模型要做「self-play」,即自我对弈。2016年以4-1赢李世石后,AlphaGo从向人类围棋大师学习,改为自我对弈,用新方法学习仅3天后,新版本的AlphaGo Zero就以100比0的战绩战胜了旧版本的AlphaGo——AlphaGo Lee。

但OpenAI具体是如何在语言学习中让模型自我对弈的,目前仍然是个秘密。「它需要对思考过程的每一步都做标注标注,首先这种数据获取就很难。」清华大学人工智能研究院副院长、生数科技首席科学家朱军说,其次,如何为模型设置奖励函数也是个挑战。朱军称,一般来说定理证明或者编程是确定答案的,奖励函数比较明确、容易定义,然而自动驾驶、艺术创作、图像生成、视频生成、语言生成,关于什么是「好」的标准很难定义,它不像图像识别那样是「是或非」的二元问题,而是涉及美学,每个人对模型生成内容的感受并不一样。

除了奖励函数,姜大昕认为,「做搜索路径的时候,需不需要人工干预去帮模型找到更好的路径;self-play的题目从哪里来、答案怎么找,都是一些新的未知领域要去探索」。

 

接下来18个月会发生什么?

清华大学人工智能研究院副院长、生数科技首席科学家朱军提到OpenAI对AGI的划分方法,AGI也可以分为从L1到L5的不同层级。其中包括ChatGPT在内的聊天机器人相当于L1级别的AGI;L2级AGI需要能够做复杂问题的深度思考和推理,是个推理者;L3是智能体(agent),能够与真实物理世界交互;L4是创新者,能够发现和创造一些新东西、新知识;L5是组织者,能够与其他AI以某种组织方式协同起来运转。朱军认为,o1模型在L2级的某些狭义场景、特定任务上已经实现了很高阶的智能水平。

对于接下来的18个月,朱军认为可能会有令人兴奋的新进展,有望看到AGI的L3基本实现,在一些特定场景下的决策能力有巨大提升,并且能够创建生成世界模型、做到虚实融合。杨植麟更看重如何让模型通过产品与用户交互,在真实的环境里面完成任务和自我进化。「o1一定程度上说明这个方向有比之前更强的确定性,这个会是一个重要的里程碑,也是AGI路上现在仅剩的唯一一个重要问题了。」他说。

除了期待强化学习能够进一步泛化,姜大昕也很期待,视觉领域模型生成与模型理解的一体化。在文字领域,GPT已经做到了理解与生成的一体化,但在视觉领域,这个问题依然没有解决。目前,GPT 4解决了大多数模态的理解和生成问题,但仍然不能生成视频。姜大昕认为这个问题很重要,因为如果解决了视频理解生成一体化,就可以彻底建立一个多模态的世界模型,还可以和具身智能相结合,作为机器人的大脑去探索物理世界。

推荐阅读

看更有意思的商业世界,下载《第一财经周刊》