国产AI大模型紧追ChatGPT,蓄势待发
在ChatGPT问世两年后,OpenAI和国内企业正尝试超越它。今年9月,OpenAI发布了全新系列模型o1,这项突破再次将目光聚焦在“会思考的大模型”上。
OpenAI首席执行官萨姆·阿尔特曼对o1充满信心,他表示,这标志着AI发展不仅没有放缓,而且对于未来几年已经胜券在握。
受到启发,国内大模型厂商也紧随其后。两个月内,多家国内企业陆续推出具有类似功能的深度思考模型。
国产大模型集体跟进o1
尽管OpenAI并未公开o1的具体技术细节,但国内大模型公司仅用两个月左右的时间就跟上了这项前沿技术。
11月中旬,月之暗面发布的新模型k0 math通过强化学习和思维链推理技术,增强了数学推理能力。Deepseek紧随其后,推出了DeepSeek-R1-Lite,展示了完整的大模型思考过程。昆仑万维则推出了“天工大模型4.0”o1版,宣称是国内首款实现中文逻辑推理的模型。
这些国产大模型都在强调逻辑思考能力的重要性。
数学难题上的突出表现
从模型测试结果来看,上述国产大模型在数学、代码等能力方面表现不俗,甚至超越了o1。
例如,k0 math在数学基准测试中超过了OpenAI的o1模型。DeepSeek-R1-Lite在AIME(美国数学竞赛)和部分编程比赛中表现优异,超过o1-Preview。
“慢思考”能力的引入
国产大模型通过引入思维链(CoT)技术,实现了“慢思考”能力,能够模拟人类逐步推理的过程。这使得大模型能够解决以往无法解决的难题。
例如,Deepseek R1能够将复杂问题拆解为一个个小问题,最终给出正确答案。在“qíng rén yǎn lǐ chū xī shī转换为中文”的问题上,昆仑万维的天工大模型能够主动识别并纠正错误,找到准确翻译结果。
专精与通用的平衡
尽管“慢思考”模型大幅提升了大模型在特定学科上的表现,但其推理时间和成本也是影响因素。
对于某些常识性问题,采用传统大模型能力可能更具效率。因此,大模型需要学会自行判断问题难度,决定是否开启深度思考模式。在科学研究或复杂项目规划中,增加思维链长度无疑是有益的。
突破AGI二阶段,国内加速产品落地
o1的出现标志着大模型能力从基础的多模态阶段(L1)迈入了逻辑思维阶段(L2),开启了通往人工智能通用智能(AGI)的新篇章。
国内大模型公司除了在技术上紧追不舍,还积极探索产品落地。他们将o1的能力与现有AI应用相结合,提升搜索、智能体等方面的效果。
对未来发展的影响
大模型的“慢思考”能力为Scaling Law提供了新的支撑,有助于解决数据枯竭的困境。同时,它也为智能体的发展奠定了基础,让AI能够像人类一样规划任务、进行复杂操作。
不过,如何平衡推理进化和用户效率需求,仍然是国产大模型厂商面临的挑战。随着技术不断迭代,国产大模型有望在不久的将来与ChatGPT比肩而立,甚至超越它。
原创文章,作者:讯知在线,如若转载,请注明出处:http://m.xzxci.cn/2024/12/03/26865.shtml