多项评分超GPT4!前员工创业公司的大模型超越OpenAI了?
发布时间:2024-03-05 16:56:13 作者:新浪新闻 浏览量:407
由AI(人工智能)新锐巨头OpenAI前员工创办、获得亚马逊和谷歌资助的AI新创企业Anthropic推出旗下最先进的大模型,在各项评分上超越GPT-4。
当地时间3月4日,被视为OpenAI头号竞争对手的Anthropic宣布推出Claude 3系列模型,在宣传语中非常有信心地写道:“Claude 3系列模型在推理、数学、编码、多语言理解和视觉方面,都树立了新的行业基准。”
Claude 3系列包括能力强度逐渐增加的三款模型:Haiku、Sonnet和Opus。用户可以直接与三款模型的聊天机器人进行交谈,或作为开发人员获取API访问权限,利用Anthropic提供的AI基础设施构建应用程序。
其中,增强版的Sonnet和最强版的Opus已经在claude.ai和Claude API中开放。作为聊天机器人,Sonnet能够免费使用,Opus则需要用户开通每月20美元的订阅账户。亚马逊云和谷歌云的用户也已经可以分别通过Amazon Bedrock和Vertex AI Model Garden来使用Sonnet。
Claude 3系列三款模型价格越高,能力越强。来源:Anthropic官网
据Anthropic介绍,作为旗下最智能的模型,Claude 3 Opus在大多数常见的AI系统评估标准中都取得了优异的成绩,包括本科级别专业知识(MMLU)、研究生级别专家推理(GPQA)、基础数学(GSM8K)等。在复杂的任务中,Opus也能展现出接近人类水平的理解和表达能力。
Anthropic的联合创始人兼总裁达里奥·阿莫代(Dario Amodei)表示,Opus在分析科学数据或生成计算机代码时能够起到很大的用处。
整体来看,Claude 3的三款模型在分析和预测、细致的内容创作、代码生成以及使用西班牙语、日语和法语等非英语语言进行对话方面都显示出增强的能力。Claude 3系列与同行在多个能力基准上的比较显示,Claude 3 Opus的各项能力指标均超过了GPT-4和Gemini 1.0 Ultra。Sonnet也在部分基准上超越了GPT-4,Haiku则可以与Gemini 1.0 Pro相抗衡。
Claude 3 Opus的各项能力指标均超过了GPT-4和Gemini 1.0 Ultra。来源:Anthropic官网
Claude 3还具有与其他领先模型相媲美的复杂视觉能力,是公司旗下首款允许用户上传图片和文档的模型,可以处理各种视觉格式,包括照片、图表、图形和技术图解。
不过,Claude 3还不能生成文字以外的内容。考虑到谷歌Gemini在上月短暂开放该功能后由于图片过于强调“多样性”而引发了一连串争议,这也许是一种明智的选择。
此外,Claude 3系列的3款模型都将支持至少20万token的上下文窗口。Anthropic强调,Claude 3系列其实都能支持超过100万token的输入,正在考虑为需要更大上下文窗口的特定客户开放该功能。
Anthropic还表示,由于缺乏上下文理解能力,以前的Claude模型经常会对用户做出不必要的拒绝。而Claude 3降低了拒绝回答无害问题的频率,能够对用户的问题产生“更细致的理解”,识别真正的危害。
在困扰大模型的“幻觉”问题上,Claude 3也取得了显著进步。将模型的回复分类为正确答案、错误答案(或幻觉)以及不确定的回答,Claude 3 Opus提供正确答案的频率已经升到了前一代模型Claude 2.1的两倍,并且更少出现对事实的编造。
在面对难题时,Opus提供正确答案的频率显著上升。来源:Anthropic官网
随着Claude 3的横空出世,网友们纷纷调侃OpenAI要“坐不住了”,催促OpenAI尽快放出酝酿已久的GPT-5,甚至是传说中的Q*项目。
许多AI圈名人也出来祝贺Anthropic,包括近日将OpenAI和奥特曼告上法庭的特斯拉CEO埃隆·马斯克(Elon Musk),在Anthropic发布Claude 3的X(原推特)平台评论区中留言“Impressive(令人震撼)”。
来源:X平台
股市回暖,抄底炒股先开户!智能定投、条件单、个股雷达……送给你>>
海量资讯、精准解读,尽在新浪财经APP
责任编辑:王许宁
收藏