全面超越
GPT-4
苦等数月,没有等来 GPT-5 ,却迎来了 ChatGPT 的孪生兄弟 Claude 3。
昨天晚上,Anthropic 正式推出了 Claude 3 系列模型,包括 Claude 3 Opus、Claude 3 Sonnet 和 Claude 3 Haiku。
这三款模型在推理、数学、编码、多语言理解和视觉处理等方面相当扎眼。👇
中杯 Haiku,轻量级的选择
大杯 Sonnet,平衡性能与速度
超大杯 Opus,AI 模型的巅峰之作
在http://claude.ai体验网址上,Claude 3 免费版用户使用 Sonnet 模型。而订阅用户将能够体验到更高级的 Opus 模型。
中杯大杯超大杯,杯杯有惊喜
无论是中杯、大杯还是超大杯,Anthropic 推出的每一款模型都蕴藏着惊喜。
Anthropic 官方宣称,作为旗舰级别的超大杯 Opus 模型,其智能程度堪比人类,能够游刃有余地应对开放式问题,并巧妙解决各种复杂挑战。
从官方发布的成绩单来看,在知识测试 MMLU、推理测试 GPQA、基础数学测试 GSM8K 等一系列基准测试中,超大杯 Claude 3 Opus 模型展现了卓越的性能,其每一项得分都全面超越了 GPT-4 以及 Gemini 1.0 Ultra。
自动播放视频 @dotey(同下)
若是和 GPT-4 Turbo 对比,情况有所不同
中杯 Haiku 模型则主打的是响应速度最快且性价比最高。它能在不到三秒的时间内快速消化 arXiv 上的长达约 10000 个词汇的高密度研究论文及其图表。
自动播放基准测试结果显示,Haiku 模型的性能水平介于 GPT-4 和 GPT-3.5 之间,然而在成本效益上,Haiku 模型的性价比远超 GPT-4。
图表来自 @FinanceYF5
在大多数工作任务中,Sonnet 的速度比 Claude 2 和 Claude 2.1 快一倍,且在智能处理能力上也实现了质的飞跃。它特别擅长需要迅速响应的任务,例如知识检索和销售自动化。
自动播放相较之下,超大杯 Opus 的性能虽然更强,但响应的速度模型却和旧模型大致相同。
值得一提的是,和前代模型相比,Claude 3 最突出的新增能力在于其视觉识别能力。这意味着它能处理包括照片、图表、图形以及技术图纸等多种视觉资料,而这种多模态能力也正是当今顶尖 AI 模型必备的功能。
众所周知,大部分顶尖模型往往基于英文语料库进行训练,这导致它们在英语答案生成上的表现通常远超其他语言,而 Claude 3 打破了这一桎梏,在西班牙语、日语和法语等非英语语言的交流中展现出更强大的沟通能力。
自成立之初,Claude 便以「安全而负责任的 AI」著称,既是其引以为傲的亮点,亦是其双刃剑般的存在。比如过往的 Claude 模型经常无端地拒绝回答问题。
而升级后的 Claude 3 模型已经在理解用户请求方面迈出了步,能够敏锐地识别出风险问题,并且精准地区分无害的请求。
在提升性能的同时,Claude 3 也兼顾了模型的安全性和可靠性,依然严格遵循人工智能安全等级 2(ASL-2)的标准。
人工智能安全等级2(ASL-2)是一个用于评估和分类人工智能系统潜在风险的等级体系中的一个级别。
ASL-2通常意味着该级别的AI系统具有中等的潜在风险,需要采取一定的安全措施来确保其安全运行,但这些风险是可控的,并且系统在大多数情况下不会对人类或环境构成严重威胁。
针对当前大模型普遍存在的幻觉问题,Anthropic 也注意到了这一问题,专门针对现有模型的已知缺陷设计了一系列复杂且基于事实的问题。
在评估模型的回答时,他们将回答分类为正确、错误(或虚构)以及不确定性承认。这种方法允许模型在不确定时明确表示其知识的局限性,而不是提供可能误导的错误信息,从而提高了 AI 系统的透明度和可靠性。
与 Claude 2.1 相比,超大杯 Opus 在处理这些具有挑战性的开放式问题时,正确率翻了一番,同时大幅减少了错误答案的产生。
类似于 Perplexity 的思路,除了生成更可信的回答外,Anthropic 即将在 Claude 3 模型中启用引用功能,使其能够引用参考材料中的具体句子,以此来验证其答案的正确性。Perplexity 怕是要瑟瑟发抖了。
借鉴了 Perplexity AI 答案引擎的思路,Anthropic 计划为 Claude 3 模型新增引用功能,使其能够引用参考材料中的具体句子,以此来验证其答案的正确性。
Claude 3 系列模型在刚推出时仅支持最多 20 万 个 tokens 的上下文窗口,单次可处理大约 15 万个单词。
不过,和 Gemini 1.5 Pro 一样,Claude 3 全系模型均能处理超过 100 万个 tokens 的输入,再次回归到 AI 模型的第一档次。而这项功能仅对需要更高处理性能的特定客户开放。
衡量上下文窗口能力的试金石,依然是我们熟悉的「大海捞针」测试。
「大海捞针」(NIAH)评估测试的是模型从大量数据中准确检索信息的能力。为了增强这一测试的可信度,Anthropic 官方更是随机在多样化的众包文档集合中进行测试。
结果显示,超大杯 Claude 3 Opus 不仅以超过 99% 的准确率实现了信息检索的近乎完美表现,而且在某些情况下,它能识别出那些作为「针」的句子是由人为刻意的,充分展现了其对信息环境的深刻理解。
瞧瞧这满屏的绿色`
目前,Opus 和 Sonnet 已经正式开放,集成在 Anthropic 的 API 中,开发者们现在可以注册并开始使用这些模型。Haiku 模型也即将在不久后推出。
模型细节
为了介绍这三款模型,Anthropic 也一口气发布了一份长达 42 页的技术报告
报告地址入口:https://-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model\_Card\_Claude\_3.pdf
Claude 3 实测 :能和 GPT-4 一较高下吗?
在 Claude 3 发布之后,网友 @op7418 第一时间尝试了 Claude 3 Opus,并做了三个测试。
网友首先对 Claude 3 Opus 的翻译能力进行了测试,挑战了一段复杂的英文文本。结果显示,Opus 的翻译不仅条理分明,而且分段和排版得当,使得阅读体验大幅提升。但若论翻译的流畅度与准确性,GPT-4 依旧略占上风。
此外,网友又用一张风格复杂的设计稿截图考验 Opus 的细节还原能力。在网友明确指出需要还原样式后,Opus 精准把握设计元素,整体表现要比 GPT-4 要好。
多模态能力也是 Opus 值得考察的重点。它不仅能读懂学术论文的精髓,还能把分析结果呈现得一清二楚。不过,跟 GPT-4 比起来,Opus 在信息的丰富度上似乎还有点「成长空间」。
网友 @mlpowered 向 API 提供了长达两小时的视频讲稿以及精选的关键画面截图,成功制作出了一篇内容丰富、图文并茂的 HTML 格式博客文章。
网友 @7oponaut 分别用 Opus 和 GPT-4 分别玩起了井字游戏,遗憾的是 Opus 并不能顺利地画出网格。,而 GPT-4 则宣告成功。
我们也实测了 Claude 3 一些效果,比如看图识别菜谱。
解释方程式。
提取 JSON 文件。
留给 OpenAI 的时间不多了?
有趣的是,在 Claude 3 发布后,讨论最多的却是老对手 ChatGPT。
英伟达高级科学家 Jim Fan 已经在期待 GPT-5 的亮相了。
网友体验后的真性情。
留给 Sam Altman 的时间不多了。
只有 Q* 的出现才能彻底抢走 Claude 3 的风头。
前 Open AI 开发者关系主管 Logan Kilpatrick 送上祝贺。
对 Claude 3 史无前例的夸赞。
网友做的梗图
网友在 Altman 评论区催更。
而该评论的推文上,Sam Altman 正在转发 Ron Conway 的一封署名信。
为了构筑一个更加美好的未来,我们呼吁全人类共同努力,广泛开发和应用人工智能(AI),以此来提升人们的生活质量,开启美好未来的大门。
人工智能的终极目标,在于让人类生活得更加美好,超越以往任何时代的可能。
尽管人工智能技术仍处于发展初期,但它正逐步渗透到我们日常生活的各个方面:从提供学习帮助的 AI 导师,到连接世界的 AI 翻译工具;从促进医疗保健的 AI 辅助诊断,到加速科学发现的 AI 研究工具;再到能够协助我们处理日常事务的 AI 对话助手。
人工智能在直接增强人类思维能力方面具有独特优势。我们预计,它对人类社会的影响将与印刷术、内燃机、电力及互联网相似。人工智能对人类正面与负面影响的平衡,将取决于我们每个人的行动和深思熟虑。我们肩负着共同的责任,要做出明智的选择,以最大限度地发挥人工智能的积极作用,并减少其潜在风险,不仅为了今天,也为了未来世代。
每个人都可以为塑造人工智能的未来做出贡献,无论是使用它来创造和学习的人们,还是在这项技术基础上开发新产品和服务的创新者,亦或是利用人工智能探索人类面临的重大挑战的解决方案的先行者,以及那些分享对人工智能影响生活的希望和忧虑的人们。人工智能属于我们所有人,每个人都在构建能够改善人类生活的人工智能过程中扮演着重要的角色。