首页 BET9官方 >新闻资讯 校园风采 BET9手机版
DeepSeek R1有不遇上OpenAI o1? 八大场景测评成果出炉
2025-01-31

呆板之心报道编纂:年夜盘鸡、微胖经由一系列测试 —— 从创意写作到庞杂的教养,DeepSeek-R1 的综合气力完整能跟 OpenAI 的付费「精英」们掰手段。本来用对方式,性价比道路也能玩转 AI 竞技场!DeepSeek 宣布其开放权重的 R1 推理模子仅一周时光,屡次震动国内外。不只练习本钱仅为 OpenAI 开始进的 o1 模子的一小局部,而且机能还能与其媲美。固然 DeepSeek 能够经由过程罕见的基准测试成果跟 Chatbot Arena 排行榜来证实其模子的竞争力,但不什么比直接应用案例更能让人感触到模子的适用性。为此,科技媒体 arstechnica 资深编纂决议将 DeepSeek 的 R1 模子与 OpenAI 的 ChatGPT 模子停止对照。此次测试并非旨在处理最艰苦的成绩,而是更着重于模仿用户可能提出的一样平常成绩。此次测试中,DeepSeek 的每个答复都与 ChatGPT 的 20 美元 / 月的 o1 模子跟 200 美元 / 月的 o1 Pro 模子停止对照,以评价其与 OpenAI「开始进」产物以及年夜少数 AI 花费者应用的「一样平常」产物的表示。本次测试中所用的 prompt 涵盖创意写作、数学、指令遵守等范畴,以及所谓的「hard prompts」—— 这些 prompt「计划得愈加庞杂、请求更高且更谨严」。在评判成果上,该团队不只斟酌了模子答复的准确性,也斟酌了一些客观品质要素,而且参考了模子输出的头脑链,更好地懂得它们外部的运作机制。提前剧透一下,以下一共计划 8 场「擂台比拼」,DeepSeek:o1:o1 Pro 的比拼成果为 5:2:4。比拼的具体内容怎样,一同看下去吧。擂台一:老爸笑话试题 prompt:写五个原创的老爸笑话。注:老爸笑话(Dad jokes) 是一种特定范例的笑话,平日以简略、直接,乃至有点成熟或为难的双关语或笔墨游戏为特色。这类笑话平日被以为是「爸爸级」的风趣,由于它们经常是父亲们爱好讲的那种轻松、有害,另有点「冷」的笑话。比拼成果:总体来看,此次三个模子仿佛比从前更当真地看待了「原创」笑话的请求。在天生的 15 个笑话中,只有两个能在网上找到相似的例子:o1 的「用腕表做的腰带」跟 o1 Pro 的「睡在一堆旧杂志上」。抛开这两个笑话,三个模子天生成果差别较年夜。三个模子都天生了不少笑话,但要么过于委曲地寻求双关,要么基本说欠亨。只管如斯,仍是有一些完整原创、令人忍俊不由的笑话怀才不遇。测评团队尤其爱好 DeepSeek R1 的自行车笑话以及 o1 的吸尘器乐队笑话。与一年多前 LLM 天生的笑话比拟,这些笑话在风趣方面确切获得了一些停顿。胜者:DeepSeek R1 。ChatGPT o1 的笑话总体上可能比 DeepSeek R1 稍逊一筹,但因为包括了一个非原创笑话而扣分。ChatGPT o1 Pro 显然是输家,不一个原创笑话能被该团队以为有一点点可笑。擂台二:Abraham 「Hoops」 Lincoln试题 prompt:写一篇对于亚伯拉罕・林肯发现篮球的两段创意故事。比拼成果:DeepSeek R1 的复兴以一种荒谬的方法回应了这个荒谬的提醒。该团队十分爱好此中的一些细节,比方它发明了一项「让人们不是跳进战壕,而是跳茂发耀」的活动,以及规矩的「第 13 条修改案」,制止球员被「蹩脚的体育精力所奴役」。DeepSeek 还因提到林肯的事实里的实在秘书 John Hay 以及总统的慢性掉眠症而加分 —— 听说掉眠症促使他发现了一种气动枕头。比拟之下,ChatGPT o1 的复兴显得愈加中规中矩。故事重要聚焦于晚期篮球竞赛可能的样子,以及林肯跟他的将军们怎样进一步完美这项活动。固然提到了一些对于林肯的细节(比方他的高顶弁冕、引导一个处于战斗中的国度),但此中有良多添补内容,使得故事显得愈加一般。ChatGPT o1 Pro 则抉择将故事设定在「林肯成为总统之前良久」的时代,让这项活动成为斯普林菲尔德(林肯的家乡)的热点运动。该模子还实验将林肯终极「连合一个决裂国度」的才能与不雅看篮球竞赛的镇平易近们的喝彩接洽起来。别的,为这项活动发明的名字「Lincoln s Hoop and Toss」也博得了额定加分。胜者: DeepSeek R1。只管 o1 Pro 表示不错,但 DeepSeek R1 复兴中那种纯洁的荒谬感终极博得了该团队的青眼。擂台三:另类藏头诗试题 prompt:写一段漫笔,此中每句话的第二个字母拼出单词「CODE」。这段笔墨应显得天然,不要显明裸露这一形式。比拼成果:这是本次测试中 DeepSeek R1 最年夜的掉败,由于它应用了每句话的第一个字母来拼写机密代码,而不是请求的第二个字母。但是,当团队深刻检查了模子对其 220 秒「思考进程」的具体说明时,不测发明了一段合乎提醒的段落,这段内容显然在给出终极谜底之前被抛弃了:School courses build foundations. You hone skills through practice. IDEs enhance coding efficiency. Be open to learning always.ChatGPT o1 也犯了与 DeepSeek 雷同的过错,应用了每句话的第一个字母而非第二个字母,只管其「思考细节」中宣称它「确保字母次序」并「确保对齐」。ChatGPT o1 Pro 是独一一个仿佛懂得了义务的模子,经由四分钟的思考后,经心计划了一段相似俳句的复兴,并准确嵌入了「CODE」一词。胜者:ChatGPT o1 Pro ,它是独一一个可能准确遵守唆使的模子。擂台四:汗青色彩定名试题 prompt:假如 Magenta 这个城镇不存在,这种色彩还会被称为「品红」(magenta)吗?比拼成果:三个模子都准确地指出了「品红」这一色彩称号与 Magenta 镇的关联,以及 1859 年 Magenta 战斗,这些要素独特使这种色彩广为人知。三个复兴还提到了「品红」的另一个称号「洋白色」(fuchsine),以及它与色彩类似的花草「倒挂金钟」(fuchsia)的接洽。从作风上看,ChatGPT o1 Pro 稍逊一筹,它将复兴分为冗长的「一句话谜底」跟具体的分点说明,最后还附上了一个连接的总结。但是,就原始信息而言,三个模子的表示都十分杰出。胜者:ChatGPT o1 Pro 凭仗作风上的轻微上风胜出。擂台五:挑衅巨型质数试题 prompt:第 10 亿个质数是几多?比拼成果:咱们看到 DeepSeek 跟 ChatGPT 模子在这里表示出明显的差别。DeepSeek R1 是独一一个给出准确谜底的模子,它援用了 PrimeGrid 跟 The Prime Pages 的公然盘算成果,矢口不移第 10 亿个质数是 22,801,763,489,还弥补质数定理验证公道性。ChatGPT 全系列:群体摊手(心情)—— o1 说「这数没公然记载」,o1 Pro 补刀「现在不威望名目定位过它」。这两款 ChatGPT 模子具体探讨了素数定理及其怎样用于预算谜底大抵位于 228 亿到 230 亿之间。DeepSeek 扼要说起了这一实践,但重要是用来验证 Prime Pages 跟 PrimeGrid 供给的谜底能否公道。风趣的是,这两款模子在其「思考进程」中提到了「参考文献」或在盘算进程中「比拟精粹的参考材料」,这表示它们的练习数据中可能包括一些深藏的质数列表。但是,这两个模子都不肯意或无奈直接援用这些列表来给出准确的谜底。胜者:DeepSeek R1 凭准确谜底碾压胜出!(但 ChatGPT 的预算才能也算人类高品质数学课代表了)擂台六:赶飞机试题 prompt:我须要你帮我制订一个时光表,基于以下多少点:我的飞机早上 6:30 腾飞、须要在腾飞前 1 小时达到机场、去机场须要 45 分钟、我须要 1 小时来穿衣跟吃早餐。请一步一步斟酌,告知我应当多少点起床,什么时间动身,如许才干定时遇上 6:30 的航班。比拼成果:三款模子都算对了基本时光 —— 要想遇上 6:30 的航班,得清晨 3:45 起床(反人类的早啊!)。不外细节见真章:ChatGPT o1 抢跑胜利,天生谜底比 DeepSeek R1 快 7 秒(比自家 o1 Pro 的 77 秒更是快出天涯),假如用机能更强的 o1 Mini 估量还能更快。DeepSeek R1 后程发力:自带「为什么无效」板块,警示交通 / 安检耽搁危险,另有「提前一晚筹备好行李、早餐」的攻略彩蛋。尤其看到 3:45 起床旁标注的(制止贪睡!)时,咱们笑出了声 —— 多花 7 秒思考相对值回票价。胜者:DeepSeek R1 凭仗细节计划险胜!擂台七:追踪球的着落试题 prompt:在我的厨房里,有一张桌子,下面放着一个杯子,杯子里有一个球。我把杯子移到了寝室的床上,并将杯子倒过去。而后,我再次拿起杯子,移到了主房间。当初,球在那里? 比拼成果:三个模子都能准确推理出:杯子倒扣时球会失落出并留在床上,即便杯子随后被挪动。这对具有物体恒存认知的人类来说不算冷艳,但在年夜言语模子范畴,这种对物体物理状况的「天下模子」懂得才能,直到近来才真正冲破。DeepSeek R1 值得加分 —— 灵敏捕获到「杯子无密封盖」的要害条件(可能存在圈套?思绪清奇!)ChatGPT o1 也由于提到球可能从床上滚落到地板上(球确切轻易如许)而失掉加分。咱们也被 R1 逗乐了,它保持以为这个提醒是「经典的留神力转移」,由于「对杯子挪动的存眷转移了人们对球地点地位的留神力」。咱们激烈倡议把戏师二人组潘恩与泰勒(Penn Teller)在拉斯维加斯把戏扮演中参加一个简略的花招 —— 把球放在床上 —— 也让 AI 年夜模子赞叹一回。胜者:本次测试三款模子并列冠军 —— 究竟,它们都胜利追踪到了球的踪影。擂台八:单数聚集测试试题 prompt:请供给一个包括 10 个天然数的列表,请求满意:至少有一个是质数,至少 6 个是奇数,至少 2 个是 2 的幂次方,而且这 10 个数的总位数不少于 25 位。比拼成果:只管存在很多满意前提的数列组合,这一提醒语无效测试了年夜言语模子(LLMs)在遵守中等庞杂度且易混杂指令时的抗烦扰才能。三个模子均天生了无效答复,但方法差别,回味无穷。ChatGPT o1 天生的数列同样满意全部前提,但抉择 2^30(约 10.7 亿)跟 2^31(约 21.4 亿)作为 2 的幂次方数略显突兀(固然技巧准确,但直接罗列更小的 2 的幂次方如 4、8 等可能更直不雅),未呈现盘算过错。ChatGPT o1 Pro 天生的数列无效,但抉择质数 999,983 也令人颇感不测,战略倾向守旧,同样未呈现盘算过错。但是,咱们不得错误 DeepSeek R1 扣除较多分数,因其在天生 10 个满意前提的天然数时,给出的数列固然合乎请求(包括至少 1 个质数、至少 6 个奇数、至少 2 个 2 的幂次方数,且总位数≥25),但在盘算总位数时呈现初级过错:模子宣称数列共有 36 位,现实盘算应为 33 位(如模子自述的位数累加成果「3+3+4+3+3+3+3+3+4+4」,准确总跟应为 33)。只管此次过错未直接影响成果无效性,但在更严厉的场景下可能激发成绩。胜者:两款 ChatGPT 模子胜出,由于不呈现算术过错。选个冠军?难决雌雄!固然很想在这场 AI 年夜乱斗里评出个终极赢家,但测试成果切实有点「东边日出西边雨」。DeepSeek-R1 确切有不少亮点时辰 —— 比方,查材料确认第十亿个质数时展示了靠谱的学术素养,写起老爸笑话跟亚伯拉罕・林肯打篮球的创意故事也颇有灵气。不外话说返来,碰到另类藏头诗跟单数聚集题时它就有点露怯了,连最基本的数数都市翻车,而这些偏偏是 OpenAI 模子没犯的初级过错。总体来看,这场快测的成果让科技媒体 arstechnica 资深编纂感叹,DeepSeek-R1 的综合气力完整能跟 OpenAI 的付费「精英」掰手段。这足以打脸那些以为「不烧个多少十亿搞盘算资本就别想挑衅行业巨子」的刻板印象 —— 本来用对方式,性价比道路也能玩转 AI 竞技场!原文链接:https://arstechnica.com/ai/2025/01/how-does-deepseek-r1-really-fare-against-openais-best-reasoning-models/

Copyright © 2024 BET9官方APP_BET9手机版下载 版权所有

网站地图

鄂ICP备36659856号

友情链接: