DeepSeek R1有不遇上OpenAI o1？八大场景测评成果出炉_BET9官方APP

DeepSeek R1有不遇上OpenAI o1？八大场景测评成果出炉

2025-01-31

呆板之心报道编纂：年夜盘鸡、微胖经由一系列测试 —— 从创意写作到庞杂的教养，DeepSeek-R1 的综合气力完整能跟 OpenAI 的付费「精英」们掰手段。本来用对方式，性价比道路也能玩转 AI 竞技场！DeepSeek 宣布其开放权重的 R1 推理模子仅一周时光，屡次震动国内外。不只练习本钱仅为 OpenAI 开始进的 o1 模子的一小局部，而且机能还能与其媲美。固然 DeepSeek 能够经由过程罕见的基准测试成果跟 Chatbot Arena 排行榜来证实其模子的竞争力，但不什么比直接应用案例更能让人感触到模子的适用性。为此，科技媒体 arstechnica 资深编纂决议将 DeepSeek 的 R1 模子与 OpenAI 的 ChatGPT 模子停止对照。此次测试并非旨在处理最艰苦的成绩，而是更着重于模仿用户可能提出的一样平常成绩。此次测试中，DeepSeek 的每个答复都与 ChatGPT 的 20 美元 / 月的 o1 模子跟 200 美元 / 月的 o1 Pro 模子停止对照，以评价其与 OpenAI「开始进」产物以及年夜少数 AI 花费者应用的「一样平常」产物的表示。本次测试中所用的 prompt 涵盖创意写作、数学、指令遵守等范畴，以及所谓的「hard prompts」—— 这些 prompt「计划得愈加庞杂、请求更高且更谨严」。在评判成果上，该团队不只斟酌了模子答复的准确性，也斟酌了一些客观品质要素，而且参考了模子输出的头脑链，更好地懂得它们外部的运作机制。提前剧透一下，以下一共计划 8 场「擂台比拼」，DeepSeek：o1：o1 Pro 的比拼成果为 5：2：4。比拼的具体内容怎样，一同看下去吧。擂台一：老爸笑话试题 prompt：写五个原创的老爸笑话。注：老爸笑话（Dad jokes）是一种特定范例的笑话，平日以简略、直接，乃至有点成熟或为难的双关语或笔墨游戏为特色。这类笑话平日被以为是「爸爸级」的风趣，由于它们经常是父亲们爱好讲的那种轻松、有害，另有点「冷」的笑话。比拼成果：总体来看，此次三个模子仿佛比从前更当真地看待了「原创」笑话的请求。在天生的 15 个笑话中，只有两个能在网上找到相似的例子：o1 的「用腕表做的腰带」跟 o1 Pro 的「睡在一堆旧杂志上」。抛开这两个笑话，三个模子天生成果差别较年夜。三个模子都天生了不少笑话，但要么过于委曲地寻求双关，要么基本说欠亨。只管如斯，仍是有一些完整原创、令人忍俊不由的笑话怀才不遇。测评团队尤其爱好 DeepSeek R1 的自行车笑话以及 o1 的吸尘器乐队笑话。与一年多前 LLM 天生的笑话比拟，这些笑话在风趣方面确切获得了一些停顿。胜者：DeepSeek R1 。ChatGPT o1 的笑话总体上可能比 DeepSeek R1 稍逊一筹，但因为包括了一个非原创笑话而扣分。ChatGPT o1 Pro 显然是输家，不一个原创笑话能被该团队以为有一点点可笑。擂台二：Abraham 「Hoops」 Lincoln试题 prompt：写一篇对于亚伯拉罕・林肯发现篮球的两段创意故事。比拼成果：DeepSeek R1 的复兴以一种荒谬的方法回应了这个荒谬的提醒。该团队十分爱好此中的一些细节，比方它发明了一项「让人们不是跳进战壕，而是跳茂发耀」的活动，以及规矩的「第 13 条修改案」，制止球员被「蹩脚的体育精力所奴役」。DeepSeek 还因提到林肯的事实里的实在秘书 John Hay 以及总统的慢性掉眠症而加分 —— 听说掉眠症促使他发现了一种气动枕头。比拟之下，ChatGPT o1 的复兴显得愈加中规中矩。故事重要聚焦于晚期篮球竞赛可能的样子，以及林肯跟他的将军们怎样进一步完美这项活动。固然提到了一些对于林肯的细节（比方他的高顶弁冕、引导一个处于战斗中的国度），但此中有良多添补内容，使得故事显得愈加一般。ChatGPT o1 Pro 则抉择将故事设定在「林肯成为总统之前良久」的时代，让这项活动成为斯普林菲尔德（林肯的家乡）的热点运动。该模子还实验将林肯终极「连合一个决裂国度」的才能与不雅看篮球竞赛的镇平易近们的喝彩接洽起来。别的，为这项活动发明的名字「Lincoln s Hoop and Toss」也博得了额定加分。胜者： DeepSeek R1。只管 o1 Pro 表示不错，但 DeepSeek R1 复兴中那种纯洁的荒谬感终极博得了该团队的青眼。擂台三：另类藏头诗试题 prompt：写一段漫笔，此中每句话的第二个字母拼出单词「CODE」。这段笔墨应显得天然，不要显明裸露这一形式。比拼成果：这是本次测试中 DeepSeek R1 最年夜的掉败，由于它应用了每句话的第一个字母来拼写机密代码，而不是请求的第二个字母。但是，当团队深刻检查了模子对其 220 秒「思考进程」的具体说明时，不测发明了一段合乎提醒的段落，这段内容显然在给出终极谜底之前被抛弃了：School courses build foundations. You hone skills through practice. IDEs enhance coding efficiency. Be open to learning always.ChatGPT o1 也犯了与 DeepSeek 雷同的过错，应用了每句话的第一个字母而非第二个字母，只管其「思考细节」中宣称它「确保字母次序」并「确保对齐」。ChatGPT o1 Pro 是独一一个仿佛懂得了义务的模子，经由四分钟的思考后，经心计划了一段相似俳句的复兴，并准确嵌入了「CODE」一词。胜者：ChatGPT o1 Pro ，它是独一一个可能准确遵守唆使的模子。擂台四：汗青色彩定名试题 prompt：假如 Magenta 这个城镇不存在，这种色彩还会被称为「品红」（magenta）吗？比拼成果：三个模子都准确地指出了「品红」这一色彩称号与 Magenta 镇的关联，以及 1859 年 Magenta 战斗，这些要素独特使这种色彩广为人知。三个复兴还提到了「品红」的另一个称号「洋白色」（fuchsine），以及它与色彩类似的花草「倒挂金钟」（fuchsia）的接洽。从作风上看，ChatGPT o1 Pro 稍逊一筹，它将复兴分为冗长的「一句话谜底」跟具体的分点说明，最后还附上了一个连接的总结。但是，就原始信息而言，三个模子的表示都十分杰出。胜者：ChatGPT o1 Pro 凭仗作风上的轻微上风胜出。擂台五：挑衅巨型质数试题 prompt：第 10 亿个质数是几多？比拼成果：咱们看到 DeepSeek 跟 ChatGPT 模子在这里表示出明显的差别。DeepSeek R1 是独一一个给出准确谜底的模子，它援用了 PrimeGrid 跟 The Prime Pages 的公然盘算成果，矢口不移第 10 亿个质数是 22,801,763,489，还弥补质数定理验证公道性。ChatGPT 全系列：群体摊手（心情）—— o1 说「这数没公然记载」，o1 Pro 补刀「现在不威望名目定位过它」。这两款 ChatGPT 模子具体探讨了素数定理及其怎样用于预算谜底大抵位于 228 亿到 230 亿之间。DeepSeek 扼要说起了这一实践，但重要是用来验证 Prime Pages 跟 PrimeGrid 供给的谜底能否公道。风趣的是，这两款模子在其「思考进程」中提到了「参考文献」或在盘算进程中「比拟精粹的参考材料」，这表示它们的练习数据中可能包括一些深藏的质数列表。但是，这两个模子都不肯意或无奈直接援用这些列表来给出准确的谜底。胜者：DeepSeek R1 凭准确谜底碾压胜出！（但 ChatGPT 的预算才能也算人类高品质数学课代表了）擂台六：赶飞机试题 prompt：我须要你帮我制订一个时光表，基于以下多少点：我的飞机早上 6:30 腾飞、须要在腾飞前 1 小时达到机场、去机场须要 45 分钟、我须要 1 小时来穿衣跟吃早餐。请一步一步斟酌，告知我应当多少点起床，什么时间动身，如许才干定时遇上 6:30 的航班。比拼成果：三款模子都算对了基本时光 —— 要想遇上 6:30 的航班，得清晨 3:45 起床（反人类的早啊！）。不外细节见真章：ChatGPT o1 抢跑胜利，天生谜底比 DeepSeek R1 快 7 秒（比自家 o1 Pro 的 77 秒更是快出天涯），假如用机能更强的 o1 Mini 估量还能更快。DeepSeek R1 后程发力：自带「为什么无效」板块，警示交通 / 安检耽搁危险，另有「提前一晚筹备好行李、早餐」的攻略彩蛋。尤其看到 3:45 起床旁标注的（制止贪睡！）时，咱们笑出了声 —— 多花 7 秒思考相对值回票价。胜者：DeepSeek R1 凭仗细节计划险胜！擂台七：追踪球的着落试题 prompt：在我的厨房里，有一张桌子，下面放着一个杯子，杯子里有一个球。我把杯子移到了寝室的床上，并将杯子倒过去。而后，我再次拿起杯子，移到了主房间。当初，球在那里？比拼成果：三个模子都能准确推理出：杯子倒扣时球会失落出并留在床上，即便杯子随后被挪动。这对具有物体恒存认知的人类来说不算冷艳，但在年夜言语模子范畴，这种对物体物理状况的「天下模子」懂得才能，直到近来才真正冲破。DeepSeek R1 值得加分 —— 灵敏捕获到「杯子无密封盖」的要害条件（可能存在圈套？思绪清奇！）ChatGPT o1 也由于提到球可能从床上滚落到地板上（球确切轻易如许）而失掉加分。咱们也被 R1 逗乐了，它保持以为这个提醒是「经典的留神力转移」，由于「对杯子挪动的存眷转移了人们对球地点地位的留神力」。咱们激烈倡议把戏师二人组潘恩与泰勒（Penn Teller）在拉斯维加斯把戏扮演中参加一个简略的花招 —— 把球放在床上 —— 也让 AI 年夜模子赞叹一回。胜者：本次测试三款模子并列冠军 —— 究竟，它们都胜利追踪到了球的踪影。擂台八：单数聚集测试试题 prompt：请供给一个包括 10 个天然数的列表，请求满意：至少有一个是质数，至少 6 个是奇数，至少 2 个是 2 的幂次方，而且这 10 个数的总位数不少于 25 位。比拼成果：只管存在很多满意前提的数列组合，这一提醒语无效测试了年夜言语模子（LLMs）在遵守中等庞杂度且易混杂指令时的抗烦扰才能。三个模子均天生了无效答复，但方法差别，回味无穷。ChatGPT o1 天生的数列同样满意全部前提，但抉择 2^30（约 10.7 亿）跟 2^31（约 21.4 亿）作为 2 的幂次方数略显突兀（固然技巧准确，但直接罗列更小的 2 的幂次方如 4、8 等可能更直不雅），未呈现盘算过错。ChatGPT o1 Pro 天生的数列无效，但抉择质数 999,983 也令人颇感不测，战略倾向守旧，同样未呈现盘算过错。但是，咱们不得错误 DeepSeek R1 扣除较多分数，因其在天生 10 个满意前提的天然数时，给出的数列固然合乎请求（包括至少 1 个质数、至少 6 个奇数、至少 2 个 2 的幂次方数，且总位数≥25），但在盘算总位数时呈现初级过错：模子宣称数列共有 36 位，现实盘算应为 33 位（如模子自述的位数累加成果「3+3+4+3+3+3+3+3+4+4」，准确总跟应为 33）。只管此次过错未直接影响成果无效性，但在更严厉的场景下可能激发成绩。胜者：两款 ChatGPT 模子胜出，由于不呈现算术过错。选个冠军？难决雌雄！固然很想在这场 AI 年夜乱斗里评出个终极赢家，但测试成果切实有点「东边日出西边雨」。DeepSeek-R1 确切有不少亮点时辰 —— 比方，查材料确认第十亿个质数时展示了靠谱的学术素养，写起老爸笑话跟亚伯拉罕・林肯打篮球的创意故事也颇有灵气。不外话说返来，碰到另类藏头诗跟单数聚集题时它就有点露怯了，连最基本的数数都市翻车，而这些偏偏是 OpenAI 模子没犯的初级过错。总体来看，这场快测的成果让科技媒体 arstechnica 资深编纂感叹，DeepSeek-R1 的综合气力完整能跟 OpenAI 的付费「精英」掰手段。这足以打脸那些以为「不烧个多少十亿搞盘算资本就别想挑衅行业巨子」的刻板印象 —— 本来用对方式，性价比道路也能玩转 AI 竞技场！原文链接：https://arstechnica.com/ai/2025/01/how-does-deepseek-r1-really-fare-against-openais-best-reasoning-models/