亚洲欧洲精品成人久久奇米网,午夜高清视频在线

DoNews > 專欄 > DeepSeek R1悄悄更新！用「小版本」干翻大模型

DeepSeek R1悄悄更新！用「小版本」干翻大模型

字母榜 2025-05-29 17:43:40

347571

分享到

雖然DeepSeek-R2并沒(méi)有像2個(gè)月之前盛傳的那樣，在5月甚至之前準(zhǔn)時(shí)赴約。但是，DeepSeek正在不斷地用小升級(jí)追趕其他廠商的大版本。

昨天DeepSeek官方的一則「R1已完成小版本試升級(jí)」的消息，在各個(gè)AI討論群里炸開了花。這回的DeepSeek-R1-0528版本在各個(gè)社區(qū)引發(fā)震動(dòng)的最主要原因是：它真的不是一次小更新！

目前該升級(jí)版的DeepSeek-R1-0528已經(jīng)全量上線官方網(wǎng)頁(yè)、APP、小程序等等，API也已經(jīng)可以接入。

關(guān)于DeepSeek官方多么有誠(chéng)意，我們已經(jīng)在V3版本的升級(jí)上看到了——模型性能大幅提升只是開胃小菜，成本價(jià)格比更是再度優(yōu)化。這回的更新也是一樣，新版本的DeepSeek-R1主要在編程能力上大幅提升。據(jù)一家LLM API接入網(wǎng)站OpenRouter，這回的新版本R1的輸入輸出價(jià)格幾乎與先前版本毫無(wú)變化！

在智能水平上，新版本DeepSeek-R1-0528在 Extended NYT Connections 基準(zhǔn)測(cè)試上相比原始 DeepSeek R1有了大幅提升：38.6 → 49.8。

它真的很難說(shuō)是「小升級(jí)」

現(xiàn)在，全網(wǎng)都在瘋狂拿它跟全面替代AI coding真神的Claude 4對(duì)比，發(fā)現(xiàn)：這倆模型竟然不相上下？甚至有一張?jiān)贚ivecodebench上DeepSeek-R1-0528與o3-high旗鼓相當(dāng)?shù)幕鶞?zhǔn)測(cè)試對(duì)比圖，在網(wǎng)上瘋傳。許多網(wǎng)友認(rèn)為這回更新后的DeepSeek-R1-0528在代碼生成等編程領(lǐng)域的實(shí)力已經(jīng)進(jìn)入第一梯隊(duì)了。

我們搜集了全網(wǎng)最有趣的實(shí)測(cè)體驗(yàn)，看看這回的DeepSeek-R1-0528到底將AI coding的能力拓展了多少：

有X網(wǎng)友@karminski3設(shè)置了一個(gè)「DeepSeek-R1-0528 VS Claude-4-sonnet」挑戰(zhàn)賽，用彈球撞擊墻面的效果作對(duì)比。

實(shí)測(cè)下來(lái)發(fā)現(xiàn)：DeepSeek方的彈球看起來(lái)甚至還有光澤，撞碎墻面后的粒子效果幾乎能與Claude-4-sonnet一較高下，控制面板的美觀度也都非常在線。

值得一提的是，在這次的測(cè)試中，兩個(gè)大模型使用了同一個(gè)Prompt，DeepSeek-R1-0528 生成了728行，而Claude-4-sonnet生成了542行。

更新后的R1-0528在粒子效果的表現(xiàn)上尤其好。粒子效果通常會(huì)涉及復(fù)雜的動(dòng)態(tài)動(dòng)畫和物理模擬，像是物體運(yùn)動(dòng)、碰撞、光影變化等等。這足以說(shuō)明R1-0528在生成復(fù)雜動(dòng)態(tài)動(dòng)畫能力上有了很大的突破。

X網(wǎng)友MILO，就做了個(gè)可交互的粒子動(dòng)態(tài)動(dòng)畫平臺(tái)，我們也進(jìn)去體驗(yàn)了下。我們注意到除了畫面中央的炫酷粒子爆炸外，右上角的粒子數(shù)計(jì)算也以一種很匹配的方式同步進(jìn)行著。

在全棧網(wǎng)頁(yè)開發(fā)上，「小升級(jí)」之后的DeepSeek-R1-0528所表現(xiàn)出來(lái)的能力也有了很明顯的提升。

比如，X上有網(wǎng)友@DomLiu給 DeepSeek-R1-0528 一個(gè)全棧網(wǎng)頁(yè)開發(fā)Prompt，就能在幾秒鐘內(nèi)從零開始構(gòu)建了一個(gè)完整的應(yīng)用程序。

這段提示詞還非常的簡(jiǎn)單：構(gòu)建一個(gè) three.js 應(yīng)用程序，用于加載具有實(shí)時(shí)顏色/材質(zhì)/配件控制的 3D 模型。直觀的用戶界面。流暢的相機(jī)視角。

更為驚艷的是下面這個(gè)Case，同樣是這位網(wǎng)友，他幾乎將DeepSeek-R1玩出了花，這也證明小升級(jí)后的DeepSeek-R1-0528到底在編程能力上有多強(qiáng)。

簡(jiǎn)單來(lái)說(shuō)，他使用升級(jí)后的DeepSeek-R1做了一個(gè)3D畫廊，有這些功能：

程序化幾何生成，動(dòng)態(tài)場(chǎng)景生成系統(tǒng)，多彩動(dòng)態(tài)光影效果，相機(jī)動(dòng)畫與過(guò)渡，虛擬畫廊導(dǎo)航體驗(yàn)。

有實(shí)際用過(guò)Trae、Cursor、Windsurf等一眾AI coding的朋友肯定都懂一個(gè)具有強(qiáng)大自主編程能力的基座大模型到底意味著什么？——編程效率的指數(shù)級(jí)提升。

3D藝術(shù)畫廊非常直觀地顯示了DeepSeek-R1-0528在面對(duì)復(fù)雜任務(wù)時(shí)的自主編程能力。

我們也實(shí)際上手測(cè)試了下，發(fā)現(xiàn)升級(jí)后的DeepSeek-R1-0528在面對(duì)非常簡(jiǎn)單的提示詞時(shí)也能做出很快的反應(yīng)，并自主地豐富功能。

比如，我只給了它一句：

生成一個(gè)蘋果官網(wǎng)風(fēng)格的前端網(wǎng)頁(yè)。

它只經(jīng)過(guò)14秒的思考，就輕松理清了蘋果官網(wǎng)風(fēng)格設(shè)計(jì)頁(yè)面的設(shè)計(jì)思路：

· 使用蘋果標(biāo)志性的深空灰/銀色調(diào)

· 大字體標(biāo)題和簡(jiǎn)潔文案

· 高清產(chǎn)品圖像與漸變背景

· 懸浮動(dòng)畫效果

· 響應(yīng)式布局

最主要的是，很短時(shí)間內(nèi)它就已經(jīng)生成了462行代碼，做出來(lái)的效果也與我所設(shè)想的非常相近：

除了純代碼能力之外，DeepSeek-R1-0528在前端審美上也有了很大的提升。

比如下面這個(gè)原生iOS風(fēng)格界面設(shè)計(jì)，采用了抹茶綠色主題，融合現(xiàn)代美學(xué)，看起來(lái)搭配很流暢。

除了產(chǎn)品應(yīng)用UI風(fēng)格之外，DeepSeek-R1-0528在HTML網(wǎng)頁(yè)的前端網(wǎng)格上也有了很大的提升。

下面兩組新版本的介紹網(wǎng)頁(yè)中，深色是DeepSeek-R1-0528生成，在美觀度上更具科技感和視覺(jué)沖擊力，也非常符合AI大模型本來(lái)的調(diào)性；白色則是由Claude4生成：

思維鏈似乎改變了，出現(xiàn)了一些「副作用」

這回DeepSeek-R1-0528的強(qiáng)勢(shì)開源，甚至讓各國(guó)網(wǎng)友都重溫了下今年年初R1發(fā)布時(shí)的情景。現(xiàn)在的DeepSeek-R1-0528已經(jīng)擁有了Claude系列的強(qiáng)自主編程能力，同時(shí)網(wǎng)友們?cè)趯?shí)際測(cè)試中也注意到它的思維鏈模式似乎發(fā)生了改變。

很多實(shí)測(cè)后的網(wǎng)友都發(fā)現(xiàn)這回的升級(jí)版DeepSeek-R1-0528的思考過(guò)程實(shí)在是太長(zhǎng)了，很容易出現(xiàn)過(guò)度思考的現(xiàn)象。

比如，網(wǎng)友們發(fā)現(xiàn)了一個(gè)有趣的測(cè)試題：「估算一下π/7」，發(fā)現(xiàn)DeepSeek-R1-0528的思考推理過(guò)程有些太漫長(zhǎng)了。

我們也實(shí)際測(cè)試了下，面對(duì)這樣的一個(gè)小問(wèn)題，DeepSeek-R1-0528的深度思考時(shí)間達(dá)到了148秒。并且，其推理過(guò)程顯得冗余性很大。

DeepSeek-R1-0528在面對(duì)「估算一下π/7」這個(gè)問(wèn)題時(shí)的思維鏈到底有多長(zhǎng)，你可以直觀感受下：

雖然各國(guó)網(wǎng)友都直觀感受到了升級(jí)后的DeepSeek-R1-0528在推理能力上消耗的時(shí)間變得長(zhǎng)了，但推理結(jié)果精度的提升也是顯而易見的。經(jīng)過(guò)優(yōu)化的DeepSeek-R1-0528在處理復(fù)雜問(wèn)題時(shí)，已經(jīng)展現(xiàn)出了更強(qiáng)的邏輯分析能力和更細(xì)致的推理過(guò)程，這使得輸出的答案不僅更加準(zhǔn)確，還在深度和廣度上都有了顯著改進(jìn)。

比如，X網(wǎng)友@baalatejakataru在實(shí)際編程過(guò)程中發(fā)現(xiàn)新的 DeepSeek-R1-0528想得太多，但是出錯(cuò)時(shí)能夠快速地自我糾正，還能夠很好地寫新興系統(tǒng)編程語(yǔ)言——Zig，表現(xiàn)很不錯(cuò)。

DeepSeek官方這回同樣延續(xù)了之前發(fā)布即開源的策略，R1-0528已經(jīng)正式開源。除了開源動(dòng)作之外，更新后的R1仍然采用寬松的MIT許可證，意味著它可用于商業(yè)用途。

這次DeepSeek-R1-0528的升級(jí)，進(jìn)一步印證了當(dāng)下大模型行業(yè)的趨勢(shì)：大版本固然令人期待，但持續(xù)穩(wěn)定的小步迭代同樣無(wú)法讓人裝作看不見。

雖然DeepSeek-R2尚未如期而至，也引發(fā)了全網(wǎng)對(duì)于這一版本的疑惑。但是通過(guò)強(qiáng)化編程能力、優(yōu)化前端審美，DeepSeek團(tuán)隊(duì)持續(xù)的小步快跑，無(wú)疑讓業(yè)界重新審視小版本升級(jí)的巨大價(jià)值。盡管思維鏈的冗長(zhǎng)帶來(lái)了一些「副作用」，但其帶來(lái)的精度提升和自我糾錯(cuò)能力依然讓人無(wú)法忽視這次的版本升級(jí)。

在未來(lái)，DeepSeek-R1-0528的這種不改變大架構(gòu)，而是通過(guò)「小升級(jí)、小迭代」就能達(dá)成明顯效果的方式可能將會(huì)成為主流，「大版本號(hào)盲目崇拜」已經(jīng)被破除。

下一次「小升級(jí)」，或許就是另一場(chǎng)風(fēng)暴的開始。

特別聲明：本文為合作媒體授權(quán)DoNews專欄轉(zhuǎn)載，文章版權(quán)歸原作者及原出處所有。文章系作者個(gè)人觀點(diǎn)，不代表DoNews專欄的立場(chǎng)，轉(zhuǎn)載請(qǐng)聯(lián)系原作者及原出處獲取授權(quán)。(有任何疑問(wèn)都請(qǐng)聯(lián)系idonews@donews.com)