久久精品国产精品青草功能介绍,久久九九影院精品,丝袜小视频magnet

DoNews > 商業(yè) > 國(guó)產(chǎn)大模型互評(píng)高考作文，真“學(xué)霸”竟然是它？

國(guó)產(chǎn)大模型互評(píng)高考作文，真“學(xué)霸”竟然是它？

程夢(mèng)玲 2024-06-09 13:05:29

246534

分享到

撰文 | 李信馬

題圖 | 圖蟲創(chuàng)意

人工智能又一次重量級(jí)的“破圈”，是成為了高考作文的題目。

2024年新課標(biāo) I 卷的作文題目是：

隨著互聯(lián)網(wǎng)的普及、人工智能的應(yīng)用，越來越多的問題能很快得到答案。那么，我們的問題是否會(huì)越來越少？

以上材料引發(fā)了你怎樣的聯(lián)想和思考？請(qǐng)寫一篇文章。

要求：選準(zhǔn)角度，確定立意，明確文體，自擬標(biāo)題；不要套作，不得抄襲；不得泄露個(gè)人信息；不少于800字。

?作為高考中最重要、分值最高的主觀題，每年的高考作文都會(huì)引起全社會(huì)的廣泛關(guān)注。對(duì)大模型來說，這也是它們最擅長(zhǎng)的領(lǐng)域，不過，寫作文容易評(píng)分難，所以DoNews決定，讓目前國(guó)內(nèi)五家主流的大模型分別寫一篇高考作文，然后讓它們作為考官，對(duì)5篇文章的合集進(jìn)行評(píng)分，通過自評(píng)和互評(píng)的方式，來看看哪家大模型的綜合評(píng)分最高。

以下是打分的Prompt——

假如你是一名高考閱卷老師，針對(duì)剛剛的作文題，對(duì)于下面5篇文章，滿分60分的情況下，你會(huì)分別打多少分？并給出理由：

?閑話少說，我們直接來看結(jié)果。令人有些意外的是，五家大模型都將最高分（綠色）給到了通義大模型，通義也獲得了53.8分的最高平均分，與其他大模型明顯拉開差距；文心大模型和混元大模型都在51分的檔位，幾乎沒有差距；而豆包大模型和星火大模型的平均分不到50分，豆包更是收獲了3個(gè)最低分（黃色）。

從結(jié)果上來說，五家大模型的打分都比較“公正”，雖然可能多少有點(diǎn)“主觀意識(shí)”，沒有哪家大模型自評(píng)最低分，像是星火給了豆包最低分，而豆包也把最低分給了星火，但整體還是比較令人信服。

不過，為什么會(huì)出現(xiàn)這樣的差別？我們摘取了五家大模型分別對(duì)五篇作文的評(píng)價(jià)進(jìn)行對(duì)比。

百度文心是“老好人”，對(duì)五篇作文的打分很接近，不過對(duì)通義作文的評(píng)價(jià)是“整篇文章論據(jù)充分，論述有力”，對(duì)混元作文的評(píng)價(jià)則是“在論證過程中，部分觀點(diǎn)略顯重復(fù)，稍顯遺憾”，對(duì)最低分的星火作文的評(píng)價(jià)則有“部分觀點(diǎn)闡述不夠深入，部分內(nèi)容略顯表面化，因此在分?jǐn)?shù)上稍遜一籌”。

阿里通義對(duì)五篇作文的點(diǎn)評(píng)就犀利的多，文心的作文“略顯保守”，混元的作文“深度和廣度上略顯不足，且創(chuàng)新點(diǎn)不夠突出”，星火的作文缺少“論述的深度和語言的藝術(shù)性”，豆包的作文則是論述常規(guī)缺乏亮點(diǎn)。

通義大模型對(duì)作文的自評(píng) 圖片來源：通義

騰訊混元認(rèn)為除了通義，自己和文心、星火的作文都有些文采不足，而豆包的作文則是“在邏輯性和條理性方面略顯不足，部分觀點(diǎn)未能充分展開”，得分最低。?

訊飛星火則最“挑剔”，打分都偏低而且更摳細(xì)節(jié)，得分最高的通義，也有“少量語法錯(cuò)誤需要修正”，而得分最低的豆包“論證上缺乏深度，并且有些句子表述不夠清晰”。

最后，字節(jié)豆包對(duì)通義、文心和混元都是正面的評(píng)價(jià)，但認(rèn)為星火的作文“結(jié)尾部分的措施略顯單薄”，自己的作文“在文采方面還有提升的空間”。

豆包大模型對(duì)作文的自評(píng) 圖片來源：豆包

不難發(fā)現(xiàn)，五家大模型對(duì)不同文章的看法，頗有類似之處，比如都“diss”了豆包的文采，還有認(rèn)為星火的論述缺乏深度等。值得一提的是，最“年輕”的豆包拿到了最低分可以理解，而通義的脫穎而出，側(cè)面印證了其實(shí)力日益強(qiáng)大。?

在6月7日，通義千問正式發(fā)布了 Qwen2 大模型，在十幾項(xiàng)國(guó)際權(quán)威測(cè)評(píng)中，Qwen2-72B 得分都超過了開源標(biāo)桿 Llama3-70B，發(fā)布兩小時(shí)就沖上了 HggingFace 開源大模型榜單第一?？梢灶A(yù)見，未來一小段時(shí)間里，通義在各個(gè)榜單的名次還會(huì)有所進(jìn)步。

最后，比完了分?jǐn)?shù)也看過了點(diǎn)評(píng)，我們也按照分?jǐn)?shù)由高到低，將五篇作文都附在結(jié)尾。大家可以看下，大模型寫作文究竟寫的如何？它們打出的分?jǐn)?shù)，又是否靠譜呢？

阿里通義大模型的高考作文：