撰文 | 李信馬
題圖 | 圖蟲(chóng)創(chuàng)意
人工智能又一次重量級(jí)的“破圈”,是成為了高考作文的題目。
2024年新課標(biāo) I 卷的作文題目是:
隨著互聯(lián)網(wǎng)的普及、人工智能的應(yīng)用,越來(lái)越多的問(wèn)題能很快得到答案。那么,我們的問(wèn)題是否會(huì)越來(lái)越少?
以上材料引發(fā)了你怎樣的聯(lián)想和思考?請(qǐng)寫(xiě)一篇文章。
要求:選準(zhǔn)角度,確定立意,明確文體,自擬標(biāo)題;不要套作,不得抄襲;不得泄露個(gè)人信息;不少于800字。
?作為高考中最重要、分值最高的主觀題,每年的高考作文都會(huì)引起全社會(huì)的廣泛關(guān)注。對(duì)大模型來(lái)說(shuō),這也是它們最擅長(zhǎng)的領(lǐng)域,不過(guò),寫(xiě)作文容易評(píng)分難,所以DoNews決定,讓目前國(guó)內(nèi)五家主流的大模型分別寫(xiě)一篇高考作文,然后讓它們作為考官,對(duì)5篇文章的合集進(jìn)行評(píng)分,通過(guò)自評(píng)和互評(píng)的方式,來(lái)看看哪家大模型的綜合評(píng)分最高。
以下是打分的Prompt——
假如你是一名高考閱卷老師,針對(duì)剛剛的作文題,對(duì)于下面5篇文章,滿分60分的情況下,你會(huì)分別打多少分?并給出理由:
?閑話少說(shuō),我們直接來(lái)看結(jié)果。令人有些意外的是,五家大模型都將最高分(綠色)給到了通義大模型,通義也獲得了53.8分的最高平均分,與其他大模型明顯拉開(kāi)差距;文心大模型和混元大模型都在51分的檔位,幾乎沒(méi)有差距;而豆包大模型和星火大模型的平均分不到50分,豆包更是收獲了3個(gè)最低分(黃色)。
從結(jié)果上來(lái)說(shuō),五家大模型的打分都比較“公正”,雖然可能多少有點(diǎn)“主觀意識(shí)”,沒(méi)有哪家大模型自評(píng)最低分,像是星火給了豆包最低分,而豆包也把最低分給了星火,但整體還是比較令人信服。
不過(guò),為什么會(huì)出現(xiàn)這樣的差別?我們摘取了五家大模型分別對(duì)五篇作文的評(píng)價(jià)進(jìn)行對(duì)比。
百度文心是“老好人”,對(duì)五篇作文的打分很接近,不過(guò)對(duì)通義作文的評(píng)價(jià)是“整篇文章論據(jù)充分,論述有力”,對(duì)混元作文的評(píng)價(jià)則是“在論證過(guò)程中,部分觀點(diǎn)略顯重復(fù),稍顯遺憾”,對(duì)最低分的星火作文的評(píng)價(jià)則有“部分觀點(diǎn)闡述不夠深入,部分內(nèi)容略顯表面化,因此在分?jǐn)?shù)上稍遜一籌”。
阿里通義對(duì)五篇作文的點(diǎn)評(píng)就犀利的多,文心的作文“略顯保守”,混元的作文“深度和廣度上略顯不足,且創(chuàng)新點(diǎn)不夠突出”,星火的作文缺少“論述的深度和語(yǔ)言的藝術(shù)性”,豆包的作文則是論述常規(guī)缺乏亮點(diǎn)。
通義大模型對(duì)作文的自評(píng) 圖片來(lái)源:通義
騰訊混元認(rèn)為除了通義,自己和文心、星火的作文都有些文采不足,而豆包的作文則是“在邏輯性和條理性方面略顯不足,部分觀點(diǎn)未能充分展開(kāi)”,得分最低。?
訊飛星火則最“挑剔”,打分都偏低而且更摳細(xì)節(jié),得分最高的通義,也有“少量語(yǔ)法錯(cuò)誤需要修正”,而得分最低的豆包“論證上缺乏深度,并且有些句子表述不夠清晰”。
最后,字節(jié)豆包對(duì)通義、文心和混元都是正面的評(píng)價(jià),但認(rèn)為星火的作文“結(jié)尾部分的措施略顯單薄”,自己的作文“在文采方面還有提升的空間”。
豆包大模型對(duì)作文的自評(píng) 圖片來(lái)源:豆包
不難發(fā)現(xiàn),五家大模型對(duì)不同文章的看法,頗有類(lèi)似之處,比如都“diss”了豆包的文采,還有認(rèn)為星火的論述缺乏深度等。值得一提的是,最“年輕”的豆包拿到了最低分可以理解,而通義的脫穎而出,側(cè)面印證了其實(shí)力日益強(qiáng)大。?
在6月7日,通義千問(wèn)正式發(fā)布了 Qwen2 大模型,在十幾項(xiàng)國(guó)際權(quán)威測(cè)評(píng)中,Qwen2-72B 得分都超過(guò)了開(kāi)源標(biāo)桿 Llama3-70B,發(fā)布兩小時(shí)就沖上了 HggingFace 開(kāi)源大模型榜單第一??梢灶A(yù)見(jiàn),未來(lái)一小段時(shí)間里,通義在各個(gè)榜單的名次還會(huì)有所進(jìn)步。
最后,比完了分?jǐn)?shù)也看過(guò)了點(diǎn)評(píng),我們也按照分?jǐn)?shù)由高到低,將五篇作文都附在結(jié)尾。大家可以看下,大模型寫(xiě)作文究竟寫(xiě)的如何?它們打出的分?jǐn)?shù),又是否靠譜呢?