DoNews2月7日消息,近日,APUS與深圳大學(xué)大數(shù)據(jù)系統(tǒng)計(jì)算技術(shù)國家工程實(shí)驗(yàn)室(以下簡稱“大數(shù)據(jù)國家工程實(shí)驗(yàn)室”)聯(lián)合研發(fā)的伶荔Linly-70B中文大模型,在GitHub上正式開源,這是APUS大模型3.0的首個(gè)開源大模型。
此次,APUS和大數(shù)據(jù)國家工程實(shí)驗(yàn)室強(qiáng)強(qiáng)聯(lián)合,集成各自優(yōu)勢,更有大數(shù)據(jù)國家工程實(shí)驗(yàn)室陳國良院士權(quán)威背書,APUS大模型3.0伶荔在中文基準(zhǔn)測評榜單C-Eval上獲得80.6分,在所有參評模型中排名第三,更加適配中文場景,中文場景能力更加突出。
躋身700億以上參數(shù)開源大模型第一梯隊(duì)
當(dāng)前市場中,700億以上參數(shù)的開源大模型寥寥無幾。700億參數(shù)規(guī)模的大模型能力接近GPT-4,在局部水平上甚至可以超越GPT-4。
在深圳大學(xué)李煜東博士看來,700億參數(shù)規(guī)模的開源大模型市面上很少的原因在于三個(gè)方面:一是訓(xùn)練成本更高,二是增量預(yù)訓(xùn)練時(shí)需要更大數(shù)據(jù)量,三是使用時(shí)需消耗更多的資源。
此次開源意味著APUS大模型3.0伶荔邁出至關(guān)重要的一步。
「APUS大模型3.0伶荔」中文能力大幅提升
基于APUS鄭州智算中心強(qiáng)大的計(jì)算能力,APUS大模型3.0伶荔在中文擴(kuò)表后進(jìn)行了嚴(yán)格訓(xùn)練,顯著提高了模型的訓(xùn)練效率和準(zhǔn)確性。
該模型的上下文長度設(shè)定為4,096,能夠處理大約8,000-10,000個(gè)漢字的文本輸入,從而更好地理解和生成中文語境下的自然語言,提高其在各種中文任務(wù)中的表現(xiàn)。在中文自然語言處理領(lǐng)域,APUS大模型3.0伶荔表現(xiàn)非常優(yōu)秀。
訓(xùn)練能力定制化調(diào)優(yōu),綜合實(shí)力凸顯
為了提高在中文場景中的表現(xiàn),APUS大模型3.0伶荔在語料、訓(xùn)練框架和訓(xùn)練方法上進(jìn)行了定制化調(diào)優(yōu)?;谧匝心K化增量預(yù)訓(xùn)練框架,針對中文特點(diǎn)擴(kuò)充詞表,增加了對漢字和中文符號(hào)的支持。在訓(xùn)練語料方面,精選高質(zhì)量中英文公開數(shù)據(jù)源,包括悟道、萬卷、MNBVC等,并結(jié)合自研的數(shù)據(jù)選擇策略,構(gòu)建了適合模型高效訓(xùn)練的混合語料庫。
此外,項(xiàng)目團(tuán)隊(duì)還提出創(chuàng)新性課程學(xué)習(xí)策略,通過動(dòng)態(tài)數(shù)據(jù)采樣,在訓(xùn)練過程中不斷調(diào)整數(shù)據(jù)分布,確保模型的英文語言能力能夠平穩(wěn)遷移到中文語言能力。這一策略的運(yùn)用,使得模型在中文語境下能夠更加自然、準(zhǔn)確地理解和生成文本。
正式開源的APUS大模型3.0伶荔在中文自然語言處理領(lǐng)域,展現(xiàn)出了卓越的性能和巨大的潛力,并已經(jīng)準(zhǔn)備好應(yīng)對各種中文任務(wù)和挑戰(zhàn)。APUS與大數(shù)據(jù)國家工程實(shí)驗(yàn)室已邁出構(gòu)建中文場景大型語言模型的關(guān)鍵一步,在中文大模型領(lǐng)域樹立了全新標(biāo)桿。
未來雙方將持續(xù)密切合作,共同探索模型在知識(shí)、推理和長文本處理等方面的通用能力,并深化其在工具使用、劇情生成和角色扮演以及醫(yī)療等專業(yè)領(lǐng)域的應(yīng)用,進(jìn)一步提升模型的能力和應(yīng)用范圍。此外,雙方還將擴(kuò)展到視覺模態(tài),構(gòu)建跨模態(tài)生成模型,以更好、更精準(zhǔn)地滿足通用和領(lǐng)域特定的需求。