DoNews8月18日消息,為了趕超 OpenAI 及其他競爭對手,Google 的 CEO 桑達爾·皮查伊(Sundar Pichai)于 4 月合并了兩個具有不同文化和代碼的大型人工智能團隊——「Google Brain」和「DeepMind」。
據(jù) The Information,新合并的「AI SWAT」團隊計劃于秋天發(fā)布一組大型機器學(xué)習(xí)模型「Gemini」,據(jù)開發(fā)人員透露,Gemini 預(yù)計將使Google 能夠制造出競爭對手無法制造的產(chǎn)品。
彭博社風(fēng)投分支 Bloomberg Beta 的 AI 初創(chuàng)公司投資人詹姆斯·錢匹(James Chami)表示:「似乎終于有模型能與 GPT-4 旗鼓相當(dāng)了」。
Gemini 開發(fā)人員表示,Gemini 不僅能像 GPT-4 一樣可以進行文本對話,還融合了 Midjourney 和 Stable Diffusion 的能力,能夠生成圖像。Gemini 的圖像能力此前還從未有過報道。
另外,它還能提供分析圖表、創(chuàng)建帶有文本描述的圖形、使用文本或語音命令控制軟件。
Google 把重注押在了 Gemini 身上,Gemini 會為 Bard 聊天機器人提供動力、推動 Google Docs、Slides 等企業(yè)級應(yīng)用。
谷歌還希望通過云服務(wù)器租賃服務(wù),向開發(fā)者收取訪問 Gemini 的費用。
據(jù)報道,Google 對 Gemini 進行了大量 YouTube 視頻的訓(xùn)練。Gemini 還可以把音頻和視頻集成到模型本身,形成多模態(tài)能力,許多研究人員認為這是 AI 的下一個前沿領(lǐng)域。
使用 YouTube 內(nèi)容,還可以幫助 Google 開發(fā)更先進的文本轉(zhuǎn)視頻軟件,根據(jù)用戶想看的內(nèi)容描述,自動生成詳細的視頻。
這類似于 Google 支持的初創(chuàng)公司 RunwayML 正在開發(fā)的技術(shù),好萊塢和內(nèi)容創(chuàng)作者正在密切關(guān)注此類軟件的發(fā)展。
Google Brain 和 DeepMind 的合并,令一些參與 Gemini 的工程師感到驚訝。合并后的團隊由 DeepMind 首席執(zhí)行官戴密斯·哈薩比斯(Demis Hassabis)領(lǐng)導(dǎo)。
知情人士稱,DeepMind 的兩位高管奧里奧爾·溫亞爾斯( Oriol Vinyals)和 Koray Kavukcuoglu 與前谷歌大腦負責(zé)人杰夫?迪恩(Jeff Dean)一起負責(zé) Gemini 的開發(fā)。他們將監(jiān)督數(shù)百名參與 Gemini 開發(fā)的員工。
組織合并后,除了人員安排問題, Gemini 團隊在開發(fā)過程中還面臨著巨大的挑戰(zhàn),如確定可以使用哪些數(shù)據(jù)來訓(xùn)練模型。
盡管如此,谷歌前高管、風(fēng)險投資公司法利思投資創(chuàng)始人艾丁·森庫特( Aydin Senkut)表示,Gemini的發(fā)布表明,Google 決心再次走在最前沿,而不是極度保守。他說,「這是正確的方向,終于,他們有了火」。