“目前水平最高”!Meta 挑戰(zhàn) ChatGPT
北京時間2月25日,臉書母公司 Meta CEO 扎克伯格在社交媒體宣布:推出最新的基于人工智能的大型語言模型(Large Language Model Meta AI,簡稱“LLaMA”)。
據(jù)Meta的首席 AI 科學(xué)家楊立昆介紹,一段時期以來一直批評ChatGPT“缺乏創(chuàng)新”,它匆忙推向大眾,并且用RLHF(人類反饋強化學(xué)習(xí))來糾正一些錯誤,并不能從根本上解決問題。他介紹說:“LLaMA 是 Meta AI - FAIR 的一種新的開源、高性能大型語言模型。Meta 致力于開放研究,并在 GPL v3 許可下向研究社區(qū)發(fā)布所有模型。”
對于Meta來說,大語言模型并不是一個陌生的賽道。早在去年5月,Meta就曾推出一款面向研究人員的名為OPT-175B的大型語言模型。去年11月,Meta又開發(fā)并上線了AI語言大模型Galactica,旨在運用機器學(xué)習(xí)來“梳理科學(xué)信息”。但此后卻因散布了大量錯誤信息,在上線48小時后火速下線。
而ChatGPT的上線時間則為去年11月30日。也是因此,當(dāng)ChatGPT爆火時,Yann LeCun還曾評論稱,人們對于ChatGPT的態(tài)度比對Glacatica更寬容。
國外投資機構(gòu)DA Davidson高級軟件分析師Gil Luria認為:“Meta今天的公告似乎是測試他們生成式AI能力的一步,這樣他們就可以在未來將它們應(yīng)用到產(chǎn)品中?!彼€補充道:“生成式AI作為AI的一種新應(yīng)用,Meta對此經(jīng)驗較少,但顯然對其未來的業(yè)務(wù)很重要?!?/span>
據(jù)悉,LLaMA 語言模型家族的參數(shù)量從 70 億到 650 億不等。相比之下,作為 AI“巨星”ChatGPT 的底層模型,OpenAI GPT-3 則擁有 1750 億個參數(shù)。
根據(jù) Meta 的說法,LLaMA 本質(zhì)上不是聊天機器人,而是一種研究工具,可能會解決有關(guān) AI 語言模型的問題。
據(jù)法新社稱,按照 Meta 的表述,LLaMA 是一套“更小、性能更好”的模型,且不同于谷歌的 LaMDA 和 OpenAI 的GPT 機密訓(xùn)練資料和演算,LLaMA 是基于公開資料進行訓(xùn)練。
參數(shù)規(guī)模在 AI 領(lǐng)域非常重要,是負責(zé)在機器學(xué)習(xí)模型當(dāng)中根據(jù)輸入數(shù)據(jù)進行預(yù)測或分類的變量。語言模型中的參數(shù)規(guī)模往往直接決定其性能,較大的模型通常可以處理更復(fù)雜的任務(wù)、并產(chǎn)生更連貫的輸出。然而,參數(shù)越多、模型占用的空間也越大,運行時消耗的算力也越夸張。因此,如果一個模型能夠以更少的參數(shù)獲得與另一模型相同的結(jié)果,則表示前者的效率有顯著提高。
Meta 在官網(wǎng)表示,在大型語言模型中,像 LLaMA 這樣的小型基礎(chǔ)模型是可取的,因為測試新方法、驗證他人的工作和探索新用例所需的計算能力和資源要少得多?;A(chǔ)模型基于大量未標(biāo)記的數(shù)據(jù)進行訓(xùn)練,這使得它們非常適合于各種任務(wù)的微調(diào)。與其他大型語言模型一樣,LLaMA 的工作原理是將一系列單詞作為輸入,并預(yù)測下一個單詞以遞歸生成文本。
Meta 在其研究論文中指出,LLaMA-13B 在大多數(shù)基準(zhǔn)測試中都優(yōu)于 OpenAI 的 GPT-3 (175B),并且 LLaMA-65B 與最佳模型 DeepMind 的 Chinchilla70B 和谷歌的 PaLM-540B 具有競爭力。一旦經(jīng)過更廣泛的訓(xùn)練,LLaMA-13B 可能會成為希望在這些系統(tǒng)上運行測試的小型企業(yè)的福音,但是,它要讓它脫離開發(fā)者獨立工作,還有很長一段路要走。
LLaMA 與其他大模型參數(shù)對比
獨立 AI 研究員 Simon Willison 在文章中評論稱,“我認為,我們有望在未來一、兩年內(nèi)通過自己的(旗艦級)手機和筆記本電腦,運行具備 ChatGPT 中大部分功能的語言模型?!?/span>
Meta 稱,將致力于這種開源模型的研究,新模型會開源給整個 AI 研究社區(qū)使用,并授予大學(xué)、非政府組織和行業(yè)實驗室訪問權(quán)限。另外,Meta 表示其還有更多研究需要做,以解決大型語言模型中的偏見、有害評論等風(fēng)險。
Meta 訓(xùn)練其 LLaMA 模型所使用的是各類公開可用的數(shù)據(jù)集(例如 Common Crawl、維基百科以及 C4),意味著該公司可能會開源發(fā)布模型及其權(quán)重設(shè)置。在大語言模型行業(yè)當(dāng)中,這代表著一波轉(zhuǎn)折性的新發(fā)展,或?qū)⒋蚱瓶萍季揞^在競賽中永遠把最好的 AI 技術(shù)“藏”起來的定式。
項目組成員 Guillaume Lample 在推文中指出,“與 Chinchilla、PaLM 或者 GPT-3 不同,我們只使用公開可用的數(shù)據(jù)集,這就讓我們的工作與開源兼容且可以重現(xiàn)。而大多數(shù)現(xiàn)有模型,仍依賴于非公開可用或未明確記錄的數(shù)據(jù)內(nèi)容?!?/span>
Meta 將自己的 LLaMA 模型稱為“基礎(chǔ)模型”,意味著該公司打算以此為基礎(chǔ)構(gòu)建起更加完善的 AI 模型。這類似于 OpenAI 以 GPT-3 為基礎(chǔ)構(gòu)建 ChatGPT 的作法。Meta 方面希望 LLaMA 能在自然語言研究當(dāng)中發(fā)揮作用,進而在“問答、自然語言理解或閱讀理解、理解能力以及解決現(xiàn)有語言模型的局限性”等方面貢獻力量。
雖然頂級 LLaMA 模型(LLaMA-65B,擁有 650 億個參數(shù))明顯是在叫板競爭對手 DeepMin、谷歌及 OpenAI 的同類方案,但此次公布陣容中最有趣的反而可能是家族中的“小弟弟”LLaMA-13B,此外,Meta 也表示將提供 7B、13B、33B 和 65B 等參數(shù)尺寸的 LLaMA。
前面提到,LLaMA在多項基準(zhǔn)測試時,在單 GPU 上運行的性能優(yōu)于 GPT-3。而且跟 GPT-3 系列模型必須依賴于數(shù)據(jù)中心的龐大設(shè)施不同,LLaMA-13B 有望在不久的將來,讓消費級硬件也能獲得趨近 ChatGPT 的 AI 性能表現(xiàn)。
目前,精簡版的 LLaMA 已經(jīng)登陸 GitHub。要了解完整的代碼的權(quán)重(即神經(jīng)網(wǎng)絡(luò)「學(xué)習(xí)」到的訓(xùn)練數(shù)據(jù)),Meta 已向感興趣的研究人員開放訪問申請表(https://forms.gle/jk851eBVbX1m5TAv5)。Meta 目前還未宣布更廣泛的模型與權(quán)重公布計劃。
LLaMA 項目地址:
紅杉合伙人Sonya Huang、Pat Grady曾撰文稱,當(dāng)下行業(yè)正處于生成式AI第四波發(fā)展浪潮中——殺手級應(yīng)用涌現(xiàn)階段。隨著各大平臺發(fā)展成熟,AI模型繼續(xù)變得更好、更快、更便宜,越來越多的模型免費、開源,應(yīng)用層面將出現(xiàn)大爆發(fā)。
LLaMA 的發(fā)布,意味著Meta 正式加入微軟、谷歌等硅谷公司的AI競賽。不久前,谷歌剛剛推出了人工智能聊天機器人Bard,對標(biāo)的競品正是ChatGPT。此前,ChatGPT的走紅被視為對搜索引擎的最大沖擊,而谷歌恰恰是這一領(lǐng)域的霸主。
雖然Bard在演示中的意外“翻車”一度帶崩了谷歌的股價,但這一動作傳遞出的信號已經(jīng)不言而喻。谷歌在廣告中表示,Bard使用谷歌的大型語言模型構(gòu)建,并利用網(wǎng)絡(luò)信息。谷歌還將其聊天機器人描述為“好奇心的發(fā)射臺”,稱它有助于簡化復(fù)雜的話題。
作為ChatGPT“背后的人”,微軟更是有效利用了這一波紅利,宣布推出由ChatGPT支持的最新版本人工智能搜索引擎Bing(必應(yīng))和Edge瀏覽器。
公開信息顯示,2019年,微軟向OpenAI投資10億美元,雙方達成協(xié)議合作開發(fā)“通用人工智能”,同時微軟獲得將OpenAI的部分技術(shù)商業(yè)化的權(quán)限。今年1月,微軟又表示,將對OpenAI進行為期數(shù)年、價值數(shù)以10億計美元的投資,有知情人士透露,微軟曾討論向OpenAI投資至多100億美元。
值得一提的是,微軟旗下的OpenAI、谷歌旗下的DeepMind以及Meta旗下的FAIR也被公認為全球領(lǐng)先的三大AI實驗室。硅谷三巨頭在大語言模型上的對戰(zhàn),不是偶然,而是必然。
? Copyright 2013 南京奧特賽人工智能技術(shù)研發(fā)有限公司 版權(quán)所有 備案號:蘇ICP備19032300號-1 蘇公網(wǎng)安備32011602010459 技術(shù)支持:科威鯨網(wǎng)絡(luò)