大模型路在何方？昇騰AI指明方向

來源：機器之心

作者：杜偉 Synced

時間：2022-11-21

在近日的華為全聯(lián)接大會 2022 中，昇騰 AI 為大模型的開發(fā)、落地探索出了一套完整的解決方案，并攜手產(chǎn)學(xué)研各界圍繞大模型的前沿探索與發(fā)展方向進(jìn)行了探討。

每年 9 月的第四個星期日為國際聾人節(jié)，全球約有 2.5 億聽障人群。在無聲的世界中，他們中的大多數(shù)人需要依靠手語交流。不過，熟練理解和掌握手語并不是一件易事，手語學(xué)習(xí)也往往面臨種種困難。

一方面，僅僅依靠手語交流，有時無法準(zhǔn)確理解對方的意思。另一方面，手語詞匯更新慢，難以學(xué)習(xí)新知識。此外像口語一樣，手語在不同地域也存在著「方言」，標(biāo)準(zhǔn)不一，導(dǎo)致互識難度較大。如今，AI 尤其是大模型正在改善這一困局。

為了讓聽障人群更容易理解手語以及更輕松學(xué)習(xí)手語，千博信息、中國科學(xué)院自動化研究所基于昇騰 AI 開發(fā)了手語多模態(tài)模型并打造了手語教考一體機 。手語教考一體機實現(xiàn)了手語動作與示意文字和圖像的聯(lián)動，在識別到文字信息后自動演示相應(yīng)的手語動作并生成對應(yīng)的圖像，使得手語的學(xué)習(xí)更加直觀和豐富。

然而，手語多模態(tài)模型并不是從零開始訓(xùn)練，它的背后是華為聯(lián)合中科院自動化所推出的基于昇騰 AI 打造的全球首個圖文音三模態(tài)大模型紫東. 太初，只需一個大模型就能支撐圖文音全場景 AI 應(yīng)用。在手語學(xué)習(xí)這一應(yīng)用場景中，基于紫東. 太初的手語多模態(tài)模型更是加入了實時手語手勢識別等功能。這是大模型落地應(yīng)用的「牛刀小試」。

微信圖片_20221121134542.gif

微博 @AI 千言

但應(yīng)看到，雖然業(yè)界出現(xiàn)了很多與行業(yè)結(jié)合的大模型，但當(dāng)落到具體應(yīng)用場景時卻又可能無從選擇。即使選對了契合應(yīng)用場景的大模型，有時也會由于適配、部署等原因而使用不便，影響到商業(yè)落地。紫東. 太初是解決這些問題的一個典范，憑借圖文音基礎(chǔ)任務(wù)性能提升，它在多模態(tài)內(nèi)容的理解、搜索、推薦和問答、語音識別和合成等應(yīng)用中具有巨大的市場價值。同時向業(yè)界開放多種 API，讓合作伙伴基于自身場景孵化更多行業(yè)應(yīng)用，也更有可能實現(xiàn)商業(yè)價值。

紫東. 太初只是大模型發(fā)展全景的一部分，隨著 AI 大模型的持續(xù)創(chuàng)新，像千博手語這樣的落地應(yīng)用將層出不窮。而為了更好地支持大模型發(fā)展，華為更是聯(lián)合產(chǎn)學(xué)界合作伙伴構(gòu)建了從規(guī)劃到開發(fā)部署再到產(chǎn)業(yè)化落地的「全流程使能大模型」體系。大模型的規(guī)劃、開發(fā)與產(chǎn)業(yè)化這三個方面缺一不可。

首先，大模型的發(fā)展遵循規(guī)劃先行的原則，中國科學(xué)技術(shù)信息研究所正在牽頭與產(chǎn)業(yè)界合作伙伴共同規(guī)劃大模型地圖，有序引領(lǐng)創(chuàng)新方向；其次，大模型的開發(fā)是基石，昇騰構(gòu)建的一站式大模型開發(fā)使能平臺，實現(xiàn)了易開發(fā)、易適配和易部署；最后，產(chǎn)業(yè)化落地是檢測大模型能力的重要指標(biāo)，華為攜手合作伙伴圍繞各個領(lǐng)域的大模型形成產(chǎn)業(yè)聯(lián)合體，打通科研創(chuàng)新和產(chǎn)業(yè)落地，真正賦能各行各業(yè)。

下面為華為全流程使能大模型體系全景圖。

微信圖片_20221121134553.png

「按圖索驥」，中國大模型發(fā)展盡在掌握

當(dāng)前，大模型的重要性日益凸顯，國內(nèi)加快了自身大模型的發(fā)展步伐。頭部高校、科研機構(gòu)與企業(yè)聯(lián)手發(fā)揮起主力軍作用，紛紛拓展大模型能力，創(chuàng)新發(fā)展模式。同時各地建設(shè)的 AI 計算中心也為大模型的孵化提供了充足的算力支撐。

到 2021 年，我國大模型數(shù)量已經(jīng)達(dá)到了 21 個，如基于昇騰 AI 的鵬程. 盤古、紫東. 太初等代表性千億參數(shù)級大模型。不客氣地說，我國大模型發(fā)展已經(jīng)走在了世界前列。但綜合來看，國內(nèi)大模型的發(fā)展集中爆發(fā)于最近一兩年，仍處于早期階段，難免存在不足之處。這時對我國大模型發(fā)展的現(xiàn)狀、痛點和前景進(jìn)行全方位了解變得很有必要。

因此，中國科學(xué)技術(shù)信息研究所聯(lián)合相關(guān)研究力量，共同對中國人工智能大模型發(fā)展現(xiàn)狀展開了調(diào)研，形成了《中國人工智能大模型地圖研究報告》，其中以可視化形式，從分布、要素、活躍度和應(yīng)用等四個維度總結(jié)了中國大模型的階段性發(fā)展特征，并對存在的問題進(jìn)行剖析。

四個維度涵蓋了大模型的方方面面，當(dāng)前我國大模型發(fā)展的現(xiàn)狀和問題一目了然地展現(xiàn)在了面前。以分布為例，我們大模型在地理上分布較廣，主要位于北京、深圳、武漢、西安等新一代人工智能發(fā)展試驗區(qū)。領(lǐng)域分布也不均衡，以 NLP 和多模態(tài)為主。此外還面臨著要素缺乏統(tǒng)籌、開發(fā)過程缺乏協(xié)作、行業(yè)落地困難、賦能實體經(jīng)濟(jì)不足等亟待解決的問題。

解決這些問題并非易事，需要多方主體、多領(lǐng)域和多手段的多管齊下。因此，中國大模型地圖針對性地提出了解決方案，包括統(tǒng)籌規(guī)劃大模型發(fā)展布局、匯聚大模型發(fā)展要素、在算力方面加強發(fā)展人工智能計算中心和算力網(wǎng)絡(luò)、強化場景創(chuàng)新、加強政府支持、鼓勵產(chǎn)學(xué)研各界攜手等。

就其意義而言，中國大模型地圖不僅為想要投身該領(lǐng)域的學(xué)界和業(yè)界玩家提供了明確的圖景，而且為下一步統(tǒng)籌規(guī)劃大模型發(fā)展、積極探索產(chǎn)業(yè)賦能提供了有效的方法工具。不久后，完整版的《中國人工智能大模型地圖研究報告》將于「2022 年中關(guān)村論壇」上正式發(fā)布。大家可以期待一下！

微信圖片_20221121134557.png

開發(fā)、適配和部署齊頭并進(jìn)，全方位使能大模型開發(fā)

雖然大模型成為當(dāng)前 AI 發(fā)展的重要方向，但說到開發(fā)，大模型似乎只有頭部高校、科研機構(gòu)和大廠才能玩得起。從數(shù)據(jù)采集、到模型訓(xùn)練、微調(diào)和部署，整個過程要耗費難以想象的資金和時間，一般企業(yè)和機構(gòu)無疑是承擔(dān)不起的。這在一定程度上限制了大模型的豐富性和延展性。

如何解決這一難題呢？今年 6 月，華為推出了基于昇騰 AI 打造的大模型開發(fā)使能平臺，從大模型開發(fā)套件、大模型微調(diào)套件和大模型部署套件三方面真正實現(xiàn)易開發(fā)、易適配和易部署。該平臺也成為了華為「全流程使能大模型」體系的至關(guān)重要一環(huán)。

微信圖片_20221121134600.png

其中在大模型開發(fā)階段提供了高性能 Transformer API。這是一種高度封裝的接口，在算法開發(fā)和分布式訓(xùn)練上只需特別少的修改，就能像搭積木一樣快速構(gòu)建出復(fù)雜而龐大的模型。同時在存儲等底層硬件上，大模型開發(fā)使能平臺也做了很多優(yōu)化以提升效果。此外，昇騰 AI 社區(qū)已經(jīng)訓(xùn)練過眾多大模型，并且通過將十多個主流預(yù)訓(xùn)練大模型開放到昇騰社區(qū)，開發(fā)者能直接調(diào)用，快速完成二次開發(fā)。

需要注意的是，華為開放的主流預(yù)訓(xùn)練大模型，不僅提供了詳細(xì)的訓(xùn)練代碼，例如分布式訓(xùn)練策略、分布式數(shù)據(jù)迭代邏輯或者具體模型結(jié)構(gòu)代碼，同時還提供具體的模型預(yù)訓(xùn)練權(quán)重文件，特別易于開發(fā)。我們既可以方便地調(diào)用預(yù)訓(xùn)練大模型直接進(jìn)行預(yù)測，同時在自己的領(lǐng)域數(shù)據(jù)上做增量訓(xùn)練或者微調(diào)也特別簡單。

另外大模型使能平臺也是易于適配的，能適配到各種相關(guān)任務(wù)與領(lǐng)域，大大降低了模型微調(diào)中各種處理過程的復(fù)雜度。簡單來說，昇騰 AI 已經(jīng)支持了眾多微調(diào)套件，從最基礎(chǔ)的數(shù)據(jù)標(biāo)注到小樣本訓(xùn)練，再到一鍵微調(diào)與超參數(shù)調(diào)優(yōu)，整個微調(diào)流程簡單易用地完成。目前紫東. 太初就基于微調(diào)套件，提供了開放服務(wù)平臺，幫助用戶便捷完成場景適配。

最后，在大模型開發(fā)使能平臺中，模型也是易于部署的，有現(xiàn)成的工具進(jìn)行多卡分布式推理和輕量化推理。其中輕量化推理特別吸引人，因為昇騰 AI 提供了自動剪枝、蒸餾和量化等模型壓縮工具，不需要我們手動一步步嘗試各種壓縮算法來找到一種合理的方式，從而節(jié)省了大量工程方面的工作。

舉例來說， Int8 量化推理，首先就要做量化訓(xùn)練，在計算圖中插入各種量化及反量化算子，從而能以最小的效果代價獲得最大的速度提升；其次還需要適配 CANN 的 GraphEngine（對于昇騰計算設(shè)備）；最后才是放到計算設(shè)備上進(jìn)行推斷；整個量化過程會遇到很多模型上的工程難題，也會遇到很多底層計算上的工程難題。所以說，昇騰 AI 自動化的模型壓縮工具，將大大降低模型部署成本。

真正做到大模型開發(fā)、適配和部署的「易」卻不容易，昇騰 AI 基礎(chǔ)軟硬件平臺為大模型開發(fā)使能平臺夯實了基礎(chǔ)。過去三年，華為在硬件、軟件、行業(yè) AI 解決方案和開發(fā)者數(shù)量方面都收獲頗豐。就在剛剛過去的華為全聯(lián)接大會 2022 上，昇騰 AI 基礎(chǔ)軟硬件平臺又迎來全面升級。

微信圖片_20221121134610.png

一方面，華為官宣年底將 CANN 異構(gòu)計算架構(gòu)升級到 6.0 版本，開放底層開發(fā)體系，提升 CANN 的易用性，算子自定義開發(fā)效率實現(xiàn)倍級提升。在大模型能力持續(xù)增強的基礎(chǔ)上，昇思 MindSpore 2.0 升級為 AI 融合框架，進(jìn)一步構(gòu)建對科學(xué)智能的支持能力。昇騰訓(xùn)練和推理解決方案也全新升級，易用性和性能得到全面提升。另一方面，昇騰 AI 致力于使能人工智能計算中心建設(shè)和算力網(wǎng)絡(luò)，并將算力向社會開放。

在可以預(yù)見的未來，隨著昇騰 AI 基礎(chǔ)軟硬件平臺的持續(xù)升級，大模型使能開發(fā)平臺將為更多玩家的入局以及豐富整個領(lǐng)域提供無限可能。

大模型落地，產(chǎn)業(yè)聯(lián)合體勢在必行

大模型的應(yīng)用是實現(xiàn)其價值的最后一環(huán)，因此探索大模型落地的新方法、新模式成為繞不過的研究課題。但最難的也在于此，畢竟場景千變?nèi)f化，實際應(yīng)用也會遇到各種意想不到的困難。在這一過程中，學(xué)界和業(yè)界的共同參與尤為關(guān)鍵。當(dāng)前大模型的創(chuàng)新雖層出不窮，但真正走到產(chǎn)業(yè)化落地的為數(shù)不多。

華為通過前期與業(yè)界伙伴的共同探索，開創(chuàng)了一條大模型產(chǎn)業(yè)化落地的新模式，即圍繞某個領(lǐng)域的大模型成立產(chǎn)學(xué)研用的產(chǎn)業(yè)聯(lián)合體，打通科研創(chuàng)新到產(chǎn)業(yè)落地整個流程。這樣一來，大模型的創(chuàng)新既可以更準(zhǔn)確地契合行業(yè)場景需求，又能夠促進(jìn)產(chǎn)業(yè)合作伙伴直接基于大模型創(chuàng)新孵化行業(yè)應(yīng)用。

這種大模型產(chǎn)業(yè)化新模式已經(jīng)取得豐碩成果。2021 年底，華為與合作伙伴基于全球首個三模態(tài)大模型紫東. 太初和全球首個智能遙感框架武漢. LuoJia，分別成立了多模態(tài)人工智能產(chǎn)業(yè)聯(lián)合體和智能遙感開源生態(tài)聯(lián)合體。今年 9 月，華為圍繞業(yè)界首個工業(yè)流體仿真大模型「東方. 御風(fēng)」以及西工大的 AI 湍流大模型成立了智能流體力學(xué)產(chǎn)業(yè)聯(lián)合體。

微信圖片_20221121134615.png

目前，多模態(tài)人工智能產(chǎn)業(yè)聯(lián)合體已經(jīng)發(fā)展了 45 家成員單位，并基于紫東. 太初大模型在智能制造、智慧城市、智慧文旅等數(shù)十個行業(yè)中孵化了近 60 個創(chuàng)新應(yīng)用。

除了前文提到的千博手語教考一體機，杭州市文旅局和杭州移動基于紫東. 太初打造了杭州智能文旅虛擬人「杭小憶」，其具備了圖文音 AI 能力，提供中文問答、詩文生成和以文搜圖等功能，通過交互式體驗讓你身臨其境地了解杭州文化。

微信圖片_20221121134620.gif

雖然已經(jīng)有了一些卓有成效的落地應(yīng)用，但多模態(tài)人工智能產(chǎn)業(yè)聯(lián)合體對于未來有更廣闊的發(fā)展規(guī)劃。首先發(fā)布「紫東. 太初」大模型開放服務(wù)平臺，支持模型小樣本訓(xùn)練和一鍵微調(diào)，滿足大模型落地產(chǎn)業(yè)的多樣需求；其次開源當(dāng)前業(yè)界最大的中文多模態(tài)訓(xùn)練數(shù)據(jù)集「紫東. 太素」，加快企業(yè)場景化創(chuàng)新速度；最后為大模型加入知識約束，將大模型與行業(yè)場景深度結(jié)合，構(gòu)建從現(xiàn)實世界學(xué)習(xí)知識的能力。

同樣，智能遙感開源生態(tài)聯(lián)合體也已發(fā)展了 39 家成員單位，孵化 30 多個解決方案。對于未來發(fā)展，智能遙感開源生態(tài)聯(lián)合體也將持續(xù)科研創(chuàng)新，在智能解譯的精度和適用性、魯棒性等方面持續(xù)突破；開源開放了 LuoJiaNET/SET 服務(wù)平臺，助力智能遙感行業(yè)應(yīng)用的快速構(gòu)建；后續(xù)也會豐富更多的 API 提升客戶使用便捷性。

接下來，華為還將繼續(xù)與合作伙伴一道圍繞電磁智能、智慧育種和 AI 生物制藥等領(lǐng)域成立產(chǎn)業(yè)聯(lián)合體，促進(jìn)這些領(lǐng)域的大模型創(chuàng)新和產(chǎn)業(yè)化落地。

結(jié)語

我們知道，從 Bert 和 GPT-3 以來，煉大模型潮流已經(jīng)不可阻擋。大模型可以增強 AI 的通用性，更成為 AI 技術(shù)和應(yīng)用的新基座。但順利發(fā)揮大模型在融合科技創(chuàng)新、賦能產(chǎn)業(yè)化落地中的作用，還需要參與各方采取行之有效的發(fā)展戰(zhàn)略。

作為領(lǐng)域重要參與者和推動者，華為致力于聯(lián)合學(xué)界和業(yè)界伙伴形成完整的大模型發(fā)展路徑，從基礎(chǔ)的計算設(shè)備，到大模型的訓(xùn)練、微調(diào)、推理部署全流程，再到創(chuàng)建大模型產(chǎn)業(yè)聯(lián)合體，構(gòu)建了一套融合了易用性與強性能的大模型完整解決方案。

未來，持續(xù)大模型自身創(chuàng)新、跨越科研與應(yīng)用之間的鴻溝勢必將成為華為以及業(yè)界其他大模型玩家的長久命題。

上一篇：亞馬遜海外購2022年黑五全球購物季開啟

原文鏈接：點擊前往 >

版權(quán)說明：本文內(nèi)容來自于機器之心，本站不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。文章內(nèi)容系作者個人觀點，不代表快出海對觀點贊同或支持。如有侵權(quán)，請聯(lián)系管理員（zzx@kchuhai.com）刪除！

相關(guān)文章