更新時間:2024-10-22 20:05:11作者:佚名
2024年6月14日,第六屆“北京智慧大會”在中關村展覽中心開幕。
北京智源大會是智源研究院主辦的“人工智能專家頂級盛會”。其以“全球視野、思想碰撞、前沿引領”為特色,匯聚國內外研究人員,分享研究成果、探索前沿知識、交流實踐經驗。 2024北京智源大會邀請了圖靈獎獲得者姚啟智,Meta、、UC等國際明星機構和技術團隊代表,以及百度、零一物、百川智能、智普AI等國內主流企業代表和面壁智能。模型公司CEO、CTO云集200余位頂尖人工智能學者和行業專家,圍繞人工智能關鍵技術路徑和應用場景進行精彩演講和高峰對話。
開幕式由致遠研究院院長黃鐵軍主持。
致遠研究院院長王忠元作2024年致遠研究院進展報告,匯報了致遠研究院在語言、多模態、體現、生物計算大模型、全棧等方面的前沿探索和研究進展大型模型迭代升級和布局布局的開源技術基礎。
王忠源表示,現階段大語言模型的發展已經具備了通用人工智能非常核心的理解和推理能力,并形成了以大語言模型為核心,對齊和映射其他模態的技術路線,從而賦予模型初步的多模態理解和生成能力。但這并不是人工智能感知和理解物理世界的最終技術路線。相反,應該采用統一的模型范式,實現多模態輸入輸出,使模型具備原生的多模態擴展能力,并演化為世界模型。 。未來,大型模型將以數字代理的形式與智能硬件集成,并以具身智能的形式從數字世界進入物理世界。同時,大模型的技術手段可以為科學研究提供新的知識表達范式,加速人類進步。對微觀物理世界規律的探索和研究突破,正在不斷逼近通用人工智能的終極目標。
智慧語言大模型
全球首個低碳單體密集萬億語言模型Tele-FLM-1T
針對大模型訓練算力消耗高的問題,致遠研究院與中國電信人工智能研究院()聯合研發推出全球首個基于模型增長等關鍵技術的低碳單密萬億語言模型和損失預測。遠程 FLM-1T。該型號與百億級52B版本、千億級102B版本一起構成Tele-FLM系列型號。
Tele-FLM系列機型實現了低碳增長。僅用業界通用訓練方案9%的計算資源,基于112臺A800服務器,耗時4個月完成3個模型總計200萬個模型的訓練,成功訓練萬億密集模型Tele-FLM-1T。整個模型訓練過程零調整、零重試,算力效率高,模型收斂性和穩定性好。目前,該系列機型的52B版本已全面開源。核心技術(增長技術、最優超參數預測)、訓練細節(損失曲線、最優超參數、數據比例、Grad Norm等)均開源。我們希望開源技術能夠對大型模型社區產生有益的推動。 Tele-FLM-1T版本即將開源。希望能夠為社區訓練萬億密集模型提供優良的初始參數,避免萬億模型訓練收斂困難等問題。
Tele-FLM-52B版本開源地址
Tele-FLM-Chat試用版(純模型單輪對話版)地址
基礎型號性能方面:BPB顯示,就英語能力而言,Tele-FLM-52B接近-70B,優于-70B和-8B;就漢化能力而言,Tele-FLM-52B是開源最強的,優于-70B和-70B Qwen1.5-72B。對話模型性能方面:評估顯示Tele-FLM-Chat(52B)達到了GPT-4中文語言能力的96%,整體能力達到了GPT-4的80%。
通用語言向量模型BGE系列
針對大模型幻覺等問題,致遠研究院自主研發了BGE(BAAI)系列通用語義向量模型。基于檢索增強的RAG技術,實現數據之間的精準語義匹配,支持大模型對外部知識的調用。自2023年8月以來,BGE模型系列已經歷3次迭代,在中英文檢索、多語言檢索、精細化檢索三項任務上取得了業界最佳表現,綜合能力明顯優于同質檢索機構模型。目前,BGE模型系列下載總量位居國內AI模型第一,并已被、、Llama Index等國際主流AI開發框架以及騰訊、華為、阿里巴巴等各大云服務商集成, Byte、微軟、亞馬遜,并提供給外界。商業服務。
2.智慧多模態大模型
原生多式聯運世界模型 Emu 3
業界現有的多模態大模型大多是針對不同任務訓練的專門模型,例如針對圖像繪圖、針對繪圖視頻繪圖、針對繪圖繪圖的 GPT-4V 等。每種類型的模型都有相應的架構和方法。例如,對于視頻生成,業界普遍選擇基于Sora的DiT架構。然而,現有模型的能力大多是單一分散的能力組合,而不是原生的統一能力。例如,Sora目前無法理解圖像和視頻。
為了實現多模態、統一、端到端的下一代大模型,智源研究院推出了Emu3原生多模態世界模型。 Emu3采用智智自研的多模態自回歸技術路徑,對圖像、視頻、文本進行聯合訓練,使模型具備原生多模態能力,實現圖像、視頻、文本的統一輸入輸出。 Emu3 旨在從模型訓練開始就實現統一的多模態生成和理解。目前已具備生成高質量圖片和視頻、持續視頻、理解物理世界等多模態能力。簡單來說,Emu3不僅統一了視頻、圖像、文本,還統一了生成和理解。值得注意的是,Emu3將在持續訓練過程中經過安全評估后逐步開源。
輕量級圖文多模態模型系列Bunny-3B/4B/8B
為了適應智能終端的應用,致遠研究院推出了輕量級圖文多模態模型系列Bunny-3B/4B/8B。該模型系列采用靈活的架構,可以支持多種視覺編碼器和語言庫。模型。多個榜單的綜合結果顯示,Bunny-8B的多模態能力可以達到GPT-4o性能的87%。目前,Bunny模型參數、訓練代碼、訓練數據均開源。
開源地址:
3.智能源體現大模型
致遠研究院具身智能創新中心在機器人廣義動作執行、智能大小腦決策控制等領域取得多項世界級突破。
全球領先的廣義爬行技術,真機實驗成功率超過95%
在體現智能通用抓取能力方面,致遠率先突破了95%的真機實驗成功率,解決了跨任意形狀和材質的泛化問題,從而達到了全球領先的商業級動作執行水平。借助這項技術,即使在復雜的光透射和反射的情況下,我們的機器人仍然可以準確地感知透明和高反射物體的形狀和姿態,并以很高的成功率預測抓取姿勢。
分層體現大模型系統 SAGE,一種反射式、適應性強的鉸接式對象操縱大模型系統
在層次化體現大模型系統方面,致遠開發了SAGE,一個可以從失敗中重新思考和重試的鉸接式對象操縱大模型系統。該系統有效地將小型三維視覺模型的空間幾何的精確感知與大型通用圖形模型的通用對象操作知識結合起來,使得大型模型驅動的機器人能夠在任務執行失敗時重新思考并嘗試新的交互方法。 ,實現傳統機器人技術無法比擬的智能性和魯棒性。
分層體現大模型系統:全球首創開放式指令六自由度取放大模型系統
在分層體現大模型系統方面,致遠還開發了全球首個能夠實現六自由度物體拾取和放置的開放命令控制的大模型系統。該系統不僅可以像 RT系列大型模型一樣按照自然語言指令的要求將物體放置在指定位置,還可以進一步微調物體的姿態。這項技術極大地增加了大型實體操縱模型的商業應用范圍和價值。
全球首個基于端到端視頻的多模態體現導航大模型NaVid
在科技終端端到端體現大模型層面,致遠發布了全球首個基于端到端視頻的多模態體現導航大模型NaVid。該模型可以直接將機器人視角的視頻和用戶的自然語言指令作為輸入,端到端輸出機器人的運動控制信號。與之前的機器人導航技術不同,NaVid 不需要映射,也不依賴其他傳感器信號,例如深度信息和里程表信息。相反,它完全依靠機器人攝像頭采集的單視點RGB視頻流,僅使用合成導航數據進行訓練的條件下,實現零鏡頭真實,是對前沿技術的勇敢而成功的探索。現實世界室內場景甚至室外場景中的機器泛化。
智能心臟超聲機器人
致遠研究院聯合研發全球首款智能心臟超聲機器人,實現了全球首次對真人進行自主心臟超聲掃描。可以解決心臟B超醫生短缺、診斷準確率低、缺乏標準化的問題。效率低下的問題。智能心臟超聲機器人基于機械臂的超聲圖像和力信息,可以在高速動態環境下快速計算和提取心臟特征,達到相當于自動駕駛L2和L3級別的智能水平。臨床驗證結果表明,在準確性方面,智能心臟超聲機器人可以與資深醫生保持一致;在穩定性方面,智能心臟超聲機器人更高;在舒適度方面,智能超聲機器人的強度可以控制在4N以內,更加舒適。在舒適度和效率方面,智能超聲機器人實驗機可以與人類醫生看齊。
通用計算機控制框架
為了實現通用計算機控制,致遠研究院提出了通用計算機控制框架,讓智能體可以像人一樣看著屏幕,通過鼠標和鍵盤完成計算機上的所有任務。由信息收集、自我反思、任務推理、技能管理、行動規劃、記憶模塊6大模塊組成,可進行“反思過去、總結現在、規劃未來”的強大決策推理。與業界其他方法不同,它無需依賴任何內部 API 即可實現通用性。目前,致遠研究院與昆侖萬維研究院等單位合作開發了《荒野大鏢客》、《星露谷物語》、《城市天際線》、《當鋪生活》四款游戲,以及《飛鼠》、《飛書》、《美圖秀秀》、《切割5》等軟件,已通過驗證。 。智能體不僅可以根據提示自主學習玩游戲,還可以富有想象力地編輯圖片和視頻。
未來,致遠將依托多模態大模型技術的優勢資源,與北大、清華、中科院等高校和機構,以及中科院等產業鏈上下游企業合作。 和 打造實體智能創新平臺,專注于數據和模型開發。 、場景驗證等研究,打造具身智能創新生態系統。
4.智慧生物計算大模型
全原子生物分子模型2
此外,致遠研究院還探索了生成人工智能在分子生物學中的應用。致遠研究院研發的全原子生物分子模型2是全球領先的大分子結構預測模型,可有效預測蛋白質、RNA、DNA、糖類、小分子等復合物。在生物分子結構預測領域的國際競賽CAMEO(Model)中,連續兩年位列賽道第一,并榮獲CASP(for)15個RNA自動賽道預測冠軍。
圖2是基于全原子建模的生命分子基本模型。研究人員發現,它不僅可以預測大分子的穩定結構,還初步具備預測分子多種構型和折疊過程的能力。基于這樣的能力,生命科學家可以進一步探索蛋白質的生物學功能。目前,馳源已與研究伙伴共同開展多項重要疾病的研究,提供成藥性和分子機制研究。未來,基于我們的能力,我們有望開啟生命科學研究的新時代,為進一步揭示HIV病毒、神經元等復雜生命機制提供新的可能。
全球首個實時雙心計算模型
致遠研究院構建了全球首個實時雙心計算模型,在高精度的前提下可以實現生物時間/模擬時間比小于1,處于國際領先水平。
實時心臟計算模型是虛擬心臟科學研究的開始,也是雙心臨床應用的基礎。基于該模型,致遠將創新性地采用物理數據雙驅動模型,融合第一性原理和人工智能方法,從亞細胞層面、細胞層面、器官層面、軀干層面模擬一顆“透明心臟”。并可根據患者的臨床數據,構建反映患者個性化生理病理的雙心,從而開展藥物篩選、治療方案優化、術前規劃等臨床應用。
目前,致遠與北京大學第一醫院聯合成立了“北京大學第一醫院-北京致遠人工智能研究院心臟AI聯合研究中心”,目前正在開展基于超聲影像的急性心肌梗死診斷、心力衰竭的病理模擬、腎動脈造影等課題,與安貞醫院合作開展室性心動過速疾病無創心外膜標測技術前沿研究,與思高電生理研究所合作開發應用藥物篩選平臺,與清華長庚合作紀念醫院與朝陽醫院就肥厚型心肌病課題進行合作。
作為創新型研究機構,致遠研究院引領人工智能前沿技術發展。它還利用第三方、中立、非營利組織的優勢,構建公共技術基礎,解決當前行業的痛點。
大模型開源技術庫2.0,模型、數據、算法、評估、系統五大布局全面升級。
為了幫助全球開發者一站式啟動大模型開發研究工作,致遠研究院推出了異構芯片、支持多種框架的大模型全棧開源技術庫2.0。在1.0的基礎上,又進一步完善。它有模型、數據、算法、評估、系統五大布局,旨在打造大模型時代的Linux。
2.0可以支持多種芯片和多種深度學習框架。目前,全球開源模型下載總量超過4755萬次,共57個開源數據集下載量近9萬次,開源項目代碼下載量超過51萬次。
開源地址:
1、支持異構算力集群的大模型“操作系統”
為了滿足日益增長的大型模型訓練和推理計算需求陳翔中文網,應對大規模人工智能系統和平臺面臨的異構計算、高速互聯、集群內部或集群之間的彈性和穩定性等技術挑戰,智源研究院研究院針對大型模型推出了新的模型——支持多種異構計算能力的智能計算集群軟件棧。集成了致遠深耕的多種AI芯片關鍵技術,包括異構算力智能調度與管理平臺九鼎、支持多種AI異構算力的并行訓練與提升框架、支持多種AI異構算力的高性能算子等。多種AI芯片架構。庫和、集群診斷工具和AI芯片評估工具。就像一個“操作系統”,集成了異構算力管理、算力自動遷移、并行訓練優化、高性能算子等功能。向上支撐大模型訓練、推理、評估等重要任務,向下管理底層異構算力、高速網絡、分布式存儲等。目前已支持超過50個團隊的大型模型研發,支持8種芯片,管理超過4600張AI加速卡,已穩定運行20個月,SLA超過99.5%,幫助用戶實現高效穩定的集群管理、資源優化、大模型開發。此次啟動將為我國新一代智能計算中心建設提供助力,顯著提升智能計算集群能力,加快大模型產業發展。
2.首批數千萬級高質量開源指令微調數據集
高質量的指令數據是大型模型表現的“養分”。致遠研究院發布了首個千萬級高質量開源指令微調數據集的開源項目。第一階段已驗證的300萬條中英文教學數據的發布將于近期完成。完成千萬級指令數據的開源。致遠對現有開源數據進行領域分析貝語網校,確保類型分布合理;對大規模數據進行質量篩選,保留高價值數據;對開源數據缺乏的領域和任務進行數據增廣,結合人工標注進行改進數據質量。控制以避免合成數據分布偏差。目前開源的300萬條指令的數據集已經展現出超越等的SFT數據能力,我們預計升級到千萬級數據級別后,基礎模型將基于該指令進行訓練,對數據集進行微調,對話模型能力將達到GPT-4級別。
3.全球最大的開源中英文多行業數據集
為了加速大模型技術的產業應用進程,致遠研究院構建并開源了中英文多行業數據集,共3.4TB預訓練數據集,其中中文1TB,2.4TB英文版,涵蓋18類行業,分類準確。率已達80%,未來計劃增加至30個品類。
致遠構建多行業數據算子訓練行業分類和質量過濾模型,實現高效、高質量的預訓練數據處理流程,并提出一套提高微調數據集問題復雜度、解答思維鏈的方法,以及處理預訓練、SFT 和 RLHF 數據的多輪問答質量過濾方法。
為了驗證行業數據集的性能,致遠訓練了醫療行業演示模型。與繼續預訓練之前的模型相比,總體客觀性能提高了20%。我們制作的醫學SFT數據集和DPO數據集經過微調,訓練后相比參考答案的主觀勝率達到82%,多輪對話能力5分制得分達到4.45。
行業預訓練數據集:
醫療示范模型地址:
醫學演示模型SFT數據集地址:
醫學演示模型DPO數據集地址:
4、支持多種AI異構算力的并行訓練框架首次突破
首次實現了不同廠商的跨節點RDMA直連以及異構集群上多種并行策略的高效混合訓練,成為業界首個同時支持多機上縱向和橫向擴展兩階段增長模型的訓練框架。異構人工智能芯片。
支持語言和多模態模型的密集和稀疏訓練,可實現1M長序列的大規模穩定訓練和推理;支持基于國產算力的8x16B千億參數MoE大語言模型1024卡40天以上穩定訓練,實現終端端到端的訓練、微調和推理部署;支持不同架構的多個芯片的組合池訓練。基于業界領先的異構并行策略,可達到85%以上的混合訓練性能上限,與同構芯片的模型訓練效果一致。 ;適配8種不同的國內外芯片,可以在不同集群中進行大規模訓練和驗證,實現損失和收斂曲線一點一滴的嚴格對齊。
5.大型模型的開源算子庫
為了更好地支持多種AI芯片的統一生態發展,致遠研究院推出了開源大模型算子庫,包括首個通用算子庫和大型模型專用算子庫,可以基于統一的算子庫開源編程語言。提高算子開發效率,同時實現多芯片共享算子庫。
目前主流語言和多模態模型所需的127個算子中,通用算子庫已覆蓋66個,預計2024年底實現全覆蓋。大型模型專用算子庫包含6個最新算子經常使用并且遵循算法的前沿。它為用戶提供了編程示例和可定制的運算符。
它采用了專為類別運營商設計的自動代碼生成技術。用戶可以通過簡潔的計算邏輯描述自動生成高效的代碼。該技術已應用于31類算子,占整個算子庫的47%。同時,基于運行時優化技術,算子運行速度提升70%,保證算子的高性能。
6、大模型評測全面升級
打造一把衡量大模型能力巔峰的“尺子”,是一個充滿挑戰的科學研究問題。致遠堅持科學、權威、公平、公開的原則,不斷推動評估工具和方法的迭代優化。自2023年發布以來,大模型評測已從主要語言模型擴展到視頻、語音、多模態模型,實現多領域全覆蓋。采用主客觀相結合、開卷和閉卷綜合檢查方式。首次與權威教育部門聯合開展。大模特K12科目測試,并與中國傳媒大學合作構建文科視頻模特主觀評價體系。致遠研究院與全國10余所高校和機構合作構建評估方法和工具,探索基于人工智能的輔助評估模型,為大型模型新能力創建具有挑戰性的評估集,其中包括與北京大學聯合打造的評估集,與北京師范大學共建的CMMU多模態評估集、多語言跨模態評估集MG18、復雜代碼評估集TACO、長視頻理解評估MLVU等。大學是目前世界上最大的大學。對話場景中最大的幻覺評估集,超過18,000輪對話,超過140,000個答案。
致遠研究院牽頭成立IEEE大模型評測標準組P3419,與人臉社區合作發布多個榜單陳翔中文網,與新加坡IMDA合作,共同為AI貢獻先進的評測數據和裁判模型,推動大模型評測。方法和工具的國際合作。
大型模型先驅齊聚,探索AGI之路
在2024北京智能源大會開幕式上,Sora與DALL·E團隊負責人、紐約大學助理教授謝賽寧就多模態模型的技術路徑和未來演進方向進行了觀點碰撞。
在致遠研究院董事長黃鐵軍主持的聊天中,01王CEO李開復和中國工程院院士、清華大學智能產業研究院院長張亞勤分別分享了自己的判斷。通用人工智能技術的發展趨勢。 。
百度CTO王海峰分享了《大模型帶來通用人工智能的曙光》報告。
在通向AGI的巔峰對話中,致遠研究院王中原、百川智能CEO王小川、智普AICEO張鵬、月之暗面CEO楊志林、長城CEO李大海——面向智能,暢談大模型的技術路徑依賴與突破,對開放生態與封閉研究、商業模式探索等熱點話題進行深入探討。
未來,致遠研究院將繼續堅持原始技術創新,在前沿方向探索路線,廣泛鏈接學術生態,賦能產業發展。
編輯:陳翔