巨額算力投入成為技術和效益優化的瓶頸,技術路徑破局迫在眉 睫。從效益端看,基于 Transformer 架構的模型在訓練計算量(training FLOPs)達到一定量級時,模型性能才出現向上的“拐點”,因此在 大模型訓練任務中,算力成為必須的基礎性資源。但隨著模型越來 越大,算力成本越來越高,成本飆升源于模型復雜度和數據量攀升 對計算資源的需求。Anthropic 首席執行官表示,三年內 AI 模型的 訓練成本將上升到 100 億美元甚至 1000 億美元。巨額的大模型訓 練投入一定程度減緩了技術進步和效益提升,因此技術路徑破局尤 為關鍵。當前 MoE 以及 OpenAI o1 的“思維鏈”是重要探索實踐。
MoE 框架是對 Transformer 架構的優化,關鍵在于路由策略及微 調。其能在不給訓練和推理階段引入過大計算需求的前提下大幅提 升模型能力。在基于 Transformer 的大型語言模型(LLM)中,每個 混合專家(MoE)層的組成形式通常是𝑁個“專家網絡”搭配一個“門 控網絡”G。門控函數(也被稱路由函數)是所有 MoE 架構的基礎 組件,作用是協調使用專家計算以及組合各專家的輸出。根據對每 個輸入的處理方法,該門控可分為三種類型:稀疏式、密集式和 soft 式。其中稀疏式門控機制是激活部分專家,而密集式是激活所有專 家,soft 式則包括完全可微方法,包括輸入 token 融合和專家融合。
MoE 在 NLP、CV、語音識別以及機器人等領域表現出色,且在更 高性能的大模型推理芯片 LPU 加持下,MoE模型提升效果顯著。
OpenAI o1 基于“思維鏈”的創新推理模式,學會人類“慢思考”, 專業領域的效果突出。OpenAI o1 相比之前的 AI 大模型最跨越性的 一步在于擁有人類“慢思考”的特質:系統性、邏輯性、批判性、 意識性。在響應用戶提出的難題之前,OpenAI o1 會產生一個縝密 的內部思維鏈,進行長時間的思考,完善思考過程、意識邏輯錯誤、 優化使用策略、推理正確答案。這種深度思考能力在處理數學、編 程、代碼、優化等高難度問題時發揮重要作用,能夠進行博士級別 的科學問答,成為真正的通用推理。推理側的應用模式創新有望在 更為專業的領域創造價值應用,從通用的偏娛樂領域逐步過渡到偏 嚴肅的專業領域場景,AI 大模型的真正實踐價值有望進一步釋放, 因此 o1 模型提供的新應用范式和能力維度在大模型技術路線演繹 中,具有里程碑意義。
機器人底盤 Disinfection Robot 消毒機器人 講解機器人 迎賓機器人 移動機器人底盤 商用機器人 智能垃圾站 智能服務機器人 大屏機器人 霧化消毒機器人 紫外線消毒機器人 消毒機器人價格 展廳機器人 服務機器人底盤 核酸采樣機器人 智能配送機器人 導覽機器人 |