當前位置：首頁 > 新聞資訊 > 人工智能應用 > DeepSeek帶來的AI變革,在低精度FP8的模式下訓練大模型,計算成本降低約1000倍

DeepSeek帶來的AI變革,在低精度FP8的模式下訓練大模型,計算成本降低約1000倍

來源：華福證券編輯：創澤時間：2025/3/6 主題：其他 [加盟]

一、用戶量：海外加速出圈，迅速登頂全球下載榜單

1、網頁端：重度用戶為主，DeepSeek 在 24 年 12 月 26 日推出V3（對標 GPT4o），因其顯著的性能，用戶迅速開始增長，同時在 1月 20 日發布 R1（對標 GPT-o1）后，進一步出圈。

2、APP 端：大眾用戶為主，R1 推出后，追平 GPT-o1，迅速出圈海外。根據點點數據，從 DeepSeek 在美國下載排名從 1 月 22 日的 201名，迅速在 1 月 27 日登頂第一名；根據七麥數據，截止 1 月 30 日，DeepSeek 在 168 個國家位居下載榜第一名。

二、DeepSeek 偏好激進性創新：架構（MOE+MLA）+精度（FP8）

1、MOE 架構創新：相比過去主流模型的 MOE 專家模型停留在8~16 個，而 DeepSeek 每個 MoE 層包含 1 個共享專家和 256 個路由專家，有助于降低模型推理時激活的參數量。

2、MLA 架構創新：MLA 通過聯合壓縮鍵值矩陣為低秩向量，將多個頭的鍵值信息融合，使推理時僅需緩存少量低秩向量，大幅降低 KV 緩存需求，減少內存占用。

3、訓練特色：突破大模型訓練固定思維（一般模型權重和梯度使用 FP16，優化器參數使用 FP32），敢于嘗試在低精度 FP8 的模式下訓練大模型，并且該嘗試同樣出現了較好的效果。

三、DeepSeek 開源對 AI 應用和 AI 終端的影響：產品力競爭時代

DeepSeek 從 V3 到 R1，將進一步推動全行業大模型的提升，更快的追趕 GPT4o 和 GPT-o1；同時成本的下降，有助于 AI 應用和 AI 終端的普及。未來行業競爭將進入“產品能力競爭”，巨頭的流量優勢將進一步凸顯。

四、DeepSeek 對推理成本的影響：用戶規模和使用頻次

未來推動推理成本增加的核心因素：用戶規模和用戶使用頻次的增加。根據 Grok 創始人，過去 60 年，每10年計算成本降低約1000倍，但人們的購買量增加了 10 萬倍，總支出反而增長了 100 倍。

√天堂最新版在线中文字幕,国产思思99re99在线观看,男人扒开添女人下部免费视频