DeepSeek效應,企業加速部署地端、專屬的生成式AI服務

2025-02-05

20

DeepSeek的高效、小型模型掀起了市場上的重大波瀾。NVIDIA英偉達以及包括台灣在內的美國人工智慧供應鏈市場均恐慌性下跌,引發不需要高運算晶片需求的疑慮。本文認為DeepSeek對企業將產生地端模型部署、自調專屬產業模型、多場景模型協同服務的影響。生成式AI不再是束之高閣的雲端服務,而是實在落地的隨身助理。

DeepSeek是甚麼?

2025 年 1 月,中國大陸梁文峰發展的對沖基金High-Flyer的DeepSeek AI公司發布了DeepSeek R1的開放原始碼推理模型,其性能與 OpenAI 的o1推理模型相抗衡,且僅需要花費5,600萬美元的計算成本來訓練基本模型(AI運算所需的晶片、伺服器、電力等成本)。相較於美國OpenAI、微軟、Google等競爭對手,需要花費超過1億美元的經費,使得市場對於美國供應鏈的AI競爭力以及晶片需求前景產生疑慮,導致了NIVIDIA英偉達股票大跌15%,也造成全球AI供應鏈相關市場的波動。究竟DeepSeek是甚麼? 對於企業應用生成式AI有甚麼影響呢?


圖1、生成式AI訓練過程(資料來源: Ahead of AI)


根據DeepSeek發表的論文指出(https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf),DeepSeek主要針對大語言模型的後訓練(post-training)過程進行高效率的優化。後訓練顧名思義,就是針對預訓練(pre-trained)模型或稱為基礎模型(foundation model)進行更專業領域的校調,更符合特殊領域、行業的場景需求。後訓練可以透過優化提示詞、微調(Fine-Turning)、重新訓練等方式達成。DeepSeek主要的貢獻有三大部分:


1. 後訓練強化學習技術: 利用強化學習技術(reinforcement learning),減少後訓練需要人工標記的成本。

2. 知識蒸餾小模型技術: 利用知識蒸餾技術(knowledge distillation),將大模型轉換為小模型,減低AI推理的運算成本。

3. 訓練優化技術: 善用各種優化技術,優化訓練所需要的GPU資源。


儘管DeepSeek模型仍仰賴OpenAI的基礎模型進行後訓練、知識蒸餾(詢問DeepSeek, 她會回答自己是OpenAI),也產生諸多資安漏洞與資料隱私疑慮。然而,DeepSeek對未來AI發展產生重大影響,開源、小模型、低成本成了不可逆的發展方向。


企業AI應用的影響

從DeepSeek模型的發展趨勢來看,企業AI應用將產生以下重大影響:

  • 低成本地端模型部署: 企業對於生成式AI服務不敢大幅度地實施,來自於深怕員工或顧客詢問的提示詞或公司資料上傳到公有雲服務,形成公司資料的外漏。透過DeepSeek引發的小模型、低成本的數據標記、低成本訓練以及低成本開放原始碼等技術方向,企業更能夠負擔AI運算的成本。企業能將模型部署在企業地端伺服器,充分享受生成式AI對營運效率、生產力的提升。 


  • 自調專屬產業模型: 開源、減少人工標記以及知識蒸餾等技術,可以協助企業更快速地調教大語言模型成為產業、企業的專屬小模型,以更符合行業、企業的特殊應用。


  • 多場景模型協同服務: 隨著愈來愈多產業模型、企業模型的發展,企業供應鏈間亦會形成多種專屬模型串聯的架構,配合多種生成式AI應用,形成類似ERP、供應鏈軟體的AI協同應用服務。



圖2、鼎新數智一體機的生成式AI訓練模式


有鑑於客戶對於地端模型需求,鼎新數智與群聯、Dell合作發展生成式AI一體機解決方案,包含: 鼎新預訓練大語言模型,並提供模型微調的開放原始碼架構,以滿足企業地端部署、校調專屬模型的需求。鼎新數智並持續發展相關生成式AI應用,讓企業可以享受「一個模型、N個場景」的應用服務。此外,鼎新數智並協助發展場景數據模型、行業大模型,協助企業可更精準的行業應用與調教企業專屬模型。

生成式AI模型將不再是大型雲服務公司的專屬服務,而是實實在在落地在企業裡各種場景的隨身助理!!

科技轉角巷

98 Followers

別再怕科技了!! 現在的智慧科技,不是躺在NASA實驗室的龐然大物,而是隱藏在你我的生活周遭。科技轉角巷,帶您一齊挖掘創新科技、感受科技意義並在脈絡底下遇見智慧應用。
知識主題
AI企業應用
AI科技新知

我們使用本身的Cookie和第三方的Cookie進行分析,並根據您的瀏覽習慣和個人資料向您展示與您的偏好相關的廣告。如欲瞭解更多資訊,您可以查閱我們的隱私權政策