2025-02-05
黃正傑
20
DeepSeek的高效、小型模型掀起了市場上的重大波瀾。NVIDIA英偉達以及包括台灣在內的美國人工智慧供應鏈市場均恐慌性下跌,引發不需要高運算晶片需求的疑慮。本文認為DeepSeek對企業將產生地端模型部署、自調專屬產業模型、多場景模型協同服務的影響。生成式AI不再是束之高閣的雲端服務,而是實在落地的隨身助理。
2025 年 1 月,中國大陸梁文峰發展的對沖基金High-Flyer的DeepSeek AI公司發布了DeepSeek R1的開放原始碼推理模型,其性能與 OpenAI 的o1推理模型相抗衡,且僅需要花費5,600萬美元的計算成本來訓練基本模型(AI運算所需的晶片、伺服器、電力等成本)。相較於美國OpenAI、微軟、Google等競爭對手,需要花費超過1億美元的經費,使得市場對於美國供應鏈的AI競爭力以及晶片需求前景產生疑慮,導致了NIVIDIA英偉達股票大跌15%,也造成全球AI供應鏈相關市場的波動。究竟DeepSeek是甚麼? 對於企業應用生成式AI有甚麼影響呢?
圖1、生成式AI訓練過程(資料來源: Ahead of AI)
根據DeepSeek發表的論文指出(https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf),DeepSeek主要針對大語言模型的後訓練(post-training)過程進行高效率的優化。後訓練顧名思義,就是針對預訓練(pre-trained)模型或稱為基礎模型(foundation model)進行更專業領域的校調,更符合特殊領域、行業的場景需求。後訓練可以透過優化提示詞、微調(Fine-Turning)、重新訓練等方式達成。DeepSeek主要的貢獻有三大部分:
1. 後訓練強化學習技術: 利用強化學習技術(reinforcement learning),減少後訓練需要人工標記的成本。
2. 知識蒸餾小模型技術: 利用知識蒸餾技術(knowledge distillation),將大模型轉換為小模型,減低AI推理的運算成本。
3. 訓練優化技術: 善用各種優化技術,優化訓練所需要的GPU資源。
儘管DeepSeek模型仍仰賴OpenAI的基礎模型進行後訓練、知識蒸餾(詢問DeepSeek, 她會回答自己是OpenAI),也產生諸多資安漏洞與資料隱私疑慮。然而,DeepSeek對未來AI發展產生重大影響,開源、小模型、低成本成了不可逆的發展方向。
從DeepSeek模型的發展趨勢來看,企業AI應用將產生以下重大影響:
圖2、鼎新數智一體機的生成式AI訓練模式
有鑑於客戶對於地端模型需求,鼎新數智與群聯、Dell合作發展生成式AI一體機解決方案,包含: 鼎新預訓練大語言模型,並提供模型微調的開放原始碼架構,以滿足企業地端部署、校調專屬模型的需求。鼎新數智並持續發展相關生成式AI應用,讓企業可以享受「一個模型、N個場景」的應用服務。此外,鼎新數智並協助發展場景數據模型、行業大模型,協助企業可更精準的行業應用與調教企業專屬模型。
生成式AI模型將不再是大型雲服務公司的專屬服務,而是實實在在落地在企業裡各種場景的隨身助理!!
科技轉角巷
98 Followers
科技轉角巷
98 Followers
我們使用本身的Cookie和第三方的Cookie進行分析,並根據您的瀏覽習慣和個人資料向您展示與您的偏好相關的廣告。如欲瞭解更多資訊,您可以查閱我們的隱私權政策。