




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
DeepSeek基礎(chǔ)知識2025年02月25日R1.0版
DeepSeek的背景知識
DeepSeek的技術(shù)特點DeepSeek的使用方法
DeepSeek的后續(xù)影響PART01DeepSeek的背景知識■
DeepSeek的背景知識什么是DeepSeekDeepSeek公司:杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司。DeepSeek大模型:DeepSeek公司推出的一系列大模型的統(tǒng)稱?!?/p>
DeepSeek的背景知識DeepSeek公司成立時間:2023年7月;創(chuàng)始人:梁文峰(幻方量化的聯(lián)合創(chuàng)始人);所在城市:浙江省杭州市拱墅區(qū);公司口號:探索未至之境;?公司業(yè)務(wù)方向:專注于通用人工智能(AGI)技術(shù)的研發(fā)和應(yīng)用;“杭州六小龍”之一;團隊成員大多來自清華大學(xué)、北京大學(xué)、中山大學(xué)、北京郵電大學(xué)等國內(nèi)頂尖高校?!?/p>
DeepSeek的背景知識梁文峰出生年份:1985年;籍貫:廣東省湛江市吳川市覃巴鎮(zhèn)米歷嶺村;學(xué)歷背景:2002年,考入浙江大學(xué)電子工程系電子信息工程專業(yè);2007年,考上浙江大學(xué)信息與通信工程專業(yè)研究生;2010年,獲得碩士學(xué)位;工作背景:2008年,開始帶領(lǐng)團隊使用機器學(xué)習(xí)等技術(shù)探索量化交易;2015年,創(chuàng)立了幻方科技(杭州幻方科技有限公司);2019年,其資金管理規(guī)模突破百億元;2023年7月,幻方量化宣布成立大模型公司DeepSeek,進入通用人工智能(AGI)領(lǐng)域?!?/p>
DeepSeek的背景知識DeepSeek大模型發(fā)布時間表2024年01月05日,正式發(fā)布首個大模型DeepSeekLLM;2024年01月25日,正式發(fā)布DeepSeek-Coder,由一系列代碼語言模型組成;2024年02月05日,正式發(fā)布DeepSeek-Math,以DeepSeek-CoderV1.57b為基礎(chǔ);2024年03月11日,正式發(fā)布DeepSeek-VL,是一個開源的視覺-語言(VL)模型;2024年05月07日,正式發(fā)布第二代開源MoE模型DeepSeek-V2;2024年06月17日,正式發(fā)布DeepSeek-Coder-V2,支持的編程語言從86種擴展到338種;2024年09月06日,合并DeepSeek-Coder-V2和DeepSeek-V2-Chat兩個模型,升級推出DeepSeek-V2.5;2024年11月20日,正式發(fā)布DeepSeek-R1-Lite預(yù)覽版;2024年12月13日,正式發(fā)布DeepSeek-VL2,用于高級多模態(tài)理解的專家混合視覺語言模型;2024年12月26日,正式發(fā)布DeepSeek-V3,并同步開源模型權(quán)重;2025年01月20日,正式發(fā)布DeepSeek-R1、DeepSeek-R1-Zero,并同步開源模型權(quán)重?!?/p>
DeepSeek的背景知識掀起本次DeepSeek熱潮的,主要是——DeepSeek-V3DeepSeek-R1DeepSeek-R1-ZeroPART02DeepSeek的技術(shù)特點■
DeepSeek的技術(shù)特點DeepSeek-V3的基本情況DeepSeek-V3是一款高性能、低成本的開源通用語言模型。適用場景:高性能對話、復(fù)雜任務(wù)處理和高精度場景,例如長文檔分析、多模態(tài)推理、科研計算等。設(shè)計目標(biāo):進一步提升開源模型的能力,縮小與閉源模型的差距,同時保持訓(xùn)練成本的經(jīng)濟性。參數(shù)規(guī)模:共有6710億個參數(shù)。但每次處理一個token時只激活370億個參數(shù)。這種設(shè)計降低了計算成本。訓(xùn)練成本:總計278.8萬H800GPU小時(Meta的Llama3.1需要3080萬GPU小時)。假設(shè)每小時2美元,費用約557.6萬美元(約為GPT-4的二十分之一)。價格費用:模型API服務(wù)定價為每百萬輸入tokens0.5元(緩存命中)/2元(緩存未命中),每百萬輸出tokens8元。在性能實現(xiàn)領(lǐng)先的同時,定價大幅低于市面上所有模型,性價比優(yōu)勢明顯?!?/p>
DeepSeek的技術(shù)特點DeepSeek-V3的性能表現(xiàn)在數(shù)學(xué)推理(GSM8K)、代碼生成(HumanEval)、常識推理(MMLU)等基準(zhǔn)測試中達到領(lǐng)先水平。在公開評測集(如MMLU、BBH、DROP)中表現(xiàn)優(yōu)異,尤其在復(fù)雜推理任務(wù)上接近或超越GPT-4Turbo等頂尖模型。多項評測成績超越了Qwen2.5-72B和Llama-3.1-405B等其它開源模型,并在性能上和世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet不相上下。在知識類任務(wù)(MMLU,MMLU-Pro,GPQA,SimpleQA)上的水平相比前代DeepSeek-V2.5顯著提升,接近此前表現(xiàn)最好的模型Claude-3.5-Sonnet-1022
(Anthropic公司于2024年10月發(fā)布)。通過算法和工程上的創(chuàng)新,將生成吐字速度從20TPS(TransactionsPerSecond每秒完成的事務(wù)數(shù)量)大幅提高至60TPS,相比V2.5模型實現(xiàn)了3倍的提升,可以帶來更加流暢的使用體驗?!?/p>
DeepSeek的技術(shù)特點DeepSeek-V3的技術(shù)特點采用了多頭潛在注意力(MLA)和DeepSeekMoE架構(gòu),實現(xiàn)高效推理,提升成本效益。開創(chuàng)了一種無輔助損失(auxiliary-loss-free)策略用于負載平衡,并設(shè)置了多token預(yù)測訓(xùn)練目標(biāo),以提升性能。在訓(xùn)練效率上,運用了FP8混合精度訓(xùn)練,讓顯存得到了優(yōu)化,極大提升了計算性能與訓(xùn)練穩(wěn)定性。支持千卡級訓(xùn)練,滿足超大規(guī)模集群分布式訓(xùn)練需求。采用DualPipe(雙向流水線)算法和通信優(yōu)化,實現(xiàn)計算-通信近乎完全重疊。訓(xùn)練分為三個階段:預(yù)訓(xùn)練(Pre-Training)、長上下文擴展(LongContextExtension)和后訓(xùn)練(Post-Training)。推理環(huán)節(jié)通過獨特的P/D分離策略和NanoFlow的雙流推理模式,提升了系統(tǒng)的資源利用率。■
DeepSeek的技術(shù)特點關(guān)鍵技術(shù)——混合專家系統(tǒng)(MoE)混合專家架構(gòu)(MixtureofExperts),是一種將多個專門的子模型(稱為“專家”)組合在一起的機器學(xué)習(xí)架構(gòu)。通過一個門控網(wǎng)絡(luò)來動態(tài)地決定在處理每個輸入時應(yīng)該使用哪些專家,從而利用多個專家的優(yōu)勢來處理復(fù)雜的任務(wù),提高模型的性能和泛化能力。圖片來自:DeepSeek論文■
DeepSeek的技術(shù)特點關(guān)鍵技術(shù)——多頭潛在注意力(MLA)多頭潛在注意力(MLA):是一種改進的注意力機制,旨在提高Transformer模型在處理長序列時的效率和性能。MLA增強了模型處理細微關(guān)系和同時管理多個輸入的能力,使其對需要上下文深度的任務(wù)非常有效。如果以聽一場演講來類比,傳統(tǒng)的注意力機制需要記住每個時間點的所有細節(jié)(就像記錄每一秒的錄音),而MLA則只提取關(guān)鍵信息(就像只記錄每個重點句子),這樣大大降低需要記憶的信息。圖片來自:DeepSeek論文■
DeepSeek的技術(shù)特點關(guān)鍵技術(shù)——多令牌預(yù)測(MTP)傳統(tǒng)的語言模型通常只預(yù)測下一個令牌(token),而MTP則是在每個位置上,讓模型預(yù)測多個未來的標(biāo)記,從而提高模型的性能和效率。MTP不僅增加了訓(xùn)練信號的密度,還使模型能夠更好地規(guī)劃未來的表示,從而生成更連貫和準(zhǔn)確的文本。圖片來自:DeepSeek論文■
DeepSeek的技術(shù)特點關(guān)鍵技術(shù)——FP8精度訓(xùn)練DeepSeek-V3將大部分計算密集型操作(如矩陣乘法)使用FP8精度進行,同時保留一些關(guān)鍵操作(如嵌入層、輸出頭、歸一化操作等)的高精度(BF16或FP32),以確保訓(xùn)練的數(shù)值穩(wěn)定性。在此基礎(chǔ)上,進一步疊加細粒度量化、高精度累加、在線量化、低精度存儲和通信等技術(shù)方法,成功實現(xiàn)了高效的FP8精度訓(xùn)練。FP8精度訓(xùn)練不僅顯著提高了訓(xùn)練速度和效率,還保持了模型的高性能?!?/p>
DeepSeek的技術(shù)特點關(guān)鍵技術(shù)——雙向流水線(DualPipe)核心思想是將模型的不同層分配到不同的GPU上進行并行訓(xùn)練,并通過雙向流水線調(diào)度來同時處理正向傳播和反向傳播。具體來說,它允許從流水線的兩端同時輸入微批次(micro-batches),從而最大化地利用計算資源并減少通信開銷,該方法實現(xiàn)了高效的模型訓(xùn)練,為大規(guī)模分布式訓(xùn)練提供了強大的支持?!?/p>
DeepSeek的技術(shù)特點關(guān)鍵技術(shù)——跨節(jié)點通信技術(shù)通過高效的跨節(jié)點全對全通信內(nèi)核、通信和計算的重疊、定制化通信內(nèi)核、低精度通信以及對未來硬件設(shè)計的建議,顯著提高了跨節(jié)點通信的效率。不僅減少了通信開銷,還提高了整體訓(xùn)練效率,為大規(guī)模分布式訓(xùn)練提供了強大的支持?!?/p>
DeepSeek的技術(shù)特點DeepSeek-R1和DeepSeek-R1-Zero的基本情況DeepSeek-R1和DeepSeek-R1-Zero都是開源推理大模型。兩者均基于DeepSeek-V3的混合專家(MoE)架構(gòu),總參數(shù)量為6710億,但每個推理請求僅激活約10%的參數(shù)以降低計算成本。主要區(qū)別:R1-Zero:完全依賴強化學(xué)習(xí)(ReinforcementLearning,RL)訓(xùn)練,跳過監(jiān)督微調(diào)(SupervisedFine-Tuning,SFT),通過組相對策略優(yōu)化(GroupRelativePolicyOptimization,GRPO)算法和組內(nèi)競爭機制優(yōu)化推理能力,主要目的是探索和驗證純RL的可行性和潛力。R1-Zero除了證明純強化學(xué)習(xí)的有效性,亦有“頓悟”現(xiàn)象的出現(xiàn),即在模型自發(fā)的推理策略博弈中學(xué)習(xí)到的新的、更有效的推理策略。R1:在R1-Zero基礎(chǔ)上引入冷啟動數(shù)據(jù)和多階段優(yōu)化,結(jié)合監(jiān)督微調(diào)(SFT)與強化學(xué)習(xí)(RL),提升輸出的可讀性和穩(wěn)定性,優(yōu)化輸出質(zhì)量,對性能和實用性進行平衡,適用于實際場景?!?/p>
DeepSeek的技術(shù)特點DeepSeek-R1和DeepSeek-R1-Zero的基本情況圖片來源:《DeepSeek自學(xué)手冊》■
DeepSeek的技術(shù)特點DeepSeek-R1和DeepSeek-R1-Zero的對比R1R1-Zero主要特點在R1-Zero基礎(chǔ)上引入冷啟動數(shù)據(jù)和多階段優(yōu)化,結(jié)合監(jiān)督微調(diào)(SFT)與強化學(xué)習(xí)(RL)完全依賴強化學(xué)習(xí)(RL)訓(xùn)練,跳過監(jiān)督微調(diào)(SFT)推理能力穩(wěn)定且全面潛力大但波動性強可讀性語言流暢、結(jié)構(gòu)清晰語言混雜、重復(fù)率高泛化性覆蓋通用任務(wù)(問答、寫作等)局限于數(shù)學(xué)、代碼等強驗證領(lǐng)域訓(xùn)練效率冷啟動加速訓(xùn)練,避免局部最優(yōu)收斂時間長(無先驗引導(dǎo))應(yīng)用場景實際場景技術(shù)驗證■
DeepSeek的技術(shù)特點DeepSeek-R1的性能表現(xiàn)DeepSeek-R1作為開源模型,在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上,性能能夠比肩OpenAIo1正式版。在國外大模型排名榜ChatbotArena上,DeepSeek-R1的基準(zhǔn)測試排名已經(jīng)升至全類別大模型第三,與OpenAI的ChatGPT-4o最新版并列,并在風(fēng)格控制類模型(StyleCtrl)分類中與OpenAI的o1模型并列第一。DeepSeek-R1OpenAIo1AIME202479.8%79.2%MATH-50097.3%96.4%Codeforces20292061MMLU90.8%91.8%基準(zhǔn)測試成績對比■
DeepSeek的技術(shù)特點DeepSeek-R1的技術(shù)特點強化學(xué)習(xí):DeepSeek-R1的訓(xùn)練方法是最大亮點。通過重新設(shè)計訓(xùn)練流程、以少量SFT數(shù)據(jù)+多輪RL強化學(xué)習(xí)的辦法(基礎(chǔ)模型→RL→微調(diào)迭代),既提高了模型準(zhǔn)確性,也顯著降低了內(nèi)存占用和計算開銷。獎勵機制設(shè)計:DeepSeek-R1采用了準(zhǔn)確性獎勵、格式獎勵、語言一致性獎勵等機制,確保了模型在推理任務(wù)中的高效性和可讀性。訓(xùn)練模板與結(jié)構(gòu)化輸出:DeepSeek-R1采用“思考-回答”雙階段訓(xùn)練模板,模型需先展示推理過程,再提供最終答案,推理過程可追蹤,為獎勵計算提供了明確基準(zhǔn)。蒸餾技術(shù):DeepSeek-R1遵循MITLicense,允許用戶通過蒸餾技術(shù)借助R1訓(xùn)練其他模型。DeepSeek-R1系列提供1.5B至70B參數(shù)蒸餾版本,其中7B模型經(jīng)INT4量化后僅需2-4GB存儲,完美適配終端設(shè)備內(nèi)存限制。DeepSeek在開源R1-Zero和R1兩個660B模型的同時,蒸餾了6個小模型開源給社區(qū),其中32B和70B模型在多項能力上可以對標(biāo)OpenAIo1-mini。開放思維鏈(CoT,ChainofThought)輸出:DeepSeek-R1的動態(tài)思維鏈,支持?jǐn)?shù)萬字級內(nèi)部推理過程,解決復(fù)雜問題時能自主拆解步驟并驗證邏輯,輸出可解釋性更強的結(jié)果。DeepSeek-R1通過API對用戶開放思維鏈輸出?!?/p>
DeepSeek的技術(shù)特點關(guān)鍵技術(shù)——模型蒸餾(KnowledgeDistillation)模型蒸餾是一種將大型復(fù)雜模型(教師模型)的知識遷移到小型高效模型(學(xué)生模型)的技術(shù)。其核心目標(biāo)是在保持模型性能的同時,顯著降低模型的計算復(fù)雜度和存儲需求。DeepSeek利用強大的教師(R1)模型生成或優(yōu)化數(shù)據(jù),幫助小模型更高效地學(xué)習(xí)。此外,通過監(jiān)督微調(diào)(SFT)的方式,將教師模型的知識遷移到學(xué)生模型中?!?/p>
DeepSeek的技術(shù)特點總結(jié)——DeepSeek大模型的核心特點高性能+低成本+開源+國產(chǎn)PART03DeepSeek造成的影響■
DeepSeek造成的影響市場反饋1月27日,DeepSeek引發(fā)了股票市場的劇烈波動。AI概念股大跌,歐美科技股市值蒸發(fā)1.2萬億美元,歐美芯片制造商以及為AI和數(shù)據(jù)中心供電的全產(chǎn)業(yè)鏈公司齊跌。其中,英偉達收盤暴跌16.97%,市值一個交易日蒸發(fā)5926.58億美元(約合人民幣4.3萬億元),規(guī)模創(chuàng)美股史上最大。截止1月31日,DeepSeekApp上線僅21天,日活躍用戶DAU2215萬,達ChatGPT日活用戶的41.6%,超過豆包(1695萬)。截至2月2日,DeepSeekApp迅速攀升至140個國家的蘋果AppStore下載排行榜首位,并在美國的AndroidPlayStore中同樣占據(jù)榜首位置?!?/p>
DeepSeek造成的影響大佬表態(tài)美國總統(tǒng)特朗普:DeepSeek給我們(科技)行業(yè)敲響了警鐘,我們應(yīng)為了贏得勝利而努力競爭。微軟CEO納德拉:在財報電話會議上稱DeepSeek“有一些真的創(chuàng)新”,并透露R1模型已經(jīng)可以通過微軟的AI平臺獲取。MetaCEO扎克伯格:Meta將DeepSeek視為競爭對手并正在學(xué)習(xí)。ASMLCEO:DeepSeek這樣的低成本模型將帶來更多而非更少的AI芯片需求。Anthropic創(chuàng)始人:DeepSeek-V3是真正的創(chuàng)新所在。人工智能專家吳恩達:中美AI差距正在迅速縮小。OpenAICEO山姆奧特曼:“在開源上,OpenAI站在了歷史的錯誤一方”。《黑神話:悟空》的制作人馮驥:這是一項“國運級別的科技成果”?!?/p>
DeepSeek造成的影響重要影響1:改變了AI技術(shù)的發(fā)展方向DeepSeek通過算法創(chuàng)新和系統(tǒng)工程優(yōu)化,實現(xiàn)了與國際頂尖模型相當(dāng)?shù)男阅?,同時大幅降低了訓(xùn)練成本。算力至上的傳統(tǒng)認(rèn)知被徹底打破。訓(xùn)練AI大模型,并不只有算力堆砌這一條路。算法創(chuàng)新的重要性提升,不再僅僅聚焦于算力創(chuàng)新和數(shù)據(jù)創(chuàng)新。通過算法的優(yōu)化,可以實現(xiàn)AI平權(quán)?!?/p>
DeepSeek造成的影響重要影響2:改變了全球AI進展的格局DeepSeek大模型的出現(xiàn),對美國的人工智能領(lǐng)導(dǎo)地位構(gòu)成威脅,不僅引發(fā)了OpenAI、Meta、谷歌等眾多大模型廠商恐慌,還引發(fā)了英偉達等AI芯片企業(yè)的股價大跌。DeepSeek表明中國與美國在AI大模型領(lǐng)域的差距正在快速縮小,甚至在某些方面實現(xiàn)了超越。DeepSeek大幅提升了國產(chǎn)AI產(chǎn)業(yè)鏈(芯片、終端、大模型、應(yīng)用)的信心。DeepSeek進一步引發(fā)了資本市場對中國科技力量的重新評估,也影響了對中概股的重新估值。DeepSeek的成功,對其它發(fā)展中國家也有鼓舞作用,有助于AI全球化普及和應(yīng)用?!?/p>
DeepSeek造成的影響重要影響3:全面加速AI端側(cè)應(yīng)用的落地大模型的價格正在快速下降,極大推動了AI在端側(cè)的應(yīng)用普及。AI推理首次真正突破硬件限制,部署成本從高端GPU擴展至消費級GPU。大模型開始具有低參數(shù)量的特征,加上蒸餾技術(shù)的崛起,為本地化部署到AI終端運行提供了可能。本地部署為用戶提供了更高的靈活性和隱私保護,尤其適合對數(shù)據(jù)安全有較高要求的場景,有利于AI的進一步普及。算力需求會從預(yù)訓(xùn)練端轉(zhuǎn)移到推理端。推理需求的持續(xù)增長,會帶動端側(cè)AI算力芯片、終端等產(chǎn)業(yè)的增長浪潮。AI端側(cè)應(yīng)用普及,會進一步推動各行各業(yè)的效率提升,加速催生了新的商業(yè)模式和產(chǎn)業(yè)形態(tài)。垂直行業(yè)模型有可能迎來一波發(fā)展高潮?!?/p>
DeepSeek造成的影響重要影響4:對AI算力供給關(guān)系造成沖擊短期來看,市場和公眾普遍認(rèn)為DeepSeek的出現(xiàn),降低了AI大模型對智算算力的需求(英偉達股價下跌的原因)。但事實上,從長期來看,根據(jù)杰文斯Jevons悖論(第一次工業(yè)革命期間,蒸汽機效率的提升,使得市場上煤炭的消耗總量反而增加了),整個社會隨著AI應(yīng)用的加速普及,對算力的總需求反而會增加?!?/p>
DeepSeek造成的影響重要影響5:引領(lǐng)開源力量的大跨步發(fā)展DeepSeek是開源大模型的一次重大勝利。DeepSeek的成功,吸引了大量開發(fā)者參與改進和研究,推動了開源社區(qū)的發(fā)展。DeekSeek對閉源模型市場形成了沖擊,迫使閉源廠商降低價格或提升性能以維持市場份額?!?/p>
DeepSeek造成的影響云廠商全面接入DeepSeek華為云:2月1日,華為云聯(lián)合硅基流動首發(fā)并上線基于昇騰云服務(wù)的DeepSeekR1/V3推理服務(wù)。騰訊云:2月3日,騰訊云宣布DeepSeek-R1大模型一鍵部署至騰訊云「HAI,高性能應(yīng)用服務(wù)」上。阿里云:2月3日,阿里云宣布阿里云PAIModelGallery支持云上一鍵部署DeepSeek-V3、DeepSeek-R1。百度智能云:2月3日,百度智能云宣布百度智能云千帆平臺已正式上架DeepSeek-R1和DeepSeek-V3模型?;鹕揭妫?月4日,支持V3/R1等不同尺寸的DeepSeek開源模型,可在火山引擎機器學(xué)習(xí)平臺veMLP中部署,也可在火山方舟中調(diào)用。金山云:2月8日,已正式發(fā)布基于DeepSeek-R1蒸餾模型的多種鏡像服務(wù),用戶可在公有云GPU云服務(wù)器、GPU裸金屬服務(wù)器分別搭建推理服務(wù)。微軟Azure:1月29日,,微軟也宣布DeepSeekR1已在AzureAIFoundry和GitHub上提供,開發(fā)者將很快就能在Copilot+PC上本地運行DeepSeek的R1精簡模型,以及在Windows上龐大的GPU生態(tài)系統(tǒng)中運行。亞馬遜AWS:1月30日,亞馬遜表示,DeepSeek-R1模型現(xiàn)在已可以在AmazonWebServices上使用?!?/p>
DeepSeek造成的影響運營商全面接入DeepSeek中國電信:天翼云自研“息壤”智算平臺完成國產(chǎn)算力與DeepSeek-R1/V3系列大模型的深度適配優(yōu)化,成為國內(nèi)首家實現(xiàn)DeepSeek模型全棧國產(chǎn)化推理服務(wù)落地的運營商級云平臺;中國移動:移動云全面上線DeepSeek,全版本覆蓋、全尺寸適配、全功能暢用。現(xiàn)已全面兼容DeepSeek所有主流版本,靈活應(yīng)對多樣化業(yè)務(wù)場景需求;中國聯(lián)通:聯(lián)通云與DeepSeek實現(xiàn)多場景深度對接。聯(lián)通云已基于“星羅”平臺實現(xiàn)多規(guī)格DeepSeek-R1模型適配,并在全國270多個骨干云池預(yù)部署,接入多種產(chǎn)品場景。■
DeepSeek造成的影響生態(tài)鏈適配目前已有多家國產(chǎn)AI算力廠商宣布適配DeepSeek,比如華為昇騰、壁仞科技、天數(shù)智芯、摩爾線程、沐曦等。2月4日,天數(shù)智芯與GiteeAI聯(lián)合發(fā)布消息,在雙方的高效協(xié)作下,僅用時一天,便成功完成了與DeepSeekR1的適配工作,并且已正式上線多款大模型服務(wù)。2月4日,華為表示,潞晨科技攜手昇騰,聯(lián)合發(fā)布基于昇騰算力的DeepSeekR1系列推理API及云鏡像服務(wù)。2月6日,吉利汽車與DeepSeek完成模型融合,計劃通過蒸餾訓(xùn)練優(yōu)化車載AI功能(如意圖理解、主動服務(wù)等),并計劃在智能座艙、自動駕駛等領(lǐng)域應(yīng)用。2月7日,嵐圖汽車則宣布首款量產(chǎn)車型“知音”將搭載DeepSeek模型,支持AI多語義指令識別等功能。2月16日,百度搜索和文心智能體平臺宣布將全面接入DeepSeek和文心大模型最新的深度搜索功能。2月17日,有媒體發(fā)現(xiàn),微信已為搜索功能接入DeepSeek-R1模型,處于小范圍灰度測試中?!璓ART04DeepSeek的使用方法■
DeepSeek的使用方法DeepSeek的使用入口官方官網(wǎng):/官方API平臺:/第三方各大應(yīng)用商店,下載官方App第三方工具接入自己搭建部署私有化部署(本地部署)■
DeepSeek的使用方法DeepSeek的模式深度思考:讓模型既聰明又“會說人話。擅長用系統(tǒng)化的方法分析問題,能把復(fù)雜的事情拆解得明明白白。聯(lián)網(wǎng)搜索:DeepSeek的AI搜索功能,基于RAG(檢索增強生成)。它讓DeepSeek不僅能依賴自己的訓(xùn)練數(shù)據(jù)(更新至2024年7月),還能根據(jù)互聯(lián)網(wǎng)實時搜索相關(guān)內(nèi)容來回答問題?!?/p>
DeepSeek的使用方法DeepSeek的日常應(yīng)用場景場景細分場景再細分場景文本生成文本創(chuàng)作文章寫作、詩歌創(chuàng)作,文案生成,劇本設(shè)計……摘要與改寫生成論文摘要,外文翻譯,文本風(fēng)格轉(zhuǎn)換……結(jié)構(gòu)化生成生成表格,代碼注釋……自然語言處
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 滕州市初三數(shù)學(xué)考試卷及答案
- 市場營銷策劃考試題庫及答案
- 2025年西藏自治區(qū)事業(yè)單位招聘考試綜合類專業(yè)能力測試試卷(建筑類)試題及答案
- 2025年南京市事業(yè)單位招聘考試科技常識真題模擬試卷
- 衡陽初一考試題庫及答案
- 河南中專的考試題及答案
- 績效考核體系創(chuàng)新-洞察與解讀
- 總經(jīng)理個人年度工作總結(jié)范文匯報
- 2025國考南京市經(jīng)濟分析崗位申論模擬題及答案
- 2025國考鞍山市科研技術(shù)崗位申論高頻考點及答案
- 洗煤安全培訓(xùn)課件
- 2025湖北武漢市市直機關(guān)遴選公務(wù)員111人筆試參考題庫附答案解析
- 2025年度中國石化畢業(yè)生招聘統(tǒng)一初選考試筆試參考題庫附帶答案詳解
- 2024年演出經(jīng)紀(jì)人考試真題解析與試題及答案
- 病媒生物防制巡查記錄
- 體檢中心工作制度及崗位職責(zé)
- 大國兵器(中北大學(xué))學(xué)習(xí)通網(wǎng)課章節(jié)測試答案
- 2025年公務(wù)員公開遴選筆試試題及答案(綜合類)
- 門座式起重機司機模擬題(附答案)
- 水利水電安全生產(chǎn)應(yīng)急預(yù)案措施
- 消化內(nèi)鏡教學(xué)課件
評論
0/150
提交評論