




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
林子雨副教授數(shù)字素養(yǎng)通識(shí)教程廈門大學(xué)教材簡(jiǎn)介本PPT是以下教材的配套講義林子雨編著《數(shù)字素養(yǎng)通識(shí)教程——大數(shù)據(jù)與人工智能時(shí)代的計(jì)算機(jī)通識(shí)教育》人民郵電出版社,2025年1月ISBN:978-7-115-65946-0
定價(jià):59.8元教材官網(wǎng):/post/digital-literacy/教材官網(wǎng)提供講義PPT、MOOC視頻、案例視頻、上機(jī)實(shí)驗(yàn)、教學(xué)大綱、課程思政案例、開學(xué)第一課講座PPT等豐富的教學(xué)資源掃一掃訪問教材官網(wǎng)主講教師和作者林子雨簡(jiǎn)介廈門大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系副教授以第一作者編著出版13本大數(shù)據(jù)系列教材被國(guó)內(nèi)1000余所高校采用榮獲“2022年福建省高等教育教學(xué)成果獎(jiǎng)特等獎(jiǎng)(個(gè)人排名第一)”入選“2021年高校計(jì)算機(jī)專業(yè)優(yōu)秀教師獎(jiǎng)勵(lì)計(jì)劃”2018年國(guó)家精品在線開放課程(獨(dú)立主講)2020年國(guó)家級(jí)線上一流本科課程(獨(dú)立主講)2021年國(guó)家級(jí)線上一流本科課程(獨(dú)立主講)入選“2023年教育部國(guó)家智慧教育公共服務(wù)平臺(tái)應(yīng)用典型案例”第5章大模型:人工智能的前沿01大模型概述目錄02大模型產(chǎn)品03大模型的基本原理04大模型的特點(diǎn)05大模型的分類06大模型的成本07大模型的應(yīng)用領(lǐng)域09大模型對(duì)人們工作和生活的影響10大模型的挑戰(zhàn)與未來發(fā)展08基于大模型的智能體01大模型概述Partone大模型(英文為“FoundationModel”)是指具有龐大的參數(shù)規(guī)模和復(fù)雜程度的機(jī)器學(xué)習(xí)模型,這些模型可以在訓(xùn)練過程中處理大規(guī)模的數(shù)據(jù)集,并且能夠提供更高的預(yù)測(cè)能力和準(zhǔn)確性。大模型通常需要大量的計(jì)算資源和更長(zhǎng)的訓(xùn)練時(shí)間大模型可以被分為多種類型,其中一類就是大語言模型(LLM,LargeLanguageModel),另一類則是圖像、語音和推薦等領(lǐng)域的大模型。大語言模型主要用于處理自然語言處理任務(wù),例如文本分類、情感分析、機(jī)器翻譯等,而大模型在圖像領(lǐng)域可以用于圖像分類、目標(biāo)檢測(cè)等任務(wù),在語音領(lǐng)域可以用于語音識(shí)別、語音合成等任務(wù),在推薦領(lǐng)域則可以用于個(gè)性化推薦、廣告推薦等任務(wù)5.1.1大模型的概念在深度學(xué)習(xí)領(lǐng)域,大模型通常是具有數(shù)百萬到數(shù)十億甚至上萬億參數(shù)的神經(jīng)網(wǎng)絡(luò)模型比如,2020年,OpenAI公司推出了GPT-3,模型參數(shù)規(guī)模達(dá)到了1750億,2023年3月發(fā)布的GPT-4的參數(shù)規(guī)模是GPT-3的10倍以上,達(dá)到1.8萬億,2021年11月阿里推出的M6模型的參數(shù)量達(dá)10萬億這些模型需要大量的計(jì)算資源和存儲(chǔ)空間來訓(xùn)練和存儲(chǔ),并且往往需要進(jìn)行分布式計(jì)算和特殊的硬件加速技術(shù)。簡(jiǎn)單來講,大模型就是用大數(shù)據(jù)模型和算法進(jìn)行訓(xùn)練的模型,它能夠捕捉到大規(guī)模數(shù)據(jù)中的復(fù)雜模式和規(guī)律,從而預(yù)測(cè)出更加準(zhǔn)確的結(jié)果大模型的“大”的特點(diǎn)體現(xiàn)在:參數(shù)數(shù)量龐大訓(xùn)練數(shù)據(jù)量大計(jì)算資源需求高......很多先進(jìn)的模型由于擁有很“大”的特點(diǎn),使得模型參數(shù)越來越多,泛化性能越來越好,在各種專門的領(lǐng)域輸出結(jié)果也越來越準(zhǔn)確5.1.1大模型的概念大模型的設(shè)計(jì)和訓(xùn)練旨在提供更強(qiáng)大、更準(zhǔn)確的模型性能,以應(yīng)對(duì)更復(fù)雜、更龐大的數(shù)據(jù)集或任務(wù)。大模型通常能夠?qū)W習(xí)到更細(xì)微的模式和規(guī)律,具有更強(qiáng)的泛化能力和表達(dá)能力大模型具有更強(qiáng)的上下文理解能力,能夠理解更復(fù)雜的語意和語境。這使得它們能夠產(chǎn)生更準(zhǔn)確、更連貫的回答上下文理解能力大模型可以從大量的數(shù)據(jù)中學(xué)習(xí),并利用學(xué)到的知識(shí)和模式來提供更精準(zhǔn)的答案和預(yù)測(cè)。這使得它們?cè)诮鉀Q復(fù)雜問題和應(yīng)對(duì)新的場(chǎng)景時(shí)表現(xiàn)更加出色學(xué)習(xí)能力強(qiáng)大模型可以生成更自然、更流利的語言,減少了生成輸出時(shí)呈現(xiàn)的錯(cuò)誤或令人困惑的問題語言生成能力學(xué)習(xí)到的知識(shí)和能力可以在不同的任務(wù)和領(lǐng)域中遷移和應(yīng)用。這意味著一次訓(xùn)練就可以將模型應(yīng)用于多種任務(wù),無需重新訓(xùn)練可遷移性高5.1.1大模型的概念當(dāng)前在我國(guó),百度、阿里巴巴、騰訊和華為等公司均已開發(fā)出AI大模型,并且這些模型各自有所側(cè)重百度由于其在AI領(lǐng)域的多年布局,具有顯著的大模型先發(fā)優(yōu)勢(shì),其文心一言API調(diào)用服務(wù)已經(jīng)吸引了大量企業(yè)進(jìn)行測(cè)試。在行業(yè)大模型應(yīng)用方面,百度已經(jīng)與國(guó)網(wǎng)、浦發(fā)、人民網(wǎng)等組織合作,實(shí)現(xiàn)了多個(gè)案例應(yīng)用另一方面,阿里巴巴的通義大模型在邏輯運(yùn)算、編碼能力和語音處理方面表現(xiàn)突出,而阿里巴巴集團(tuán)豐富的生態(tài)和在線產(chǎn)品使得該模型在出行、辦公和購物等場(chǎng)景中得到了廣泛應(yīng)用5.1.1大模型的概念小模型通常指參數(shù)較少、層數(shù)較淺的模型,它們具有輕量級(jí)、高效率、易于部署等優(yōu)點(diǎn),適用于數(shù)據(jù)量較小、計(jì)算資源有限的場(chǎng)景,例如移動(dòng)端應(yīng)用、嵌入式設(shè)備、物聯(lián)網(wǎng)等5.1.2大模型與小模型的區(qū)別而當(dāng)模型的訓(xùn)練數(shù)據(jù)和參數(shù)不斷擴(kuò)大,直到達(dá)到一定的臨界規(guī)模后,其表現(xiàn)出了一些未能預(yù)測(cè)的、更復(fù)雜的能力和特性,模型能夠從原始訓(xùn)練數(shù)據(jù)中自動(dòng)學(xué)習(xí)并發(fā)現(xiàn)新的、更高層次的特征和模式,這種能力被稱為“涌現(xiàn)能力”。而具備涌現(xiàn)能力的機(jī)器學(xué)習(xí)模型就被認(rèn)為是獨(dú)立意義上的大模型,這也是其和小模型最大意義上的區(qū)別相比于小模型,大模型通常參數(shù)較多、層數(shù)較深,具有更強(qiáng)的表達(dá)能力和更高的準(zhǔn)確度,但也需要更多的計(jì)算資源和時(shí)間來訓(xùn)練和推理,適用于數(shù)據(jù)量較大、計(jì)算資源充足的場(chǎng)景,例如云端計(jì)算、高性能計(jì)算、人工智能等5.1.2大模型與小模型的區(qū)別大模型發(fā)展歷經(jīng)三個(gè)階段,分別是萌芽期、沉淀期和爆發(fā)期5.1.3大模型的發(fā)展歷程萌芽期(1950-2005)這是一個(gè)以CNN(ConvolutionalNeuralNetworks,卷積神經(jīng)網(wǎng)絡(luò))為代表的傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型階段1956年,從計(jì)算機(jī)專家約翰·麥卡錫提出“人工智能”概念開始,AI發(fā)展由最開始基于小規(guī)模專家知識(shí)逐步發(fā)展為基于機(jī)器學(xué)習(xí)1980年,卷積神經(jīng)網(wǎng)絡(luò)的雛形CNN誕生1998年,現(xiàn)代卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)LeNet-5誕生,機(jī)器學(xué)習(xí)方法由早期基于淺層機(jī)器學(xué)習(xí)的模型,變?yōu)榱嘶谏疃葘W(xué)習(xí)的模型,為自然語言生成、計(jì)算機(jī)視覺等領(lǐng)域的深入研究奠定了基礎(chǔ),對(duì)后續(xù)深度學(xué)習(xí)框架的迭代及大模型發(fā)展具有開創(chuàng)性的意義5.1.3大模型的發(fā)展歷程沉淀期(2006-2019)這是一個(gè)以Transformer為代表的全新神經(jīng)網(wǎng)絡(luò)模型階段2013年,自然語言處理模型Word2Vec誕生,首次提出將單詞轉(zhuǎn)換為向量的“詞向量模型”,以便計(jì)算機(jī)更好地理解和處理文本數(shù)據(jù)。2014年,被譽(yù)為21世紀(jì)最強(qiáng)大算法模型之一的GAN(GenerativeAdversarialNetworks,對(duì)抗式生成網(wǎng)絡(luò))誕生,標(biāo)志著深度學(xué)習(xí)進(jìn)入了生成模型研究的新階段2017年,Google顛覆性地提出了基于自注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)——Transformer架構(gòu),奠定了大模型預(yù)訓(xùn)練算法架構(gòu)的基礎(chǔ)2018年,OpenAI基于Transformer架構(gòu)發(fā)布了GPT-1大模型,意味著預(yù)訓(xùn)練大模型成為自然語言處理領(lǐng)域的主流,其中,GPT的英文全稱是GenerativePre-TrainedTransformer,是一種基于互聯(lián)網(wǎng)的、可用數(shù)據(jù)來訓(xùn)練的、文本生成的深度學(xué)習(xí)模型2019年,OpenAI發(fā)布了GPT-25.1.3大模型的發(fā)展歷程爆發(fā)期(2020-至今)這是一個(gè)以GPT為代表的預(yù)訓(xùn)練大模型階段2020年6月,OpenAI公司推出了GPT-3,模型參數(shù)規(guī)模達(dá)到了1750億,成為當(dāng)時(shí)最大的語言模型,并且在零樣本學(xué)習(xí)任務(wù)上實(shí)現(xiàn)了巨大性能提升。隨后,更多策略如基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF,ReinforcementLearningfromHumanFeedback)、代碼預(yù)訓(xùn)練、指令微調(diào)等開始出現(xiàn),被用于進(jìn)一步提高推理能力和任務(wù)泛化2022年11月,搭載了GPT3.5的ChatGPT(ChatGenerativePre-trainedTransformer)橫空出世,憑借逼真的自然語言交互與多場(chǎng)景內(nèi)容生成能力,迅速引爆互聯(lián)網(wǎng),在全球范圍內(nèi)引起轟動(dòng),使得大模型的概念迅速進(jìn)入普通大眾的視野。ChatGPT是人工智能技術(shù)驅(qū)動(dòng)的自然語言處理工具,它能夠通過理解和學(xué)習(xí)人類的語言來進(jìn)行對(duì)話,還能根據(jù)聊天的上下文進(jìn)行互動(dòng),真正像人類一樣來聊天交流,甚至能完成撰寫郵件、視頻腳本、文案、翻譯、代碼,寫論文等任務(wù)5.1.3大模型的發(fā)展歷程爆發(fā)期(2020-至今)OpenAI在2023年3月發(fā)布了GPT-4,它是一個(gè)多模態(tài)大模型(接受圖像和文本輸入,生成文本)。相比上一代的GPT-3,GPT-4可以更準(zhǔn)確地解決難題,具有更廣泛的常識(shí)和解決問題的能力。2023年12月,谷歌發(fā)布大模型Gemini,它可以同時(shí)識(shí)別文本、圖像、音頻、視頻和代碼五種類型信息,還可以理解并生成主流編程語言(如Python、Java、C++)的高質(zhì)量代碼,并擁有全面的安全性評(píng)估5.1.3大模型的發(fā)展歷程人工智能包含了機(jī)器學(xué)習(xí),機(jī)器學(xué)習(xí)包含了深度學(xué)習(xí),深度學(xué)習(xí)可以采用不同的模型,其中一種模型是預(yù)訓(xùn)練模型,預(yù)訓(xùn)練模型包含了預(yù)訓(xùn)練大模型(可以簡(jiǎn)稱為“大模型”),預(yù)訓(xùn)練大模型包含了預(yù)訓(xùn)練大語言模型(可以簡(jiǎn)稱為“大語言模型”),預(yù)訓(xùn)練大語言模型的典型代表包括OpenAI的GPT和百度的文心ERNIE,ChatGPT是基于GPT開發(fā)的大模型產(chǎn)品,文心一言是基于文心ERNIE開發(fā)的大模型產(chǎn)品6.1.4人工智能與大模型的關(guān)系人工智能和大模型是相互關(guān)聯(lián)的。人工智能是研究和開發(fā)使機(jī)器能夠模仿人類智能行為的技術(shù)和方法的學(xué)科,包括機(jī)器學(xué)習(xí)、自然語言處理、計(jì)算機(jī)視覺等。而大模型則是指訓(xùn)練過程中使用了大量數(shù)據(jù)和參數(shù)的模型,這些模型包含了大量的知識(shí)和規(guī)則,能夠更好地模擬人類智能行為為了提高人工智能系統(tǒng)的性能,研究者們不斷嘗試使用更大的模型來提高準(zhǔn)確率和效果。例如,近年來非常熱門的Transformer模型,就是一種大模型,它在自然語言處理領(lǐng)域取得了很多突破性進(jìn)展。大模型的使用能夠幫助人工智能系統(tǒng)更好地理解語義、提高處理能力和決策準(zhǔn)確性人工智能的發(fā)展也推動(dòng)了大模型的發(fā)展大模型的出現(xiàn),使得人工智能技術(shù)得到了更廣泛的應(yīng)用。在許多領(lǐng)域,如自然語言處理、圖像識(shí)別、語音識(shí)別等,大模型都能夠提供更準(zhǔn)確、更高效的處理能力。例如,在自然語言處理領(lǐng)域,大模型可以通過學(xué)習(xí)大量的文本數(shù)據(jù),自動(dòng)提取出文本中的語義信息,從而實(shí)現(xiàn)對(duì)文本的自動(dòng)分類、情感分析、問答等任務(wù)。隨著數(shù)據(jù)量的不斷增加和計(jì)算能力的不斷提升,大模型能夠處理的數(shù)據(jù)量和處理速度也在不斷提升。這使得人工智能技術(shù)能夠更好地應(yīng)對(duì)各種復(fù)雜的問題和挑戰(zhàn),進(jìn)一步推動(dòng)了人工智能技術(shù)的發(fā)展大模型是人工智能技術(shù)發(fā)展的重要推動(dòng)力5.1.4人工智能與大模型的關(guān)系大模型在人工智能領(lǐng)域的重要性大模型的展示可以讓更多的人了解人工智能技術(shù)的潛力和影響力,從而增加公眾對(duì)人工智能技術(shù)的信任和支持。這也可以為人工智能行業(yè)爭(zhēng)取更多的政策支持和資源投入增加公眾對(duì)人工智能技術(shù)的信任和支持大模型作為人工智能技術(shù)的重要組成部分,展示了人工智能技術(shù)的最新進(jìn)展和趨勢(shì)。這些新技術(shù)和模型的應(yīng)用場(chǎng)景可能會(huì)更加廣泛,效果也可能會(huì)更好,從而推動(dòng)人工智能技術(shù)的進(jìn)步推動(dòng)人工智能技術(shù)的進(jìn)步大模型能夠使用大量的數(shù)據(jù)和強(qiáng)大的計(jì)算資源,學(xué)習(xí)到數(shù)據(jù)中的復(fù)雜特征和規(guī)律,從而在各種任務(wù)中表現(xiàn)出色。這使得人工智能技術(shù)在各個(gè)領(lǐng)域的應(yīng)用效果得到了顯著的提升提升人工智能的應(yīng)用效果大模型的展示能夠吸引更多的投資者和用戶關(guān)注人工智能行業(yè),從而加速行業(yè)的發(fā)展。同時(shí),大模型也可以促進(jìn)人工智能領(lǐng)域的交流和合作,從而推動(dòng)整個(gè)行業(yè)的發(fā)展促進(jìn)人工智能行業(yè)的發(fā)展5.1.5大模型在人工智能領(lǐng)域的重要性02大模型產(chǎn)品ParttwoChatGPTChatGPT是一種由OpenAI訓(xùn)練的大語言模型。它是基于Transformer架構(gòu),經(jīng)過大量文本數(shù)據(jù)訓(xùn)練而成,能夠生成自然、流暢的語言,并具備回答問題、生成文本、語言翻譯等多種功能ChatGPT的應(yīng)用范圍廣泛,可以用于客服、問答系統(tǒng)、對(duì)話生成、文本生成等領(lǐng)域。它能夠理解人類語言,并能夠回答各種問題,提供相關(guān)的知識(shí)和信息。與其他聊天機(jī)器人相比,ChatGPT具備更強(qiáng)的語言理解和生成能力,能夠更自然地與人類交流,并且能夠更好地適應(yīng)不同的領(lǐng)域和場(chǎng)景。ChatGPT的訓(xùn)練數(shù)據(jù)來自互聯(lián)網(wǎng)上的大量文本,因此,它能夠涵蓋多種語言風(fēng)格和文化背景5.2.1國(guó)外的大模型產(chǎn)品GeminiGemini是谷歌發(fā)布的大模型,它能夠同時(shí)處理多種類型的數(shù)據(jù)和任務(wù),覆蓋文本、圖像、音頻、視頻等多個(gè)領(lǐng)域。Gemini采用了全新的架構(gòu),將多模態(tài)編碼器和多模態(tài)解碼器兩個(gè)主要組件結(jié)合在一起,以提供最佳結(jié)果Gemini包括三種不同規(guī)模的模型:GeminiUltra、GeminiPro和GeminiNano,適用于不同任務(wù)和設(shè)備。2023年12月6日,Gemini的初始版本已在Bard中提供,開發(fā)人員版本可通過GoogleCloud的API獲得。Gemini可以應(yīng)用于Bard和Pixel8Pro智能手機(jī)。Gemini的應(yīng)用范圍廣泛,包括問題回答、摘要生成、翻譯、字幕生成、情感分析等任務(wù)。然而,由于其復(fù)雜性和黑箱性質(zhì),Gemini的可解釋性仍然是一個(gè)挑戰(zhàn)5.2.1國(guó)外的大模型產(chǎn)品Sora2024年2月16日,OpenAI再次震撼全球科技界,發(fā)布了名為Sora的文本生成視頻大模型,只需輸入文本就能自動(dòng)生成視頻。這一技術(shù)的誕生,不僅標(biāo)志著人工智能在視頻生成領(lǐng)域的重大突破,更引發(fā)了關(guān)于人工智能發(fā)展對(duì)人類未來影響的深刻思考。隨著Sora的發(fā)布,人工智能似乎正式踏入了通用人工智能(AGI:ArtificialGeneralIntelligence)的時(shí)代。AGI是指能夠像人類一樣進(jìn)行各種智能活動(dòng)的機(jī)器智能,包括理解語言、識(shí)別圖像、進(jìn)行復(fù)雜推理等。Sora大模型能夠直接輸出長(zhǎng)達(dá)60秒的視頻,并且視頻中包含了高度細(xì)致的背景、復(fù)雜的多角度鏡頭,以及富有情感的多個(gè)角色。這種能力已經(jīng)超越了簡(jiǎn)單的圖像或文本生成,開始觸及到視頻這一更加復(fù)雜和動(dòng)態(tài)的媒介。這意味著人工智能不僅在處理靜態(tài)信息上越來越強(qiáng)大,而且在動(dòng)態(tài)內(nèi)容的創(chuàng)造上也展現(xiàn)出了驚人的潛力5.2.1國(guó)外的大模型產(chǎn)品Sora右圖是Sora根據(jù)文本自動(dòng)生成的視頻畫面,一位戴著墨鏡、穿著皮衣的時(shí)尚女子走在雨后夜晚的東京市區(qū)街道上,抹了鮮艷唇彩的唇角微微翹起,即便帶著墨鏡也能看到她的微笑,地面的積水映出了她的身影和燈紅酒綠的霓虹燈,熱鬧非凡的唐人街正在進(jìn)行舞龍表演,熙熙攘攘的人群目光都聚焦在躍動(dòng)的彩龍身上,整個(gè)環(huán)境的喜慶氛圍仿佛令人身臨其境5.2.1國(guó)外的大模型產(chǎn)品文心一言文心一言是由百度研發(fā)的知識(shí)增強(qiáng)大模型,能夠與人對(duì)話互動(dòng)、回答問題、協(xié)助創(chuàng)作,高效便捷地幫助人們獲取信息、知識(shí)和靈感文心一言基于飛槳深度學(xué)習(xí)平臺(tái)和文心知識(shí)增強(qiáng)大模型,持續(xù)從海量數(shù)據(jù)和大規(guī)模知識(shí)中融合學(xué)習(xí),具備知識(shí)增強(qiáng)、檢索增強(qiáng)和對(duì)話增強(qiáng)的技術(shù)特色文心一言具有廣泛的應(yīng)用場(chǎng)景,例如智能客服、智能家居、移動(dòng)應(yīng)用等領(lǐng)域。它可以與用戶進(jìn)行自然語言交互,幫助用戶解決各種問題,提供相關(guān)的知識(shí)和信息文心一言還可以與各種設(shè)備和應(yīng)用進(jìn)行集成,例如智能音箱、手機(jī)APP等,為用戶提供更加便捷的服務(wù)。文心一言在深度學(xué)習(xí)領(lǐng)域有著重要的地位,它代表了人工智能技術(shù)的前沿水平,是百度在人工智能領(lǐng)域持續(xù)投入和創(chuàng)新的成果。文心一言的推出,不僅將為用戶提供更加智能化和高效的服務(wù),也將為人工智能行業(yè)的發(fā)展注入新的動(dòng)力5.2.2國(guó)內(nèi)的大模型產(chǎn)品通義千問通義千問是阿里云推出的一個(gè)超大規(guī)模的語言模型,它具備多輪對(duì)話、文案創(chuàng)作、邏輯推理、多模態(tài)理解、多語言支持的能力。通義千問這個(gè)名字有“通義”和“千問”兩層含義,“通義”表示這個(gè)模型能夠理解各種語言的含義,“千問”則表示這個(gè)模型能夠回答各種問題。通義千問基于深度學(xué)習(xí)技術(shù),通過對(duì)大量文本數(shù)據(jù)進(jìn)行訓(xùn)練,從而具備了強(qiáng)大的語言理解和生成能力。它能夠理解自然語言,并能夠生成自然語言文本同時(shí),通義千問還具備多模態(tài)理解能力,能夠處理圖像、音頻等多種類型的數(shù)據(jù)。通義千問的應(yīng)用范圍非常廣泛,可以應(yīng)用于智能客服、智能家居、移動(dòng)應(yīng)用等多個(gè)領(lǐng)域。它可以與用戶進(jìn)行自然語言交互,幫助用戶解決各種問題,提供相關(guān)的知識(shí)和信息。同時(shí),通義千問還可以與各種設(shè)備和應(yīng)用進(jìn)行集成,為用戶提供更加便捷的服務(wù)5.2.2國(guó)內(nèi)的大模型產(chǎn)品訊飛星火認(rèn)知大模型訊飛星火認(rèn)知大模型是科大訊飛發(fā)布的一款強(qiáng)大的人工智能模型。它具有多種核心能力,包括文本生成、語言理解、知識(shí)問答、邏輯推理、數(shù)學(xué)能力、代碼能力以及多模態(tài)能力。這些能力使得訊飛星火認(rèn)知大模型能夠處理各種復(fù)雜的語言任務(wù),并為用戶提供準(zhǔn)確、高效的服務(wù)訊飛星火認(rèn)知大模型采用了先進(jìn)的技術(shù)和算法,能夠快速地處理大量的數(shù)據(jù),并從中提取有用的信息。這使得它能夠更好地理解和處理復(fù)雜的語言信息,提高人機(jī)交互的效率和準(zhǔn)確性數(shù)據(jù)收集和處理訊飛星火認(rèn)知大模型已經(jīng)被廣泛應(yīng)用于多個(gè)領(lǐng)域,如自然語言處理、計(jì)算機(jī)視覺、智能客服等。通過與各領(lǐng)域的專業(yè)知識(shí)和經(jīng)驗(yàn)相結(jié)合,訊飛星火認(rèn)知大模型能夠提供更加精準(zhǔn)和個(gè)性化的服務(wù),提高各行各業(yè)的工作效率和質(zhì)量應(yīng)用5.2.2國(guó)內(nèi)的大模型產(chǎn)品訊飛星火認(rèn)知大模型訊飛星火認(rèn)知大模型還注重可解釋性和公平性。通過改進(jìn)算法和技術(shù),它能夠提供更加清晰和準(zhǔn)確的決策依據(jù),減少偏見和不公平現(xiàn)象。同時(shí),它還具備強(qiáng)大的自適應(yīng)學(xué)習(xí)能力,能夠不斷適應(yīng)新的任務(wù)和環(huán)境,提高自身的性能和表現(xiàn)5.2.2國(guó)內(nèi)的大模型產(chǎn)品騰訊混元大模型騰訊混元大模型是由騰訊全鏈路自研的通用大語言模型,具備強(qiáng)大的中文創(chuàng)作能力、復(fù)雜語境下的邏輯推理能力以及可靠的任務(wù)執(zhí)行能力具備上下文理解和長(zhǎng)文記憶能力,流暢完成各專業(yè)領(lǐng)域的多輪問答01支持文學(xué)創(chuàng)作、文本概要和角色扮演02準(zhǔn)確理解用戶意圖,基于輸入數(shù)據(jù)或信息進(jìn)行推理、分析03有效解決事實(shí)性、時(shí)效性問題,提升內(nèi)容生成效果04多輪對(duì)話內(nèi)容創(chuàng)作邏輯推理知識(shí)增強(qiáng)5.2.2國(guó)內(nèi)的大模型產(chǎn)品華為盤古大模型華為盤古大模型是華為云推出的一個(gè)大語言模型,旨在提供更加智能化、高效化的語言交互體驗(yàn)。它基于深度學(xué)習(xí)技術(shù),通過對(duì)大量文本數(shù)據(jù)進(jìn)行訓(xùn)練,從而具備了強(qiáng)大的語言理解和生成能力。華為盤古大模型采用了先進(jìn)的架構(gòu)和技術(shù),包括Transformer、BERT等模型架構(gòu)以及注意力機(jī)制、自注意力機(jī)制等先進(jìn)的神經(jīng)網(wǎng)絡(luò)技術(shù)它還采用了多模態(tài)學(xué)習(xí)技術(shù),能夠處理文本、圖像、音頻等多種類型的數(shù)據(jù)。這使得它能夠更好地理解和處理復(fù)雜的語言信息,提高人機(jī)交互的效率和準(zhǔn)確性華為盤古大模型的應(yīng)用范圍非常廣泛,可以應(yīng)用于智能客服、智能家居、移動(dòng)應(yīng)用等多個(gè)領(lǐng)域。它可以與用戶進(jìn)行自然語言交互,幫助用戶解決各種問題,提供相關(guān)的知識(shí)和信息。同時(shí),它還可以與各種設(shè)備和應(yīng)用進(jìn)行集成,為用戶提供更加便捷的服務(wù)5.2.2國(guó)內(nèi)的大模型產(chǎn)品03大模型的基本原理Partthree大模型是基于Transformer架構(gòu)的,這種架構(gòu)是一種專門用于自然語言處理的“編碼-解碼器”架構(gòu)。在訓(xùn)練過程中,大模型將輸入的單詞以向量的形式傳遞給神經(jīng)網(wǎng)絡(luò),然后通過網(wǎng)絡(luò)的編碼解碼以及自注意力機(jī)制,建立起每個(gè)單詞之間聯(lián)系的權(quán)重。大模型的核心能力在于將輸入的每句話中的每個(gè)單詞與已經(jīng)編碼在模型中的單詞進(jìn)行相關(guān)性的計(jì)算,并把相關(guān)性又編碼疊加在每個(gè)單詞中。這樣,大模型能夠更好地理解和生成自然文本,同時(shí)還能夠表現(xiàn)出一定的邏輯思維和推理能力大模型基于深度學(xué)習(xí)利用大量的數(shù)據(jù)和計(jì)算資源訓(xùn)練具有大量參數(shù)的神經(jīng)網(wǎng)絡(luò)模型不斷地調(diào)整模型參數(shù)模型能夠在各種任務(wù)中取得最佳表現(xiàn)5.3大模型的基本原理大模型的學(xué)習(xí)主要依賴于大量的文本數(shù)據(jù)。這些數(shù)據(jù)可以來自互聯(lián)網(wǎng)、書籍、文章等各種來源。通過對(duì)這些數(shù)據(jù)進(jìn)行訓(xùn)練,大模型能夠?qū)W習(xí)到自然語言的統(tǒng)計(jì)規(guī)律和模式數(shù)據(jù)驅(qū)動(dòng)大模型通常使用深度學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò),尤其是Transformer結(jié)構(gòu)。這種結(jié)構(gòu)特別適合于處理序列數(shù)據(jù)(比如文本)。神經(jīng)網(wǎng)絡(luò)由多層的神經(jīng)元組成,每一層都會(huì)對(duì)數(shù)據(jù)進(jìn)行一定的轉(zhuǎn)換和處理神經(jīng)網(wǎng)絡(luò)在Transformer架構(gòu)中,編碼器和解碼器是兩個(gè)核心組件。編碼器負(fù)責(zé)將輸入的文本轉(zhuǎn)換為一種內(nèi)部表示,而解碼器則負(fù)責(zé)將這種內(nèi)部表示轉(zhuǎn)換回文本編碼-解碼過程這是Transformer的一個(gè)關(guān)鍵特性,允許模型在處理文本時(shí)考慮到每個(gè)單詞與其他單詞的關(guān)系。通過計(jì)算每個(gè)單詞與其他所有單詞的關(guān)聯(lián)度,模型能夠捕捉到文本中的復(fù)雜依賴關(guān)系自注意力機(jī)制大模型的訓(xùn)練通常使用梯度下降等優(yōu)化算法。在訓(xùn)練過程中,模型會(huì)不斷地調(diào)整其內(nèi)部的參數(shù),以最小化預(yù)測(cè)結(jié)果與實(shí)際結(jié)果之間的差異訓(xùn)練和優(yōu)化一旦訓(xùn)練完成,大模型就能夠?qū)π碌?、未見過的文本進(jìn)行理解和生成。這種能力使得大模型在各種自然語言處理任務(wù)中表現(xiàn)出色,如機(jī)器翻譯、文本摘要、問答系統(tǒng)等泛化能力5.3大模型的基本原理04大模型的特點(diǎn)Partfour(1)巨大的規(guī)模大模型通常包含數(shù)十億個(gè)參數(shù),模型大小可以達(dá)到數(shù)百GB甚至更大。這種巨大的規(guī)模不僅提供了強(qiáng)大的表達(dá)能力和學(xué)習(xí)能力,還使得大模型在處理復(fù)雜任務(wù)時(shí)具有更高的效率和準(zhǔn)確性5.4大模型的特點(diǎn)(2)涌現(xiàn)能力涌現(xiàn)能力是指模型在訓(xùn)練過程中突然展現(xiàn)出之前小模型所沒有的、更深層次的復(fù)雜特性和能力。當(dāng)模型的訓(xùn)練數(shù)據(jù)突破一定規(guī)模時(shí),模型能夠綜合分析和解決更深層次的問題,展現(xiàn)出類似人類的思維和智能。這種涌現(xiàn)能力是大模型最顯著的特點(diǎn)之一,也是其超越傳統(tǒng)模型的關(guān)鍵所在大模型的涌現(xiàn)能力源于其巨大的規(guī)模和復(fù)雜的結(jié)構(gòu)。這些模型包含數(shù)億甚至數(shù)十億個(gè)參數(shù),能夠捕捉到數(shù)據(jù)中的復(fù)雜模式和關(guān)系。在訓(xùn)練過程中,大模型通過不斷優(yōu)化參數(shù),逐漸形成了一種高度協(xié)調(diào)和自適應(yīng)的結(jié)構(gòu),從而產(chǎn)生了意想不到的特性和能力。這種涌現(xiàn)能力使得大模型在處理復(fù)雜任務(wù)時(shí)具有更高的效率和準(zhǔn)確性。它們能夠更好地理解和模擬現(xiàn)實(shí)世界中的各種復(fù)雜現(xiàn)象,并從中提取出更深層次的知識(shí)和規(guī)律。這種能力使得大模型在自然語言處理、圖像識(shí)別、語音識(shí)別等領(lǐng)域中展現(xiàn)出了卓越的性能5.4大模型的特點(diǎn)(3)更好的性能和泛化能力大模型因其巨大的規(guī)模和復(fù)雜的結(jié)構(gòu),展現(xiàn)出更出色的性能和泛化能力。它們?cè)诟鞣N任務(wù)上都能表現(xiàn)出色,超越了傳統(tǒng)的小模型。這主要?dú)w功于大模型的參數(shù)規(guī)模和學(xué)習(xí)能力。大模型能夠更好地理解和模擬現(xiàn)實(shí)世界中的復(fù)雜現(xiàn)象,從而在各種任務(wù)中表現(xiàn)出更高的準(zhǔn)確性和效率。它們能夠捕捉到數(shù)據(jù)中的微妙差異和復(fù)雜模式,使得在未見過的數(shù)據(jù)上也能表現(xiàn)優(yōu)秀,即具有良好的泛化能力(4)多任務(wù)學(xué)習(xí)大模型的多任務(wù)學(xué)習(xí)特點(diǎn)使其能夠同時(shí)處理多種不同的任務(wù),并從中學(xué)習(xí)到更廣泛和泛化的語言理解能力。通過多任務(wù)學(xué)習(xí),大模型可以在不同的NLP(NaturalLanguageProcessing)任務(wù)中進(jìn)行訓(xùn)練,例如機(jī)器翻譯、文本摘要、問答系統(tǒng)等。這種多任務(wù)學(xué)習(xí)的方式有助于大模型更好地理解和應(yīng)用語言的規(guī)則和模式在多任務(wù)學(xué)習(xí)中,大模型可以共享參數(shù)和知識(shí),使其在不同的任務(wù)之間建立聯(lián)系,提高模型的泛化能力。通過多任務(wù)學(xué)習(xí),大模型能夠從多個(gè)領(lǐng)域的數(shù)據(jù)中學(xué)習(xí)知識(shí),并在不同領(lǐng)域中進(jìn)行應(yīng)用。這有助于促進(jìn)跨領(lǐng)域的創(chuàng)新,使得大模型在自然語言處理、圖像識(shí)別、語音識(shí)別等領(lǐng)域中展現(xiàn)出卓越的性能5.4大模型的特點(diǎn)(5)大數(shù)據(jù)訓(xùn)練大模型需要大規(guī)模的數(shù)據(jù)來訓(xùn)練,通常在TB級(jí)別甚至PB級(jí)別。這是因?yàn)榇竽P蛽碛袛?shù)億甚至數(shù)十億的參數(shù),需要大量的數(shù)據(jù)來提供足夠的信息供模型學(xué)習(xí)和優(yōu)化。只有大規(guī)模的數(shù)據(jù)才能讓大模型的參數(shù)規(guī)模發(fā)揮優(yōu)勢(shì),提高模型的泛化能力和性能。同時(shí),大數(shù)據(jù)訓(xùn)練也是保證大模型能夠處理復(fù)雜任務(wù)的關(guān)鍵。通過使用大規(guī)模數(shù)據(jù),大模型能夠更好地理解數(shù)據(jù)中的復(fù)雜模式和關(guān)系,從而更好地模擬現(xiàn)實(shí)世界中的各種現(xiàn)象(6)強(qiáng)大的計(jì)算資源大模型需要強(qiáng)大的計(jì)算資源來訓(xùn)練和運(yùn)行。由于模型規(guī)模龐大,參數(shù)數(shù)量眾多,計(jì)算復(fù)雜度極高,因此需要高性能的硬件設(shè)備來支持。通常,訓(xùn)練大模型需要使用GPU(GraphicsProcessingUnit,圖形處理器)或TPU(TensorProcessingUnit,張量處理器)等專用加速器來提高計(jì)算效率。這些加速器能夠并行處理大量的參數(shù)和數(shù)據(jù),使得大模型的訓(xùn)練和推斷速度更快。除了硬件設(shè)備,大模型的訓(xùn)練還需要大量的時(shí)間。由于模型參數(shù)眾多,訓(xùn)練過程中需要進(jìn)行大量的迭代和優(yōu)化,因此,訓(xùn)練周期可能長(zhǎng)達(dá)數(shù)周甚至數(shù)月5.4大模型的特點(diǎn)(7)遷移學(xué)習(xí)和預(yù)訓(xùn)練通過在大規(guī)模數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,大模型能夠?qū)W習(xí)到豐富的語言知識(shí)和模式,從而在各種任務(wù)上展現(xiàn)出卓越的性能。遷移學(xué)習(xí)和預(yù)訓(xùn)練有助于大模型更好地適應(yīng)特定任務(wù)在大規(guī)模數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練后,大模型可以在特定任務(wù)的數(shù)據(jù)上進(jìn)行微調(diào),從而更好地適應(yīng)目標(biāo)任務(wù)的特性和要求。這種微調(diào)過程可以幫助大模型更好地理解和處理目標(biāo)任務(wù)的特定問題,進(jìn)一步提高模型的性能在特定任務(wù)的數(shù)據(jù)上進(jìn)行微調(diào)遷移學(xué)習(xí)和預(yù)訓(xùn)練也有助于大模型實(shí)現(xiàn)跨領(lǐng)域的應(yīng)用。通過在多個(gè)領(lǐng)域的數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,大模型可以學(xué)習(xí)到不同領(lǐng)域的知識(shí)和模式,并在不同領(lǐng)域中進(jìn)行應(yīng)用。這種跨領(lǐng)域的應(yīng)用能力,有助于大模型更好地服務(wù)于實(shí)際需求,推動(dòng)人工智能技術(shù)的創(chuàng)新和發(fā)展跨領(lǐng)域的應(yīng)用能力5.4大模型的特點(diǎn)(8)自監(jiān)督學(xué)習(xí)自監(jiān)督學(xué)習(xí)利用大規(guī)模未標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練,通過從數(shù)據(jù)中挖掘內(nèi)在的規(guī)律和模式,使模型能夠自動(dòng)地理解和預(yù)測(cè)數(shù)據(jù)中的信息。在大規(guī)模的未標(biāo)記數(shù)據(jù)中,大模型通過預(yù)測(cè)輸入數(shù)據(jù)的標(biāo)簽或下一個(gè)時(shí)刻的狀態(tài)來進(jìn)行訓(xùn)練。這種訓(xùn)練方式使得大模型能夠從大量的數(shù)據(jù)中自動(dòng)地學(xué)習(xí)到語言的內(nèi)在結(jié)構(gòu)和模式,而不需要人工標(biāo)注和干預(yù)自監(jiān)督學(xué)習(xí)使得大模型能夠更好地適應(yīng)大規(guī)模未標(biāo)記數(shù)據(jù)的處理,減少了對(duì)于人工標(biāo)注的依賴,提高了訓(xùn)練的效率和泛化能力。同時(shí),自監(jiān)督學(xué)習(xí)也使得大模型能夠更好地捕捉數(shù)據(jù)的內(nèi)在結(jié)構(gòu)和模式,進(jìn)一步提高模型在處理復(fù)雜任務(wù)時(shí)的性能和準(zhǔn)確性5.4大模型的特點(diǎn)(9)領(lǐng)域知識(shí)融合大模型通過領(lǐng)域知識(shí)融合,能夠?qū)⒉煌I(lǐng)域的數(shù)據(jù)和知識(shí)融合在一起,從而更好地模擬現(xiàn)實(shí)世界中的復(fù)雜現(xiàn)象領(lǐng)域知識(shí)融合使得大模型能夠從多個(gè)領(lǐng)域中學(xué)習(xí)到廣泛的知識(shí)和模式,并將這些知識(shí)和模式整合到統(tǒng)一的框架中通過領(lǐng)域知識(shí)融合,大模型能夠更好地理解不同領(lǐng)域之間的聯(lián)系和共同規(guī)律,從而更好地處理復(fù)雜任務(wù)。這種能力有助于大模型在不同領(lǐng)域之間進(jìn)行知識(shí)遷移和應(yīng)用,促進(jìn)跨領(lǐng)域的創(chuàng)新和發(fā)展5.4大模型的特點(diǎn)(10)自動(dòng)化和效率大模型在應(yīng)用中展現(xiàn)出高度的自動(dòng)化和效率。由于大模型具有強(qiáng)大的表達(dá)能力和學(xué)習(xí)能力,它可以自動(dòng)化許多復(fù)雜的任務(wù),大大提高工作效率。大模型通過預(yù)訓(xùn)練和微調(diào)過程,能夠自動(dòng)地適應(yīng)特定任務(wù),而不需要過多的手工調(diào)整和干預(yù)。這使得大模型能夠快速地應(yīng)用于各種實(shí)際場(chǎng)景,并且自動(dòng)地處理復(fù)雜的任務(wù),如自動(dòng)編程、自動(dòng)翻譯、自動(dòng)摘要等大模型的自動(dòng)化和效率還體現(xiàn)在其對(duì)大規(guī)模數(shù)據(jù)的處理能力上。大模型能夠高效地處理TB級(jí)別甚至PB級(jí)別的數(shù)據(jù),從中自動(dòng)地提取出有用的信息和知識(shí)。這種高效的數(shù)據(jù)處理能力使得大模型在處理大規(guī)模數(shù)據(jù)時(shí)具有顯著的優(yōu)勢(shì),提高了數(shù)據(jù)處理和分析的效率5.4大模型的特點(diǎn)05大模型的分類Partfive語言大模型視覺大模型多模態(tài)大模型是指在自然語言處理(NaturalLanguageProcessing,NLP)領(lǐng)域中的一類大模型,通常用于處理文本數(shù)據(jù)和理解自然語言。這類大模型的主要特點(diǎn)是它們?cè)诖笠?guī)模語料庫上進(jìn)行了訓(xùn)練,以學(xué)習(xí)自然語言的各種語法、語義和語境規(guī)則。代表性產(chǎn)品包括GPT系列(OpenAI)、Bard(Google)、文心一言(百度)等是指在計(jì)算機(jī)視覺(ComputerVision,CV)領(lǐng)域中使用的大模型,通常用于圖像處理和分析。這類模型通過在大規(guī)模圖像數(shù)據(jù)上進(jìn)行訓(xùn)練,可以實(shí)現(xiàn)各種視覺任務(wù),如圖像分類、目標(biāo)檢測(cè)、圖像分割、姿態(tài)估計(jì)、人臉識(shí)別等。代表性產(chǎn)品包括VIT系列(Google)、文心UFO、華為盤古CV、INTERN(商湯)等是指能夠處理多種不同類型數(shù)據(jù)的大模型,例如文本、圖像、音頻等多模態(tài)數(shù)據(jù)。這類模型結(jié)合了NLP和CV的能力,以實(shí)現(xiàn)對(duì)多模態(tài)信息的綜合理解和分析,從而能夠更全面地理解和處理復(fù)雜的數(shù)據(jù)。代表性產(chǎn)品包括DingoDB多模向量數(shù)據(jù)庫(九章云極DataCanvas)、DALL-E(OpenAI)、悟空畫畫(華為)、midjourney等5.5大模型的分類按照應(yīng)用領(lǐng)域的不同,大模型主要可以分為L(zhǎng)0、L1、L2三個(gè)層級(jí)是指可以在多個(gè)領(lǐng)域和任務(wù)上通用的大模型。它們利用大算力、使用海量的開放數(shù)據(jù)與具有巨量參數(shù)的深度學(xué)習(xí)算法,在大規(guī)模無標(biāo)注數(shù)據(jù)上進(jìn)行訓(xùn)練,以尋找特征并發(fā)現(xiàn)規(guī)律,進(jìn)而形成可“舉一反三”的強(qiáng)大泛化能力,可在不進(jìn)行微調(diào)或少量微調(diào)的情況下完成多場(chǎng)景任務(wù),相當(dāng)于AI完成了“通識(shí)教育”通用大模型L0是指那些針對(duì)特定行業(yè)或領(lǐng)域的大模型。它們通常使用行業(yè)相關(guān)的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練或微調(diào),以提高在該領(lǐng)域的性能和準(zhǔn)確度,相當(dāng)于AI成為“行業(yè)專家”行業(yè)大模型L1是指那些針對(duì)特定任務(wù)或場(chǎng)景的大模型。它們通常使用任務(wù)相關(guān)的數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練或微調(diào),以提高在該任務(wù)上的性能和效果垂直大模型L25.5大模型的分類06大模型的成本Partsix大模型的成本涉及到多個(gè)方面,包括硬件設(shè)備、軟件許可、數(shù)據(jù)收集和處理、人力資源以及運(yùn)營(yíng)和維護(hù)等(1)硬件設(shè)備成本大模型的訓(xùn)練和推理需要大量的計(jì)算資源,包括高性能的計(jì)算機(jī)、服務(wù)器、存儲(chǔ)設(shè)備等。這些硬件設(shè)備的購置和維護(hù)成本通常較高。為了滿足大模型的計(jì)算需求,需要購買或租賃大量的服務(wù)器和存儲(chǔ)設(shè)備,并進(jìn)行相應(yīng)的硬件升級(jí)和維護(hù)GPT-3訓(xùn)練一次的成本約為140萬美元,對(duì)于一些更大的大模型,訓(xùn)練成本更高,GPT-4的一次訓(xùn)練成本約為6300萬美元。以ChatGPT在2023年1月的獨(dú)立訪客平均數(shù)1300萬計(jì)算,其對(duì)應(yīng)芯片需求為3萬多片英偉達(dá)A100GPU,初始投入成本約為8億美元,每日電費(fèi)在5萬美元左右5.6大模型的成本軟件許可成本大模型的訓(xùn)練和推理通常需要使用特定的軟件和框架,如TensorFlow、PyTorch等。這些軟件通常需要購買許可證或訂閱服務(wù),這也會(huì)增加大模型的訓(xùn)練成本數(shù)據(jù)收集和處理成本大模型的訓(xùn)練需要大量的標(biāo)記數(shù)據(jù)。數(shù)據(jù)的收集、清洗、標(biāo)注和處理都需要投入大量的人力、物力和時(shí)間成本。此外,為了確保數(shù)據(jù)的準(zhǔn)確性和有效性,還需要進(jìn)行數(shù)據(jù)驗(yàn)證和校驗(yàn),這也增加了數(shù)據(jù)處理的成本人力資源成本大模型的訓(xùn)練和推理需要專業(yè)的團(tuán)隊(duì)進(jìn)行維護(hù)和優(yōu)化。這包括數(shù)據(jù)科學(xué)家、機(jī)器學(xué)習(xí)工程師、運(yùn)維人員等。這些人員需要具備專業(yè)的技能和經(jīng)驗(yàn),因此,人力資源成本也是大模型成本的重要組成部分運(yùn)營(yíng)和維護(hù)成本大模型的運(yùn)營(yíng)和維護(hù)也需要投入成本。這包括模型的部署、監(jiān)控、調(diào)優(yōu)、更新等。為了確保模型的穩(wěn)定性和性能,需要進(jìn)行持續(xù)的維護(hù)和優(yōu)化,這也增加了運(yùn)營(yíng)和維護(hù)的成本5.6大模型的成本07大模型的應(yīng)用領(lǐng)域Partseven大模型的應(yīng)用領(lǐng)域非常廣泛,涵蓋了自然語言處理、計(jì)算機(jī)視覺、語音識(shí)別、推薦系統(tǒng)、醫(yī)療健康、金融風(fēng)控、工業(yè)制造、生物信息學(xué)、自動(dòng)駕駛、氣候研究等多個(gè)領(lǐng)域(1)自然語言處理大模型在自然語言處理領(lǐng)域具有重要的應(yīng)用,可以用于文本生成(如文章、小說、新聞等的創(chuàng)作)、翻譯系統(tǒng)(能夠?qū)崿F(xiàn)高質(zhì)量的跨語言翻譯)、問答系統(tǒng)(能夠回答用戶提出的問題)、情感分析(用于判斷文本中的情感傾向)、語言生成(如聊天機(jī)器人)等(2)計(jì)算機(jī)視覺大模型在計(jì)算機(jī)視覺領(lǐng)域也有廣泛應(yīng)用,可以用于圖像分類(識(shí)別圖像中的物體和場(chǎng)景)、目標(biāo)檢測(cè)(能夠定位并識(shí)別圖像中的特定物體)、圖像生成(如風(fēng)格遷移、圖像超分辨率增強(qiáng))、人臉識(shí)別(用于安全驗(yàn)證和身份識(shí)別)、醫(yī)學(xué)影像分析(輔助醫(yī)生診斷疾?。┑?.7大模型的應(yīng)用領(lǐng)域(3)語音識(shí)別大模型在語音識(shí)別領(lǐng)域也有應(yīng)用,如語音識(shí)別、語音合成等。通過學(xué)習(xí)大量的語音數(shù)據(jù),大模型可以實(shí)現(xiàn)高質(zhì)量的跨語言翻譯和語音識(shí)別以及生成自然語音(4)推薦系統(tǒng)大模型可以用于個(gè)性化推薦、廣告推薦等任務(wù)。通過分析用戶的歷史行為和興趣偏好,大模型可以為用戶提供個(gè)性化的推薦服務(wù),提高用戶滿意度和轉(zhuǎn)化率5.7大模型的應(yīng)用領(lǐng)域大模型可以用于自動(dòng)駕駛中的感知、決策等任務(wù)。通過學(xué)習(xí)大量的駕駛數(shù)據(jù),大模型可以實(shí)現(xiàn)對(duì)車輛周圍環(huán)境的感知和識(shí)別,以及進(jìn)行決策和控制,提高自動(dòng)駕駛的安全性和效率自動(dòng)駕駛大模型可以用于醫(yī)療影像診斷、疾病預(yù)測(cè)等任務(wù)。通過學(xué)習(xí)大量的醫(yī)學(xué)影像數(shù)據(jù),大模型可以輔助醫(yī)生進(jìn)行疾病診斷和治療方案制定,提高醫(yī)療水平和效率醫(yī)療健康大模型可以用于信用評(píng)估、欺詐檢測(cè)等任務(wù)。通過分析大量的金融數(shù)據(jù),大模型可以評(píng)估用戶的信用等級(jí)和風(fēng)險(xiǎn)水平,以及檢測(cè)欺詐行為,提高金融系統(tǒng)的安全性和穩(wěn)定性金融風(fēng)控5.7大模型的應(yīng)用領(lǐng)域工業(yè)制造大模型可以用于質(zhì)量控制、故障診斷等任務(wù)。通過學(xué)習(xí)大量的工業(yè)制造數(shù)據(jù),大模型可以輔助工程師進(jìn)行產(chǎn)品質(zhì)量控制和故障診斷,提高生產(chǎn)效率和產(chǎn)品質(zhì)量氣候研究在氣候研究領(lǐng)域,大模型可以處理氣象數(shù)據(jù),進(jìn)行天氣預(yù)測(cè)和氣候模擬。它們能夠分析復(fù)雜的氣象現(xiàn)象,提供準(zhǔn)確的氣象預(yù)報(bào),幫助人們做出應(yīng)對(duì)氣候變化的決策生物信息學(xué)在生物信息學(xué)領(lǐng)域,大模型可以用于基因序列分析(識(shí)別基因中的功能元件和變異位點(diǎn))、蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)(推測(cè)蛋白質(zhì)的二級(jí)和三級(jí)結(jié)構(gòu))、藥物研發(fā)(預(yù)測(cè)分子與靶點(diǎn)的相互作用)等5.7大模型的應(yīng)用領(lǐng)域08基于大模型的智能體Parteight5.8
基于大模型的智能體基于大模型的智能體是指利用大型語言模型(如GPT、BERT等)作為核心組件,構(gòu)建的能夠執(zhí)行特定任務(wù)、與環(huán)境交互并做出決策的人工智能系統(tǒng)。這些智能體具有自主性、交互性、適應(yīng)性等特點(diǎn),能夠模擬人類的認(rèn)知和決策過程,提供更加自然、高效和個(gè)性化的交互體驗(yàn)。它們能夠處理海量數(shù)據(jù),進(jìn)行高效的學(xué)習(xí)與推理,并展現(xiàn)出跨領(lǐng)域的應(yīng)用潛力?;诖竽P偷闹悄荏w09大模型對(duì)人們工作和生活的影響Partnine提高工作效率大模型在自然語言處理、機(jī)器翻譯等領(lǐng)域的應(yīng)用,使得人們能夠快速、準(zhǔn)確地處理大量文本數(shù)據(jù),提高工作效率。例如,在翻譯領(lǐng)域,大模型能夠自動(dòng)翻譯多種語言,減少人工翻譯的時(shí)間和成本,提高翻譯效率優(yōu)化決策過程大模型能夠收集、整理和分析大量的數(shù)據(jù),通過數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)技術(shù),幫助人們更準(zhǔn)確地了解問題現(xiàn)狀,預(yù)測(cè)未來趨勢(shì),從而做出更明智的決策自動(dòng)化部分工作大模型的發(fā)展使得一些繁瑣、重復(fù)的工作可以由機(jī)器來完成,從而減輕了人們的工作負(fù)擔(dān)。例如,在金融領(lǐng)域,大模型可以自動(dòng)分析大量的金融數(shù)據(jù),幫助人們做出更準(zhǔn)確的決策創(chuàng)造新的就業(yè)機(jī)會(huì)隨著大模型的普及和應(yīng)用,將創(chuàng)造出許多新的就業(yè)機(jī)會(huì)。例如,需要更多的人來開發(fā)和維護(hù)大模型,也需要更多的人來利用大模型進(jìn)行各種應(yīng)用開發(fā)5.8.1
大模型對(duì)工作的影響大模型在智能家居、智能客服等領(lǐng)域的應(yīng)用,使得人們的生活更加便利、舒適。例如,通過智能家居系統(tǒng),人們可以通過語音指令控制家電,實(shí)現(xiàn)智能化生活改善生活質(zhì)量大模型在教育領(lǐng)域的應(yīng)用,可以幫助人們更高效地學(xué)習(xí)新知識(shí)。例如,通過大模型的智能推薦功能,人們可以根據(jù)自己的興趣和需求,獲取更加個(gè)性化的學(xué)習(xí)資源提高學(xué)習(xí)效率大模型在娛樂領(lǐng)域的應(yīng)用,可以提供更加豐富、多樣的娛樂體驗(yàn)。例如,通過大模型的語音識(shí)別功能,人們可以通過語音指令控制游戲,實(shí)現(xiàn)更加智能化的游戲體驗(yàn)增強(qiáng)娛樂體驗(yàn)5.8.2大模型對(duì)生活的影響10大模型的挑戰(zhàn)與未來發(fā)展Partten大模型在人工智能領(lǐng)域的應(yīng)用帶來了顯著的進(jìn)步和便利,但同時(shí)也面臨著一些挑戰(zhàn)可解釋性訓(xùn)練時(shí)間和數(shù)據(jù)量資源消耗數(shù)據(jù)隱私和安全模型泛化能力公平性和偏見大模型的挑戰(zhàn)5.9.1大模型的挑戰(zhàn)(1)資源消耗大模型通常需要大量的計(jì)算資源和存儲(chǔ)空間。訓(xùn)練大模型需要高性能的計(jì)算機(jī)集群以及大量的存儲(chǔ)空間,來存儲(chǔ)訓(xùn)練過程中的數(shù)據(jù)和模型參數(shù)。這使得大模型的訓(xùn)練和部署成本較高,限制了其在一些資源有限的環(huán)境中的應(yīng)用。此外,大模型訓(xùn)練和使用過程也帶來了大量水資源的消耗,以ChatGPT為例,一個(gè)用戶和ChatGPT聊天可能會(huì)消耗500毫升的水。大模型需要大量的計(jì)算能力和數(shù)據(jù)處理,這會(huì)涉及到龐大的機(jī)房、服務(wù)器和數(shù)據(jù)中心,而這些機(jī)房和服務(wù)器需要進(jìn)行冷卻來保持正常運(yùn)行,而冷卻又需要大量的水資源。這個(gè)過程中,水通過散熱器冷卻這些設(shè)備,帶走了設(shè)備工作時(shí)產(chǎn)生的熱量,以保證設(shè)備的正常運(yùn)行(2)訓(xùn)練時(shí)間和數(shù)據(jù)量大模型的訓(xùn)練需要大量的時(shí)間和數(shù)據(jù)。通常,訓(xùn)練一個(gè)大型神經(jīng)網(wǎng)絡(luò)需要數(shù)周甚至數(shù)月的時(shí)間,這取決于模型的復(fù)雜度、計(jì)算能力和可用數(shù)據(jù)量。此外,為了獲得更好的性能,大模型通常需要大量的標(biāo)記數(shù)據(jù)來訓(xùn)練。這不僅增加了訓(xùn)練成本,還限制了其在缺乏足夠數(shù)據(jù)的環(huán)境中的應(yīng)用5.9.1大模型的挑戰(zhàn)大模型的訓(xùn)練和使用,可能引入公平性和偏見問題。如果訓(xùn)練數(shù)據(jù)中存在偏見或不公平因素,那么,模型的輸出也可能受到這些因素的影響。這可能導(dǎo)致不公平的決策或偏見的結(jié)果。因此,在大模型的訓(xùn)練和使用過程中,需要考慮公平性和偏見問題,并采取相應(yīng)的措施來減少這些影響公平性和偏見大模型的復(fù)雜性和黑箱性質(zhì),使得其決策和預(yù)測(cè)的依據(jù)難以解釋。這使得在某些領(lǐng)域,如醫(yī)療、金融等,大模型的應(yīng)用受到限制。人們往往需要知道模型做出決策的原因,而不僅僅是結(jié)果。因此,提高大模型的可解釋性是一個(gè)重要的挑戰(zhàn)可解釋性在訓(xùn)練和使用大模型的過程中,需要處理大量的個(gè)人數(shù)據(jù)。如何保證數(shù)據(jù)的安全和隱私是一個(gè)重要的挑戰(zhàn)。一旦數(shù)據(jù)泄露或被濫用,將對(duì)個(gè)人隱私和企業(yè)聲譽(yù)造成嚴(yán)重?fù)p害。因此,在大模型的訓(xùn)練和使用過程中,需要采取嚴(yán)格的數(shù)據(jù)保護(hù)措施,確保數(shù)據(jù)的安全和隱私數(shù)據(jù)隱私和安全盡管大模型在特定任務(wù)上表現(xiàn)出色,但其泛化能力仍然是一個(gè)挑戰(zhàn)。在某些情況下,大模型可能過于復(fù)雜,導(dǎo)致過擬合,即過度擬合訓(xùn)練數(shù)據(jù),而無法泛化到新數(shù)據(jù)。此外,當(dāng)任務(wù)發(fā)生變化時(shí),大模型可能需要重新訓(xùn)練或調(diào)整參數(shù),這增加了其應(yīng)用和維護(hù)的成本模型泛化能力5.9.1大模型的挑戰(zhàn)大模型是個(gè)概率模型,用它生成的內(nèi)容具有不確定性。大模型幻覺,用一種形象的說法就是“大模型一本正經(jīng)的胡說八道”,準(zhǔn)確地說,是指大模型生成的內(nèi)容與現(xiàn)實(shí)世界事實(shí)或用戶輸入不一致的現(xiàn)象。目前研究人員也在積極研究消除大模型幻覺的相關(guān)技術(shù),比如,檢索增強(qiáng)生成(Retrieval-augmentedGeneration),簡(jiǎn)稱RAG,就是當(dāng)下熱門的大模型前沿技術(shù)之一大模型幻覺5.9.1大模型的挑戰(zhàn)大模型將繼續(xù)在自然語言處理、計(jì)算機(jī)視覺等領(lǐng)域發(fā)揮重要作用。隨著數(shù)據(jù)量的不斷增加和計(jì)算能力的提升,大模型將能夠更好地理解和處理復(fù)雜的語言和圖像信息,提高人機(jī)交互的效率和準(zhǔn)確性大模型將在醫(yī)療、金融、教育等更多領(lǐng)域得到應(yīng)用。通過與各領(lǐng)域的專業(yè)知識(shí)和經(jīng)驗(yàn)相結(jié)合,大模型將能夠提供更加精準(zhǔn)和個(gè)性化的服務(wù),提高各行各業(yè)的工作效率和質(zhì)量隨著技術(shù)的不斷進(jìn)步,大模型將更加注重可解釋性和公平性。通過改進(jìn)算法和技術(shù),大模型將能夠提供更加清晰和準(zhǔn)確的決策依據(jù),減少偏見和不公平現(xiàn)象隨著云計(jì)算、邊緣計(jì)算等技術(shù)的發(fā)展,大模型的訓(xùn)練和推理將更加高效和便捷。這些技術(shù)將使得大模型能夠在更多設(shè)備上運(yùn)行,擴(kuò)展其應(yīng)用范圍隨著全球人工智能研究的不斷深入和發(fā)展,大模型將成為人工智能領(lǐng)域的重要基石。它將與其他技術(shù)相結(jié)合,推動(dòng)人工智能技術(shù)的不斷創(chuàng)新和發(fā)展04050301025.9.2大模型的未來發(fā)展大模型是人工智能領(lǐng)域的重要研究方向,其強(qiáng)大的語言理解和生成能力使得它在自然語言處理、機(jī)器翻譯、智能客服等領(lǐng)域有著廣泛的應(yīng)用。大模型的訓(xùn)練需要大量的數(shù)據(jù)和計(jì)算資源,同時(shí)也需要先進(jìn)的技術(shù)和算法支持。隨著技術(shù)的不斷發(fā)展,大模型的應(yīng)用場(chǎng)景也在不斷擴(kuò)展,未來將會(huì)更加廣泛地應(yīng)用于各個(gè)領(lǐng)域。5.10
本章小結(jié)林子雨副教授謝謝觀看!廈門大學(xué)附錄A:主講教師林子雨簡(jiǎn)介單位:廈門大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系E-mail:ziyulin@個(gè)人網(wǎng)頁:/post/linziyu數(shù)據(jù)庫實(shí)驗(yàn)室網(wǎng)站:主講教師:林子雨林子雨,男,1978年出生,博士(畢業(yè)于北京大學(xué)),全國(guó)高校知名大數(shù)據(jù)教師,入選“2021年高校計(jì)算機(jī)專業(yè)優(yōu)秀教師獎(jiǎng)勵(lì)計(jì)劃”?,F(xiàn)為廈門大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系副教授,廈門大學(xué)信息學(xué)院實(shí)驗(yàn)教學(xué)中心主任,曾任廈門大學(xué)信息科學(xué)與技術(shù)學(xué)院院長(zhǎng)助理、晉江市發(fā)展和改革局副局長(zhǎng)。中國(guó)計(jì)算機(jī)學(xué)會(huì)數(shù)據(jù)庫專業(yè)委員會(huì)執(zhí)行委員,中國(guó)計(jì)算機(jī)學(xué)會(huì)信息系統(tǒng)專業(yè)委員會(huì)執(zhí)行委員。國(guó)內(nèi)高校首個(gè)“數(shù)字教師”提出者和建設(shè)者,廈門大學(xué)數(shù)據(jù)庫實(shí)驗(yàn)室負(fù)責(zé)人,廈門大學(xué)云計(jì)算與大數(shù)據(jù)研究中心主要建設(shè)者和骨干成員,2013年度、2017年度、2020年度和2023年度廈門大學(xué)教學(xué)類獎(jiǎng)教金獲得者,榮獲2024年福建省高等教育教學(xué)成果獎(jiǎng)特等獎(jiǎng)(個(gè)人排名第七)、2022年福建省高等教育教學(xué)成果獎(jiǎng)特等獎(jiǎng)(個(gè)人排名第一)、2018年福建省高等教育教學(xué)成果獎(jiǎng)二等獎(jiǎng)(個(gè)人排名第一)、2018年國(guó)家精品在線開放課程、2021年國(guó)家級(jí)線上一流本科課程、2020年國(guó)家級(jí)線上一流本科課程。主要研究方向?yàn)閿?shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)挖掘、大數(shù)據(jù)、云計(jì)算和物聯(lián)網(wǎng),并以第一作者身份在《軟件學(xué)報(bào)》《計(jì)算機(jī)學(xué)報(bào)》和《計(jì)算機(jī)研究與發(fā)展》等國(guó)家重點(diǎn)期刊以及國(guó)際學(xué)術(shù)會(huì)議上發(fā)表多篇學(xué)術(shù)論文。作為項(xiàng)目負(fù)責(zé)人主持的科研項(xiàng)目包括1項(xiàng)國(guó)家自然科學(xué)青年基金項(xiàng)目(No.61303004)、1項(xiàng)福建省自然科學(xué)青年基金項(xiàng)目(No.2013J05099)和1項(xiàng)中央高校基本科研業(yè)務(wù)費(fèi)項(xiàng)目(No.2011121049),主持的教改課題包括1項(xiàng)2016年福建省教改課題、1項(xiàng)2016年教育部產(chǎn)學(xué)協(xié)作育人項(xiàng)目、1項(xiàng)2024年教育部產(chǎn)學(xué)協(xié)作育人項(xiàng)目。編著出版了《大數(shù)據(jù)技術(shù)原理與應(yīng)用》等13本大數(shù)據(jù)系列教材,被國(guó)內(nèi)1000多所高校采用;建設(shè)了國(guó)內(nèi)高校首個(gè)大數(shù)據(jù)課程公共服務(wù)平臺(tái),為教師教學(xué)和學(xué)生學(xué)習(xí)大數(shù)據(jù)課程提供全方位、一站式服務(wù),年訪問量超過400萬次,累計(jì)訪問量超過2500萬次。大數(shù)據(jù)系列MOOC課程入選“2023年教育部國(guó)家智慧教育公共服務(wù)平臺(tái)應(yīng)用典型案例”。附錄B:大數(shù)據(jù)學(xué)習(xí)路線圖大數(shù)據(jù)學(xué)習(xí)路線圖訪問地址:/post/10164/附錄C:林子雨大數(shù)據(jù)系列教材了解全部教材信息:/post/bigdatabook/附錄D:《數(shù)字素養(yǎng)通識(shí)教程》林子雨編著《數(shù)字素養(yǎng)通識(shí)教程——大數(shù)據(jù)與人工智能時(shí)代的計(jì)算機(jī)通識(shí)教育》人民郵電出版社ISBN:978-7-115-65946-02025年1月第1版,定價(jià):59.8元
教材官網(wǎng):/post/digital-literacy/15年計(jì)算機(jī)教學(xué)生涯感悟升華,15本計(jì)算機(jī)暢銷教材知識(shí)凝練數(shù)字時(shí)代的大學(xué)計(jì)算機(jī)公共課教材,重構(gòu)大學(xué)計(jì)算機(jī)公共課知識(shí)體系深刻變革傳統(tǒng)大學(xué)計(jì)算機(jī)通識(shí)教育,培養(yǎng)學(xué)生計(jì)算思維、數(shù)據(jù)思維和AI思維附錄E:《大數(shù)據(jù)導(dǎo)論(通識(shí)課版,第2版)》教材高等教育出版社
2024年7月第2版ISBN:978-7-04-062466-3定價(jià):39.50元
教材官方網(wǎng)站:/post/bigdataintroduction2/0503020104引導(dǎo)學(xué)生步入大數(shù)據(jù)時(shí)代,積極投身大數(shù)據(jù)的變革浪潮之中了解大數(shù)據(jù)概念,培養(yǎng)大數(shù)據(jù)思維,養(yǎng)成數(shù)據(jù)安全意識(shí)認(rèn)識(shí)大數(shù)據(jù)倫理,努力使自己的行為符合大數(shù)據(jù)倫理規(guī)范要求熟悉大數(shù)據(jù)應(yīng)用,探尋大數(shù)據(jù)與自己專業(yè)的應(yīng)用結(jié)合點(diǎn)激發(fā)學(xué)生基于大數(shù)據(jù)的創(chuàng)新創(chuàng)業(yè)熱情開設(shè)全校公共選修課的優(yōu)質(zhì)教材,本課程旨在實(shí)現(xiàn)以下幾個(gè)培養(yǎng)目標(biāo):附錄F:《大數(shù)據(jù)與人工智能導(dǎo)論(通識(shí)課版)》《大數(shù)據(jù)與人工智能導(dǎo)論(通識(shí)課版)》版次:2025年1月第1版林子雨
編著,人民郵電出版社
ISBN:978-7-115-65696-4定價(jià):59.8元
教材官網(wǎng):/post/bigdata-ai-introduction/本書詳細(xì)闡述了培養(yǎng)具有數(shù)字素養(yǎng)的綜合型人才所需要的相關(guān)知識(shí)儲(chǔ)備。作為通識(shí)類課程教材,本書在確定知識(shí)布局時(shí),緊緊圍繞通識(shí)教育核心理念,系統(tǒng)介紹大數(shù)據(jù)、云計(jì)算、物聯(lián)網(wǎng)、人工智能、區(qū)塊鏈、元宇宙等技術(shù)的相關(guān)知識(shí),努力培養(yǎng)學(xué)生的數(shù)字素養(yǎng)。全書共9章,內(nèi)容包括大數(shù)據(jù)概述、大數(shù)據(jù)技術(shù)、大數(shù)據(jù)應(yīng)用、大數(shù)據(jù)基礎(chǔ)知識(shí)、人工智能、大模型:人工智能的前沿、AIGC應(yīng)用與實(shí)踐、新興數(shù)字技術(shù)、新興數(shù)字技術(shù)的倫理問題。為了避免陷入空洞的理論介紹,本書在很多章節(jié)都融入了豐富的案例,這些案例就發(fā)生在我們生活的數(shù)字時(shí)代,很具有代表性和說服力,能夠讓學(xué)生直觀感受相應(yīng)理論的具體內(nèi)涵。附錄G:《大數(shù)據(jù)導(dǎo)論(第2版)》教材林子雨編著《大數(shù)據(jù)導(dǎo)論(第2版)》人民郵電出版社
ISBN:978-7-115-64185-4定價(jià):59.80元2024年7月教材官方網(wǎng)站:/post/bigdata-introduction2/開設(shè)大數(shù)據(jù)專業(yè)導(dǎo)論課的優(yōu)質(zhì)教材,本書詳細(xì)闡述了培養(yǎng)復(fù)合型大數(shù)據(jù)專業(yè)人才所需要的大數(shù)據(jù)相關(guān)知識(shí)。全書共10章,內(nèi)容包括:大數(shù)據(jù)概述大數(shù)據(jù)與其他新興技術(shù)的關(guān)系大數(shù)據(jù)基礎(chǔ)知識(shí)大數(shù)據(jù)應(yīng)用大數(shù)據(jù)硬件環(huán)境數(shù)據(jù)采集與預(yù)處理數(shù)據(jù)存儲(chǔ)與管理數(shù)據(jù)處理與分析數(shù)據(jù)可視化大數(shù)據(jù)分析綜合案例在大數(shù)據(jù)基礎(chǔ)知識(shí)部分,本書詳細(xì)介紹了與培養(yǎng)學(xué)生的數(shù)據(jù)素養(yǎng)相關(guān)的知識(shí),包括大數(shù)據(jù)安全、大數(shù)據(jù)思維、大數(shù)據(jù)倫理、數(shù)據(jù)共享、數(shù)據(jù)開放和大數(shù)據(jù)交易。附錄H:《大數(shù)據(jù)技術(shù)原理與應(yīng)用(第4版)》教材《大數(shù)據(jù)技術(shù)原理與應(yīng)用——概念、存儲(chǔ)、處理、分析與應(yīng)用(第4版)》林子雨編著,人民郵電出版社
ISBN:978-7-115-64181-6定價(jià):65元2024年8月教材官方網(wǎng)站:/post/bigdata4國(guó)內(nèi)高校第一本系統(tǒng)介紹大數(shù)據(jù)知識(shí)的專業(yè)教材,本書系統(tǒng)介紹大數(shù)據(jù)的相關(guān)知識(shí),分為大數(shù)據(jù)基礎(chǔ)篇、大數(shù)據(jù)存儲(chǔ)與管理篇、大數(shù)據(jù)處理與分析篇、大數(shù)據(jù)應(yīng)用篇。全書共14章,內(nèi)容包含:本書在Hadoop、HDFS、HBase、MapReduce、Hive、Spark和Flink等相關(guān)章安排了入門級(jí)的實(shí)驗(yàn),以便讀者能更好地學(xué)習(xí)和掌握大數(shù)據(jù)的關(guān)鍵技術(shù)。大數(shù)據(jù)概述大數(shù)據(jù)處理架構(gòu)Hadoop分布式文件系統(tǒng)HDFS分布式數(shù)據(jù)庫HBaseNoSQL數(shù)據(jù)庫云數(shù)據(jù)庫MapReduceHadoop再探討數(shù)據(jù)倉庫HiveSpark流計(jì)算Flink圖計(jì)算大數(shù)據(jù)應(yīng)用附錄I:《大數(shù)據(jù)基礎(chǔ)編程、實(shí)驗(yàn)和案例教程(第3版)》與《大數(shù)據(jù)技術(shù)原理與應(yīng)用(第4版)》教材配套的唯一指定實(shí)驗(yàn)指導(dǎo)書林子雨編著,清華大學(xué)出版社
ISBN:978-7-302-66922-7
定價(jià):69元
2024年8月第3版《大數(shù)據(jù)基礎(chǔ)編程、實(shí)驗(yàn)和案例教程(第3版)》深入淺出,去粗取精,豐富的代碼實(shí)例幫助快速掌握大數(shù)據(jù)基礎(chǔ)編程方法步步引導(dǎo),循序漸進(jìn),詳盡的安裝指南為順利搭建大數(shù)據(jù)實(shí)驗(yàn)環(huán)境鋪平道路0102精心設(shè)計(jì),巧妙融合,八套大數(shù)據(jù)實(shí)驗(yàn)題目促進(jìn)理論與編程知識(shí)的消化和吸收03結(jié)合理論,聯(lián)系實(shí)際,大數(shù)據(jù)課程綜合實(shí)驗(yàn)案例精彩呈現(xiàn)大數(shù)據(jù)分析全流程04附錄J:《數(shù)據(jù)采集與預(yù)處理(第2版)》詳細(xì)闡述了大數(shù)據(jù)領(lǐng)域數(shù)據(jù)采集與預(yù)處理的相關(guān)理論和技術(shù)林子雨編著,人民郵電出版社2025年1月
978-7-115-65728-2
定價(jià):69.80元教材官網(wǎng):/post/data-collection2/全書共8章,內(nèi)容包括:概述大數(shù)據(jù)實(shí)驗(yàn)環(huán)境搭建網(wǎng)絡(luò)數(shù)據(jù)采集分布式消息系統(tǒng)Kafka日志采集系統(tǒng)Flume數(shù)據(jù)倉庫中的數(shù)據(jù)集成ETL工具Kettle使用pandas進(jìn)行數(shù)據(jù)清洗本書在網(wǎng)絡(luò)數(shù)據(jù)采集、Kafka、Flume、Kettle、pandas等重要章節(jié)安排了豐富的實(shí)踐操作,以便讀者更好地學(xué)習(xí)和掌握數(shù)據(jù)采集與預(yù)處理的關(guān)鍵技術(shù)。附錄K:《Python程序設(shè)計(jì)基礎(chǔ)教程(微課版)》教材:林子雨,趙江聲,陶繼平.《Python程序設(shè)計(jì)基礎(chǔ)教程(微課版)》人民郵電出版社,2022年2月.教材官網(wǎng)(獲取講義PPT、代碼等):
/post/python/
實(shí)驗(yàn)手冊(cè):林子雨,鄭海山.《Python程序設(shè)計(jì)實(shí)驗(yàn)指導(dǎo)與習(xí)題解答》.人民郵電出版社,2022年4月.實(shí)驗(yàn)手冊(cè)官網(wǎng)(獲取代碼等):/post/python-experiment/附錄L:《Spark編程基礎(chǔ)(Scala版,第2版)》《Spark編程基礎(chǔ)(Scala版,第2版)》林子雨,賴永炫,陶繼平
編著,人民郵電出版社
ISBN:978-7-115-59501-0
教材官網(wǎng):/post/spark2/本書以Scala作為開發(fā)Spark應(yīng)用程序的編程語言,系統(tǒng)介紹了Spark編程的基礎(chǔ)知識(shí)。全書共9章,內(nèi)容包括:大數(shù)據(jù)技術(shù)概述Scala語言基礎(chǔ)Spark的設(shè)計(jì)與運(yùn)行原理Spark環(huán)境搭建和使用方法RDD編程SparkSQLSparkStreamingSparkMLlib
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年通信接入設(shè)備項(xiàng)目提案報(bào)告
- 2025年血液制劑項(xiàng)目立項(xiàng)申請(qǐng)報(bào)告范文
- 2025貴州畢節(jié)醫(yī)學(xué)高等專科學(xué)校第一批次“人才強(qiáng)市”暨高層次急需緊缺人才引進(jìn)模擬試卷附答案詳解(典型題)
- 合作項(xiàng)目質(zhì)量與責(zé)任承諾書5篇
- 2025年嘉興海寧市中心醫(yī)院公開招聘高層次急需衛(wèi)技人員4人考前自測(cè)高頻考點(diǎn)模擬試題及參考答案詳解
- 行業(yè)信譽(yù)鑄就承諾書9篇
- 2025昆侖數(shù)智科技有限責(zé)任公司春季高校畢業(yè)生招聘15人考前自測(cè)高頻考點(diǎn)模擬試題及答案詳解(易錯(cuò)題)
- 2025年紹興新昌縣衛(wèi)健系統(tǒng)第一次公開招聘編外人員6人模擬試卷及一套完整答案詳解
- 作業(yè)保護(hù)設(shè)計(jì)印刷合同7篇
- 經(jīng)濟(jì)項(xiàng)目合作協(xié)議承諾書(7篇)
- 微生物學(xué)檢驗(yàn)技術(shù) 課件 16項(xiàng)目十六:細(xì)菌生物化學(xué)試驗(yàn)
- 光的反射定律教案及反思
- 高溫熔融金屬企業(yè)安全知識(shí)培訓(xùn)
- 醫(yī)院培訓(xùn)課件:《直腸癌中醫(yī)護(hù)理查房》
- 二年級(jí)上冊(cè)勞動(dòng)《洗紅領(lǐng)巾》課件
- 深靜脈血栓臨床路徑表單
- 光影中國(guó)學(xué)習(xí)通超星期末考試答案章節(jié)答案2024年
- 中國(guó)中車股份有限公司
- DLT 572-2021 電力變壓器運(yùn)行規(guī)程
- 宅基地轉(zhuǎn)讓協(xié)議書
- 十年(2015-2024)高考真題數(shù)學(xué)分項(xiàng)匯編(全國(guó))專題25 新定義綜合(數(shù)列新定義、函數(shù)新定義、集合新定義及其他新定義)(教師卷)
評(píng)論
0/150
提交評(píng)論