




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第二章大數(shù)據(jù)管理與應(yīng)用的數(shù)學(xué)基礎(chǔ)大數(shù)據(jù)管理與應(yīng)用——主編:王剛副主編:劉婧、邵臻線性代數(shù)、優(yōu)化和統(tǒng)計是大數(shù)據(jù)管理與應(yīng)用的重要數(shù)學(xué)基礎(chǔ),大數(shù)據(jù)管理與應(yīng)用的核心要素是機器學(xué)習(xí),機器學(xué)習(xí)中的數(shù)據(jù)表示、運算規(guī)則、模型性質(zhì)、模型優(yōu)化等均離不開這些數(shù)學(xué)基礎(chǔ)。在本章中你將了解線性代數(shù)、優(yōu)化和統(tǒng)計的基本定義,掌握線性代數(shù)、優(yōu)化和統(tǒng)計中的常用方法,從而為后續(xù)深人學(xué)習(xí)機器學(xué)習(xí)方法打下基礎(chǔ)。線性代數(shù)基礎(chǔ)優(yōu)化基礎(chǔ)統(tǒng)計基礎(chǔ)第二章大數(shù)據(jù)管理與應(yīng)用的數(shù)學(xué)基礎(chǔ)01線性代數(shù)基礎(chǔ)02優(yōu)化基礎(chǔ)03統(tǒng)計基礎(chǔ)標(biāo)量(Scalar)是一個單獨的數(shù),它通常使用小寫的斜體變量進(jìn)行表示。向量(Vector)是一列有序排列的數(shù),它通常使用小寫的粗體變量進(jìn)行表示。矩陣(Matrix)是一個二維數(shù)組,它通常使用大寫的粗體變量進(jìn)行表示。張量(Tensor)是坐標(biāo)超過兩維的數(shù)組。范數(shù)(Norm)在機器學(xué)習(xí)中有重要的作用,它能夠衡量向量或矩陣的大小,并滿足非負(fù)性、齊次性和三角不等式。1.1向量和矩陣
1.2向量和矩陣運算矩陣和向量求導(dǎo)矩陣和向量的導(dǎo)數(shù)有以下常用的運算規(guī)則:矩陣的跡運算的導(dǎo)數(shù)有以下常用運算規(guī)則:1.2向量和矩陣運算
1.3矩陣分解最優(yōu)化問題在現(xiàn)實社會中,人們經(jīng)常遇到這樣一類問題:判別在一個問題的眾多解決方案中什么樣的方案最佳,以及如何找出最佳方案。例如,在資源分配中,如何分配有限資源,使得分配方案既能滿足各方面的需求,又能獲得好的經(jīng)濟(jì)效益;在工程設(shè)計中,如何選擇設(shè)計參數(shù),使得設(shè)計方案既能滿足設(shè)計要求,又能降低成本等。這類問題就是在一定的限制條件下使得所關(guān)心的指標(biāo)達(dá)到最優(yōu)。最優(yōu)化就是為解決這類問題提供理論基礎(chǔ)和求解方法的一門數(shù)學(xué)學(xué)科。在量化求解實際最優(yōu)化問題時,首先要把實際問題轉(zhuǎn)化為數(shù)學(xué)問題,建立數(shù)學(xué)模型。最優(yōu)化數(shù)學(xué)模型主要包括三個要素:決策變量和參數(shù)、約束或限制條件、目標(biāo)函數(shù)。根據(jù)數(shù)學(xué)模型中有無約束函數(shù)分類,可分為有約束的最優(yōu)化問題和無約束的最優(yōu)化問題。2.1最優(yōu)化
2.1最優(yōu)化圖2-1凸集的幾何表示
2.1最優(yōu)化
2.2無約束最優(yōu)化問題
2.2無約束最優(yōu)化問題Newton法最速下降法的本質(zhì)是用線性函數(shù)去近似目標(biāo)函數(shù),可以考慮對目標(biāo)函數(shù)的高階逼近得到快速算法,Newton法就是通過用二次模型近似目標(biāo)函數(shù)得到的。具體算法步驟如下:共軛梯度法共軛梯度法的基本思想是在共軛方向法和最速下降法之間建立某種聯(lián)系,以求得到一個既有效又有較好收斂性的算法。擬Newton法擬Newton法不需要二階導(dǎo)數(shù)的信息,有時比牛頓法更為有效。擬Newton法是一類使每步迭代計算量少而又保持超線性收斂的牛頓型迭代法,條件類似于牛頓法。2.2無約束最優(yōu)化問題一般性的約束優(yōu)化問題:約束優(yōu)化問題的最優(yōu)性條件約束優(yōu)化問題的最優(yōu)性條件是指最優(yōu)化問題的目標(biāo)函數(shù)與約束函數(shù)在最優(yōu)解處應(yīng)滿足的充分條件、必要條件和充要條件,是最優(yōu)化理論的重要組成部分,對最優(yōu)化算法的構(gòu)造及算法的理論分析都是至關(guān)重要的。Kuhn-Tucker必要條件二階充分條件2.3約束最優(yōu)化問題罰函數(shù)法與乘子法根據(jù)約束的特點,構(gòu)造某種“懲罰”函數(shù),然后把它加到目標(biāo)函數(shù)中去,將約束問題的求解轉(zhuǎn)化為一系列無約束問題的求解。這種“懲罰”策略將使得一系列無約束問題的極小點或者無限地靠近可行域,或者一直保持在可行域內(nèi)移動,直至迭代點列收斂到原約束問題的最優(yōu)解。這類算法主要有三種:外罰函數(shù)法、內(nèi)罰函數(shù)法和乘子法。外罰函數(shù)法的懲罰策略是對于在無約束問題的求解過程中企圖違反約束的那些迭代點給予很大的目標(biāo)函數(shù)值,迫使這一系列無約束問題的極小點(迭代點)或者無線的向容許集靠近。2.3約束最優(yōu)化問題罰函數(shù)法與乘子法為使迭代點總是可行點,使迭代點始終保持在可行域內(nèi)移動,可以使用這樣的“懲罰”策略,即在可行域的邊界上豎起一道趨向于無窮大的“圍墻”,把迭代點擋在可行域內(nèi),直到收斂到約束問題的極小點。不過這種策略只適用于不等式約束問題,并且要求可行域內(nèi)點集非空,否則每個可行點都是邊界點,都加上無窮大的懲罰,懲罰方法也就失去了意義。2.3約束最優(yōu)化問題
2.3約束最優(yōu)化問題罰函數(shù)法與乘子法投影梯度法就是利用投影矩陣來產(chǎn)生可行下降方向的方法。它是從一個基本可行解開始,由約束條件確定出凸約束集邊界上梯度的投影,以便求出下次的搜索方向和步長,每次搜索后都要進(jìn)行檢驗,直到滿足精度要求為止。2.3約束最優(yōu)化問題罰函數(shù)法與乘子法簡約梯度法的基本思想是利用線性約束條件,將問題的某些變量用一組獨立變量表示,來降低問題的維數(shù),利用簡約梯度構(gòu)造下降可行方向進(jìn)行線性搜索,逐步逼近問題的最優(yōu)解。2.3約束最優(yōu)化問題
3.1概率與統(tǒng)計
3.1概率與統(tǒng)計
3.1概率與統(tǒng)計定量數(shù)據(jù)的圖形描述定量數(shù)據(jù)整理對定量數(shù)據(jù)進(jìn)行統(tǒng)計分組是數(shù)據(jù)整理中的主要內(nèi)容。根據(jù)統(tǒng)計研究的目的和客觀現(xiàn)象的內(nèi)在特點,按某個標(biāo)志(或幾個標(biāo)志)把被研究的總體劃分為若干個不同性質(zhì)的組,稱為統(tǒng)計分組。頻數(shù)分布表反映數(shù)據(jù)整理的結(jié)果信息。將數(shù)據(jù)按其分組標(biāo)志進(jìn)行分組的過程,就是頻數(shù)分布或頻率分布形成的過程。單變量定量數(shù)據(jù)的圖形描述將定量數(shù)據(jù)整理成頻數(shù)分布形式后,已經(jīng)可以初步看出數(shù)據(jù)的一些規(guī)律了。直方圖折線圖莖葉圖箱線圖3.2描述性統(tǒng)計定量數(shù)據(jù)的圖形描述多變量定量數(shù)據(jù)的圖形描述實際上往往只對一個變量進(jìn)行數(shù)據(jù)分析是不能滿足研究目的的,通常把多個變量放在一起來描述,并進(jìn)行分析比較。在討論兩個變量的關(guān)系時,首先可以對其定義分類。當(dāng)一個變量可以視為另一個變量的函數(shù)時,稱為相關(guān)變量,通常也稱為反應(yīng)變量。當(dāng)一個變量對另一個變量有影響時,稱為獨立變量或解釋變量,通常它是可控的。散點圖是描述兩個數(shù)字變量之間關(guān)系的圖形方法。如果數(shù)據(jù)是在不同時點取得的,稱為時間序列數(shù)據(jù),這時還可繪制線圖和面積圖。對于多組數(shù)據(jù),我們可以依據(jù)同樣的方法來繪制箱線圖,然后將各組數(shù)據(jù)的箱線圖并列起來,以比較其分布特征。當(dāng)有三個變量或指標(biāo)時,使用多指標(biāo)的圖示方法,目前這類圖示方法有雷達(dá)圖、臉譜圖、連接向量圖和星座圖等,其中雷達(dá)圖最為常用。3.2描述性統(tǒng)計定性數(shù)據(jù)的圖表描述定性數(shù)據(jù)的整理由于定性數(shù)據(jù)用來描述事物的分類,因此對調(diào)查收集的繁雜定性數(shù)據(jù)進(jìn)行整理時,除了要將這些數(shù)據(jù)進(jìn)行分類、列出所有類別之外,還要計算每一類別的頻數(shù)、頻率或比率,并將頻數(shù)分布以表格的形式表示出來,作為對定性數(shù)據(jù)的整理結(jié)果,這個表格就是類似于定量數(shù)據(jù)整理中的頻數(shù)分布表。單變量定性數(shù)據(jù)的圖形描述定性數(shù)據(jù)的頻數(shù)分布表可通過頻數(shù)分布表和累積頻數(shù)分布表來表示。如果以相應(yīng)的圖形來表示這些分布表,則會使我們對數(shù)據(jù)特征及分布有更直觀和形象的了解。條形圖餅圖帕雷托圖3.2描述性統(tǒng)計定性數(shù)據(jù)的圖形描述多變量定性數(shù)據(jù)的圖形描述在管理實踐中,不同現(xiàn)象之間總有聯(lián)系,不可能是獨立的。因此,研究多個定性變量之間定性數(shù)據(jù)的圖形表示,對進(jìn)行深入的統(tǒng)計分析,如回歸分析、聚類分析、因子分析等有重要的基礎(chǔ)意義。環(huán)形圖(CircleChart)能顯示具有相同分類且問題可比的多個樣本或總體中各類別所占的比例,從而利于比較研究。交叉表(CrossTable)是用來描述同時產(chǎn)生兩個定性變量的數(shù)據(jù)的圖形方法。多重條形圖(ClusteredBarChart)也是描述兩個定類或定序變量間關(guān)系的主要圖形方式。3.2描述性統(tǒng)計描述統(tǒng)計中的測度數(shù)據(jù)分布的集中趨勢測度集中趨勢(CentralTendency)是指分布的定位,它是指一組數(shù)據(jù)向某一中心值靠攏的傾向,或表明一組統(tǒng)計數(shù)據(jù)所具有的一般水平。對集中趨勢進(jìn)行測度也就是尋找數(shù)據(jù)一般水平的代表值或中心值。對集中趨勢的度量有數(shù)值平均數(shù)和位置平均數(shù)之分。算術(shù)平均數(shù)調(diào)和平均數(shù)幾何平均數(shù)中位數(shù)眾數(shù)中位數(shù)3.2描述性統(tǒng)計描述統(tǒng)計中的測度數(shù)據(jù)分布的離散趨勢測度變量離散程度的度量則將變量值的差異揭示出來,反映總體各變量值對其平均數(shù)這個中心的離中趨勢。離散指標(biāo)與平均指標(biāo)分別從不同的側(cè)面反映總體的數(shù)量特征。只有把平均指標(biāo)與離散指標(biāo)結(jié)合起來運用,才能更深刻地揭示所研究現(xiàn)象的本質(zhì)。極差分位差平均差方差與標(biāo)準(zhǔn)差標(biāo)準(zhǔn)差系數(shù)3.2描述性統(tǒng)計
3.3推斷性統(tǒng)計區(qū)間估計區(qū)間估計(IntervalEstimate)是在點估計的基礎(chǔ)上根據(jù)給定的置信度估計總體參數(shù)取值范圍的方法。在區(qū)間估計中
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 質(zhì)量管理外審員考試題及答案
- 難點詳解人教版八年級上冊物理光現(xiàn)象《光的直線傳播》專項攻克練習(xí)題(含答案詳解)
- 高三模考考試題型及答案
- 難點解析-人教版八年級上冊物理光現(xiàn)象《光的直線傳播》綜合練習(xí)試題(含答案解析)
- 2025護(hù)資考試真題及答案題庫
- 烏市道德與法治課標(biāo)考試題及答案
- 2025年陜西省漢中市招聘政府專職消防員行政職業(yè)能力測驗練習(xí)題及答案
- 多相反應(yīng)器流場模擬研究-第1篇-洞察與解讀
- 2025年《健康管理師》理論考試練習(xí)題及答案
- 跨境合作協(xié)議履約保證函(8篇)
- 2026中國華電集團(tuán)有限公司四川分公司校園招聘(第一批)考試模擬試題及答案解析
- 2025湖北宜昌市不動產(chǎn)交易和登記中心招聘編外聘用人員17人考試參考題庫及答案解析
- 《醫(yī)學(xué)人工智能通識基礎(chǔ)》全套教學(xué)課件
- 大宗商品交易居間合同模版(正式)
- 教育公共基礎(chǔ)知識整理版
- 裝修合同明細(xì)
- 艾滋病梅毒和乙肝實驗室檢測
- 波利亞的《怎樣解題》
- 秋冬季 中醫(yī)養(yǎng)生保健
- GB/T 36393-2018土壤質(zhì)量自然、近自然及耕作土壤調(diào)查程序指南
- GB/T 20028-2005硫化橡膠或熱塑性橡膠應(yīng)用阿累尼烏斯圖推算壽命和最高使用溫度
評論
0/150
提交評論