




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
統(tǒng)計(jì)學(xué)Statistics統(tǒng)計(jì)與信息學(xué)院第五章兩個(gè)變量關(guān)系的探索性統(tǒng)計(jì)分析5.1兩個(gè)變量關(guān)系探索分析概述5.1.1、兩個(gè)變量關(guān)系探索的意義社會(huì)經(jīng)濟(jì)現(xiàn)實(shí)中的變量并不是獨(dú)立的、孤立的,只有數(shù)學(xué)喜歡假設(shè)變量間是獨(dú)立的,因?yàn)樽兞开?dú)立時(shí)其聯(lián)合分布等于每個(gè)變量邊緣分布的乘積。而統(tǒng)計(jì)學(xué)尋找兩個(gè)變量的關(guān)系是主要任務(wù)之一,至于兩個(gè)變量是否有關(guān)系,一是可以大膽假設(shè),然后再小心求證;二是通過(guò)數(shù)據(jù)探索分發(fā)現(xiàn)變量間關(guān)系以及其關(guān)系的強(qiáng)弱程度。兩個(gè)變量關(guān)系的探索分析是為驗(yàn)證性統(tǒng)計(jì)分析做選擇和做準(zhǔn)備。5.1兩個(gè)變量關(guān)系探索分析概述5.1.2、兩個(gè)變量關(guān)系探索的方法分類5.2兩個(gè)變量關(guān)系探索統(tǒng)計(jì)原理
1、兩個(gè)數(shù)值變量相關(guān)系數(shù)相關(guān)關(guān)系相關(guān)系數(shù)是探索統(tǒng)計(jì)分析中非常重要的概念,統(tǒng)計(jì)學(xué)經(jīng)常是要研究變量相關(guān),而且要有意識(shí)地尋找相關(guān),相關(guān)系數(shù)不僅提供了兩個(gè)變量相關(guān)程度與方向,更重要是利用相關(guān)關(guān)系可以得到輔助信息。5.2兩個(gè)變量關(guān)系探索統(tǒng)計(jì)原理相關(guān)關(guān)系與相關(guān)系數(shù)的區(qū)別于聯(lián)系相關(guān)關(guān)系是一種陳述,是指兩個(gè)變量從實(shí)踐經(jīng)驗(yàn)和理論分析上確實(shí)存在某種聯(lián)系,但是這種關(guān)系并不是確定的一一對(duì)應(yīng)關(guān)系。相關(guān)系數(shù)一般指皮爾遜相關(guān)系數(shù),是一個(gè)用于描述和衡量變量之間線性相關(guān)程度與方向的統(tǒng)計(jì)量。5.2兩個(gè)變量關(guān)系探索統(tǒng)計(jì)原理具體來(lái)說(shuō)相關(guān)關(guān)系和相關(guān)系數(shù)有區(qū)別和聯(lián)系,相關(guān)系數(shù)只度量了變量間相關(guān)關(guān)系中的一部分,而不是全部。5.2兩個(gè)變量關(guān)系探索統(tǒng)計(jì)原理相關(guān)系數(shù)的分類。根據(jù)研究對(duì)象的變量個(gè)數(shù)不同,相關(guān)系數(shù)可以分為分析一個(gè)變量與一個(gè)變量相關(guān)的簡(jiǎn)單相關(guān)系數(shù),分析一個(gè)變量與一群變量相關(guān)的復(fù)相關(guān)系數(shù);分析一群變量與一群變量相關(guān)的典型相關(guān)系數(shù)(CCA)。
根據(jù)變量特性分析兩個(gè)分類變量(定類或定序)的相關(guān)關(guān)系的列聯(lián)系數(shù)(contingencycoefficient);利用變量的秩(rank)和協(xié)同(concordant)計(jì)算的Spearman相關(guān)和Kendall相關(guān)等非參數(shù)相關(guān)系數(shù)等。5.2兩個(gè)變量關(guān)系探索統(tǒng)計(jì)原理參數(shù)統(tǒng)計(jì)的相關(guān)系數(shù)參數(shù)統(tǒng)計(jì)的相關(guān)系數(shù)又叫皮爾遜相關(guān)系數(shù)或線性相關(guān)系數(shù),被定義為協(xié)方差除以其標(biāo)準(zhǔn)差的乘積。其計(jì)算公式為:5.2兩個(gè)變量關(guān)系探索統(tǒng)計(jì)原理EXCEL函數(shù)的相關(guān)系數(shù)計(jì)算地區(qū)城鎮(zhèn)居民收入農(nóng)村居民收入烏魯木齊市3160415007吐魯番市2586910322哈密地區(qū)2797512951昌吉回族自治州2585615633伊犁哈薩克自治州直屬縣市2420710591塔城地區(qū)2509713583阿勒泰地區(qū)234789377博爾塔拉蒙古自治州2477513127巴音郭楞蒙古自治州2652314154阿克蘇地區(qū)239879831克孜勒蘇柯爾克孜自治州224655434喀什地區(qū)206627201和田地區(qū)225496346城鎮(zhèn)居民收入與農(nóng)村居民民上入有關(guān)系嗎?相關(guān)函數(shù)CORREL地區(qū)農(nóng)林牧漁業(yè)總產(chǎn)值農(nóng)業(yè)產(chǎn)值林業(yè)產(chǎn)值牧業(yè)產(chǎn)值烏魯木齊市40229617012310987207657克拉瑪依市125771456292950141622吐魯番市7796276455756341117426哈密地區(qū)52400928405914997215929昌吉回族自治州34920341493599267981917315伊犁州直屬縣(市)26526671158994631751369985塔城地區(qū)2683334177817517711842304阿勒泰地區(qū)75842040033116786313077博爾塔拉蒙古自治州8558946669865256131041巴音郭楞蒙古自治州2735505210796741633493411阿克蘇地區(qū)3086945245236731320492519克孜勒蘇柯爾克孜自治州3070201773377075106675喀什地區(qū)479088833717221096891201521和田地區(qū)129123785884326506384767計(jì)算新疆農(nóng)業(yè)2015年各項(xiàng)間相關(guān)系數(shù)地區(qū)建筑工程投資安裝工程投資烏魯木齊市90991661662126克拉瑪依市3231076407043石河子市1001379356194吐魯番市2818815429955哈密地區(qū)30040801035062昌吉回族自治州89851461414412伊犁州直屬縣(市)4703188527875塔城地區(qū)3653019256399阿勒泰地區(qū)2135393110576博爾塔拉蒙古自治州2080453128509巴音郭楞蒙古自治州4754290318967阿克蘇地區(qū)4580829836677克孜勒蘇柯爾克孜自治州111605344405喀什地區(qū)7162484593615和田地區(qū)2849295229174新疆2015年投資(萬(wàn)元)pearson相關(guān)系數(shù)的性質(zhì)1.若存在常數(shù)a,b,使得,則等于1時(shí),變量X與Y存在完全線性關(guān)系,對(duì)應(yīng)的數(shù)據(jù)點(diǎn)正好在一條直線。2.當(dāng)相關(guān)系數(shù)等于0時(shí),若r=0,則稱變量X與Y不線性相關(guān),但有可能是其他方式的相關(guān)(比如曲線方式)。3.相關(guān)系數(shù)中變量的地位同等。相關(guān)系數(shù)不考慮因變量與自變量。相關(guān)系數(shù)是對(duì)稱的:r(x,y)=r(y,x)。表明當(dāng)相關(guān)系數(shù)4.標(biāo)準(zhǔn)化變量的協(xié)方差就是相關(guān)系數(shù)。標(biāo)準(zhǔn)化后,標(biāo)準(zhǔn)差為1,相關(guān)系數(shù)等于協(xié)方差除以標(biāo)準(zhǔn)差所以仍等于協(xié)方差。標(biāo)準(zhǔn)化后均值為0,相關(guān)系數(shù)就是夾角余弦。pearson相關(guān)系數(shù)的性質(zhì)5.相關(guān)系數(shù)R表示兩個(gè)變量之間線性相關(guān)關(guān)系。r大于0時(shí)兩個(gè)變量呈正相關(guān),即一個(gè)變量的值越大,另一個(gè)變量的值也會(huì)越大,即一個(gè)變量的值與另外一個(gè)變量值同方向變化;r小于0時(shí)兩個(gè)變量呈負(fù)相關(guān),即一個(gè)變量的值越大另一個(gè)變量的值反而會(huì)越小,即一個(gè)變量的值與另外一個(gè)變量值反方向變化。r的絕對(duì)值在1與-1之間。r的絕對(duì)值越接近1,兩個(gè)變量線性相關(guān)性越強(qiáng);r的絕對(duì)值接近于0時(shí)表明兩個(gè)變量幾乎不存在線性相關(guān)關(guān)系。6.具有線性不變性。若A,B可逆,則有相關(guān)系數(shù)相同,方差和協(xié)方差不同。pearson相關(guān)系數(shù)的性質(zhì)7.相關(guān)系數(shù)易受極端值影響。由于用到均值,而平均數(shù)易受極端值影響,相關(guān)系數(shù)也易受極端值影響。所以需要引入非參數(shù)的具有穩(wěn)健性相關(guān)系數(shù)。8.相關(guān)系數(shù)不管其大小和正負(fù),不管是否檢驗(yàn)顯著,都不表示因果關(guān)系。9.比較兩個(gè)相關(guān)系數(shù)必須樣本量相等。不能隨意比較兩個(gè)相關(guān)系數(shù)大小,樣本量相等才可比較。pearson相關(guān)系數(shù)的性質(zhì)相關(guān)系數(shù)大小的檢驗(yàn)結(jié)果與樣本量有關(guān)系。
相關(guān)系數(shù)大小的解釋取決于上下文研究背景和目的。①與研究背景有關(guān)。如果使用高品質(zhì)的儀器驗(yàn)證一個(gè)物理定律,0.8的相關(guān)性可能是非常低的,但如果用調(diào)查數(shù)據(jù)研究具有復(fù)雜因素的社會(huì)科學(xué)問(wèn)題,0.8相關(guān)系數(shù)可能會(huì)被視為非常高,有可能是一個(gè)重要發(fā)現(xiàn)。pearson相關(guān)系數(shù)的性質(zhì)歷史x1:666869707578語(yǔ)文
x2:677980828295例:為了探究青少年的歷史與語(yǔ)文成績(jī)、身高與體重是否存在一定的關(guān)聯(lián),現(xiàn)隨機(jī)抽取某中學(xué)高三年級(jí)1班學(xué)生,身高x3150158160163166167169170172175175175180182182185185186186189體重x4:50507255658967677090757580809282829696100計(jì)算相關(guān)系數(shù),能否比較兩個(gè)相關(guān)系數(shù)?②與樣本量有關(guān)。樣本量很小時(shí)的相關(guān)系數(shù)一般要高于樣本量較大時(shí)的相關(guān)系數(shù)。③與數(shù)據(jù)類型有關(guān)。時(shí)間序列的相關(guān)系數(shù)一般要高于截面數(shù)據(jù)的相關(guān)系數(shù)。④相關(guān)性統(tǒng)計(jì)檢驗(yàn)是檢驗(yàn)相關(guān)系數(shù)是否這0,這個(gè)標(biāo)準(zhǔn)太低,是一個(gè)必要條件,這個(gè)標(biāo)準(zhǔn)可以否定相關(guān),但不能肯定相關(guān),不能視為有統(tǒng)計(jì)意義的標(biāo)準(zhǔn)。檢驗(yàn)結(jié)果與樣本量有關(guān)系。2.非參數(shù)相關(guān)系數(shù)Pearson相關(guān)系數(shù)不穩(wěn)健且檢驗(yàn)要求雙變量服從于正態(tài)分布的連續(xù)型變量,然而現(xiàn)實(shí)中大部分變量卻并不服從于正態(tài)分布,這時(shí)候采用簡(jiǎn)單相關(guān)系數(shù)來(lái)度量相關(guān)關(guān)系并不合適,應(yīng)當(dāng)采用非參數(shù)Spearman和Kendall相關(guān)系數(shù)來(lái)進(jìn)行度量,具體計(jì)算及應(yīng)用條件如下:①Spearman相關(guān)系數(shù),也稱秩相關(guān)(rankcorrelation),設(shè)有兩個(gè)變量X與Y,R是X的秩,Q是Y的秩,則相關(guān)系數(shù)為:Spearman相關(guān)系數(shù)適用于度量連續(xù)性、離散型的相關(guān)程度,且不易受極端值影響,具有良好的穩(wěn)健性,建議最好用Spearman相關(guān)系數(shù)進(jìn)行實(shí)證研究。Spearman相關(guān)系數(shù)Spearman相關(guān)系數(shù)先排秩rank(排名次),再求相關(guān)系數(shù)變量名加R,“統(tǒng)計(jì)”函數(shù)中選“rank.avg”先對(duì)第一個(gè)數(shù)據(jù)排秩(排名次),注意區(qū)域范圍加$符號(hào)固定。拖黑十字復(fù)制。得到排名次數(shù)據(jù),然后再用CORREL求相關(guān)系數(shù)得到SPEARMAN相關(guān)系數(shù)。R城鎮(zhèn)居民收入排名次R農(nóng)村居民收入排序名次1248265187641010753399121313111112Spearman相關(guān)0.824176練習(xí);計(jì)算新疆投資項(xiàng)目的spearman相關(guān)系數(shù)地區(qū)建筑工程投資安裝工程投資烏魯木齊市90991661662126克拉瑪依市3231076407043石河子市1001379356194吐魯番市2818815429955哈密地區(qū)30040801035062昌吉回族自治州89851461414412伊犁州直屬縣(市)4703188527875塔城地區(qū)3653019256399阿勒泰地區(qū)2135393110576博爾塔拉蒙古自治州2080453128509巴音郭楞蒙古自治州4754290318967阿克蘇地區(qū)4580829836677克孜勒蘇柯爾克孜自治州111605344405喀什地區(qū)7162484593615和田地區(qū)28492952291745.2.3散點(diǎn)圖散點(diǎn)圖
散點(diǎn)圖(ScatterDiagrams)對(duì)于理解兩個(gè)數(shù)值變量間關(guān)系非常重要、極為重要。它提供了一種可以對(duì)數(shù)據(jù)進(jìn)行圖形檢查的方法,變量間關(guān)系的方向和形狀均可在散點(diǎn)圖中表達(dá)出來(lái)。如若研究因果關(guān)系,散點(diǎn)圖表示因變量隨自變量而變化的大致趨勢(shì),據(jù)此可以選擇合適的模型對(duì)數(shù)據(jù)點(diǎn)進(jìn)行擬合。散點(diǎn)圖呈橢圓形時(shí)表示存在線性相關(guān),呈圓形表示無(wú)線性相關(guān)關(guān)系。散點(diǎn)圖可以發(fā)現(xiàn)異常值,可以識(shí)別部分偽相關(guān)。5.2兩個(gè)變量關(guān)系探索統(tǒng)計(jì)原理如何制作散點(diǎn)圖人均收入加盟店數(shù)NumberofFranchises195043210054225060250073300082330095365010740001094500116表5-3收入與加盟店關(guān)系表5.2兩個(gè)變量關(guān)系探索統(tǒng)計(jì)原理方法1:EXCEL散點(diǎn)圖操作:在工具欄中選擇“插入”,選“圖表”,再選擇“散點(diǎn)圖”具體操作步驟如下圖:5.2兩個(gè)變量關(guān)系探索統(tǒng)計(jì)原理圖5-1EXCEL散點(diǎn)圖操作畫橢圓將所有的點(diǎn)包含在內(nèi)練習(xí):作新疆投資兩項(xiàng)與新疆城鄉(xiāng)居民收入關(guān)系的散點(diǎn)圖散點(diǎn)圖分析步驟判斷是否有相關(guān)關(guān)系。當(dāng)散點(diǎn)圖呈圓形時(shí),判斷無(wú)相關(guān)關(guān)系,否則就有相關(guān)關(guān)系。判斷是直線關(guān)系還是曲線關(guān)系。判斷是正相關(guān)還是負(fù)相關(guān)。判斷是否適合進(jìn)行相關(guān)系數(shù)與回歸模型分析。散點(diǎn)圖圖5-2散點(diǎn)圖與相關(guān)系數(shù)3.偽相關(guān)的識(shí)別偽相關(guān)現(xiàn)象(Spuriouscorrelation),在實(shí)際應(yīng)用中,當(dāng)我們計(jì)算兩個(gè)理論上完全沒(méi)有任何關(guān)系的變量相關(guān)系數(shù)時(shí),有時(shí)候得到的相關(guān)系數(shù)較大,而且經(jīng)過(guò)統(tǒng)計(jì)檢驗(yàn)是顯著不為0的,統(tǒng)計(jì)上將這種現(xiàn)象稱之為偽相關(guān)。偽相關(guān)又稱為虛假關(guān)系(Artifactcorrelation),數(shù)學(xué)上高度相關(guān),實(shí)際中沒(méi)有統(tǒng)計(jì)意義的相關(guān)。5.2兩個(gè)變量關(guān)系探索統(tǒng)計(jì)原理原因之一偽相關(guān)現(xiàn)象是由于變量之間都存在某種相同的變化趨勢(shì),或者說(shuō)存在著第三個(gè)變量將他們聯(lián)系在一起,或有潛在變量的存在(潛在變量的影響),兩個(gè)變量X,Y都受某個(gè)潛在變量Z的影響導(dǎo)致共同反應(yīng)(commonresponse)。原因之二時(shí)間序列不平穩(wěn)時(shí)常常出現(xiàn)偽相關(guān)。偽相關(guān)的存在經(jīng)常讓我們得到一些看似有相關(guān)關(guān)系實(shí)際上錯(cuò)誤的信息,這時(shí)候必須找出并消除潛在變量的影響,兩變量之間的真正關(guān)系才能浮出水面。5.2兩個(gè)變量關(guān)系探索統(tǒng)計(jì)原理完全相信散點(diǎn)圖和相關(guān)系數(shù),可能會(huì)得出荒謬的結(jié)論。特別是時(shí)間序列數(shù)據(jù)的相關(guān)。統(tǒng)計(jì)學(xué)的相關(guān)首先要理論分析兩個(gè)變量關(guān)系是否有實(shí)際意義。兩個(gè)沒(méi)有因果關(guān)系的事件,可能基于其他未見的干擾因素(confoundingfactor;或稱潛在變數(shù):lurkingvariable),顯示出統(tǒng)計(jì)學(xué)上的相關(guān),讓人很容易猜想“兩個(gè)事件有所聯(lián)系”,然而這種聯(lián)系并不能通過(guò)更加精細(xì)的檢驗(yàn)。5.2兩個(gè)變量關(guān)系探索統(tǒng)計(jì)原理相關(guān)系數(shù)與偽關(guān)系例如:統(tǒng)計(jì)研究發(fā)現(xiàn)冰淇淋銷量與溺水事故數(shù)高度相關(guān),真正原因是冰淇淋銷量最高的時(shí)候,就是公共泳池的溺水事故發(fā)生得最多的時(shí)候。然而,有可能熱浪造成冰淇淋銷量和公共泳池的溺水事故增多。若視冰淇淋的銷量或遇溺事故為對(duì)方的成因,可能就被偽關(guān)系誤導(dǎo)了。5.2兩個(gè)變量關(guān)系探索統(tǒng)計(jì)原理例:相關(guān)系數(shù)相同,檢驗(yàn)P值一致,但實(shí)際意義完全不同的實(shí)例。下表說(shuō)明:X1Y1X2Y2X3Y3X4Y4108.04109.14107.4686.5886.9588.1486.7785.76137.58138.741312.7487.7198.8198.7797.1188.84118.33119.26117.8188.47149.96148.17148.8487.0467.2466.1366.0885.2544.2643.145.391912.511210.84129.13128.1585.5374.8277.4276.4287.9155.6854.7455.7386.89相關(guān)系數(shù)0.8160.8160.8160.816圖5-3相同的相關(guān)系數(shù)不同的散點(diǎn)圖哪個(gè)相關(guān)系數(shù)是有統(tǒng)計(jì)意義的?那些是偽相關(guān)的?散點(diǎn)圖為什么重要?相關(guān)系數(shù)檢驗(yàn)即使統(tǒng)計(jì)上是顯著的,也要有實(shí)際意義。其它因素共同作用使系數(shù)具有誤導(dǎo)性,通過(guò)檢查有關(guān)散點(diǎn)圖的方向,大小,統(tǒng)計(jì)顯著性、研究的局限性,避免偽相關(guān)。因此,相關(guān)不能僅僅因?yàn)橥ㄟ^(guò)統(tǒng)計(jì)顯著性檢驗(yàn)就說(shuō)它有相關(guān)意義。5.2.5兩個(gè)定性變量列聯(lián)表4.兩個(gè)定性變量的聯(lián)列表列聯(lián)表定義列聯(lián)表(contingencytable)維基百科定義:列聯(lián)表(也稱交叉表)是一種以矩陣的形式顯示(多變量)變量的頻率分布的表格。性別用手習(xí)慣5.2.5兩個(gè)定性變量列聯(lián)表
列聯(lián)表是觀測(cè)數(shù)據(jù)按兩個(gè)或更多屬性(定性變量分類)所列出的頻數(shù)表。又稱交互分類表,所謂交互分類,是指同時(shí)依據(jù)兩個(gè)變量的值,將所研究的個(gè)案分類。交互分類的目的是將兩變量分組,然后比較各組的分布狀況,以尋找變量間的關(guān)系。上例表中按“性別”分,也按“用手習(xí)慣”分類,再交叉分類5.2.5兩個(gè)定性變量列聯(lián)表列聯(lián)表分類(1)變量對(duì)稱性。變量間關(guān)系是對(duì)稱還是不對(duì)稱的,對(duì)稱關(guān)系不區(qū)分自變量與因變量,而不對(duì)稱關(guān)系則要區(qū)分自變量與因變量。字符型變量A影響B(tài),B是否影響A,互相影響就是對(duì)稱的,單方向影響就不是對(duì)稱的,列聯(lián)函數(shù)就是研究是否對(duì)稱。因變量與自變量的擺放位置:一般要求是行變量位置放自變量,列變量位置放因變量。一般根據(jù)自變量的方向計(jì)算百分比。分析性別(自變量)影響用手習(xí)慣(因變量)5.2兩個(gè)定性變量關(guān)系探索(2)2×2列聯(lián)表當(dāng)兩個(gè)字符變量只取兩個(gè)值時(shí)構(gòu)成2×2列聯(lián)表。如性別:男、女;某試驗(yàn):成功、失敗;某種疾?。喊l(fā)生、不發(fā)生;藥物反映:陰性、陽(yáng)性等。二分類變量通常用1和0表示,如成功用1表示,失敗用0表示。5.2兩個(gè)定性變量關(guān)系探索(3)C×R列聯(lián)表兩個(gè)字符型變量每個(gè)均可取多個(gè)值時(shí)構(gòu)成的列聯(lián)表。字符變量可取多個(gè)值,如血型:O、A、B、AB;職業(yè):工、農(nóng)、商、學(xué)、兵等。行row列column頻數(shù)frequency5.2.5兩個(gè)定性變量列聯(lián)表列聯(lián)表分析方法數(shù)據(jù)交叉列聯(lián)表分析主要包括兩個(gè)基本任務(wù):一是根據(jù)收集的樣本數(shù)據(jù),產(chǎn)生二維或多維交叉列聯(lián)表;二是在交叉列聯(lián)表的基礎(chǔ)上,對(duì)兩個(gè)變量間是否存在相關(guān)性進(jìn)行檢驗(yàn)。要獲得變量之間的相關(guān)性,僅僅靠描述性統(tǒng)計(jì)的數(shù)據(jù)是不夠的,還需要借助一些表示變量間相關(guān)程度的統(tǒng)計(jì)量和一些非參數(shù)檢驗(yàn)的方法。5.2.5兩個(gè)定性變量列聯(lián)表行變量放自變量,列變量放因變量,一般有三個(gè)百分比:行百分比,列百分比,總百分比。主要比較分析自變量的行百分比與總百分比。比較和對(duì)照是進(jìn)行科學(xué)研究的基本手段。對(duì)于間距測(cè)度和比例測(cè)度的資料,進(jìn)行分組比較時(shí)可以用均值檢驗(yàn)、方差分析等方法。對(duì)于有較多可取值的序次測(cè)度資料,進(jìn)行分組比較時(shí)可以用各種秩和檢驗(yàn)方法。而對(duì)于名義測(cè)度的資料、有序分類所得的資料(也屬序次測(cè)度),分組比較時(shí)需用交叉分類進(jìn)行統(tǒng)計(jì)描述,交叉分類所得的表格稱為“列聯(lián)表”,統(tǒng)計(jì)推斷(檢驗(yàn))則要使用列聯(lián)表分析的方法------卡方檢驗(yàn)??ǚ椒治鍪怯脕?lái)研究?jī)蓚€(gè)定類變量間是否獨(dú)立即是否存在某種關(guān)聯(lián)性的最常用的方法。應(yīng)用交叉列聯(lián)表卡方檢驗(yàn)時(shí),應(yīng)注意以下幾個(gè)問(wèn)題:(1)列聯(lián)表各單元格中頻數(shù)大小的問(wèn)題,列聯(lián)表中不應(yīng)有期望頻數(shù)小于1的單元格,或不應(yīng)有大量的期望頻數(shù)小于5的單元格。如果交叉列聯(lián)表中有20%以上的單元格中的期望頻數(shù)小于5,則一般不宜用卡方檢驗(yàn)。單元格頻數(shù)少時(shí)注意合并單元格。(2)樣本量大小的問(wèn)題。卡方值的大小會(huì)受到樣本量大小的影響,因此卡方檢驗(yàn)受樣本量的影響很大。同樣兩個(gè)變量,不同的樣本量,可能得出不同的結(jié)論。例如:在某列聯(lián)表中,若各個(gè)單元格的樣本數(shù)均同比例擴(kuò)大10倍,卡方值也會(huì)隨之?dāng)U大10倍。由于自由度和顯著度水平未改變,卡方的臨界值不變,從而使拒絕原假設(shè)的可能性增加。因此,有必要對(duì)Pearson卡方值進(jìn)行修正,以消除樣本量的影響。可采用列聯(lián)系數(shù)、Phi系數(shù)等進(jìn)行修正。(3)對(duì)變量取值的不同分類的問(wèn)題。對(duì)變量取值的不同分類會(huì)引起卡方值的改變,有可能得到不同的結(jié)論。所以在分類時(shí)不能隨意,要有理論或統(tǒng)計(jì)上的依據(jù)。特別是對(duì)定距或定序變量,要先將變量的取值分組歸類,才能使用卡方分析,而且由于分組的方法不同,也會(huì)得出不同的結(jié)論;同時(shí),對(duì)于定距或定序變量用卡方分析,沒(méi)有充分利用它們的數(shù)量信息。5.3兩個(gè)字符型變量的關(guān)系探索1.兩個(gè)字符型變量的關(guān)系背景自變量與因變量均是字符型變量時(shí)的情況。例如:研究吸煙(吸煙,不吸煙)影響肺癌(肺癌,非肺癌)。研究酒駕(酒駕,非酒駕)影響交通事故(發(fā)生事故,沒(méi)發(fā)生事故)。字符型變量分為分類型和有序型,組合就有三種情況:分類與分類,分類與有序,有序與有序。5.3兩個(gè)字符型變量的關(guān)系探索2.兩個(gè)字符變量關(guān)系的數(shù)據(jù)概括(1)用EXCEL的透視表法進(jìn)行兩個(gè)定性變量的探索分析兩個(gè)字符型變量的關(guān)系探索舉例例5.1對(duì)員工名冊(cè)進(jìn)行分析,求兩個(gè)定性變量探索的列聯(lián)表,數(shù)據(jù)示例如表5-7所示,全部數(shù)據(jù)參照文件“SJ5-1.xlsx”。復(fù)習(xí)取出員工號(hào)的部門代碼。5.3兩個(gè)字符型變量的關(guān)系探索用excel列聯(lián)表分析技術(shù)職稱與性別列聯(lián)表excel操作步驟Excel(本文所用excel版本為2013)中創(chuàng)建列聯(lián)表的步驟如下:(1)點(diǎn)擊”插入”->”數(shù)據(jù)透視圖“->”數(shù)據(jù)透視圖和數(shù)據(jù)透視表”,彈出如圖5.4所示對(duì)話框,在數(shù)據(jù)區(qū)域選中待分析數(shù)據(jù),選擇放置數(shù)據(jù)透視表的位置為”新工作表“,然后點(diǎn)擊”確定“。5.3兩個(gè)字符型變量的關(guān)系探索圖5-4創(chuàng)建數(shù)據(jù)透視表5.3兩個(gè)字符型變量的關(guān)系探索(2)完成(1)中的操作,excel會(huì)彈出如圖5.5所示工作界面。5.3兩個(gè)字符型變量的關(guān)系探索(3)在“數(shù)據(jù)透視圖字段”勾選“性別”和“學(xué)歷”,如圖5.6所示。勾選完成后,“技術(shù)職稱”和“性別”兩個(gè)字段會(huì)自動(dòng)進(jìn)入?yún)^(qū)域“行”,然后將區(qū)域“行”中的字段“性別”拖入?yún)^(qū)域“值”中,最后再一次的將字段“性別”拖入?yún)^(qū)域“列”中。5.3兩個(gè)字符型變量的關(guān)系探索圖5-6數(shù)據(jù)透視表工作界面5.3兩個(gè)字符型變量的關(guān)系探索完成(3)中的工作,就會(huì)產(chǎn)生下表所示結(jié)果。表5-8技術(shù)職稱與性別頻數(shù)列聯(lián)表計(jì)數(shù)項(xiàng):性別列標(biāo)簽行標(biāo)簽初級(jí)二初級(jí)一高級(jí)中級(jí)總計(jì)男285202154216857女3332682123301143總計(jì)61847036654620005.3兩個(gè)字符型變量的關(guān)系探索(4)點(diǎn)擊區(qū)域“數(shù)值”中的字段“計(jì)數(shù)項(xiàng):性別”,彈出如圖5-7所示列表,選擇“值字段設(shè)置”,彈出如圖5-7所示對(duì)話框,按照?qǐng)D中紅圈標(biāo)記進(jìn)行設(shè)置,點(diǎn)擊“確定”,就會(huì)得到如表5-8所示結(jié)果。5.3兩個(gè)字符型變量的關(guān)系探索5.3兩個(gè)字符型變量的關(guān)系探索5.3兩個(gè)字符型變量的關(guān)系探索學(xué)歷與技術(shù)職稱列聯(lián)表Excel計(jì)算5.3兩個(gè)字符型變量的關(guān)系探索注意:做表時(shí),最好是三線表,兩邊不封口,表中字體為宋體5號(hào),表號(hào)及說(shuō)明為宋體5號(hào)加粗,放在表的上面,表號(hào)與表不能分頁(yè)。初級(jí)二初級(jí)一高級(jí)中級(jí)總計(jì)男285202154216857女3332682123301143總計(jì)6184703665462000表10性別與職稱分布表復(fù)習(xí)一維作圖二維列聯(lián)表作圖
初級(jí)二初級(jí)一高級(jí)中級(jí)男285202154216女333268212330
人數(shù)男857初級(jí)二333初級(jí)一268高級(jí)212中級(jí)330復(fù)合圖步驟1、選擇數(shù)據(jù)2、插入圖中選擇“餅圖”中的復(fù)合圖3、選中餅圖右鍵點(diǎn)擊圖餅選擇“設(shè)置數(shù)據(jù)系列格式”4、設(shè)計(jì)第二圖的個(gè)數(shù)45,選擇圖例6、修改“其它”為“女”5.4兩個(gè)數(shù)值型變量關(guān)系探索分析1.兩個(gè)數(shù)值型變量關(guān)系研究背景分析兩個(gè)有關(guān)聯(lián)數(shù)值型變量關(guān)系舉例:分析收入影響儲(chǔ)蓄的關(guān)系。分析居民日常生活中收入與消費(fèi)的關(guān)系,通常是收入越高消費(fèi)越高。分析某生產(chǎn)廠家的生產(chǎn)規(guī)模與銷售額、銷售量的影響。分析某公司的生產(chǎn)利潤(rùn)與生產(chǎn)成本的關(guān)系,生產(chǎn)成本包括(設(shè)備租金,工人工資、原材料費(fèi)用等)。5.4兩個(gè)數(shù)值型變量關(guān)系探索分析2.兩個(gè)數(shù)值型變量關(guān)系探索數(shù)值概括兩個(gè)數(shù)值型變量間關(guān)系的探索數(shù)值概括主要是計(jì)算相關(guān)系數(shù),如pearson相關(guān)系數(shù),spearman相關(guān)系數(shù),kendall相關(guān)系數(shù)等。5.4兩個(gè)數(shù)值型變量關(guān)系探索分析EXCEL相關(guān)系數(shù)計(jì)算方法(1)函數(shù)法correl.將兩個(gè)身高數(shù)據(jù)輸入到“統(tǒng)計(jì)”函數(shù)correl中=CORREL(B1:B11,A1:A11)=0.981804955.4兩個(gè)數(shù)值型變量關(guān)系探索分析(2)“數(shù)據(jù)分析”工具法在工具欄“數(shù)據(jù)”找“數(shù)據(jù)分析”,(需要加載過(guò)程見第四章)中選擇“相關(guān)系數(shù)”5.4兩個(gè)數(shù)值型變量關(guān)系探索分析結(jié)果格式為下三角:
父親身高兒子身高父親身高1兒子身高0.9818051可以計(jì)算多個(gè)變量的相關(guān)系數(shù)5.4兩個(gè)數(shù)值型變量關(guān)系探索分析例5.3分析農(nóng)村居民收入X1,農(nóng)村居民消費(fèi)Y1的相關(guān)關(guān)系,數(shù)據(jù)參照SJ5-2.xlsx。5.4兩個(gè)數(shù)值型變量關(guān)系探索分析
3.兩個(gè)數(shù)值變量關(guān)系的可視化分析兩個(gè)數(shù)值型變量的可視化方法主要有散點(diǎn)圖,拆線圖。EXCEL兩個(gè)變量關(guān)系圖形展示父母身高與子女身高關(guān)系點(diǎn)圖操作步驟:⑴、選擇數(shù)據(jù)A1:B11,注意變量的位置,EXCELi能隨意放置變量的位置,由于是父母身高影響子女,所以要將父親身高放左邊,對(duì)應(yīng)X軸,兒子身高放右邊,對(duì)應(yīng)Y軸。⑵、在工具欄中選擇“圖表”,再選擇“散點(diǎn)圖”,如下圖所示:5.4兩個(gè)數(shù)值型變量關(guān)系探索分析5.4兩個(gè)數(shù)值型變量關(guān)系探索分析散點(diǎn)圖的分析。主要分析方向與形狀。方向是X增大,Y也增大,正向。形狀基本呈現(xiàn)直線或細(xì)窄橢圓形,說(shuō)明兩個(gè)變量真實(shí)的相關(guān)程度較高,可以進(jìn)行相關(guān)系數(shù)計(jì)算和回歸模型分析。5.4兩個(gè)數(shù)值型變量關(guān)系探索分析圖5-11農(nóng)村收入與消費(fèi)散點(diǎn)圖5.5一個(gè)數(shù)值與一個(gè)字符型變量關(guān)系探索分析1.一個(gè)定性變量與一個(gè)數(shù)值變量關(guān)系探索背景一個(gè)定性變量與一個(gè)數(shù)值變量的關(guān)系背景舉例定性變量為自變量,數(shù)值變量為因變量,定性變量為分組變量,將總體分成多個(gè)組,比較各組間的一個(gè)數(shù)值變量的差異。研究不同地區(qū)的人均收入差距,全國(guó)東、中、西部的人均收入比較。研究城鎮(zhèn)和非城鎮(zhèn)居民收入和消費(fèi)水平差距。5.5一個(gè)數(shù)值與一個(gè)字符型變量關(guān)系探索分析2.一個(gè)定性變量與一個(gè)數(shù)值變量關(guān)系數(shù)據(jù)概括例5.4比較分析全國(guó)東、中、西部的人均工資收入。數(shù)據(jù)來(lái)源:2013年中國(guó)統(tǒng)計(jì)年鑒。說(shuō)明:西部地區(qū)包括的省級(jí)行政區(qū)共12個(gè),分別是四川、重慶、貴州、云南、西藏、陜西、甘肅、青海、寧夏、新疆、廣西、內(nèi)蒙古;中部地區(qū)有8個(gè)省級(jí)行政區(qū),分別是山西、吉林、黑龍江、安徽、江西、河南、湖北、湖南,東部地區(qū)包括北京、天津、河北、遼寧、上海、江蘇、浙江、
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025河南駐馬店上蔡縣第二高級(jí)中學(xué)教師招聘25人模擬試卷附答案詳解
- 消保知識(shí)專題培訓(xùn)課件
- 2025年濰坊諸城市市屬國(guó)有企業(yè)公開招聘工作人員(9名)模擬試卷及答案詳解(典優(yōu))
- 2025貴州黃平縣中醫(yī)醫(yī)院醫(yī)共體單位紙房鄉(xiāng)衛(wèi)生院招聘2名護(hù)理人員考前自測(cè)高頻考點(diǎn)模擬試題附答案詳解(模擬題)
- 安全培訓(xùn)蔚來(lái)課件
- 2025年宿州市中醫(yī)醫(yī)院招聘衛(wèi)生專業(yè)技術(shù)人員36人模擬試卷附答案詳解(突破訓(xùn)練)
- 2025空軍軍醫(yī)大學(xué)口腔醫(yī)院社會(huì)招聘(119人)考前自測(cè)高頻考點(diǎn)模擬試題附答案詳解
- 2025廣西賀州市人民醫(yī)院招聘殘障人士人員模擬試卷含答案詳解
- 2025湖北恩施來(lái)鳳縣星熠文化科技有限責(zé)任公司招聘財(cái)務(wù)人員的模擬試卷附答案詳解(突破訓(xùn)練)
- 涂料應(yīng)用知識(shí)培訓(xùn)班課件
- (2024新版)七上第14課:絲綢之路的開通與經(jīng)營(yíng)西域
- 小兒鼾癥課件
- 國(guó)開2025年《人文英語(yǔ)4》綜合測(cè)試答案
- 算力:新質(zhì)生產(chǎn)力的核心引擎
- 學(xué)生歷史思維品質(zhì)提升策略淺識(shí)
- DB32∕T 3812-2020 建筑同層排水工程技術(shù)規(guī)程
- 《創(chuàng)傷失血性休克中國(guó)急診專家共識(shí)(2023)》解讀 2
- 銀行柜臺(tái)人員手語(yǔ)課件
- 項(xiàng)目部領(lǐng)導(dǎo)帶班記錄
- 省委消防安全知識(shí)培訓(xùn)課件
- 2025年中國(guó)心力衰竭診斷和治療指南
評(píng)論
0/150
提交評(píng)論