《統(tǒng)計分析與SPSS的應(yīng)用》課程精講

SPSS統(tǒng)計分析軟件概述
SPSS的英文縮寫來源于以下兩個:社會科學(xué)統(tǒng)計軟件包和統(tǒng)計產(chǎn)品與服務(wù)解決方案。

SPSS目前來講是全球最簡便、最流行的數(shù)據(jù)統(tǒng)計分析軟件,并且對其他數(shù)據(jù)庫的文件都可直接讀?。嫒菪院茫?。
操作的時候主要分為數(shù)據(jù)編輯器窗口(主菜單與工具欄還有工作區(qū),右下角代表spss的狀態(tài))和查看器窗口,用于輸出數(shù)據(jù)的結(jié)果。
spss的運行方式有三張:完全窗口菜單方式和程序運行方式還有菜單程序混合運行方式,一般情況下我們都是用完全窗口菜單方式進行處理。

界面和保存
當(dāng)我們打開spss的時候會出現(xiàn)一個對話框,詢問我們是打開一個已有的文件還是新建一個新的spss,關(guān)掉后默認(rèn)選擇后者,打開一個新的英文窗口(調(diào)成中文的方法:右上角Edit——Options——Language——,找到Output里的chinese和User Interface里的Chinese。另外我們的電腦如果語言不兼容可以點擊下面的Unicode通用字符集就會避免這種問題)。上面的一行是主菜單欄,下面的是工具欄,再往下的表格區(qū)域叫數(shù)據(jù)編輯區(qū),最左下角有一個數(shù)據(jù)視圖和變量視圖,右下角是spss的程序狀態(tài)欄。然后我們再看一下查看器的窗口可以發(fā)現(xiàn)也是主菜單加工具欄,而再往下就不是工作區(qū)了而是顯示區(qū),如果以后做項目需要保存可以保存。在數(shù)據(jù)編輯器的幫助里可以找到spss的幫助網(wǎng)站去學(xué)習(xí),前提是要在聯(lián)網(wǎng)的狀態(tài)下。Spss有兩個窗口,所以最后會保存成兩個文件分,分別是sav和spv文件。
問卷表與數(shù)據(jù)結(jié)構(gòu)
在spss中的數(shù)據(jù)編輯器窗口中每一行代表每一份調(diào)查問卷的結(jié)果,每一列代表問卷的問題。

定義變量
定義變量實際上就是定義spss文件的數(shù)據(jù)結(jié)構(gòu),而定義變量操作位于數(shù)據(jù)編輯器窗口的“變量視圖”,對變量的定義包括11項內(nèi)容,一下是數(shù)據(jù)編輯窗口的變量視圖界面。

數(shù)字不能作為英文字母的開頭,而包括內(nèi)置函數(shù)and后or之類的等等,寬度如果沒有設(shè)置就會按照系統(tǒng)默認(rèn)的形式。缺失就是對一些有問題或不合理的數(shù)據(jù)進行篩選出來并進行標(biāo)記。
數(shù)據(jù)的錄入、編輯和保存
變量視圖當(dāng)中的最左邊一列就是我們所定義的內(nèi)容,想要插入的話就直接右鍵點擊插入就好,想要改變名稱就雙擊全選然后刪除名字輸入新的,想要刪除可右擊后點擊清除(E)。在數(shù)據(jù)視圖當(dāng)中找到我們想要插入一列就右鍵點擊添加,刪除也是同樣的道理,至于對這個字段進行修改,可在變量視圖當(dāng)中去做,如果想復(fù)制一行的個案或數(shù)據(jù)可直接右擊選中的區(qū)域復(fù)制然后到自定義位置右擊粘貼即可。我們可以在編輯當(dāng)中點擊找到個案,然后會看到轉(zhuǎn)到個案號,輸入的數(shù)字就是我們的第100行:如果不想按照行數(shù)查找而是按照內(nèi)容查找,可在【編輯】里找到查找(F),然后輸入的內(nèi)容點擊查找下一個就會顯示出我們要搜索的內(nèi)容,替換也是在這個彈出的窗口進行。保存的話可在文件中找到保存然后點保存或者另存為都是可以的,還可以對其保存類型進行設(shè)置,一般情況下都是保存一個sav的文件。
讀取數(shù)據(jù)
不同軟件之間的數(shù)據(jù)交換是極為重要的,而spss是一個兼容性很好的軟件,可讀取很多種不同文件格式的內(nèi)容。在【打開】里有一個打開數(shù)據(jù),我們可以選擇其數(shù)據(jù)類型打開我們想要打開的不同類型的文件。
第二種就是使用文本想到導(dǎo)入文本數(shù)據(jù),文本數(shù)據(jù)的擴展名一般為txt、dat、csv、tab等等,打開之后會彈出文本導(dǎo)入向?qū)У慕缑?,我們對其進行設(shè)置后即可,做完后大概率會發(fā)現(xiàn)基本上除中文亂碼意外沒有特別的問題。文件——導(dǎo)入數(shù)據(jù)——數(shù)據(jù)庫——新建查詢這種方式可以打開一個數(shù)據(jù)庫(如果不是正版軟件可能會缺失),找到我們要打開的數(shù)據(jù)庫文件后選擇數(shù)據(jù)后點擊完成就完成了數(shù)據(jù)庫的導(dǎo)入。
文件的縱向合并(舉一個通俗的例子來說明,假設(shè)班里有七個同學(xué),數(shù)據(jù)集中有這幾個同學(xué)的信息,現(xiàn)在又來了幾個同學(xué)我們需要把這幾個同學(xué)的信息加到原先的數(shù)據(jù)集中,這個過程就叫做數(shù)據(jù)的縱向合并)
將一個spss文件中的數(shù)據(jù)追加到另一個數(shù)據(jù)文件中,要求兩個spss文件之間要有同樣的內(nèi)容(變量名)。例如說我們是一個公司來了新成員,要把新成員名單的信息導(dǎo)入到總公司的全部人員名單中,就是兩個數(shù)據(jù)之間的合并。點擊【數(shù)據(jù)】——合并文件——添加個案,我們要打開要添加數(shù)據(jù)的spss文件。

左下角的活動數(shù)據(jù)集是我們當(dāng)前進行操作的變量,數(shù)據(jù)集2是我們要追加的數(shù)據(jù)集的變量,income和zc1是數(shù)據(jù)集2的變量,這兩個文件之中相同的變量(都有的)已經(jīng)放到了右邊,我們把需要配對的成對變量按ctrl進行配對,沒有配對的就直接添加我們要添加的內(nèi)容即可。
文件的橫向合并(舉一個通俗的例子,有一個數(shù)據(jù)集中存儲的學(xué)生的信息和語文成績,另一個數(shù)據(jù)集中存儲著學(xué)生的信息和英語成績,現(xiàn)在我們想要把英文成績和語文成績都合并到一個數(shù)據(jù)集中這個過程就叫做橫向合并)
點擊【數(shù)據(jù)】——合并文件——添加變量,找到我們要選用的數(shù)據(jù)表然后彈出一個對話框。

默認(rèn)就是基于鍵值的一對一合并,對此兩個文件中相同的變量的值就是職工號,點擊確定后我們就會發(fā)現(xiàn)多了一列bonus(職工獎金)的列,如果職工號里沒有40號這個個案也會整個增加一條個案。
橫向的分析指的是和類似的事物或者同類的事物進行比較。而縱向比較指的是和相同事物的不同歷史時期的情況進行比較。
數(shù)據(jù)排序
排序在數(shù)據(jù)分析中的作用:可以快速找到可能的離群點,一些操作需要排序作為前提??梢允股蛞部梢允墙敌颍梢允挂粋€變量的排序也可以是多個變量的排序。

點擊【數(shù)據(jù)】——個案排序,找到我們首先要排序的變量轉(zhuǎn)移到排序依據(jù),然后下面有排序順序的選擇,點擊確定即可,同時后轉(zhuǎn)移的變量作為次排序變量。
查找重復(fù)個案
通常在數(shù)據(jù)分析的時候不應(yīng)該出現(xiàn)重復(fù)的變量,例如數(shù)據(jù)錄入的時候出現(xiàn)疏忽導(dǎo)致編號或?qū)W號等個案就需要對其進行查找。【數(shù)據(jù)】——標(biāo)識重復(fù)個案,將我們懷疑可能重復(fù)的個案拖到定義匹配個案的一局當(dāng)中,在查看器中可查找出有效的個案和缺失的個案,并且說明有幾個個案重復(fù)了。
變量計算
變量計算根據(jù)用戶給出的表達(dá)式對原本的變量進行必要的轉(zhuǎn)換,主要包括以下集中類型,一種是spss的算式表達(dá)式(+、-、*、/、**)或spss函數(shù)以及spss變量名所組成,第二種是spss函數(shù),如下圖:

第三種是spss條件表達(dá)式,有spss關(guān)系運算符、邏輯運算符、spss函數(shù)以及spss變量名組成的式子。例如我們這次對于職業(yè)認(rèn)知想要把Q1到Q6累加成一個新的變量,點擊【轉(zhuǎn)換】——計算變量,彈出一個對話窗口。

首先設(shè)置一下目標(biāo)變量,也就是變量名,這里設(shè)為x2,數(shù)字表達(dá)式就是將四個數(shù)字相加,再看數(shù)據(jù)視圖最后面有一個新的x2的變量,是由Q1到Q6相加而成。我們也可以用條件表達(dá)式的方式做,也是同樣的操作點擊【轉(zhuǎn)換】——計算變量,彈出一個對話窗口,將其累加,不同的是我們要點擊一下左下角的如果。

點擊在個案滿足條件是包括這個選項,然后將性別拖到右邊的白框中加上=1(找到所有的男生),那么最后的結(jié)果就是只計算性別為1的變量,客觀查到性別為0的x1是沒有值的,所以這個相當(dāng)于在計算的同時滿足該條件的內(nèi)容進行計算,不滿足的不做生成變量。
個案選取
個案選取也就是數(shù)據(jù)的選取,就是從已收集到的大批數(shù)量據(jù)(總體)中按照一定的規(guī)則抽取部分?jǐn)?shù)據(jù),個案選取的方法可以按照條件選取,也可以按照隨機選取或者選取指定區(qū)間中的樣本。個案選取可提高數(shù)據(jù)分析效率和檢驗?zāi)P?。點擊【數(shù)據(jù)】——選擇個案,彈出了一個對話框,選擇所有個案就是沒有選擇,后面我們可以選擇所有個案的百分比(隨機個案樣本)和條件個案還有選擇個案的范圍,也可以使用過濾變量,例如我們選擇性別,再進行一篩選。

點擊如果條件滿足,點擊Q3后要讓他不等于1(就是選擇了2和3選項的人),Q3<>1。最后面新增了一個都是1和0的變量,是0則是不滿足條件的變量,左邊的個案也會對應(yīng)的被斜線所劃掉。
個案內(nèi)的值進行計數(shù)
計數(shù)是指對所有或部分個案,進行若干個變量中有幾個變量的值落在指定的區(qū)域內(nèi),并將結(jié)果存入新變量中。指定需要參與計數(shù)的變量。點擊【轉(zhuǎn)換】——對個案中的值進行計數(shù)。

首先目標(biāo)變量就是我們要生成的變量的值,目標(biāo)白胸前可設(shè)可不設(shè),就是對目標(biāo)變量進行一個說明,定義值就是一個計數(shù)區(qū)間,計數(shù)區(qū)間就是對值的操作,定義一個為0的值,然后下面的如果和上面在學(xué)習(xí)變量計算時的用法類似,點擊確定后我們會看到最后生成了一個我們輸入的變量名的變量,其中因為我們選擇了1到16的問題選擇0選項的數(shù)量,因此gss下的數(shù)字是多少就說明有多少人在0到16個問題匯總有幾個0,同時也可以對其用頻率的方式。

分類匯總
分類匯總是指按指定的分組變量值對樣本分組。例如說對比男女職工的平均年齡和獎金。
首先打開一個大學(xué)生職業(yè)生涯規(guī)劃的文件,然后根據(jù)專業(yè)分類和x1(專業(yè)和職業(yè)認(rèn)知得分),點擊【數(shù)據(jù)】——匯總數(shù)據(jù),專業(yè)分類移入分界變量,x1移入變量摘要,變量摘要默認(rèn)是一個均值,如果需要改變的話點擊函數(shù)可以改變成其它的。個案數(shù)就是樣本的數(shù)量,我們可以直接寫樣本量。后面保存的方式我們可以創(chuàng)建一個匯總變量數(shù)據(jù)集,也可以創(chuàng)建一個新的數(shù)據(jù)集。這里我們新建一個數(shù)據(jù)表,

這個實驗我們是用專業(yè)分類來進行的分類匯總,而數(shù)據(jù)則選用的是x1,x1的值就是q1+q2+q3+q4,該種方式可以得知不同專業(yè)的不同人得分的狀態(tài)。
數(shù)據(jù)分組
首先要制定按哪個變量進行分組,并定義分組的區(qū)間,最后要注意制定存放分組結(jié)果的組標(biāo)志變量。例如工資按照不同結(jié)果進行分組。

本次案例我們相對專業(yè)和職業(yè)認(rèn)知得分(x1)進行分組,因為Q1Q2Q3Q4的值分別介于0~5分,所以x1的值介于0~20之中,之后我們設(shè)定分組區(qū)間,例如1到5設(shè)為1,5到10設(shè)為2,10到15設(shè)為3,15到20設(shè)為4。點擊【轉(zhuǎn)換】——重新編碼為不同變量,首先找到輸入變量x1拖入數(shù)字變量,然后我們要制定一個輸出變量,名稱必填而標(biāo)簽可填可不填,然后點擊【新值和舊值】,對其范圍進行設(shè)置,從最低到值設(shè)為5就是0到5,并在【新值】下設(shè)值的名稱為1,后續(xù)在范圍中進行類似操作名稱依次為2、3、4,完成全部操作后下面還有個如果,這個如果我們默認(rèn)是包括所有個案,但同時我們也可以指定其內(nèi)容要求,例如像之前所操作只顯示性別為1也就是男性的內(nèi)容。最后的輸出就可以看到多出了一個x1_new,這個數(shù)據(jù)變量所呈現(xiàn)出的就是1到4的分組情況,1就是1組,2就是2組,而這個數(shù)據(jù)是為了以后做準(zhǔn)備,我們點擊【分析】——描述統(tǒng)計——頻率,然后我們可把x1_new拖過來,然后點擊統(tǒng)計,可以選擇我們將我們想要的數(shù)據(jù)勾選,還可以做圖標(biāo),然后點確定即可。
數(shù)據(jù)專置
將數(shù)據(jù)的橫和列進行轉(zhuǎn)換,在excel里可以輕松實現(xiàn),選擇需要進行行列轉(zhuǎn)換的內(nèi)容,快捷鍵按下Ctrl+C進行復(fù)制,在空白區(qū)域點擊一個單元格,快捷鍵按下Ctrl++Alt+V,則彈出選擇性粘貼對話框,勾選“ 轉(zhuǎn)置 ”,點擊“ 確定 ”。返回到工作表界面后行列互換成功。
而在spss里如何實現(xiàn)呢?如下圖:

首先打開我們所需要用的職工數(shù)據(jù)表,然后點擊變量視圖可以看到有職工號性別年齡等等,它沒有排序,我們想把編號變成行,上面的變量變成列,點擊【數(shù)據(jù)】——轉(zhuǎn)置即可,名稱變量如果不選會自動給出一組的變量,選的話往往是選擇一個不會重復(fù)唯一的量。而最早的時候spss變量不能用數(shù)字作為開頭,所以如果用數(shù)字進行開頭,它會軟件自動加一個英文符號。
spss的加權(quán)處理
例如調(diào)查觀眾對春節(jié)聯(lián)歡晚會是否滿意,不同百分比的人對該晚會會有不同的打分。
我們打開數(shù)據(jù)編輯器,然后點擊血壓和年齡,年齡這里有個分類,年齡段用不同的數(shù)字排序,血壓范圍也用不同的數(shù)字排序。這種情況下就需要我們用加權(quán)處理。軟件的最右下角顯示權(quán)重全開,就是代表我們可以對這個進行加權(quán)處理、所以以后我們做任何題目或練習(xí)時無法處理,可能是加權(quán)狀態(tài)沒有調(diào)整好。

可以看到當(dāng)我們沒有對數(shù)據(jù)進行加權(quán)后都是1或3之類的,所以說加權(quán)處理的意義在于經(jīng)過加權(quán)處理之后會得到我們所理想的結(jié)果,而當(dāng)我們不用的時候一定要把加權(quán)處理取消掉。
數(shù)據(jù)拆分
一個是對數(shù)據(jù)進行排序,另一個是對數(shù)據(jù)進行分組,打開數(shù)據(jù)編輯器,然后打開職工數(shù)據(jù),我們可以看到變量視圖有標(biāo)簽名稱之類的,發(fā)現(xiàn)職稱沒有排序,如果我們想要對其進行拆分,分組的方式用職稱,我們點擊【數(shù)據(jù)】——拆分文件,然后出現(xiàn)一個對話框,然后選擇我們要作為拆分的變量依據(jù)點擊確定,然后可以看到文件拆分的結(jié)果就會按照1234重新排序并分組,并可以在右下角查看到拆分依據(jù)就代表它已經(jīng)是拆分過了的。
頻數(shù)分析

案例中使用的是大學(xué)生職業(yè)生涯規(guī)劃表,書中要求讓我們調(diào)查專業(yè)分布的狀況以及對職業(yè)規(guī)劃相關(guān)知識的了解,對這兩個變量進行頻數(shù)的分析:【分析】——描述統(tǒng)計——頻率,然后出現(xiàn)一個頻率對話框,將我們要分析的東西挪道變量當(dāng)中,點擊右側(cè)的圖標(biāo)選擇條形圖,然后點擊格式按照降序排序,點擊確定即可。

可通過上圖得知共919個個案,而又五個個案是缺失的,并分別配有不同的個案分類分別對應(yīng)著多少個案與百分比是多少,規(guī)劃課程知道亦是如此顯示。

雙擊該圖片可進入圖標(biāo)編輯器,對這個表格進行編輯與修飾,可以調(diào)整顏色或添加字體等等。那么如果說讓我們用性別去對其進行分別顯示,那么根據(jù)變量視圖的性別一列可得知,點擊【數(shù)據(jù)】——拆分文件——比較組,然后將要進行分組的依據(jù)挪到里面就已經(jīng)按性別進行拆分過了,再按上面相同的操作顯示圖標(biāo)。

由上圖可知男生的個案有369,女生有529,而百分位數(shù)上百分之25的男生是8分,百分之50的男生是9分......最終可以看出男生的認(rèn)知得分偏低,9是缺失值的表現(xiàn),顯示有19個,沒有計算的是兩個。
計算基本描述統(tǒng)計量
圖一

圖二

圖三

圖四

案例:打開大學(xué)生生涯職業(yè)規(guī)劃案例,我們要建設(shè)專業(yè)基本認(rèn)知統(tǒng)計量,計算男女生之間的差異。在做基本描述統(tǒng)計量時點擊【分析】——描述統(tǒng)計——描述,然后我們將專業(yè)與認(rèn)知得分放到變量當(dāng)中,在最右側(cè)的選項設(shè)置均值和標(biāo)準(zhǔn)差、峰度、偏度等,然后點擊確定后就可以看到我們專業(yè)和職業(yè)認(rèn)知的均值是13.2762,標(biāo)準(zhǔn)差是0.15150......

那么接下來我們比較一下男生和女生之間的差異,要做的是分類變量,首先要進行文件拆分:【數(shù)據(jù)】——拆分文件,點擊比較組,然后將分組依據(jù)設(shè)置為性別點擊確定,然后我們在數(shù)據(jù)編輯器的右下角就可以得知拆分依據(jù)是性別了,文件拆分成功。之后仍然點擊【分析】——描述統(tǒng)計——描述,左下角有一個將標(biāo)準(zhǔn)化值另存為變量,勾選后點擊確定可以看到變量視圖多了一個x1z的變量,到時候后續(xù)可以通過這一列直接找到該表格。表格中,男生的專業(yè)認(rèn)知得分是8.9分,女生是16.11,因此說明男生的專業(yè)認(rèn)知得分遠(yuǎn)不如女生。從標(biāo)準(zhǔn)差錯誤的一列可得男生的評分是低估了,女生的評分是高估了,對于有缺失值的是16個個案,而有兩個是不清楚。
交叉分組下的頻數(shù)分析

卡方檢驗要求行變量和列變量是相互獨立的,例如列是成績評價,行是男女,研究成績和性別的關(guān)系,而我們此次研究的是性別與專業(yè)選擇的關(guān)系。點擊【分析】——描述統(tǒng)計——交叉表,然后會出現(xiàn)一個交叉表的對話框,行變量放入性別,列變量放入志愿決定因素,統(tǒng)計時我們點擊卡方檢驗,單元格我們要點擊期望的計數(shù),百分比要知道行列總計等等,格式是行的升序,左下角勾選上條形圖可以更直觀地顯示結(jié)果。

由上圖可知有二百七十個男同學(xué)是因為興趣報的,而百分之三十四點五的人是因為時常就業(yè)的因素,女同學(xué)沒有人是因為興趣愛好,而是考慮時市場就業(yè)、能力優(yōu)勢等。下面的卡方建業(yè)可以看到p值【雙側(cè)】,以0.05為界,小于0.05則說明差異性很大,大于0.05則說明差異性不大,由柱狀圖也可以清楚地看到男女生差異是有的而且很大。下方的年齡和血壓的交叉表關(guān)系也是如此:

卡方檢驗設(shè)為0.05的話因為值大于0.05,則說明行變量和列變量是相互獨立的,也就說明血壓和年齡之間沒有什么差異。
多選項分析

多選項二分法意思就是將多選項的每個答案都定義為兩個值,例如說有個問題有八個選項,我們在涉及的時候都將這八個選項設(shè)為0或1,意為兩個答案。多選項分類法就是好比在八個問題中選三個變量,在這八個選項中挑一個答案。
此次練習(xí)調(diào)查老年人保險的原因

q13a和q13b和q13c三個變量除了名稱不同外都是一樣的,點擊【分析】——多重響應(yīng)——定義變量集。

集合中的變量就是把我們的q13abc分別放進去,范圍是1到7(因為總共有七個問題),名稱隨便設(shè)一個,然后標(biāo)簽設(shè)為購買商業(yè)養(yǎng)老保險的原因,變量集做好后對其進行一個頻率的分析,點擊【分析】——多重響應(yīng)——頻率,將我們定義好的變量集挪到右邊,就可以看到我們的圖標(biāo)上顯示,有31.1%認(rèn)為有利于晚年生活的保障。同樣還是這個圖表,分析不同單位的性質(zhì)對于商業(yè)養(yǎng)老保險的模式有何不同,點擊【分析】——多重響應(yīng)——交叉表,找到工作單位性質(zhì)右鍵點擊信息可以看到有九個選項,將其放入行中范圍設(shè)成1到9,列就用我們剛才設(shè)置的那個變量集。

這樣我們就得到了一個q34和我們建立的變量集的交叉表。
比率分析:比率分析適用于數(shù)值型變量,比率分析用于對兩個變量之間的變量值的比率變化的描述分析,例如根據(jù)各地區(qū)保險業(yè)務(wù)情況的數(shù)據(jù),分析財產(chǎn)保險業(yè)務(wù)和保費收入占全部業(yè)務(wù)保費收入的比例情況。
點擊【分析】——描述統(tǒng)計——比率,然后會彈出一個比率統(tǒng)計對話框,講財產(chǎn)保險保費收入放進分子,分母放入全部保費收入,分組選擇地區(qū),然后點擊統(tǒng)計,我們選中平均值和AAD、COD、中位數(shù)居中和和平均值劇中,點擊確定即可得出兩個表格,分別是個案處理摘要和財產(chǎn)保險保費/全部保費收入的比率統(tǒng)計。
單樣本t檢驗

統(tǒng)計分析方法分為兩大類:描述統(tǒng)計和推斷統(tǒng)計。

假設(shè)檢驗的四步驟

1.?單樣本t檢驗:信用卡消費
單樣本t檢驗的目的是利用來自某總體的樣本數(shù)據(jù),推斷該總體的均值是否與指定的檢驗值存在顯著差異。它是對總體均值的假設(shè)檢驗。我們此次的實驗?zāi)康氖翘接懺缕骄M是否大于3000元,首先打開spss然后打開信用卡消費表,總共有500個個案,我們現(xiàn)在來做一個單樣本t檢驗,點擊【分析】——比較平均值——單樣本t檢驗,然后將這個表里惟一的變量放入檢驗框內(nèi),點擊選項可設(shè)置百分比,一般都是百分之九十五,點擊確定后即可看到結(jié)果。

判斷信用卡刷卡金額的平均值是否不低于3000元,由于該問題涉及到的是單個總體,且進行總體的值建安,同時月刷卡金額的總體可近似認(rèn)為服從正態(tài)分布,因此可以用單樣本t檢驗進行分析。個人理解:當(dāng)只有一列數(shù)據(jù)的時候,我們就可以采用單樣本t檢驗,手動設(shè)置一個值作為鑒定這列數(shù)據(jù)平均值是否有百分之九十五的樣本大于滿足我們規(guī)定的這個值,如果滿足則顯著性會小于0.05。

通過上圖可得知樣本總數(shù)(N)為500個,同時總體刷卡金額的平均值為4781高于我們所預(yù)期的三千元,這一點同時也可以從顯著性得知(顯著性為0.000代表我們有百分之九十五的把握消費人群在三千以上)。平均值不能代表什么,因為有可能會因為個別人將總體值拉的很高,主要看一下第二列,有那個平均值的差值除以標(biāo)準(zhǔn)誤差值得出的值是5.371,自由度得出的是樣本數(shù)-1,而雙尾是0.000,因為我們是單側(cè)檢驗所以要除以2,最終還是0,差值95%置信區(qū)間的值(上限和下限)都加上三千最終可以得出數(shù)據(jù)的范圍。所以我們又百分之九十五的把握認(rèn)為該地區(qū)的信用卡消費高于三千元。
2.?兩獨立樣本t檢驗:大學(xué)生職業(yè)生涯規(guī)劃
研究男生與女生的專業(yè)和職業(yè)認(rèn)知的人的平均值是否存在明顯差異,可將男生和女生認(rèn)知得分?jǐn)?shù)據(jù)看做來自兩個近似服從正態(tài)分布的總體的隨機獨立樣本??刹捎脙瑟毩颖総檢驗進行分析。
個人理解:獨立樣本t檢驗是建立在單樣本t檢驗的基礎(chǔ)上,可以對其進行分組,通過分組來判斷不同的組之間是否存在明顯差異曼本題的例子是對于認(rèn)知得分以性別作為分組判斷差異性,也可以用在判斷不同分組的銷售團隊之間進行對比。

由本圖可知男生的樣本個數(shù)為369,女生的樣本個數(shù)為529,且通過平均數(shù)可得知男生的專業(yè)認(rèn)知得分不如女生,而這之間的差異程度可從顯著性得知這一差異性是巨大的,因此在提高大學(xué)生職業(yè)生涯認(rèn)知這方面應(yīng)著重從男生入手。
3.?兩配對樣本t檢驗:減肥茶數(shù)據(jù)

個人理解:配對樣本t檢驗的目的是在于對比相同樣本前后所發(fā)生的變化,因此要保證的兩點一個是在相同樣本的基礎(chǔ)下且數(shù)據(jù)樣本數(shù)相同,對比前后數(shù)據(jù)的差異性得出是否發(fā)生改變。

為研究某種減肥茶是否具有明顯的減肥效果,某機構(gòu)對35名肥胖志愿者進行了減肥跟蹤調(diào)研,將減肥前后的數(shù)據(jù)依次記錄,數(shù)據(jù)記錄間隔為三個月,通過對比相同樣本數(shù)據(jù)的前后差異來判斷減肥茶是否有效。

通過上圖得知減肥前的體重(喝茶的體重)為89.2571,喝了減肥茶后的體重(喝后體重)為70.0286,且這兩條數(shù)據(jù)都是建立在相同樣本數(shù)量且相同樣本的基礎(chǔ)上進行的前后兩次不同數(shù)據(jù)的變化趨勢。由成對樣本鑒定結(jié)果表可得知服用減肥茶后的體重平均每人可以剪下19.22857kg,其百分之九十五的人都是在16到21之間,再根據(jù)顯著性為0.000可得出結(jié)論:服用減肥茶對于減肥有效果。
4.?單因素方差分析:廣告地區(qū)與銷售額

個人理解:單因素方差分析可判斷變量與因變量是否有直接關(guān)系,換言之就是一個樣本數(shù)據(jù)能否作為另一個樣本數(shù)據(jù)的變量。
??由上圖可知,不同的廣告形式與投放地區(qū)都會直接影響我們的銷售額,且顯著性都為0.000意為此影響力是巨大的,因此我們要在進行廣告形式的選取與投放地區(qū)都要慎重。
5.?多因素方差分析:廣告地區(qū)與銷售額
某企業(yè)在制定某商品的廣告策略時,收集了該商品在不同地區(qū)采用不同廣告形式促銷后的銷售數(shù)據(jù),希望對廣告形、地區(qū)以及廣告形式和地區(qū)的交互作用對銷售額產(chǎn)生影響進行分析。
個人理解:單因素方差分析是研究單樣本是否會對另一個樣本數(shù)據(jù)產(chǎn)生影響,而多因素方差分析是在單樣本方差分析的基礎(chǔ)上研究:在兩個樣本都對同一個樣本產(chǎn)生必要聯(lián)系影響的情況下,這兩個樣本之間的交互是否會對其產(chǎn)生影響,好比一個人得了糖尿病的原因來自于經(jīng)常和飲料與甜食,那么我們就可以研究甜食與飲料的交互作用是否會對其得糖尿病產(chǎn)生影響。

由上圖可得知在兩個樣本(地區(qū)和方式)都對銷售額有顯著影響的前提下,二者之間的交互對其是不具有影響的,這一結(jié)論體現(xiàn)在顯著性在x1*x2那一行為0.286是大于0.05的,不同地區(qū)采用哪種形式的廣告都不會對銷售額產(chǎn)生顯著影響。
6.?協(xié)方差分析:生豬與飼料
為研究三種不同飼料對生豬體重增加的影響,將生豬隨機分成三組各喂養(yǎng)不同的飼料,得到體重增加后的數(shù)據(jù),但我們不可否認(rèn)的是生豬體重增加在理論上有可能是因為其自身身體條件等因素的影響,因此我們收集生豬喂養(yǎng)前的體重數(shù)據(jù),作為自身身體條件的測量標(biāo)準(zhǔn)。
個人理解: 我們在判斷一個變量由A改變成為B時可能是因為原因C,那么我們不能僅觀察變化是否與C有關(guān),不然就像做配對樣本t檢驗一樣了,我們要知道的更多,要知道C所影響A發(fā)生變化有可能是因為A本身的因素影響的。

由上圖可得知我們的三組數(shù)據(jù)每一個樣本數(shù)量都為8,而顯著性皆為0.000代表喂養(yǎng)不同的飼料豬體重的增加是有顯著影響的,并且影響很大。
參數(shù)檢驗的前提是數(shù)據(jù)服從或接近方差分析,而若果沒有服從方差分析,樣本的容量比較小的情況下,小樣本或總體分布位置偏差不齊的情況下,在不滿足參數(shù)檢驗的情況下只能選用非參數(shù)檢驗。

非參數(shù)檢驗是在總體分布或知道的很少的情況下,利用樣本數(shù)據(jù)對總體分布分布形態(tài)或各總體的分布是否有顯著差異進行推斷。
單樣本卡方檢驗
卡方檢驗是根據(jù)樣本檢測是否符合某種規(guī)律,在給出的表中顯著性若大于0.05,則說明沒有顯著性差異,預(yù)測和實際是相符合的。顯著性如果比0.05要大,則說明沒有顯著性差異,理論上的假設(shè)周一到周日死亡人數(shù)是2.8:1:1:1:1:1:1。

二項分布檢驗
生活中很多方面我們都可以分為兩種,一種是合格或不合格,通過或不通過等等,通過樣本檢驗總體是否符合二項分布。我們這例子是用來預(yù)測產(chǎn)品的合格率,因為一個產(chǎn)品有合格或不合格,通過二項分布來檢驗產(chǎn)品能否合格大于百分之九十。通常將這樣的值分別用1和0表示,如果進行n次相同的實驗,則出現(xiàn)兩類(1或0)的次數(shù)可以用離散型隨機變量來描述。

這個實驗我們只有一個變量是是否合格,合格是1不合格是0,總共有23個樣本,找到二項檢驗將樣本拖到檢驗變量列表,檢驗比例設(shè)為0.9也就是90%,最終的結(jié)果是合格了19個不合格的是4個,檢驗的是合格的比率是否低于0.9,最后概率的值是0.193,沒有顯著差異,大于顯著性水平說明我們不應(yīng)當(dāng)否定假設(shè),則沒有充分的理由證明合格品的比率顯著低于百分之九十。
單樣本K-S檢驗
單樣本K-S檢驗:該方法可以樣本數(shù)據(jù)推斷樣本來自的總體是否服從某一理論分布,是一種擬合優(yōu)度檢驗方法,通常用于探索連續(xù)性隨機變量的分布。我們此次的例子是利用收集到的一批周歲兒童身高的樣本數(shù)據(jù),推斷周歲兒童總體的身高是否服從正態(tài)分布。

變量視圖中有六個變量,我們只考慮身高的變量樣本即可。找到單樣本非參數(shù)檢驗然后打開將其拖到檢驗變量列表即可。其中“常規(guī)”就是正態(tài)分布。結(jié)果的個案數(shù)有21個,顯著性耳朵p值是0.022,小于顯著性水平0.05的,說明我們不接受原假設(shè),也就是說周歲兒童身高的總體分布不符合正態(tài)分布的假設(shè)(原假設(shè)是沒有顯著差異)。
變量隨機性檢驗(游程檢驗)
通過樣本變量值的分析,實現(xiàn)對總體的變量值出現(xiàn)是否是隨機的進行檢驗。變量值隨機性檢驗的原假設(shè)是H0位總體變量值的出現(xiàn)是隨機的。例如時候我們拋了28次硬幣所得出的正反面的觀測值為1011011010011000101010000111,那么它的游程數(shù)為17(單個的0與0組合還有1與1組合還有單個的1和0組合也是一個游程)。所以游程數(shù)如果太大或太小都說明它不是隨機的。

以“中位數(shù)'進行分割。計算出的概率為0.491,大于顯著性水平,檢驗的結(jié)果(檢驗值)是204.55,小于檢驗值的是十個,大于或等于這個值的是10個,最后的顯著性是0.491大于0.05,不拒絕原假設(shè),認(rèn)為數(shù)據(jù)是隨機性的,所以是正常的(如果不正常則不是隨機的)。
兩獨立樣本非參數(shù)檢驗
在對總體分布不了解的情況下,通過對兩組獨立樣本的分析來推斷樣本來自的兩個總體分布是否存在顯著性差異。獨立樣本是在總體中隨機抽樣對另一個總體中隨機抽樣沒有影響的情況下所獲得的樣本。本題使用甲乙兩種工藝所生產(chǎn)的產(chǎn)品抽樣使用壽命的兩個樣本,檢驗其分布時候有不同的差異,進而對其優(yōu)劣進行一個客觀的評價。

獨立樣本是基于甲乙兩樣本互不干擾,數(shù)據(jù)可以相互挪動(相對應(yīng)的就是配對樣本,例如之前的減肥茶案例的數(shù)據(jù)是不可互相移動的)。檢驗的變量是使用壽命,分組變量是gy,并選中以下四種檢驗方式后會出現(xiàn)很多圖,首先的第一個是曼-惠特尼檢驗科知個案書分別為7和8個,一起對應(yīng)的平均值和總和,下圖的檢驗統(tǒng)計圖可知漸進顯著性為0.005,精準(zhǔn)顯著性為0.004,由于他是一個小樣本的數(shù)據(jù),所以我們采用精準(zhǔn)顯著性,當(dāng)然無論選擇哪種顯著性都是遠(yuǎn)遠(yuǎn)小于0.05的,所以我們拒絕原假設(shè),認(rèn)為甲乙兩種壽命的分布是存在顯著差異的。莫斯檢驗是極端檢驗結(jié)果,也是有兩個p值,注意這個是單尾的,無論哪個都是大于0.05,說明無顯著差異與上面的結(jié)果相反。

第三個檢驗方式是0.037小于0.05,存在顯著差異,最后一種瓦爾德-沃爾福威茨是0.149說明不應(yīng)該拒絕原假設(shè)說明沒有顯著差異。總結(jié)第一種拒絕,第二種不拒絕,第三種拒絕,第四種不拒絕,所以說用不同的方法得出的結(jié)果是不一樣的,需要我們?nèi)斯みM行取舍與比較其差異性選出我們需要的數(shù)據(jù)。
多獨立樣本非參數(shù)檢驗
多獨立樣本非參數(shù)檢驗是通過分析多組獨立樣本數(shù)據(jù),推斷樣本本來自的多個總體的中位數(shù)或分布是否存在顯著差異。多獨立樣本是指按照獨立抽樣的方式進行檢驗。

本次案例是給了四個城市的周歲兒童身高的四獨立樣本,用多獨立樣本非參數(shù)檢驗的方式對其進行檢驗,分組分別為北京上海廣州成都,我們對其進行一個分析。點擊【分析】——非參數(shù)檢驗——舊對話框——K獨立樣本,出現(xiàn)了一個針對多個獨立樣本的檢驗對話框,將要檢驗的數(shù)據(jù)樣本放進檢驗變量列表并分組點擊確定。

檢驗結(jié)果圖標(biāo)可看出kw統(tǒng)計量是13.9,伴隨的概率顯著性是0.003小于0.05,說明總體分布有顯著差異,則說明四個城市周歲的兒童身高有顯著差異。那么接下來看中位數(shù)檢驗時圖標(biāo)的中位數(shù)時74,顯著性為0.01也是拒絕原假設(shè),說明不同城市周歲孩子的身高有顯著差異。最后再看jk的檢驗也是如此,a<p。

從中位數(shù)檢驗來看中位數(shù)是74,卡方是16.768,顯著性是0.001,從結(jié)果來看是拒絕原假設(shè),四個城市兒童的身高是有顯著差異的,而用中位數(shù)來檢驗這個案例只能做一個參考,因為有8個單元格期望值的概率低于5。
兩配對樣本的McNemar檢驗
兩配對樣本的McNemar檢驗是配對樣本的參數(shù)檢驗,再對總體分布不甚了解的情況下,通過對兩配對樣本進行分析,推斷樣本來自的兩個總體的分布是否存在顯著差異。點擊【分析】——非參數(shù)檢驗——舊對話框——2個相關(guān)樣本(配對樣本),這里黑我們之前學(xué)習(xí)的內(nèi)容差不多,都拖到檢驗對的框框里然后我們這里選用的是麥克尼馬爾(M)的檢驗方式點擊確定。

第一個表格可以看出學(xué)習(xí)前的認(rèn)識由不重要變?yōu)橹匾挠伤奈煌瑢W(xué),學(xué)習(xí)前認(rèn)為重要學(xué)習(xí)后認(rèn)為不重要的有兩個同學(xué),其他的不變。第二個表格個案數(shù)是,雙尾是0.687,單尾則是0.3435大于0.05則說明沒有顯著變化。
兩配對樣本的符號檢驗
它的原假設(shè)是兩配對樣本來自的總體分布是沒有顯著差異的,第二個樣本的每一個觀測值減去第一個樣本的觀測值,減完后比較正負(fù)號的差異去觀察結(jié)果,如果正號個數(shù)和負(fù)號個數(shù)相差較多,則可以認(rèn)為兩個配對樣本的總體分布差距較大。我們的內(nèi)容一個是訓(xùn)練前一個是訓(xùn)練后,這個是他們跳遠(yuǎn)的成績,點擊【分析】——非參數(shù)檢驗——舊對話框——兩個相關(guān)樣本,將訓(xùn)練前和訓(xùn)練后的成績選進來,然后選中檢驗類型當(dāng)這種的威爾科克森檢驗和符號檢驗。

因為我們設(shè)定的顯著性a是0.05,因為它大于我們的原假設(shè)沒有顯著差異,所以我們得知沒有顯著效果。

符號檢驗中可得治一人保持不變,七人得到了進步,兩人得到了退步,因為我們這個是一個雙尾,所以單側(cè)概率就要除以二,也是大于0.05,兩種方法均沒有顯著效果。
多配對樣本的Friedman檢驗
多配對樣本的非參數(shù)檢驗是通過分析多個配對樣本數(shù)據(jù),推斷樣本來自的多個總體的中位數(shù)或分布是否存在顯著差異的方法。例如,手機乘客對多家航空公司是否滿意的數(shù)據(jù),分析航空公司的服務(wù)水平是否存在顯著差異等。

首先打開促銷方式的文件,有三種促銷形式,我們獲得了銷售額,一共是十組,我們點擊【分析】——非參數(shù)檢驗——舊對話框——K個相關(guān)樣本(s),進入后將這三種促銷形式都放進檢驗變量當(dāng)中然后點擊確定,這樣我們就得到了一個檢驗結(jié)果。

它的數(shù)平均值在表1,而檢驗統(tǒng)計的方式在下面的表,p值為0.045,低于我們設(shè)定的0.05,拒絕原假設(shè),因此我們認(rèn)為不同形勢下銷售額的形式是存在顯著差異的。簡單地看也可以直接看表1,促銷形式2可能會更好一些。
多配對樣本的CochranQ檢驗

如果每一組的樣本出現(xiàn)了1和0,那么選1的概率大致相等,如果選1的概率大致相等則不存在明顯差異。本次案例是針對甲乙丙三個航空公司的滿意度進行分析,1為滿意0位不滿意。變量視圖酒分別是航空公司甲乙丙,值是1和0.數(shù)據(jù)視圖是十五個乘客同時對三個公司打分?!痉治觥俊菂?shù)檢驗——舊對話框——K個相關(guān)樣本,將三哥公司都放進檢驗變量當(dāng)中,因為我們這是進行Cochran檢驗,所以只選擇檢驗類型當(dāng)中的柯克蘭Q檢驗。

可以在概率圖中查看到滿意和不滿意的值分別是多少,而檢驗統(tǒng)計圖中可看到伴隨概率是0.001,p值小于顯著性a,則拒絕原假設(shè),我們可以得出三家航空公司的滿意度是存在顯著性差異的。
多配對樣本的Kendall協(xié)同系數(shù)檢驗

通過案例可知有六名歌手參加比賽,四位歌手進行打分,變量是六位歌手的分?jǐn)?shù),這是一個多配對的樣本(四個評委都是不變的)?!痉治觥俊菂?shù)檢驗——舊對話框——K個相關(guān)樣本,將這六名歌手的變量值都導(dǎo)入到檢驗變量當(dāng)中,由于傅萊德曼和肯德爾是有相關(guān)關(guān)系的所以我們兩個都要選,點擊確定即得到檢驗結(jié)果。

Kendall檢驗可看到1到6號選手的的平均數(shù)以及統(tǒng)計檢驗結(jié)果,p值是0.002,伴隨概率小于我們顯著性a,拒絕原假設(shè)則說明各個歌手的評分是存在顯著性差異的,而Kendall喜事接近于1,則說明各個評委的系數(shù)是一致的。
相關(guān)分析的概述和散點圖
相關(guān)分析是分析客觀事物關(guān)系之間的數(shù)量分析方法,這種關(guān)系主要分為函數(shù)關(guān)系(確定性關(guān)系,例如說銷售額和銷售量、圓的周長和圓的半徑......)和統(tǒng)計關(guān)系,同級關(guān)系例如說一個y的變量其影響因素有多個,例如收入和消費還有身高和遺傳。統(tǒng)計關(guān)系即為線性關(guān)系分為正線性關(guān)系和負(fù)線性關(guān)系還有非線性相關(guān)(統(tǒng)計關(guān)系不像函數(shù)關(guān)系那樣直接,但卻普遍存在且有強有弱)

繪制散點圖通過點的分布和形狀判斷其關(guān)系,首先看散點圖是一個非常直觀且常用的分析方法,判斷其關(guān)系如下圖:

本次實驗我們看的是分析腰圍、體重和身高的關(guān)系,打開【圖形】——舊對話框——散點圖,然后發(fā)現(xiàn)有五種散點圖,我們就點擊常用的簡單散點圖即可,Y軸和X軸分別是腰圍和體重,判斷腰圍和體重的關(guān)系,如果想對其進行調(diào)整,即可雙擊打開圖標(biāo)編輯器,上方的就有編輯欄,可以點擊【選項】——分箱元素(E)——標(biāo)記大小里面目前已經(jīng)自動調(diào)整了,這些比較大的原點說明周圍的數(shù)據(jù)點比較多,小的則相反,判斷這些點之間有沒有什么關(guān)系,可知這是一個正相關(guān)關(guān)系,也可以雙擊在圖標(biāo)編輯器下點擊上方的【元素】——總計擬合線——勾選擬合方式里的線性即可看到該圖標(biāo)的線性關(guān)系。
更多的散點圖練習(xí)題:
第一題【客戶滿意度和競爭力】
第一步是將數(shù)據(jù)導(dǎo)入,首先是新建數(shù)據(jù),總共有兩列,一列是客戶滿意度,另一列是綜合競爭力。通過觀測散點圖可的得知這是一個正相關(guān)的圖。也可以雙擊打開圖標(biāo)編輯器,勾選擬合方式里的線性即可看到該圖標(biāo)的線性關(guān)系。

所呈現(xiàn)的滿意度直觀上可得出客戶的滿意度越高,綜合競爭力也就越高,而皮爾遜相關(guān)系數(shù)(【分析】——相關(guān)——雙變量)如下圖可知:十五家企業(yè)是樣本,而我們也不局限于這十五家企業(yè),具有非常強的相關(guān)關(guān)系,通過這個例子得以實現(xiàn)。

第二題【銷售額和銷售價格和銷售收入】

本題是建立三列數(shù)據(jù),銷售額,銷售價格和銷售收入。先繪制銷售價格如何影響銷售額銷售額是Y,價格是X,銷售價格越高,銷售額就顯得越低。所以通過散點圖得知定價不能過高,不然就沒人買,另外一個家庭平均收入,此刻我們將X軸換成家庭平均收入,就會發(fā)現(xiàn)先相較于剛才變?nèi)醯彩钦嚓P(guān)的。我們試一下把家庭平均收入去掉后試一下會不會更好一些之前先算一下相關(guān)系數(shù)?!痉治觥俊嚓P(guān)——雙變量,先算銷售額和銷售價格,發(fā)現(xiàn)是負(fù)相關(guān)(-0.933),說明這個趨勢是項下的(也可以通過散點圖得知,散點從左到右依次向下),而銷售額和家庭平均收入的雙變量的相關(guān)性是0.88說明也是很強的相關(guān)性。偏相關(guān)分析:算銷售額和銷售價格,剔除掉家庭平均收入后可看到相關(guān)性不到百分之八十了,而是百分之七十二點八,所以我們把第一步做了之后效果就已經(jīng)很好了,那么在做偏相關(guān)分析之后效果反而變差了,因此沒有太大必要做偏相關(guān)分析。
計算相關(guān)系數(shù)
散點圖可以直觀地表達(dá)二者之間的關(guān)系,但無法通過精確的數(shù)據(jù)來研究,因此相關(guān)系數(shù)可以計算兩個樣本的相關(guān)系數(shù)以及對兩個樣本是否存在顯著特征關(guān)聯(lián)進行判斷,具體如下圖:

相關(guān)系數(shù)r的取值在-1~+1之間,r>0則是正相關(guān),r<0表示負(fù)相關(guān),r=1表示兩變量存在完全正相關(guān)關(guān)系,r=-1表示兩變量存在完全負(fù)相關(guān)關(guān)系,r=0表示兩變量不存在線性相關(guān)關(guān)系。

計算腰圍和體重之間的相關(guān)線性系數(shù)關(guān)系:
打開腰圍和體重數(shù)據(jù)表,點擊【分析】——相關(guān)——雙變量,將腰圍和體重挪到變量當(dāng)中,相關(guān)系數(shù)點擊皮爾遜(N),顯著性選擇雙尾并標(biāo)記顯著性相關(guān)性點擊確定。

圖標(biāo)當(dāng)中腰圍和體重的皮爾遜相關(guān)系數(shù),0.853的體重是大于0.8代表強相關(guān)且有兩個*,則拒絕原假設(shè)(原假設(shè)是兩個數(shù)據(jù)沒有線性關(guān)系),則說明腰圍和體重有很強的線性關(guān)系。
偏相關(guān)分析:在分析兩個變量之間的關(guān)系時,還有可能有其他的因素對兩個要分析的變量造成影響,因此我們要把這種因素去掉,對于可能對我們要研究的變量造成影響時的變量的關(guān)系去進行控制,也叫被控制的變量,如果被控制的變量個數(shù)為兩個時,則叫二階偏相關(guān)系數(shù),而如果是一個那么就叫一階偏相關(guān)系數(shù),后面以此類推(如若為零時則被稱為零階偏相關(guān)系數(shù),也叫相關(guān)系數(shù))。然后我們要對樣本來自的兩總體是否存在顯著的凈相關(guān)進行推斷,詳情如下圖:

打開腰圍和體重數(shù)據(jù)表,點擊【分析】——相關(guān)——偏相關(guān),將腰圍和體重挪到變量當(dāng)中,而下面的控制也就是被控制的變量,將脂肪比重挪到下面去進行被控制,顯著性選擇雙尾并標(biāo)記顯著性相關(guān)性點擊確定。結(jié)果如下圖:

由圖可得治在提出了脂肪比重的情況下體重的相關(guān)性變成了0.709,仍然是呈正相關(guān)的關(guān)系,則依舊是拒絕原假設(shè)說明體重與腰圍是由顯著差異的。
回歸分析

回歸分析的步驟:
- 確定回歸分析中的解釋變量(自變量)和被解釋變量(因變量)
- 確定回歸模型:根據(jù)函數(shù)擬合方式,通過觀察散點圖確定通過哪種數(shù)學(xué)模型來概括回歸線
- 建立回歸模型:根據(jù)樣本數(shù)據(jù),估計出模型中的各個參數(shù),得到一個確定的回歸方程
- 對回歸方程進行各種統(tǒng)計檢驗
- 利用回歸方程進行預(yù)測

我們分析的最多的就是線性回歸模型,線性回歸模型分為一元線性模型和多元線性回歸模型。
一元線性模型(只有一個解釋變量的線性回歸模型)

多元線性回歸模型(有多個解釋變量的線性回歸模型)

擬合優(yōu)度和回歸方程顯著性檢驗的關(guān)系:
- 回歸方程擬合優(yōu)度越高,回歸方程的顯著性檢驗也會越顯著,回歸方程的顯著性越顯著,回歸方程的擬合優(yōu)度也會越高。
- 回歸方程的顯著性檢驗是統(tǒng)計學(xué)上的假設(shè)檢驗問題,但擬合優(yōu)度并非假設(shè)檢驗問題,可以看作是一個統(tǒng)計量,它不涉及解釋變量和被解釋變量總體線性關(guān)系的推斷。

回歸方程的顯著性檢驗和回歸系數(shù)的顯著性檢驗的關(guān)系

四:殘差分析(殘差:是指回歸方程計算所得的預(yù)測值與實際樣本值之間的差距)
殘差的獨立性分析殘差序列的獨立性也是回歸模型所要求的。
殘差序列應(yīng)滿足cov(e:,;)-0(ij)、表示殘差序列的前期和后期的協(xié)方差等于 0,它們之間不存在相關(guān)關(guān)系,即不存在自相關(guān)殘差序列存在自相關(guān)會帶來許多問題,如參數(shù)的普通最小二乘估計不再是最優(yōu)的,不再是最小方差無偏估計;容易導(dǎo)致回歸系數(shù)的顯著性檢驗的: 值偏高,進而容易拒絕其原假設(shè)使那些本不應(yīng)保留在方程中的變量被保留下來,最終使模型的預(yù)測偏差較大。殘差的獨立性分析可以通過以下三種方式實現(xiàn)。


最后一個就是條件指標(biāo):0<k<10無多重共線性:10<=k<=30較強;k>=30嚴(yán)重。
六、線性回歸的基本操作
案例:研究體重和體內(nèi)脂肪比重的對腰部的影響,隨機收集了20個觀測數(shù)據(jù),現(xiàn)利用一般線性回歸分析方法進行研究。,在這里,被解釋變量為腰圍,解釋變量為體重和脂肪比重。點擊【分析】——回歸——線性,打開線性回歸對話框,然后將腰圍挪到因變量,自變量一個是體重另一個是脂肪比重,方法就是我們講的向前或向后還有逐步回歸,我們選擇步進(逐步回歸)。

【圖】是對殘差序列的分析:
- 被解釋變量
- 標(biāo)準(zhǔn)化的預(yù)測值
- 標(biāo)準(zhǔn)化的殘差
- 剔除的殘差
- 調(diào)整的預(yù)測值
- 學(xué)生化殘差
- 提出的學(xué)生化殘差
我們這里選擇標(biāo)準(zhǔn)化的殘差作為Y,標(biāo)準(zhǔn)化的預(yù)測值作為X。
【保存】是可以像回歸分析的結(jié)果用spss的變量進行保存,選中殘差當(dāng)中的未標(biāo)準(zhǔn)化和標(biāo)準(zhǔn)化。
【選項】默認(rèn)選中的是使用F得到概率,進入默認(rèn)為0.05,剔除為0.1.
WLS權(quán)重就是我們用加權(quán)最小二層法來替代普通最小二層法做估計時,指定一個變量作為權(quán)重變量

我們使用F的概率值為標(biāo)準(zhǔn)的解釋變量能否進入或者剔除的變量。

因為我們采用的是逐步回歸法,所以給了兩個模型,左上角的圖有兩個模型,一個是一元線性模型,第二個是二元線性模型。一元模型的R房是0.775,調(diào)整之后增加到了0.881。右邊ANOVA圖的模型一的SSR是217.829,SSE是59.121,模型二的SSR是247.541,SSE是29.409,顯著性均為0.000,則說明我們拒絕原假設(shè),從多遠(yuǎn)回歸方程的結(jié)果來看說明是存在顯著關(guān)系的,并且選擇線性模型是合理的。
回歸系數(shù)的檢驗結(jié)果如下圖:

模型一和模型二的第二列30.058和0.354就是回歸系數(shù),而后面是標(biāo)準(zhǔn)誤差,相除之后就得了t統(tǒng)計量和雙側(cè)的p值,8.144伴隨的顯著性是0,因此拒絕原假設(shè)說明是由顯著性關(guān)系的,這個自變量應(yīng)保留在模型當(dāng)中。而排除的變量體重的t值是4.144,顯著性是0.001,說明線性關(guān)系比較顯著,這個變量是可以引入的,我們又回到了第一個表格當(dāng)中,脂肪的比重可以看到都發(fā)生了變化,因為我們引入了體重(模型一是只有脂肪比重),可以得知脂肪比重要比體重貢獻的越大(0.227>0.65),在醫(yī)學(xué)上解釋為看一個人是不是胖應(yīng)該看是脂肪體重比較重。容差(容忍度)是0.515,VIF(方差)是1.943,都說明多重共線性是比較弱的。第三個表格是共線性診斷表,特征值里最大的值是2.888,第二列的條件指標(biāo)最大的應(yīng)該是第三列二十多,其它的都小于10說明多重共線性都比較弱。

我們現(xiàn)在來做一個k-s檢驗,回到數(shù)據(jù)編輯器,點擊【分析】——費參數(shù)檢驗——舊對話框——單樣本k-s檢驗,將Unstandar導(dǎo)入檢驗變量列表點擊正態(tài)即可得到一個表格,對于殘差的k-s檢驗。

原假設(shè)是樣本和總體之間沒有顯著的差異,我們只需要看一下伴隨概率的p值是一個漸進顯著性的雙尾是0.2,大于0.05則接收原假設(shè)說明它(殘差)是符合正態(tài)分布的結(jié)果。
帶虛擬解釋變量的回歸分析

案例:為研究工齡對性別對月基本工資收入產(chǎn)生的影響,隨機調(diào)查了30名職工得到的月工資、工齡和性別數(shù)據(jù)。點擊【分析】——回歸——線性,在線性回歸的窗口里將基本工資挪到因變量,自變量里放是否男性和工齡,前面我們說過輸入是向前,點擊確定。

曲線估計

在SPSS中回歸分析相對而言比較簡單,但如果想要深入地學(xué)習(xí)回歸分析還需要學(xué)習(xí)其它的軟件。
例題【全國城鎮(zhèn)居民家庭消費支出】:收集到1993--2012年我國城鎮(zhèn)居民家庭消費數(shù)據(jù),希望分析城鎮(zhèn)居民家庭人均消費支出對其食品消費支出的影響。

主要研究第二第三兩個變量:【圖形】——舊對話框——散點圖——簡單散點圖,進入簡單散點圖編輯框,將Y軸設(shè)為人均食品消費支出,X軸為人均現(xiàn)金消費圖。最終得到散點圖如下:

有幾個點就有幾個樣本,得知人均現(xiàn)金支出越高,那么食品支出的現(xiàn)金也就越高。然后點擊【分析】——回歸——曲線估計,出現(xiàn)曲線估計對話框,因變量也就是我們要分析的,選擇食品消費支出,變量是現(xiàn)金消費支出,勾選在方程中包括常量與模型繪圖兩個選項,然后再勾選模型中的線性和二次兩個選項并勾選顯示ANOVA表(Y)后點擊確定即可得到分析的結(jié)果(線性分析、方差分析、線性回歸的系數(shù)、二次的模型摘要以及方差分析結(jié)果還有二次項系數(shù)以及人均食品消費支出的圖形)。

左邊是R方右邊是方差分析的結(jié)果,二次曲線也就是說二次平方回歸的方程。最下圖的R放是從模型摘要里來的,F(xiàn)的統(tǒng)計觀測量是從方差表里來的,常數(shù)項和b1與b2是從下圖來的:

后面的是t統(tǒng)計量的觀測值和p值,主要是看回歸系數(shù)伴隨概率的p值,設(shè)a為0.05,結(jié)果小于a所以拒絕原假設(shè)說明有顯著關(guān)系。

序列圖的畫法:點擊【分析】——時間序列預(yù)測——序列圖,變量就是我們要研究的量(人均食品消費支出),時間軸就是年份,最終就得到了以惡搞人均視頻消費支出的序列圖如下:

點擊【分析】——回歸——曲線估計,因變量放入食品消費支出,變量設(shè)為現(xiàn)金消費支出,然后再勾選模型中的線性和二次兩個選項并勾選顯示ANOVA表(Y)后點保存,展開的保存窗口勾選上預(yù)測值(P)和預(yù)測個案中的從估算期到最后一個個案的預(yù)測下面的預(yù)測返回,我們的預(yù)測是到20個樣本也就是二十年,那么如果我們想要預(yù)測未來兩年的值就輸入22,也就是添加兩個預(yù)測的變量。

t統(tǒng)計量的伴隨p值都小于0.05,說明通過了我們回歸性的檢驗:拒絕原假設(shè)有顯著差別。
回到變量視圖當(dāng)中可以發(fā)現(xiàn)多了兩個變量,一個是一元線性回歸的方程,另一個是一元二次曲線的分析預(yù)測值,點擊【分析】——時間序列預(yù)測——序列圖,變量中放入現(xiàn)實中我們所獲得的觀測值(樣本)與預(yù)測值之間的區(qū)別,也就是說一個是人均食品消費支出和CURVEFIT食品人均消費支出,而時間軸標(biāo)簽就是年份t,點確定即有下圖:

紅色的線就是我們所擬合的曲線,而藍(lán)色的就是真是的支出,可以看到右邊的2013和2014是確實的值但是我們已經(jīng)預(yù)測出來了,就是在FIT_4下面的兩個值,而這個擬合曲線還可以進行調(diào)整,雙擊圖表后進入圖表編輯器點擊紅線后點屬性窗口,樣式設(shè)為虛線就可以了。
K-means聚類分析(快速聚類、K-均值聚類)
mean就是均值的意思,加了s就是多次的意思,意味多次聚類或快速聚類,處理大樣本效率比較低時的問題,提高聚類效率。
做法:
- 通過用戶事先指定聚類數(shù)目的方式提高效率
- 因此,層次聚類可以對不同的聚類數(shù)而產(chǎn)生一系列的聚類解,而快速聚類只能產(chǎn)生單一的聚類解。

案例【小康指數(shù)】:

點擊【分析】——分類——K-均值聚類,變量是六個變量全部,而個案標(biāo)注依據(jù)就是省市,聚類數(shù)設(shè)置為3類,方法一個是迭代與分類(表示在聚類的分類步驟中每一步確定一個中心點),而僅分類代表中心點始終只選用最初的那個中心點(只進行一次的迭代),保存當(dāng)中勾選【聚類成員】和【與聚類中心的距離】,選項當(dāng)中勾選【初始聚類中心】和方差分心的表兩個選項點擊確定,結(jié)果如下圖:

左邊的表展示了三個類初始的中心點的數(shù)據(jù),第二類和第三類的中心點的數(shù)據(jù),最好看的應(yīng)該是第二類。而右邊的圖則是中心點的偏移。三類迭代的第二次迭代結(jié)果均為0。

從聚類中心點來看還是第二類的數(shù)據(jù)比較好,而每個聚類中的個案數(shù)目說明第一類有七個自治區(qū),第二類是三個,第三類是是一個,下面的是方差分析表:

單因素的方差分析不適用于進行對比,我們主要去關(guān)注F值的大小,F(xiàn)值越大表名組之間的差越大。

最后我們又生成了兩個變量,第一個是個案聚類的編號,第二個是距離分類中心的距離,下圖更加直觀地顯示出來:

可知最好的第二類是京津冀,剩下的分別是第一類和第二類,通過K-means分析之后發(fā)現(xiàn)黑龍江由第三類變成了第一類(與層次分析不太一樣)
案例二:根據(jù)五座商廈購物環(huán)境和服務(wù)質(zhì)量的顧客評分?jǐn)?shù)據(jù),利用K-Means聚類分析方法按照優(yōu)秀、良好、合格的總體水平將它們分類。

點擊【分析】——分類——K-均值聚類,變量就是兩個(購物環(huán)境和服務(wù)質(zhì)量),而商廈編號設(shè)為個案標(biāo)注依據(jù),良好優(yōu)秀及格三類所以聚類數(shù)設(shè)為3,這次我們僅分類即可不需要迭代,聚類中心要選擇外部的文件(商廈類中心),迭代不需要選,保存的話我們要把聚類成員和聚類中心的范圍都選,選項的話方差表也可以選一下然后點擊確定。

在這個變量視圖新多了兩個變量:個案聚類編號和個案距離其分類距離的變量,結(jié)果中AB數(shù)3,CD是2,E是1,詳情如下圖:

初始聚類中心給出的是標(biāo)準(zhǔn),而最終聚類中心是我們最后的結(jié)果,個案數(shù)目和方差圖如圖所示即可,右下角的圖我們可以知道哪些是優(yōu)秀(E)哪些是良好哪些是及格,這里再解釋一下商廈類中心的表我們制定了123三種中心點,這個是用戶自己設(shè)定的,一共有三個變量,第一個變量必須是cluster_。
異方差分析
從前面的討論中知道,無論解釋變量取怎樣的值,對應(yīng)殘差的方差都應(yīng)相等,它不隨解釋變量或被解釋變量預(yù)測值的變化而變化,否則認(rèn)為出現(xiàn)了異方差現(xiàn)象。當(dāng)存在異方差時,專微的最小乘估計不再是最小方墊無臨計,異方差分號可以通過以下兩種方式實現(xiàn):
第一,繪制殘差圖。
可以通過繪制殘差圖分析是否存在異方差,在下圖所示的殘差圖中,殘差的方差隨著解釋變量值的增加呈增加(或減少)的趨勢,出現(xiàn)了異方差現(xiàn)象。

第二,等級相關(guān)分析
幫到殘差序列后首先對其取絕對值,然后分別計算出孩差和解釋變量的秩,景山件斯皮爾等級相關(guān)系數(shù),進行等相關(guān)分析。如果物笑分精園請統(tǒng)計的概率值小于給定的是著水平a,則應(yīng)拒絕相關(guān)分析的原假設(shè),認(rèn)為解釋變量與殘差間存在顯著的相關(guān)關(guān)系,出現(xiàn)了異方差現(xiàn)象。
如果存在異方差現(xiàn)象,可先對被解釋變實施方差穩(wěn)定變換后再進行回歸方程參數(shù)使估計,另外,還可以利用加權(quán)最小二乘估計法實施回歸方程的參數(shù)估計。
加權(quán)最小二乘法中權(quán)重的確定是非常重要的。