30+常用分析方法數(shù)據(jù)格式

正確的數(shù)據(jù)格式是進(jìn)行數(shù)據(jù)分析的基礎(chǔ)，最近SPSSAU后臺收到了很多小伙伴有關(guān)上傳數(shù)據(jù)格式的提問——

正確的數(shù)據(jù)格式是怎樣的？

特定方法所需的數(shù)據(jù)格式是怎樣的？

如何上傳帶數(shù)據(jù)標(biāo)簽的數(shù)據(jù)？

為什么數(shù)據(jù)上傳后與預(yù)期不一致無法正常顯示？——多數(shù)由于存在合并單元格

為什么上傳提示“無有效數(shù)據(jù)”？——多數(shù)由于數(shù)據(jù)未放在sheet1中

為解答這些普遍存在的困惑，本文將對數(shù)據(jù)分析常用方法中具有代表性的分析方法所需的數(shù)據(jù)格式進(jìn)行系統(tǒng)梳理和詳細(xì)說明，幫助研究者更有效地開展數(shù)據(jù)分析工作。

下面本文將分模塊介紹以下30+常用方法數(shù)據(jù)格式，大家可以先收藏，等后續(xù)分析要用到哪種方法再來對照查看該方法的數(shù)據(jù)格式即可。

一、規(guī)范格式說明

?1、原始數(shù)據(jù)格式

我們在進(jìn)行數(shù)據(jù)分析時(shí)，最常見的數(shù)據(jù)格式是原始數(shù)據(jù)格式。

下圖是一份常見的原始數(shù)據(jù)，它的特點(diǎn)是：一行代表一個(gè)樣本，一列代表一個(gè)變量。調(diào)查有多少樣本，就需要錄入多少行數(shù)據(jù)；如果調(diào)查了500個(gè)樣本，那么就需要錄入500行數(shù)據(jù)。每一行代表每個(gè)樣本收集的所有數(shù)據(jù)，每一列代表每個(gè)變量的所有數(shù)據(jù)。

絕大多數(shù)分析方法都是使用原始數(shù)據(jù)格式上傳分析的，例如SPSSAU中計(jì)量經(jīng)濟(jì)研究模塊、機(jī)器學(xué)習(xí)模塊、空間計(jì)量模塊中的絕大多數(shù)方法都是上傳原始數(shù)據(jù)格式即可。

?2、加權(quán)數(shù)據(jù)格式

除原始數(shù)據(jù)格式外，還有一些分析方法還會(huì)使用到加權(quán)數(shù)據(jù)格式，在醫(yī)學(xué)/實(shí)驗(yàn)研究中，很多時(shí)候只有匯總數(shù)據(jù)，即帶加權(quán)項(xiàng)的數(shù)據(jù)，如卡方檢驗(yàn)等。下圖為卡方檢驗(yàn)的加權(quán)數(shù)據(jù)，加權(quán)數(shù)據(jù)格式的特點(diǎn)是：基本只針對全部為定類數(shù)據(jù)的研究時(shí)使用，且只提供匯總數(shù)據(jù)，不提供原始數(shù)據(jù)。

上傳提示“無有效數(shù)據(jù)”或上傳數(shù)據(jù)與預(yù)期不一致怎么辦？

如果提示無有效數(shù)據(jù)等，請按以下幾步檢查。

第一：如果EXCEL上傳，數(shù)據(jù)應(yīng)該放在第一個(gè)工作表里面，如果不是請調(diào)整后再上傳。

第二：EXCEL數(shù)據(jù)中不能合并單元格，如果有合并單元格，請取消合并。

第三：數(shù)據(jù)第1行一定是標(biāo)題，如果本該有標(biāo)題但是為空，請?zhí)幚砗笤偕蟼鳌?/p>

3、帶數(shù)據(jù)標(biāo)簽的數(shù)據(jù)格式

如何上傳帶‘?dāng)?shù)據(jù)標(biāo)簽’的數(shù)據(jù)文檔?如果說希望上傳數(shù)據(jù)的時(shí)候直接上傳數(shù)據(jù)標(biāo)簽，而不是通過“數(shù)據(jù)處理->數(shù)據(jù)標(biāo)簽”單獨(dú)設(shè)置。那么可以在上傳的EXCEL工作里面包括兩個(gè)工作表名稱，第1個(gè)是‘data’，第2個(gè)是‘tags’?！甦ata’里面放數(shù)據(jù)，‘tags’里面放置標(biāo)簽，標(biāo)簽的格式說明如下說明和圖示：

一共包括ABC共3列，分別是‘標(biāo)題’、‘?dāng)?shù)字’和‘標(biāo)簽’；

‘標(biāo)題’列放置標(biāo)題，標(biāo)題僅在第一次出現(xiàn)時(shí)才會(huì)顯示，而且不能有完全相同一模一樣的標(biāo)題，否則可能會(huì)出現(xiàn)解析會(huì)出錯(cuò)；

‘?dāng)?shù)字列’放置數(shù)字；‘標(biāo)簽列’放置對應(yīng)數(shù)字的標(biāo)簽信息；

進(jìn)行數(shù)據(jù)分析時(shí)，單單掌握原始數(shù)據(jù)格式和加權(quán)數(shù)據(jù)格式還是不夠的，接下來從數(shù)據(jù)分析幾大模塊分別介紹一些典型的分析方法的數(shù)據(jù)格式。

二、差異性分析方法

數(shù)據(jù)分析常用的差異性分析方法有方差分析、t檢驗(yàn)、卡方檢驗(yàn)，數(shù)據(jù)格式如下說明。

?1、方差分析、t檢驗(yàn)

方差分析和t檢驗(yàn)都是常見研究不同組別之間差異性的方法，比如不同學(xué)歷時(shí)收入的差異。那么數(shù)據(jù)中就一定要包括不同組別X（如學(xué)歷）和分析項(xiàng)Y（如收入）。

有時(shí)候只有分析項(xiàng)（比如3個(gè)分析項(xiàng)），但是現(xiàn)在希望對比這3個(gè)分析項(xiàng)的差異，那么就需要對數(shù)據(jù)進(jìn)行改造，自己加入一列‘組別’，然后把數(shù)據(jù)重疊起來得到分析項(xiàng)Y，類似如下圖：

提示：方差分析（單因素方差）與t檢驗(yàn)的區(qū)別在于t檢驗(yàn)只能對比兩類數(shù)據(jù)之間的差異，而方差分析可對比多組數(shù)據(jù)之間的差異，但二者數(shù)據(jù)格式類似。

2、卡方檢驗(yàn)

卡方檢驗(yàn)用于研究X與Y之間的差異性，并且X與Y均為定類數(shù)據(jù)。使用SPSSAU中的卡方檢驗(yàn)進(jìn)行研究時(shí)，支持常規(guī)數(shù)據(jù)格式和加權(quán)數(shù)據(jù)格式兩種形式。常規(guī)數(shù)據(jù)格式適用于原始數(shù)據(jù)，加權(quán)數(shù)據(jù)格式適用于只有匯總數(shù)據(jù)的情況。

加權(quán)數(shù)據(jù)格式說明如下：比如下圖中X有2種情況，Y有3個(gè)情況，一種有2*3=6種組合，數(shù)據(jù)信息只有6種組別的匯總項(xiàng)（即加權(quán)項(xiàng)），分別是40，10，20，30，20，50；相當(dāng)于總共有170個(gè)樣本。整理為加權(quán)格式即只需要錄入6行即可。

除了卡方檢驗(yàn)外，還有一些方法支持加權(quán)數(shù)據(jù)格式，如下：

3、配對t檢驗(yàn)

數(shù)據(jù)格式有問題_格式數(shù)據(jù)問題有哪些_格式數(shù)據(jù)問題有哪些方面

配對數(shù)據(jù)的格式比較特殊，例如研究實(shí)驗(yàn)組與對照組之間的差異，常見的配對數(shù)據(jù)研究方法比如配對樣本t檢驗(yàn)、配對卡方、配對樣本檢驗(yàn)等。數(shù)據(jù)格式如下圖：

配對數(shù)據(jù)一般是在實(shí)驗(yàn)時(shí)使用，而且配對數(shù)據(jù)的特點(diǎn)為：行數(shù)一定完全相等并且只有兩列。

如果研究數(shù)據(jù)的行數(shù)不相等，那可能不是配對數(shù)據(jù)，如果還想對比差異，可能需要使用獨(dú)立t檢驗(yàn)。

4、重復(fù)測量方差

重復(fù)測量數(shù)據(jù)是指同一批樣本（病例）在不同的時(shí)間點(diǎn)測量了多次數(shù)據(jù)，因此重復(fù)測量數(shù)據(jù)的特殊之處在于一定會(huì)有ID號（即樣本或者病例號），以及時(shí)間點(diǎn)數(shù)據(jù)。

如下圖：同一個(gè)ID會(huì)有多個(gè)時(shí)間點(diǎn)的數(shù)據(jù)，比如下面有12個(gè)樣本（12個(gè)ID號），并且測量5個(gè)時(shí)間點(diǎn)。那么就一定會(huì)有12*5=60行數(shù)據(jù)。同一個(gè)ID號會(huì)重復(fù)5次，同一個(gè)時(shí)間點(diǎn)會(huì)重復(fù)12次。

三、影響關(guān)系分析方法

影響關(guān)系研究時(shí)，最常用的方法就是各類回歸分析。絕大多數(shù)回歸分析的數(shù)據(jù)格式都是原始數(shù)據(jù)格式（即一列代表一個(gè)指標(biāo)，一行代表一個(gè)樣本），但也有些比較特殊的。

1、多元線性回歸

多元線性回歸分析用于研究自變量X對因變量Y的影響關(guān)系情況，通常自變量個(gè)數(shù)不止一個(gè)，數(shù)據(jù)格式如下：

2、條件logit回歸

條件logit回歸時(shí)，配對編號ID用于標(biāo)識ID，而且是配對，因此一個(gè)ID會(huì)出現(xiàn)多次，比如1:1配對，那么1個(gè)ID就會(huì)出現(xiàn)2次（1:2配對時(shí)，1個(gè)ID就會(huì)出現(xiàn)3次）；因變量Y一定只能包括數(shù)字0和1，類似數(shù)據(jù)格式如下圖：

3、面板模型

面板模型是針對面板數(shù)據(jù)進(jìn)行分析，面板數(shù)據(jù)是一種特殊的數(shù)據(jù)格式。比如當(dāng)前研究100家公司5年的財(cái)務(wù)數(shù)據(jù)。100家公司，每家5年，最終會(huì)有100*5=500行數(shù)據(jù)。使用SPSSAU進(jìn)行分析時(shí)，‘個(gè)體ID’就是下圖中的‘公司編號’，‘時(shí)間’就是下圖中的‘年份’?！揪幪枴话闶侵干鲜泄镜墓善贝a，也或者只是個(gè)編號均可；‘年份’一般是指年或者時(shí)間點(diǎn)。‘公司編號’和‘年份’兩項(xiàng)共同用于告訴系統(tǒng)當(dāng)前為面板數(shù)據(jù)，通常無其它意義。

4、Cox回歸

Cox回歸生存分析時(shí)，因變量包括兩項(xiàng)，分別是Y1生成時(shí)間和Y2生存狀態(tài)，Y2生存狀態(tài)一定只能包括2個(gè)數(shù)字分別是0和1，至于X或分層項(xiàng)的數(shù)據(jù)特征不固定，分層項(xiàng)在分析時(shí)為可選，沒有也沒關(guān)系，類似數(shù)據(jù)格式如下圖：

四、問卷題數(shù)據(jù)格式

問卷的數(shù)據(jù)格式比較特殊，如果是通過問卷星/問卷網(wǎng)/騰訊問卷在網(wǎng)上收集的問卷，可以直接下載CSV格式或者SPSS格式，下載后直接上傳到SPSSAU系統(tǒng)進(jìn)行分析。具體網(wǎng)上問卷下載以及上傳方法可以參考幫助手冊說明：SPSSAU上傳數(shù)據(jù)

下面對線下收集的紙質(zhì)問卷需要整理的數(shù)據(jù)格式進(jìn)行說明，包括常見的單選、多選、量表題的數(shù)據(jù)格式。

1、單選題

單選題一列代表一個(gè)指標(biāo)，一行代表一個(gè)樣本，數(shù)字代表被選項(xiàng)。例如下圖樣本1代表性別為選項(xiàng)2（女士），年齡為選項(xiàng)4（41-50歲）。

2、多選題

問卷研究時(shí)會(huì)使用到多選題，多選題的數(shù)據(jù)格式比較特殊，一列代表一個(gè)多選題的選項(xiàng)。比如一個(gè)多選題有4個(gè)選項(xiàng)，那么其數(shù)據(jù)中就會(huì)有4列，分別代表4個(gè)選項(xiàng)。而且使用數(shù)字1表示選中，數(shù)字0表示沒有選中。如下圖：

3、量表題

量表題與單選題類似，如下圖：

五、綜合評價(jià)方法

綜合評價(jià)時(shí)通常包括兩大方面：權(quán)重計(jì)算和綜合評價(jià)。權(quán)重計(jì)算最常用方法有AHP層次分析法、熵值法；綜合評價(jià)常用方法有模糊綜合評價(jià)、灰色關(guān)聯(lián)法、TOPSIS法和熵權(quán)TOPSIS法。分別進(jìn)行說明。

1、AHP層次分析法

AHP層次分析法的數(shù)據(jù)格式（即判斷矩陣）最為特殊，如下圖，研究人員可修改指標(biāo)項(xiàng)名稱，以及白色單元格內(nèi)的數(shù)字即可。判斷矩陣是‘ 下三角 ’ 完全對稱矩陣，因此‘ 白色 ’ 底紋處的信息變化時(shí)，‘ 藍(lán)色 ’ 背景的信息會(huì)自動(dòng)變化。

2、熵值法

熵值法用于指標(biāo)的權(quán)重情況。1個(gè)指標(biāo)占用1列數(shù)據(jù)。下圖中樣本編號只是個(gè)編號無實(shí)際意義，用于標(biāo)識下樣本的ID號，一般是比如年份一類的數(shù)據(jù)信息，分析時(shí)并不需要使用。

如果是面板數(shù)據(jù)希望進(jìn)行熵值法，其數(shù)據(jù)格式如下圖所示，比如有100家公司分別5年的指標(biāo)數(shù)據(jù)，那么一共就有100*5=500行數(shù)據(jù)。數(shù)據(jù)格式上需要如此，但在分析時(shí)只需要放入‘指標(biāo)列’數(shù)據(jù)即可。

3、模糊綜合評價(jià)

格式數(shù)據(jù)問題有哪些方面_格式數(shù)據(jù)問題有哪些_數(shù)據(jù)格式有問題

模糊綜合評價(jià)是對具有多種屬性的事物，綜合各因素作出一個(gè)總體評價(jià)。上傳的數(shù)據(jù)一般包括三個(gè)部分：指標(biāo)項(xiàng)、指標(biāo)項(xiàng)權(quán)重、評價(jià)項(xiàng)，數(shù)據(jù)格式如下圖：

4、灰色關(guān)聯(lián)法

灰色關(guān)聯(lián)法研究數(shù)據(jù)之間的關(guān)聯(lián)程度，即特征序列與母序列的關(guān)聯(lián)性情況。母序列單獨(dú)使用一列標(biāo)識，每個(gè)特征序列都使用1列標(biāo)識。下圖中樣本編號只是個(gè)編號無實(shí)際意義，用于標(biāo)識下樣本的ID號，一般是比如年份一類的數(shù)據(jù)信息，分析時(shí)并不需要使用。

5、TOPSIS法&熵權(quán)TOPSIS法

TOPSIS法和熵權(quán)TOPSIS法用于研究指標(biāo)與理想解的接近度情況。1個(gè)指標(biāo)占用1列數(shù)據(jù)，1個(gè)研究對象為1行，但研究對象在分析時(shí)并不需要使用，SPSSAU默認(rèn)會(huì)從上到下依次編號。

六、一致性檢驗(yàn)方法

一致性檢驗(yàn)用于判斷不同的模型或者分析方法在產(chǎn)出結(jié)果上是否具有一致性、模型的結(jié)果與實(shí)際結(jié)果是否具有一致性等。常用方法有Kappa一致性檢驗(yàn)、ICC組內(nèi)相關(guān)系數(shù)、Bland-Altman圖等。

1、Kappa一致性檢驗(yàn)

Kappa一致性檢驗(yàn)數(shù)據(jù)格式上，SPSSAU支持‘加權(quán)’和‘不加權(quán)’兩種格式。如果是‘加權(quán)’格式如下圖：A列和B列分別代表2個(gè)措施(醫(yī)生)，單獨(dú)用一列標(biāo)識對應(yīng)醫(yī)生診斷的病例數(shù)量?！訖?quán)’格式時(shí)，一定需要把權(quán)重加權(quán)項(xiàng)放入對應(yīng)的框中才可以。如果是‘不加權(quán)’格式，那么沒有權(quán)重列。只需要兩列原始數(shù)據(jù)即可。

2、ICC組內(nèi)相關(guān)系數(shù)

ICC組內(nèi)相關(guān)系數(shù)通?？捎糜谥販y信度分析等，比如有3個(gè)醫(yī)生對于5個(gè)病人的智商打分一致性。那么需要有3個(gè)醫(yī)生的數(shù)據(jù)，1個(gè)醫(yī)生為1列即可，其格式類似于配對數(shù)據(jù)，如下圖所示：

3、Bland-Altman圖

例如當(dāng)前有醫(yī)生使用兩種方法分別做一項(xiàng)實(shí)驗(yàn)，現(xiàn)需要對第1種和第2種方法共兩種方法的測量數(shù)據(jù)進(jìn)行一致性檢驗(yàn)；如果有分組數(shù)據(jù)，例如研究不同性別，此時(shí)只需要把性別group放入對應(yīng)框中即可，數(shù)據(jù)格式如下：

七、現(xiàn)狀政策類方法

現(xiàn)狀政策類分析主要用于分析政策實(shí)施的效果和影響，旨在評估特定政策或干預(yù)措施對目標(biāo)群體或現(xiàn)象的實(shí)際作用，常用方法如DID雙重差分法、傾向得分匹配法等。

1、DID雙重差分法

如果是進(jìn)行雙重差分DID分析，那么Treated地區(qū)（0代表A類地區(qū)即控制組，1代表B類地區(qū)即實(shí)驗(yàn)組）和time政策實(shí)施前后（0代表實(shí)施前,1代表實(shí)施后））數(shù)據(jù)只能包括數(shù)字0或者1，并且有對應(yīng)的被解釋變量Y，至于控制變量可有可無，由實(shí)際研究情況而定。

如果是多期DID數(shù)據(jù)，treated只能為數(shù)字0或1，數(shù)字0標(biāo)識‘控制組’，數(shù)字1標(biāo)識‘實(shí)驗(yàn)組’；time只能為數(shù)字0或1，數(shù)字0標(biāo)識‘before’（實(shí)驗(yàn)前），數(shù)字1標(biāo)識‘a(chǎn)fter(實(shí)驗(yàn)后)。Treate*time即為交互項(xiàng)，可使用SPSSAU數(shù)據(jù)處理->生成變量->乘積得到，格式類似如下圖：

2、傾向得分匹配

傾向得分匹配時(shí)，研究變量一定只能包括數(shù)字0和1，特征項(xiàng)的數(shù)據(jù)特征并無特別要求，類似數(shù)據(jù)格式如下圖：

3、Dagum基尼系數(shù)

Dagum基尼系數(shù)是傳統(tǒng)基尼系數(shù)的升級，用于衡量和評估收入或財(cái)富分配的不平等程度。分析時(shí)一定需要有計(jì)算項(xiàng)（比如人均GDP），至于group項(xiàng)和時(shí)間項(xiàng)可有可無，但通常二者均會(huì)有。Group項(xiàng)一般為地區(qū)，時(shí)間項(xiàng)一般為年份。Group項(xiàng)放入后會(huì)進(jìn)行組間PK，放入時(shí)間項(xiàng)時(shí)，會(huì)循環(huán)輸出不同時(shí)間項(xiàng)的計(jì)算結(jié)果。數(shù)據(jù)格式如下：

4、泰爾指數(shù)

泰爾指數(shù)是一種衡量‘不平均’的指數(shù)，比如用于衡量‘貧富差異’。如果是進(jìn)行泰爾指數(shù)計(jì)算，通常會(huì)涉及group項(xiàng)，比如區(qū)域（華北、華南、華東、西南、東北）其層次最高，也或者區(qū)域的下一層次省份group（北京、天津、河北、上海、浙江等），以及具體最小單位粒度城市，及其對應(yīng)的GDP/人口信息數(shù)據(jù)等。一行代表一個(gè)最小粒度1個(gè)時(shí)間點(diǎn)(通常1年)的數(shù)據(jù)。類似結(jié)果如下圖：

八、文本分析

文本分析是針對文本數(shù)據(jù)進(jìn)行研究和分析使用，SPSSAU文本分析包括詞云分析、文本情感分析、文本聚類分析、社會(huì)網(wǎng)絡(luò)關(guān)系分析、LDA主題分析等。

如果是通過excel格式（包括csv/xls/xlsx格式）時(shí)，只需要1列數(shù)據(jù)，將文本全部放置于A列中，A列不需要有標(biāo)題信息。每行（即每個(gè)單元格）存在1個(gè)分析文本。類似如下圖所示：

如果是txt文檔或者粘貼文本進(jìn)行上傳，那么系統(tǒng)會(huì)自動(dòng)過濾掉空行數(shù)據(jù)，并且以回車鍵作為每行（即每個(gè)分析文本）標(biāo)志。

以上即為今天常用方法數(shù)據(jù)格式的全部內(nèi)容，更多特殊分析方法的數(shù)據(jù)格式，可以在SPSSAU常見研究方法數(shù)據(jù)格式說明的幫助手冊進(jìn)行查詢（幫助手冊頁面按Ctrl+F 查詢）

在線咨詢

上一篇：兩獨(dú)立樣本t檢驗(yàn)與多元有序logistic回歸分析
下一篇：商標(biāo)注冊了大類其它小類可以用嗎（商標(biāo)是否可以跨類別經(jīng)營）

您的項(xiàng)目需求

*請認(rèn)真填寫需求信息，我們會(huì)在24小時(shí)內(nèi)與您取得聯(lián)系。

整合營銷服務(wù)商

30+常用分析方法數(shù)據(jù)格式

您的項(xiàng)目需求