閱讀174 返回首頁    go 阿裏雲 go 技術社區[雲棲]


結構方程模型(SEM)的假設(2)


結構方程模型(SEM)的假設

合理的樣本量

SEM是一般線性模型靈活有力的擴展。像其它統計方法一樣,需要一係列假設。這些假設應該滿足或至少近似地保證有可信賴的結果。

按 照James Stevens的社會科學的應用多變量統計的說法,一個好的經驗法則是在標準普通最小二乘多重回歸分析中每個因子有15個個案。因為SEM在某些方麵與多 重回歸緊密相關,SEM中每個測量變量15個個案是合理的。Bentler 和Chou (1987) 注意到隻要數據表現良好(例如,正態分布,無缺失數據或例外值等等),在SEM分析中研究者對每個參數估計,隻需要5個個案。注意Bentler 和Chou 提及每個參數估計要有5個個案而不是每個測量變量。測量變量在分析中至少有一個典型地路徑係數與其它變量相關聯,加上殘差項或方差估計,所以認可 Bentler 和Chou 和Stevens推薦的每個測量變量最小要15個個案相吻合是重要的。更一般的, Loehlin (1992) 使用驗證性因子分析模型報告蒙特卡洛仿真的研究結果,參考一些文獻後,得出對兩到四因子模型,調查者應該收集至少100個個案,200更好(如果可能)。 使用小樣本的結果包括迭代失敗 (軟件不能達到滿意的解), 不合理的解 (包括測量變量的方差估計為負值)和降低參數估計的準確性,尤其是,標準誤– SEM的標準誤是在大樣本假設下進行計算的。

當數據是非正態分布或在某些方麵是有缺陷的情況下 (幾乎總是對個案),需要較大的樣本。當數據有偏斜,有高低峰,不完整或不盡合理時,對所需要的樣本量做出絕對的推薦是困難的。一般的推薦是盡可能獲得較多的數據。

內生變量的連續和正態分布

SEM程序假設因變量和中間變量(所謂的內生變量是SEM的叫法) 是連續分布,有正態分布的殘差。事實上,SEM分析的殘差不僅僅要求服從單變量正態分布,它們的聯合分布也要服從聯合多變量正態分布。然而,這個假設在實際中從未滿足。

SEM專家已經開發多種方法處理非正態分布變量。這些方法是為假設有潛在連續分布的變量而設計。 例如,也許你管理一個研究參與者自信心項目的李克特量表。量表按照自信的連續程度由低到高計分,即使項目數據不是連續分布,潛在自信分布也是連續的。

相反,其它結果變量不是連續分布。例如,醫學研究中病人處理後是生還是死?大部分SEM程序目前不能處理這些名義水平因變量的類型。

模型識別 (識別方程)

如 不久所見,為了產生有判斷力的一組結果,SEM程序需要已知足夠數量的相關陣或協方差陣作為輸入。另一個要求是方程完全可識別。在SEM中,識別涉及參數 估計至少有一個唯一解的概念。參數估計隻有一個可能解的模型稱為恰好識別。有無限可能參數估計值的模型叫做欠識別。最後,參數估計多於一個可能解(除了一 個最佳或最優解外)的模型叫做過度識別。

下列方程,來自Rigdon (1997),或許可以幫助更清晰的理解這些概念:
x + 2y = 7
在上麵方程中,x 和 y 有無窮多個解(例如, x = 5 和 y =1, x = 3 和 y = 2)。因為“已知”比“未知”少,所以這些值是欠識別的。恰好識別模型是方程個數與變量個數相同的方程。
x + 2y = 7
3x - y = 7
對這個方程,方程個數與變量個數相同,從而有一對最佳值 (x = 3, y = 2)。
當 每個參數可識別,至少一個參數是過度識別時,會出現過度識別模型(例如,方程能由多種方式求解——而不是帶一個方程的參數解,多個方程都會產生這種參數估 計)。多數使用SEM的人都喜歡使用過度識別。過度識別模型有正自由度,也不必擬合恰好識別模型。當有過度模型時,施加在模型上的限製提供一組假設檢驗, 然後它能被絕對擬合模型的卡方統計量和各種描述模型擬合指數估計。與過度識別模型相關的正自由度允許模型有虛假的卡方檢驗。當過度識別模型擬合良好時,研 究者通常認為模型有足夠的擬合數據。

為了進行SEM 分析,識別是結構上或數學上的需要。許多規則能用於評價模型的識別水平,但這些規則不完善,用紙筆計算(事實上,幾乎不可能)非常困難,尤其是複雜模型。 SEM 軟件例如AMOS把執行識別檢查作為模型擬合過程的一部分。它們通常提供有關欠識別條件的合理警告。

能出現另一個複雜化的情 況是經驗欠識別。當設置識別模型有非常小(接近0)估計的參數估計時,會出現經驗欠識別。當SEM進行矩陣逆運算時,參數估計在模型參數定義的解空間中下 降,這樣程序突然偵測到結構欠識別問題是什麼。由於SEM估計的自然迭代,參數估計例如方差從正值開始在一次一次迭代中漸漸地接近0。例如,估計值接近0 的路徑係數在SEM矩陣逆運算算法中被當作0來處理。如果路徑係數識別模型是必須的,那麼模型就變成欠識別。

各種形式欠識別模式的補救方法是設法找到識別問題的來源和確定來源是經驗欠識別還是結構欠識別。對結構欠識別,唯一的補救方法是重新定義模型。經驗欠識別通過收集更多的數據或重新定義模型來校正。
Rigdon (1997)的例子可以說明這些問題。考慮下列模型:

如果圖片縮小請點擊放大


它包含一個因子F1,兩個誤差或殘差e1 和 e2,一個因子載荷連接F1 到 I2。模型需要估計四個參數:因子的方差,兩個誤差方差和一個因子載荷。

有多少可利用的輸入能在分析過程中使用?三個。怎麼知道要有輸入三個變量?可以使用下麵公式
[Q(Q + 1)] / 2

這裏Q 表示模型數據庫中測量變量的數目。在這個模型中有兩個觀測變量, I1 和 I2,所以由上麵公式顯示, [2(2+1)]/2 = 3。有兩個方差,一個是兩個變量都有的方差,一個是I1 和 I2間協方差。

用三個輸入估計四個未知參數怎麼可能呢?答案是這是不可能的:有三個已知變量或可利用的自由度,但有四個未知參數要估計,所以模型的自由度是 3 – 4 = -1 ,明顯地不可能。模型是欠識別——為了得到滿意識別水平,需要利用這個模型增加約束。

現在考慮第二個模型:

如果圖片縮小請點擊放大


因 為模型使用四個觀測變量,所以新模型有 [4(4+1)] / 2 = 10個自由度。從10個自由度中減去四個誤差方差,兩個因子載荷和兩個因子方差,一個因子間的協方差結果剩下一個自由度。在結構上模型是可識別的。事實 上,因為現在有一個正自由度,所以它是過度識別。

事實表明,如果F1 和 F2的協方差參數估計恰好變成零或非常接近零,模型變成經驗欠識別,因為即使在F1 和 F2間通過定義協方差在結構上識別它,從計算機軟件觀點看,依據經驗它不會被識別。

實際上,所有成功的擬合模型是恰好識別或過度識別。通常使用過度識別模型因為這些模型允許檢驗統計假設,包括整體模型擬合(Loehlin, 1992)。

完整數據或缺失數據的適當處理

許多SEM軟件接受相關陣或協方差陣的輸入。換句話說,使用另一個軟件(例如SPSS),能自己計算這些矩陣,然後將數據輸入到AMOS或其它SEM軟件中進行分析。例如,在一本雜誌中發表文章,如果打算重新分析報告的協方差陣,這個功能就很有用。

然 而,通常使用行數據輸入作為首選的模型分析:研究者通過數據庫,也許是SPSS或其它通用格式(像微軟的Excel ),給SEM程序,計算協方差作為分析的一部分。如果數據庫沒有完整的數據,這些程序能夠做什麼?缺失數據問題的典型解決方法包括個案的列刪 ,如果個案有一個或多個缺失數據,整個個案的記錄被刪除;對刪,兩變量相關係數隻有用到個案數據時才被計算。對刪導致數據庫中兩變量協方差或相關係數有不 同的樣本量。缺失數據另一個典型的處理技術是在變量的缺失數據處用變量的均值替代。

但是這些典型的缺失數據處理方法從統計觀點來看沒 有多少吸引力。列刪導致統計功效降低,特別是如果許多個案在多個變量上隻有幾個數據缺失,更不要說在數據庫中所有完全測量的個體限製統計推斷。對刪在邊際 上比較好,但協方差或相關使用不同的樣本量的結果對模型擬合效果有很大的影響,有時包括不可能解。最後,均值替代在所替代的地方會收縮變量的方差,這不是 所期望的。這些方法最致命的問題是假設缺失數據是完全隨機缺失,實際情況常常不是這回事 (Little & Rubin, 1987)。

對 缺失數據研究者能做什麼?如果缺失數據個案的比例小,比如說小於或等於5%。列刪可以接受 (Roth, 1994)。當然,如果5%(或更小)的個案不是完全隨機缺失,會導致參數估計不一致。另外,缺失數據專家 (例如,Little 和Rubin, 1987) 推薦在分析中使用極大似然估計方法, 該方法充分利用可使用的數據。在前麵的缺失數據中,AMOS使用極大似然估計。

定義模型和因果關係的理論基礎

SEM 模型永遠不能被接受;它們隻能不被拒絕。這導致研究者臨時接受一個規定的模型。SEM研究者承認在多數情況下擬合模型等價於他們自己暫時地接受模型。任何 模型可能是"正確"的,因為他們適合數據和首選模型。研究者盡力排除替選模型, 擴展替選解釋,但這不總是可能的。 因此,使用SEM需要某些不確定,特別是在控製條件下沒有收集的截麵數據。(其它通用模型也是如此,例如方差分析和多重回歸分析技術。)

因 為這個原因,SEM軟件需要研究者明確地定義模型。擬合數據較好的模型隻能被暫時接受時,擬合數據不好的模型絕對被拒絕。例如,如果用10個調查項擬合單 因子驗證性因子分析模型,模型被拒絕,能確信單因子不能充分解釋項目的共享方差,一個有用的發現,特別是如果相信一個共有因子沒有足夠地解釋項目的共享方 差。假設運行單因子模型,然後在相同的10個項目上運行雙因子模型;前一個模型被拒絕但後一個模型沒有被拒絕。現在知道在測量項目中不止一個因素需要解釋 共享方差。

除了評估單個模型的絕對擬合優度外,也能通過使用比較似然比卡方檢驗評估競爭模型。回到前麵例子,能使用統計檢驗相互比較 單雙因子模型,如果統計檢驗顯著,能得出較複雜的雙因子模型比單因子模型擬合數據更好。另一方麵,要是發現兩個模型間沒有顯著差別,能得出單因子模型與雙 因子模型擬合數據效果相同。

不是所有模型都可以用這種方法比較。隻有在較複雜的模型上利用一組約束或限製得出一個更簡單模型的模型才可以用這種方式比較。這些模型叫做嵌套模型。當想比較不能直接比較的模型時,能使用各種描述標準比較這些非嵌套模型。

最後更新:2017-04-03 05:40:03

  上一篇:go 酷炫:6個有趣的Linux命令
  下一篇:go cdh5.1.0 集成ganglia