You are on page 1of 83

第一章 概說

前言

潛在類別模式(latent class modeling, LCM)是探討潛在變


數的模型化分析技術。LCM不僅是一種統計方法,更影響了社
會科學研究者對於研究的操作與解釋,因此也是一種統計方法學
(statistical methodology)。他與傳統因素分析最大的不同在於
變數的形式:因素分析處理的是連續變數;潛在類別分析處理的
是類別變數。類別變數雖然不像連續變數具有豐富的變異與可以
計數的單位,得以進行多樣化的統計分析,但是類別變數卻擁有
容易取得、簡單容易操作的特點,例如基本的人口變數、社會變
數,都是類別變數。因此,潛在類別模式的分析技術,不但補足
了因素分析僅能處理連續潛在變數的缺口,也提供社會科學研究
者在面對紛雜的類別資料時,有一更強而有力的分析工具,最重
要的是,潛在類別分析把類別資料與潛在變數的觀念加以結合,
提高了類別變數的分析價值,也使得社會科學研究者可以一窺潛
在類別背後的實證意義,在方法學上具有重要的價值。
2 潛在類別模式—原理與技術

第一節 導論

如果說近二十年來,統計原理與技術對社會科學研究最大的衝擊
是什麼,最重要的應該是潛在變數模式(latent variable modeling,
LCM)的蓬勃發展。主要的理由之一是社會科學研究所關心的研究
議題多與抽象而且無法直接觀察的特質有關,為了進行測量與分析,
我們往往使用一些間接測量的方法,獲得片面的資料,然後利用潛在
變數的概念來整合這些間接測量資料,進而掌握抽象特質的狀態。
以社會學研究當中的重要概念社經地位(socioeconomic status,
SES)為例,我們或許可以利用收入、教育程度,或是職業聲望來瞭
解人們在社會上的地位或影響力的高低,但是這三者都只涉及社經地
位的部分概念,並不能代表社經地位這個概念的全貌,更重要的是社
經地位是一個由學者基於理論基礎所提出的抽象概念,客觀上無法直
接測量其高低,必須藉由可測量的外顯變數(manifest variables)
或指標(indicators)來定義社經地位的狀態,這就有賴潛在變數模
式的應用。
潛在變數模式受到重視的另一個重要理由是社會科學所探究的課
題是複雜的人類行為經驗與社會現象,研究者所蒐集到的資料往往是
片段、交錯複雜的數據,這些原始數據必須進一步加以整理,化簡成
為清楚明確的研究變數,以進行後續的統計分析,進而能夠對於現象
進行解釋。970年代以來盛行的主成分分析與因素分析,乃至於當
代流行的結構方程模式(structural equation modeling, SEM),最
重要的功能就是可以協助研究者將一堆測量數據整併、萃取出少數的
幾個主成分(component)或因素(factors)來進行精簡、有效率的
分析。潛在變數模式不僅可以協助研究者進行抽象概念的研究,它的
另一種功能亦能協助進行資料化簡與整併等這種不需要理論基礎,純
粹是一種探索性的資料處理作業。
簡言之,LCM不僅可以從事資料化簡的探索性(exploratory)
作業,也可以配合研究者的學理內涵與理論需求,進行驗證性
第一章 概說 3

(confirmatory)研究,加上電腦普及與功能提升的優勢條件,以模
型為基礎(model-based)的統計技術與軟體應運而生,促成潛在變
數模式近年來的蓬勃發展,未來仍有相當開闊的發展空間。
然而俗語說的好,有得必有失,在高科技掛帥、統計軟體大行其
道的今日,如果學術研究者不能透析技術背後的原理脈絡,掌握研究
議題下的方法學基礎,一味地只是為分析而分析,那麼充其量只是學
「匠」,而不能稱為學「者」。科技始終來自於人性,潛在變數模式
雖然富含方法學的哲理與彈性,但是運用者本身的自律與自覺,才是
讓學術研究技術得以發揮所長的根本。
類別變數與連續變數在潛在變數模式當中如何正確處理與分析,
就是一個很好的例子。基本上,潛在變數模式由潛在變數與外顯變數
所構成,當這兩類變數是類別或連續不同形式時,所使用的統計原理
即有所不同,再加上研究的議題不同時(例如實驗研究的重複量數資
料、發展研究的追蹤資料分析)與資料樣本的結構特性(單層次或多

層次),使得潛在變數模式產生了多種不同的型態 。
本書的目的在介紹以類別變數為主的潛在變數模式分析技術,對
象沒有接觸過LCM的社會科學研究人員或是學生,為了適合初學者
自行研讀,本書僅對LCM進行原理的介紹與基本模型的範例操作說
明(所使用的軟體為MPLUS與LatentGOLD),對進階應用與更複
雜或特殊的LCM有興趣的讀者,可以自行參閱專門性著作。然而,
雖然本書是緒論性質入門書,但是潛在變數模式本身屬於高等的多變
量分析技術,讀者必須具有相當程度的基本統計知識,尤其對於類別
變數的分析有相當的瞭解,如果有實際的類別變數的分析與研究經
驗,對於本書所介紹的概念與範例會有更好的吸收與瞭解。


對潛在變數模型的全貌有興趣的讀者,可以參見Skrondal與Rabe-Hesketh
(004)在Generalized Latent Variable Modeling專書中的詳細介紹。而Eye與
Clogg(994)、Heinen(996)的書中則有關於類別變數的潛在變數模型的
討論。
4 潛在類別模式—原理與技術

第二節 潛在變數模式

一、潛在變數的特性

潛在變數(latent variables)是指無法直接測量的變數,
必須以統計方法來估計出變數的狀態。一般我們所蒐集的研究
資料,都是可以直接測量觀察的變數資料,因此稱為外顯變數
(manifest variables)、觀察變數(observed variables)或測量變
數(measured variables)。基本上,潛在變數是一個透過統計程式
來加以定義的數據型態,至於潛在變數的內容是什麼,到了社會科學
研究者的眼中,就成為不同的內涵。例如心理學家就會把潛在變數看
做是抽象的心理特質,透過操作型定義,將潛在變數與心理學現象加
以連結,利用潛在變數來反映構念的強度(Nunnally, 978)。儘管
如此,潛在變項做為一個統計術語,必須符合特定的要件(Bollen,

00),才可做為實際研究的工具 。
最早對潛在變數感到興趣並發展出一套運算與分析程序者,
是一批從事遺傳與智力研究的生物與心理學家,例如Gotton、
Spearman、Thurston等人。為了瞭解智力的內涵,並能夠測量智力
的高低,這些學者發展出因素分析技術,來估計「智力」這一個潛在
構念。
在因素分析的架構下,潛在變數是一種具有強弱高低的計量變數
(metrical variable),例如智力測驗的題目(觀察變數)得分會有
相關,就是因為背後存在一個共同影響源(common cause),亦即
「智力」所造成。潛在變數的分數高低代表受測者的個別差異,個別
差異的程度可以從潛在變數的變異數來加以估計,而不同的潛在變數


有關潛在變數的討論,除了Bollon(00)的文章之外,還可以參考Denny
Borsboom, Gideon J. Mellenbergh, and Jaap van Heerden(00)與Westen, D.
& Rosenthal, R.(00)等人的討論。
第一章 概說 5

之間所具有的顯著共變,則反映了構念之間具有相關。
潛在變數除了可以以連續變數來定義,亦可以以類別變數來定
義,亦即影響觀察變數的分數變動,是因為背後所存在的潛在類別
(latent class)。此時,受測者在潛在變數上的個別差異不再是數
量上的程度差異,而是質性的類型差異,例如來自「城市」與「鄉
村」地區學生在各科學業成績高低的相關差異。由此可知,不僅我們
所測量的變數有類別與連續之別,潛在變數也可以被定義成「連續」
與「類別」兩種不同形式,因此潛在變數模式可以區分成四種類型,
如表.所示。
由表.可知,四種潛在變數模式中,最為眾人所熟知,也是發
展最早的,是外顯變數為連續變數且潛在變數也是連續變數的「因
素分析」。其他三類模型均涉及類別變數,其中發展年代較早的是將
潛在變數定義成連續變數的潛在特質分析(latent trait analysis),
由於多應用在能力測驗的試題分析(題目答對或答錯,為二分觀察變
數),因此也被稱為項目反應理論(item response theory)。

表. 不同典型的潛在變數模式與開創人物
外顯變數
潛在變數
類別 連續
潛在類別分析 潛在剖面分析
Latent Class Analysis Latent Profile Analysis
類別 Lazarsfeld & Henry(968) Gibson(959)
Goodman(974) Lazarsfeld & Henry(968)
Clogg(98) Rost(985)
潛在特質分析 因素分析
Latent Trait Analysis Factor Analysis
(also Item Response Theory) (include EFA and CFA)
連續 Richardson(96) Spearman(904)
Lawley(94) Thurstone(95, 947)
Rasch(960) Jöreskog(967)
Haberman(974)
6 潛在類別模式—原理與技術

從發展年代可以看出,潛在變數模式的發展脈絡,係延續最
早由Spearman基於對「智力」的好奇而發展的因素分析傳統,將
潛在變數定義成連續變數,其後才將觀察變數擴展到類別變數,發
展出潛在特質分析。但遲至960年代,才陸續有學者將潛在變數
以類別變數來定義,發展出純粹為類別變數模式的潛在類別分析
( L C A ; L a z a r s f e l d & H e n r y,  9 6 8 ; G o o d m a n ,  9 7 4 ) 與 觀 察 變
數 為 連 續 變 數 的 潛 在 剖 面 分 析 ( L a t e n t P r o f i l e A n a l y s i s ) ( L PA ;
G i b s o n ,  9 5 9 ; L a z a r s f e l d & H e n r y,  9 6 8 ) , 其 中 最 關 鍵 的 文 獻
是Lazarsfeld與Henry(968)所完成的著作《潛在結構分析》
( latent structure analysis ),同時涵蓋了LCA與LPA兩種技術,這
就是為什麼後來許多學者將這兩種模型統稱為「潛在結構分析」的起
源。
由於不同的潛在變數模式均起源於因素分析,如果讀者能夠瞭解
因素分析的原理與特性,將可以很容易地跨入其他三種涉及類別變數
的潛在變數模式,因此,以下將略述因素分析的概念,以利讀者銜接
這幾種模型的概念。從另一個角度來看,多數研究者對於因素分析並
不陌生,甚至於已經從傳統的探索性因素分析延伸到驗證性因素分析
(confirmatory factor analysis, CFA)(Anderson & Rubin, 956;
J o r es k o g ,  9 6 7 ) , 但 是 對 於 如 何 處 理 類 別 變 數 的 潛 在 變 數 模 式 卻 甚
少接觸,以致於在面對各種形式的變數的潛在模型分析上,欠缺一個
完整的瞭解與應用技術的熟稔,本書的介紹或許有助於潛在變數模式
的瞭解,但更重要的意義在於透過潛在類別分析的介紹,使各位能夠
瞭解各種不同模型之間的異同,適當的使用時機,以提高資料分析的
正確操作,而有助於社會科學研究的發展。

二、因素分析模式

904年Spearman首度提出因素分析的概念以來,至今已有百年
歷史。基本上,因素分析的目的除了在尋找觀察變項背後的共同潛在
第一章 概說 7

構念,也廣泛被用來簡化變項、探討變項間的群組關係,但是只有
在被應用於定義共同因素的因素分析方法,才是潛在變數模式的一
種模式。芝加哥大學的Thurstone教授指出,因素分析之所以能夠用
來估計潛在變數,最主要的關鍵在於簡化結構(simple structure)
原則,他認為外顯變項間的複雜關係,主要是因為背後的潛在構念
具有多面向的結構,因此因素分析的主要任務是在釐清變數間的關
係,找出最簡化、最清楚、最有解釋力的因素結構,來反映潛在構念
的結構,此一最簡化原則也就成為因素分析最根本的原則(Mulaik,
97)。

(一)因素分析的基本模型

以因素分析去估計構念(constructs)時,研究者的假設為抽
象的心理構念是影響外顯行為的決定因素,由於構念隱含在可觀
察的事物背後,因此我們所測量到的同一個構念的任兩個觀察變
數的相關高低,事實上是由於該潛在構念影響的結果(Borsboom,
Mellenbergh, & Heerden, 004)。以統計的術語來說,某一個構念
對於其測量分數的影響力,由因素負荷(factor loading)表示。如
果因素變異數為.0,此時用來測量同一個構念的任兩個觀察變數的
相 關 係 數 ( ρ ij) 可 被 兩 個 標 準 化 因 素 負 荷 量 ( λ i 與 λ j) 的 乘 積 所 取
代:

ρij = λi λj

此時外顯變數之間的關係被其背後存在的共同潛在構念所解釋。
透過此一潛在變數的統計界定程式,我們得以解釋外顯變數之間的關
係。如果外顯變數之間的相關能夠被潛在變數充分解釋,使得外顯變
數之間不再具有關聯,亦即具有局部獨立性,為理想的因素模型。
8 潛在類別模式—原理與技術

B X
C
圖.:基本的潛在變數模式圖示

圖.呈現了帶有三個外顯變數與一個潛在變數的因素分析模
型 。 模 型 中 , X   做 為  A   到  C   三 個 外 顯 變 數 的 共 同 影 響 源 , 可 以 完
全解釋外顯變數之間的關係,使得三個變數之間沒有關聯,亦即局
部獨立性現象的存在。外顯變數無法被共同影響源解釋的獨特變異
(uniqueness)彼此相互獨立且服從常態分配,又可稱為測量殘差
( m e a s u r e m e n t r e s i d u a l s ) , 由 圖  .  當 中  A   到  C   三 個 外 顯 變 數
背後的三個獨立箭頭表示之。由於外顯變數的變異是由背後的共同
影 響 源 ( 潛 在 變 數  X ) 所 反 映 ( r e f l e c t i v e ) 或 投 射 得 出 , 因 此 這
種描述觀察變數與潛在變數的模型又稱為反映性模型(reflective

model) 。

(二)探索性與驗證性分析

傳統上,研究者在進行因素分析之前,並未對資料的因素結構有
任何預期與立場,而是藉由觀察資料來界定因素的組成與結構,此種
因素分析策略帶有濃厚的發現、試探、嘗試的意味,因此稱為探索性
因素分析(exploratory factor analysis, EFA)。然而,有時研究者


在潛在變數模型中,定義外顯變數與潛在變數的關係的模型稱為測量模型。
除了潛在變數得以影響外顯變數,稱為反映性模型之外,也有學者主張外顯
變數得以影響潛在變數,稱為形成性模型(formative models),有興趣的
讀者可以參閱007年《心理學方法》(Psychological Methods, 4())當中
Howell, Breivik與Wilcox(007)合撰的論文,以及兩篇由Bollen、Bagozzi所
寫的精彩回應文。
第一章 概說 9

在研究之初即已提出某種特定結構關係的假設,例如某一個概念的測
量問卷是由數個不同子量表所組成,此時因素分析可以被用來確認觀
察資料的模型是否即為研究者所預期的形式,此種因素分析稱為驗證
性因素分析(CFA),具有理論檢驗與確認的功能。
基本上,同一組觀察資料可以進行探索性與驗證性分析,但何
時應採用探索性或驗證性分析,主要取決於研究者的目的與文獻的內
涵。EFA的主要功能是在簡化龐雜的資料,希望能夠透過變數組合或
因素萃取來獲得較少的變數(稱為主成分或因素)來反映某一群具有
關聯的資料。在心理與教育測量上,一系列的問卷題目的重組或測驗
得分的解釋,也可以透過EFA,找出測驗題目或分數背後的因素結構
來達成。EFA的主要特色之一,是因素結構的決定取決於資料本身與
統計程式,而非理論或文獻觀點,因此適合理論尚未發展完全的研究
課題的資料分析,或是不須採用理論觀點做為指引的調查研究。也因
為 E FA 的 目 的 在 簡 化 資 料 、 尋 找 因 素 結 構 , 因 此 E FA 的 統 計 程 式 將 會
尋求最少的新變數來反映最大程度的原來的測量變數的內容,對於無
法被歸類於某特定因素的測量變數將被忽視或建議刪除,藉以獲得一
個最簡化結構。
相對之下,CFA的目的則在檢驗研究者所提出的理論模式是否可
以透過研究過程所蒐集得到的資料來獲得證實。當理論模式與觀察資
料十分吻合時,我們將可宣稱理論模式與實際資料達到擬合的狀態,
相反地,當理論模式與觀察資料不吻合時,研究者所提出的理論模式
將被推翻,此時研究者可以藉由模型修飾(model modification)或
替代模型(alternative model)的提出來繼續他的研究。
換言之,在驗證性分析中,理論與文獻決定了統計模型,並先
於資料之前而存在,資料的分析是基於研究者所提出的模型架構來
進行參數估計,而非從資料的關係來推導出潛在變數的內涵與型態。
也因此,在驗證性分析中,因素結構及其組成方式可以由研究者決
定,不必受限於資料的本身,因此操作上有較大的彈性,應用範圍
也較EFA更為廣泛,但也必須能夠找到合宜的理論或合理的邏輯推理
10 潛在類別模式—原理與技術

來支援所提出的因素結構,需要更豐富的文獻與理論論述做為基礎。
因此一般將CFA稱為理論推導(theory driven)研究,將EFA稱為資
料 推 導 ( d a t a d r i v e n ) 研 究 。 從 研 究 的 角 度 來 看 , E FA 與 C FA 兩 者
目的不同,使用的時機也不一樣,兩者具有相輔相成的功效(Coste,
Bouee, Ecosse, & Pouchot, 005)。

三、潛在類別分析

如果說因素分析是用來探討連續外顯變數(continuous manifest
variables)背後的連續潛在變數(continuous latent variables)的
最佳技術,那麼潛在類別分析是用來探討類別外顯變數(categorical
manifest variables)背後的類別潛在變數(categorical latent
variables)的最佳技術。因素分析與潛在類別分析主要的差異,就
是變數的型態是連續或類別的差異。而LCM即是用以探討潛在變數
的一種模型化的分析技術。以先前討論的圖.為例,如果把圖中的
各外顯變數與潛在變數視為類別變數時,即成為一個潛在類別模型
(latent class model)。
基本上,因素分析是以潛在變數來解釋外顯變數之間的線性關係
(linear relationship),達到局部獨立性;LCM的目的即在於以最
少的潛在類別數目來解釋外顯變數之間的關聯,以達到局部獨立性。
除此之外,雖然LCM與因素分析背後的數理基礎迥然不同,但是在
方法學上,LCM與因素分析在功能與目的上幾乎沒有什麼不同。例
如,當代因素分析被區分為探索性與驗證性兩種,LCM也有類似
的分類,探索性的LCM主要由資料來決定潛在變數的內容(第三
章),驗證性LCM則是由理論來引導潛在變數的內容(第四章)。
傳統以來,潛在變數的估計除了使用因素分析來進行潛在因素
的萃取之外,項目反應理論則以非線性模型來進行潛在特質的測定。
LCM與因素分析最大的不同,在於LCM所處理的是類別潛在變數,
而 因 素 分 析 所 處 理 的 則 是 連 續 潛 在 變 數 。 另 一 方 面 , I RT 模 型 雖 然 可
第一章 概說 11

以 處 理 二 分 或 類 別 化 的 測 量 題 目 , 但 是 I RT 所 處 理 的 主 要 是 能 力 測
驗中,個別題目的難度或鑑別度估計,並非在於多重測量指標所構
成的量表組成的潛在變項估計。也因此,當LCM的概念在968年被
Lazarsfeld與Henry提出之後,潛在變數模式得以應用於連續與類別
兩種不同的資料形式,也替IRT、FA等潛在變數模式提供了一個最佳
的溝通互補的平臺與橋樑。
LCM技術最早是用於二分態度測量的潛在類別估計,後由Goodman
(974)擴展到多個類別的名義變數,及最大概似算則的應用。
LCA的方法學價值可說是與因素分析並駕齊驅,因為處理的變數類
型是類別變數,因此可補足因素分析的缺口。在操作過程與解釋結果
時,研究者須注意類別變數與連續變數的本質差異,以適切方法處理
類別資料的蒐集與整理,正確報告各項數據,使得在解決實際研究課
題時,可以有效率地應用潛在變數的概念來解釋真實的社會現象。另
外在研究報告的撰寫上,能夠正確地報告各種數據,將分析結果正確
呈現出來。有關數理基礎與參數估計的操作,本書將概述重要內容,
並以實際數據進行演示。

第三節 潛在類別模式的分析軟體

目前已有多種軟體可以進行潛在類別分析。以下僅對比較常用的
幾個軟體(LatentGOLD、Mplus、SAS),以及一些可以自由下載
的軟體加以介紹。

■LatentGOLD
http://www.statisticalinnovations.com/

LatentGOLD可以說是各種軟體當中,最新發展也是使用最便利
的 一 種 , 該 軟 體 由 M a g i d s o n 與 Ve r m u n t (  0 0 5 ) 所 發 展 , 與 微 軟 視
窗相容,使用圖形介面進行程序控制,具有良好的繪圖與資料整理能
力,基本的功能包含潛在類別叢集分析(LC Cluster models)、多
12 潛在類別模式—原理與技術

因素模型(DFactor models)與潛在類別迴歸分析(LC Regression


models),此外還包含了高階的統計功能與模型設定,例如貝氏
常數(Bayes constants)、二維殘差分析(bivariate residuals,
BVR)、自動多重初始值(auto starting values)、多層次模型
(multilevel LC model)等功能,報表中也提供了標準誤估計量。
目前已經發展到第四版,也有學生版軟體提供學生學習與教學之用
(但是學生版軟體僅能使用軟體所附掛的範例,無法執行研究者自己
的資料庫)。若加掛進階模組則可處理連續潛在變數、多層次分析、
複雜取樣分析、項目反應理論分析等。本書的示範主要以本軟體為
主。

■Mplus
http://www.statmodel.com/

另一個重要軟體是由Bengt Muthen與Linda Muthen所發展的


MPLUS軟體,除了潛在類別分析,還可以用來處理傳統迴歸分析
與因素分析、路徑分析、結構方程模式、項目反應理論、多層次模
型、成長曲線模型等,幾乎涵蓋了當代所有重要的高等統計技術,尤
其是能夠處理不同性質的資料與不同型態模型的混合模式(mixture
modeling)。在附屬功能上,Mplus不能提供繪圖、製表功能,操作
介面為程式語法,但是語法內容還算簡單易學。目前已經發展到第5
版,也有學生版提供學習與教學用途,但限制是六個測量變數與兩個
自變數,總體層次的變數上限為(進行多層次分析時)。本書的示
範主要亦以本軟體為主。

■SAS PROC LCA and PROC LTA


http://methcenter.psu.edu/index.php/home

重要的統計軟體SAS 9.0現在已經可以利用外掛模組PROC
L C A 與 P R O C LTA 進 行 潛 在 類 別 分 析 , 這 兩 個 模 組 是 由 賓 州 州 立 大
第一章 概說 13

學的方法學中心(The Methodology Center)所開發完成(目前仍


是測試版階段,可以由上述網站連結下載,但是必須申請會員帳號
與密碼才能下載),未來潛在類別分析可以搭配SAS來進行LCA與
LTA , 多 樣 本 分 析 、 邏 輯 模 型 分 析 等 。 在 S A S 官 方 網 站 則 提 供 其 他
執行LCA的替代方案,請參閱:http://www.sas.com/proceedings/
forum007/9-007.pdf。

■GLIMMIX .0
http://www.scienceplus.nl/scienceplus/main/softwareshop/glimmix.jsp

GLIMMIX也是一套功能強大的潛在變數模式分析軟體,用來分
析帶有類別與連續變數的混合模型與迴歸分析,GLIMMIX可以處理
多種不同的資料,尤其是大型資料庫,GLIMMIX可以處理達50000
筆資料,50個變數的模型。

■LCAP
http://hardy.wustl.edu/

LCAP是由華盛頓醫學大學的Rosalind Neuman(999)所自行
發展的類似於MLLSA的潛在類別分析軟體,所不同的是可以產生多
重初始值,軟體是以C語言撰寫的,可從網站上自由下載。

■LEM
http://www.uvt.nl/faculteiten/fsw/organisatie/departementen/mto/software.html

LEM由荷蘭Tilburg University的Jeroen Vermunt(997)所發


展,擅長於類別變數的分析。LEM可用來分析設限與非設限潛在類
別分析,同時也可以處理對數線性模型、羅吉斯迴歸、潛在變數路
徑分析、潛在特質分析、歷史事件分析,與其他類別變數的模型分
析。LEM軟體可以偵測模型的辨識狀況,提供標準誤等資訊,功能
完整,使用上也十分方便,網站上有操作手冊與範例可以下載。
14 潛在類別模式—原理與技術

■LLCA
http://ourworld.compuserve.com/homepages/jsuebersax/llca.zip

John Uebersax(999)所發展的LLCA(Located Latent Class


Analysis)亦是用來處理潛在類別模式的自由軟體,比較特別的是可
用來估計特殊的潛在類別模式(probit unidimensional latent class
m o d e l s ) , 其 運 作 語 言 是 F O RT R A N , 可 以 在 下 列 網 址 獲 得 程 式 碼
http://lib.stat.cmu.edu/jasasoftware/llca.txt。

■MLLSA
http://www.soc.umn.edu/~eliason/CDAS.htm

MLLSA(Maximum Likelihood Latent Structure Analysis)


是由Clifford Clogg所發展的軟體,雖然開發的比較早,但頗適合
於潛在類別分析的學習與教學,其介面還是PC/DOS模型,可在
WINDOWS系統中以DOS視窗處理,在明尼蘇達大學社會系教授
Scott Eliason的網站上可以自由下載,在McCutcheon's(987)
的專書附錄中也有MLLSA的介紹。Eliason教授的網站中也可以
獲得另一個類別變數分析軟體CDAS(Categorical Data Analysis
System),可用於分析對數線性模型以及潛在類別分析,值得瀏
覽。

■PANMARK
http://www.scienceplus.nl

PanMark也是一個頗受好評的軟體,由荷蘭中央統計局的Frank
van de Pol, Rolf Langeheine與W. de Jong發展,他的特色在於能夠
進行自動產生多重初始值,避免局部收斂的問題,也能夠運用拔靴法
(bootstrap methods)進行模型比較的統計檢驗。PanMark也能夠
處理縱貫研究資料,報表中亦提供標準誤等資訊。
第一章 概說 15

■WINMIRA 00
http://www.assess.com/WINMIRA.html
http://winmira.von-davier.de

WINMIRA 00軟體由Matthias von Davier(00)發展,可


以用來分析潛在類別分析,以及單參數的IRT模型(Rasch models)
與混合模型(Rasch mixture models)(Rost, 990; 99; Rost &
v o n D a v i e r,  9 9  ) , 多 元 計 分 I RT 也 可 以 分 析 , 亦 可 用 來 估 計 R o s t
(985, 987)的順序潛在類別分析模型。變數形式上,可以用來
分析名義或連續潛在變數,操作介面是WINDOWS視窗形式,與
SPSS、EXCEL相容性高,對於一般使用者非常便捷,容易學習。

■WINLTA
http://methcenter.psu.edu/index.php/home

W I N LTA 是 由 賓 州 州 立 大 學 的 L i n d a C o l l i n s 所 發 展 的
WINDOWS視窗介面的自由軟體,除了傳統的潛在類別分析以
外,還可利用分立馬卡夫鏈原理來分析縱貫性資料的潛在轉換分析
(Latent Transition Analysis, LTA)。
第二章 類別變數的特性與分析

前言

要瞭解LCM,首先必須對類別變數的特徵與基本分析方法
有所瞭解,然後才能就其如何處理潛在變數的萃取與分析進行進
一步的探討。類別變數與連續變數最大的不同在於變數的數值是
間斷的數值,每一個數值代表不同的屬性或類別,每一個類別可
以得到一定的次數,類別變數的分析主要是針對這些次數轉換成
機率來加以處理,因此類別變數的分析與機率理論有密不可分的
關聯。如果變數數目少時,可以利用簡單的次數分配表來描述資
料,兩個類別變數的關係可以利用列聯表來呈現,並使用卡方考
驗來檢驗細格次數是否顯著不同於期望值。然而,當變數數目超
過兩個以上時,卡方考驗也不敷使用,而須利用對數線性模式來
分析變數間的關係。潛在類別模式的根本,就是延伸自這些類別
變數的數據分析,進一步延伸到潛在變數模式的應用當中。
18 潛在類別模式—原理與技術

第一節 類別變數特性


類別資料(categorical data) 的分析向來是社會科學領域一個
非常基本但是卻容易被人們忽視的部分。所謂非常基本,是指因為許
多自然情況下的研究資料多是類別資料,例如人口變項當中的性別、
居住地區、宗教信仰、家庭型態、教育水準等等;社會變數中的政黨
屬性、工作職位、職業類型;醫學上的疾病分類、生物學上的物種分
類等等;這些變數多半是以自然的形式存在於人們生活的周遭,很容
易被觀察到,或是被蒐集到,由於類別資料反映的是測量對象在本質
類型上的差異,而非測量程度與度量其大小的變數,因此多半無法被
我們以人為的方式任意定義,而必須就所觀察到的狀況來進行研究,
因此可以說是非常原始、直接的測量與分析。
至於類別資料的分析容易被人們忽視,主要是因為當代應用統計
科學的發展,多是因應科學研究的需要。在自然科學典範下(例如物
理、化學、生物、醫學),研究議題多與現象的測度(強度、高低、
大小)有關,因此研究變數在本質上都會牽涉到四則運算的分析,也
因此一方面是研究上的需要,導致以連續性資料分析為主的統計技術
快速發展,對研究人員的養成過程,自然也會強調連續變數的分析。
另一個類別資料比較會被忽視的另一個原因,是基於類別資料本
身的限制,因為類別變數的數值通常較少,變數的變異程度較小,所
能夠提供的資訊較少,在進行統計推論時,對於估計的基本要素中的
充分性較低,因此在推論上的能力不如連續性變數,因此受到重視的
程度較少。尤其當我們將研究的重心放在潛在變數的估計時,所需要
的資訊又要比以往單純的外顯變數模型來得高,因此使得類別資料的
分析,一直無法跟上當代模型化分析的趨勢。


類別變數有時也以間斷變數(discrete variable)稱呼之。雖然這兩個名詞在
統計學上所指不同,但是在本書中則視為同一個概念。
第二章 類別變數的特性與分析 19

一、類別資料的特性

類別資料通常由兩種途徑測得:以名義尺度(nominal scale)
所測量得到(稱為名義變數),用以反映不同類型的類別;以及以順
序尺度(ordinal scale)所測量得到(稱為順序變數),用以反映不
同順序、等級、名次(Agresti, 2002)。這兩種變數由於缺乏明確
的測度單位,因此變數的數值僅能反映不同的類型,類型之間主要是
相同或不同的關係(例如男性與女性的差異、不同民族的受試者),
或是能夠反映不同類別的優先順序(但是無法度量差異的程度),例
如高階管理者、中階管理者與基層管理者的區別。這種資料的基本特
徵,是測得的結果是反映不同類型的間斷(discrete)數值,數值間
的差距量沒有統計上的意義。
類別資料被蒐集得到之後,在統計上統稱為類別變數
(categorical variables)。相對之下,利用等距尺度(interval
scale)或比率尺度(ratio scale),測量出受測對象的程度高
低強弱,能夠反映差異量多寡的變數稱為連續變數(continuous
variables)或計量變數(metrical variables)。所謂計量變數是因
為所測得的結果都是由有意義的數值反映強度,例如身高幾公分、體
重幾公斤,即使被測量的結果是間斷的數值,無法做更精確單位的切
割(例如家中人數幾人),由於數值具有測量單位,因此具有強度的
意義,也是一種連續變數的概念。

二、次數、百分比與列聯表

對於類別變數的整理與呈現,最簡單的方式是次數與百分比。
例如某一個班上的學生,男性有30人,女性有20人,如果把次數
除以總人數再乘以00%,就是百分比(percentage),例如男生
60%,女生40%。若不乘以00%,改以小數點形式存在時,就是機
率(probability),此時男性機率是.6,女性的機率是.4。
20 潛在類別模式—原理與技術

表2. 雙類別變項列聯表範例
GENDER性別
總和
男 女
資訊取得:從網路

個數 392 879
27
否 性別內的% 46.4% 45.9%
46.%
資訊取得內的% 30.8% 69.2%
個數 453 034
487
是 性別內的% 53.6% 54.%
53.9%
資訊取得內的% 30.5% 69.5%
個數 845 93
總和 2758
資訊取得內的% 30.6% 69.4%

進一步來說,「性別」這個類別變數的次數與百分比(或機率)
可以以一個簡單的次數分配表(frequency distribution)或長條圖
(bar graph)來表示它的分佈情形。如果要同時描述兩個類別變數
的分佈情形時,單一變數的次數分配表已經不敷使用,須以列聯表
(contingent table)來表示。列聯表中,除了可以反映兩個變數個
別的分配情形(表2.的右側與下方的邊緣次數與百分比),更可以
看出兩個變數的交互影響與關聯性,亦即列聯表中的各細格(cell)
次數與百分比。
表2.是一個實際的列聯表範例,一般而言,直欄(column)變
項 以  X  表 示 , 橫 列 ( r o w ) 以  Y  表 示 , 如 果  X  變 項 具 有  k  個 水 準 ,
Y  變 項 具 有 l 個 水 準 , 此 時 稱 為 k × l 列 聯 表 。 如 果  X  與  Y  為 非 對 稱
關係時,也就是某一個變項為獨變項,另一個變項為依變項時,通常
是將依變項以 Y 變項表示,放在橫列上。表2.中,性別變項放置於直
欄中,具有男與女兩個水準;資訊取得變項放置於橫列中,具有否與
是兩個類別,形成一個2 × 2的列聯表。右側及下方的次數分配稱為
邊 際 分 配 ( m a rg i n a l d i s t r i b u t i o n ) , 反 映 兩 個 變 項 各 自 的 次 數 分 配
狀況,也就是兩個獨立的次數分配表。從直欄的性別來看,男生與女
生的次數分別為845與93,分別佔30.6%與69.4%;從橫列的資訊
取得行為來看,從網路取得資訊的人數為487,佔53.9%,多於否的
第二章 類別變數的特性與分析 21

27人(佔46.%)。
一個列聯表中,邊際次數所包夾的區域稱為細格﹙cells﹚,反
映兩個變項的互動關係。兩個類別變項是否具有關聯性,最重要的
就是檢查各細格當中次數的變化情形。從表2.的細格,使用網路
取得資訊的選項中,可知男性會使用網路取得資訊者為453人,女
性會使用網路取得資訊者為034人,分別佔了30.5%與69.5%;在
不使用網路取得資訊的人數當中,男女各為392(30.8%)與879人
(69.2%)。從細格的百分比數據可以看出,男生與女生在使用網路
取得資訊的行為上,與邊際次數的30.6%:69.4%的比例接近。
值得注意的是,若有三個以上的類別變數,三個變數之關係的
次數變化的呈現,仍須以二維的列聯表為主,一次呈現兩個類別變數
的次數與百分比變化,第三個變數則做為切割變數(或稱為控制變
數)。在統計實務上,並不會將多個類別變數同時列表,以免資料過
於混亂而不易解釋。

第二節 卡方統計量與卡方考驗

一、期望值與殘差

前面用各細格百分比差異來比較細格的人數變化時,會受到邊際
次數不平均的困擾,造成判斷上的困難。此時可利用期望值的概念,
求取細格在兩個變項無關聯時,「應該」出現的次數,然後求取殘差
來說明各細格的變化情形,稱為殘差分析(residual analysis)。
在列聯表中,期望值(以 表示)是各細格相對應的兩個邊際人
數百分比( P i. 與 P .j )的乘積乘以總人數(如表2.2所示):

           (2-)
22 潛在類別模式—原理與技術

公 式 2 -  中 , n i. 與 n .j 分 別 為 表 2 . 2 中 的 兩 個 變 數 的 邊 際 次 數 ,
n 1. = A , n 2. = B , n . = C , n .2 = D , 除 以 總 人 數 後 為 邊 際 機 率 , 亦
即 P . = A / N , P 2. = B / N , P . = C / N , P .2 = D / N 。 四 個 細 格 的 期 望 次
數,其比例與邊際次數的比例相同。從機率的觀點來看,期望值反
映了在特定邊際次數的條件下,兩個變項無關聯時,細格次數在隨機
情況下的最可能值,或稱為最大概似(maximum likelihood)期望
值。一個2 × 2列聯表的細格期望值的計算方法如表2.2所示。

表2.2 2 × 2雙類別變項交叉表之期望值
X 變項
變 項 邊際次數
水準一 水準二
水準一 E = AC/N E2 = AD/N A
Y 變項
水準二 E2 = BC/N E22 = BD/N B
邊際次數 C D N

二、殘差與標準化殘差

若將各細格實際觀察人數減去期望人數,可得到殘差
(residual),又稱為Δ(delta)值:

             (2-2)

殘差值的大小可用來判斷各細格的特殊性:殘差越大,各細格分
佈越不如期望般的出現,也就是兩個變項不是無關聯的;相對地,當
殘差越小,表示各細格分佈越接近期望,也就是兩變項無關聯。
殘差是一個未標準化的統計量數,殘差的大小表示觀察值與期望
值的差異狀況,越大的殘差值,表示兩個變項的特殊性越高,也就是
關聯性越高。在統計上,如果可以將統計量數找出分配的機率模型,
第二章 類別變數的特性與分析 23

即可以利用機率的概念來進行檢定。殘差統計量的機率模型可以透
過標準化程序,將殘差除以標準誤,得到標準化殘差(standardized
residual)(Haberman, 973),以Δ'表示,公式如下:

             (2-3)

公式2-3的分母為標準誤,分佈呈標準化常態分配N(0,),也
就是標準化Z分配。因此可以直接將與Z分配相比,來決定∆'的統計
意義,例如當∆'的絕對值大於.96時,表示殘差落於抽樣分配的極端
5%區域內,當∆'的絕對值大於2.58時,表示殘差落於抽樣分配的極
端%區域內,也就是觀察值顯著不同於期望值,第一類型錯誤為5%
或%。
以表2.3的數據為例,一個公司若有50個員工,男女比例為2:3。
其 中 有  名 高 階 主 管 , 都 是 男 性 , 基 層 主 管  0 名 , 四 女 六 男 , 最 後
職員則有29人。將這些數據整理成列聯表,並利用公式進行期望值
的計算,再把觀察次數減去期望次數得到殘差,或計算標準化殘差,
以SPSS進行整理這些數據後所得到的結果如表2.3所示。
以女性職員為例,觀察次數為6人。然而女性共有20人,職員
共 有 2 9 人 , 因 此 女 性 職 員 的 期 望 次 數 為 ( 2 0 × 2 9 ) ÷ 5 0 =  . 6 ,
換言之,在女性與職員兩個邊際次數為給定的20與29時,我
們期望得到的細格次數為.6。殘差為觀察次數減去期望次數
(6- .6 = 4.4),表示實際觀測到的次數與期望次數多了4.4人,
換算成標準分數是.3:

從標準常態分配來看,這個數值落在以0為平均數的95%信賴區
間中,亦即.3並沒有顯著不同於0,或殘差4.4並沒有顯著不同於0,
女性職員的觀察次數並沒有顯著不同於期望值。
24 潛在類別模式—原理與技術

表2.3 雙類別變項列聯表的殘差分析數據
職別
總和
職員 基層主管 高階主管
個數 6 4 0
期望個數 .6 4.0 4.4
20
女性 殘差 4.4 .0 -4.4
20.0
標準化殘差 .3 .0 -2.
調整後的殘差 2.6 .0 -3.
性別
個數 3 6 
期望個數 7.4 6.0 6.6
30
男性 殘差 -4.4 .0 4.4
30.0
標準化殘差 -. .0 .7
調整後的殘差 -2.6 .0 3.
個數 29 0  50
總和
期望個數 29.0 0.0 .0 50.0

值得注意的是,上面所計算的殘差或標準化殘差會隨著邊際期望
值的大小變動而產生波動,若將標準化殘差以各邊際比率進行調整,
得到調整後標準化殘差(adjusted standardized residual),可以排
除各邊際次數不相等所造成的比較問題,公式如下:

        (2-4)

以女性職員的範例來看,調整後標準化殘差的計算如下:

從數據可以看出,調整後的標準化殘差已經比.96大,落在95%
信賴區間之外,具有統計上的顯著性(觀察次數與期望次數的差距顯
著地不為0)。
第二章 類別變數的特性與分析 25

三、卡方量數與卡方考驗

殘差是各細格次數與期望次數的差距,亦即對於各細格的單獨檢
驗,並非對於兩個變項關係的整體考驗(overall test)。如果將每
一個細格的標準化殘差平方後加總,稱為卡方量數(χ2 statistic),
公式如下:

          (2-5)

卡方量數的分配服從卡方分配,因此可利用卡方量數的大小來考
驗虛無假設的統計意義,決定兩個變項間是獨立(無關聯)還是相依
(有關聯),稱為卡方考驗(chi-square test)。觀察值與期望值的
差異越小,χ2 值越小,殘差越沒有解釋上的意義;差異越大,χ2 值
越大,殘差越具有解釋上的意義。χ2 值的大小,代表觀察數據與理
論值的差異程度,一旦 χ2 值大於顯著水準的臨界值,即可宣稱具有
統計意義。
在統計檢驗的程序上,列聯表分析應先執行卡方考驗,一旦卡方
統計量達到顯著水準後,再以殘差分析來檢驗各細格的狀況。換句話
說,殘差分析是卡方考驗顯著後的事後考驗程序(post hoc test),
以決定各細格的差異狀況,並據以解釋變項關聯情形。以範例數據為
例,表2.3的 χ 2 值計算如下:

自由度為兩個變項的水準數減一的乘積:(2- )×
(3- ) = 2,達到.05的顯著水準(χ2 = 0.5,df = 2,
p = .006),見表2.4,因此我們可以說兩個變項具有顯著關聯。表
2.4當中的概似比,是利用最大概似原理,將各細格次數經對數轉換
所得到的檢定值。
26 潛在類別模式—原理與技術

表2.4 雙類別變項的卡方考驗結果
數值 自由度 漸近顯著性(雙尾)
Pearson卡方 0.5 2 .006
概似比 3.949 2 .00
線性對線性的關聯 9.434  .002
有效觀察值的個數 50  
a. 2格(33.3%)的預期個數少於5。最小的預期個數為4.00。

第三節 對數線性模式

類別變數的分析,除了可以利用列聯表來分析細格的次數,另
一種方法是將次數轉換成機率,取對數後成為連續性質的變數,再
把各因子當作一個變異影響源,利用一般線性模式將各影響源的影
響形式以不同的模型來進行分析,稱為對數線性模式(log-linear
modeling)。
對數線性模式的主要特色是將次數轉換成機率,做為分析的材
料,細格中的次數經機率對數化轉換,計算勝敗比(odds),其數
值分佈服從羅吉斯分配(logistic distribution),取對數後為連續變
數,可做為模型中的依變項,以一般線性模型來分析。亦即將影響依
變項(細格次數的勝敗率的對數值)變異的影響因子(effects)拆
解成不同的部分:可被自變數解釋的部分,或無法被自變數解釋的部
分(誤差),而自變數可以只有一個類別變數,或多個類別變數,當自
變數在兩個以上時,自變數間可能具有交互作用。對數線性模式就是
利用機率取對數的原理,配合變異數分析的程序,來進行效果分析。
由於線性方程式的組合形式可以任意改變,該因子數不受限制,
因此對數線性模式可以利用線性模型來進行多個類別變數的關聯性分
析,而且不受制於傳統列聯表一次只能分析兩個類別變數的限制,各
影響因子的組合形式也可以依據研究者的需要來安排,因此在模型檢
測上十分具有彈性,可以說是類別變數最重要的一種模型分析技術。
第二章 類別變數的特性與分析 27

一、對數線性模式的原理

對數線性模式是利用一個線性方程式來對於聯合機率對數值進
行迴歸解釋,在基本原理上,對數線性分析仍是採期望次數與觀察次
數之間的適配度做為模型檢驗的依據。利用對數機率值所求出的適配
度估計數,並非卡方量數,而是- 2LL(log-likelihood)值,在一
定的條件下,- 2LL數值也服從卡方分配,因此檢定方法仍是卡方考
驗。

線性方程式

我們先以A、B兩個類別變數的對數線性分析為例來說明線性模
式 的 建立,對於A、B兩個類別變數所構成的 I × J 個細格的期望次數 ,
可以利用下列方程式來表示其機率組成:

              (2-6)

公式2-6中,η 表示整體效果(overall effect),亦即一般


線性模式裡面的總平均數, 與 分別表示兩個類別變數的主要
效果(main effect); 表示兩個變數的交互作用(interaction
e ff e c t ) 。 如 果 兩 個 變 數 之 間 獨 立 無 關 , 的效果為0,此時即可宣
稱兩個變數之間具有局部獨立性。
公式2-6仍以次數做為分析的單位,若改為對數形式的資料,則
成為:

          (2-7)

公式2-7由於包含了與A與B有關的所有影響源,因此稱為飽和
模型(saturated model)。亦即將期望次數取自然對數值後,可以
28 潛在類別模式—原理與技術

將各項轉換成單獨的對數值相加。 、 、 分別表示A變數主要
效果、B變數主要效果、AB兩變數交互作用。如果方程式中沒有代
表交互作用的 ,表示A與B是獨立無關的兩個因子,稱為獨立模型
(independent model)。各項效果的計算式如下:

         (2-8)

         (2-9)

        (2-0)

值得注意的是,為了使公式2-7的模型能夠被估計,必須加入Σ
= Σ = Σ = 0的限定。
一般而言,對數線性模式的分析策略,是從飽和模型逐步減少
高階的影響源,檢驗這模型的適配度,由於每一個模型都是比前一個
模型減少一個(或一組)影響源,模型間具有巢套關係,因此可以用
適配度差異,利用卡方考驗來決定模型間的適配度變化是否具有統計
顯著性,來決定何者為最佳模型,此時稱為階層模型(hierarchical
modeling)策略。當然,如果研究者有特定的需要,只想檢視某特
定效果,可以任意指定對數線性方程式中的組合,此時稱為非階層模
型(non-hierarchical model)。例如:

           (2-)

公 式 2 -  中 只 有 與 A 變 數 有 關 的 影 響 源 被 納 入 方 程 式 中 , 成 為 一
個特定的對數線性模型,此時可以單獨檢驗這個模型的適配度。不過
這種特定模型可能會忽略變數間的影響關係,因此甚少被使用。
現以模擬資料的數據為例,表2.5中列出了性別與職務別的邊緣
與細格次數。各次數取自然對數後的數值列於括弧內。期望值反映
第二章 類別變數的特性與分析 29

的是兩個變數沒有關聯時的次數,也就是獨立模型的次數。以「男
性職員」細格為例,此一細格的相對應的邊緣次數為20與29(男生
2 0 人 , 職 員 2 9 人 ) , 此 時 細 格 期 望 值 為 ( 2 0 × 2 9 ) ÷ 5 0 =  . 6 ,
取 自 然 對 數 後 , 數 值 為 l n (  . 6 ) = 2 . 4 5  , 由 於 此 細 格 的 次 數 僅
決定於邊緣次數與總次數,並沒有交互作用的影響,因此對數線
性模型中除了總次數之外,僅有 (A變數第一個水準的效果:
2.966- 3.92)與 (B變數第一個水準的效果:3.367- 3.92)兩
個效果項,期望次數的對數線性模式如下

   
= 3.92 + (2.966-3.92) + (3.367-3.92)
= 3.92-.946-.545         
= 2.45              

表2.5 模擬資料的次數與對數值(括弧內數值)
職員 中階主管 高階主管 小計

觀察次數 16 4 0 20
(自然對數) (2.773) (1.386) (2.996)
期望次數 11.6 4.0 4.4
(自然對數) (2.451) (1.386) (1.482)
對數值差 (.322) (.000) (-1.482)

觀察次數 13 6 11 30
(自然對數) (2.565) (1.792) (2.398) (3.401)
期望次數 17.4 6.0 6.6
(自然對數) (2.856) (1.792) (1.887)
對數值差 (-.292) (.000) (.511)
小計 29 10 11 50
(3.367) (2.303) (2.398) (3.912)
30 潛在類別模式—原理與技術

若以實際觀察次數來看,「男性職員」細格觀察次數為
6,取對數值為2.773,比期望次數自然對數值(2.45)多了
2.773- 2.45 = .322,造成此細格觀察次數與期望次數具有對數
值.322差異量的原因,即是因為兩個變項的交互作用在此細格的作用
( )。觀察次數的對數模式如下:

      
= 3.92-.96-.545 + .322
= 2.773        

若將所有六個細格的對數殘差量加總,就是交互作用項( )
的效果。對數線性模式,就是應用對數加成原理,來計算各項效果的
強度,計算出模型的適配統計量( G 2 ),決定模型的優劣好壞。

二、概似函數卡方值(-2LL)

列聯表分析所關注的對象是細格次數,而對數線性模式針對細
格次數發生的可能性取對數值來分析,因此整體模型的評估與參數估
計,即須以對數概似函數(log likelihood function)來進行評估,
如果能夠得知函數的機率分配,即可用來進行參數估計與考驗,所求
出的參數估計數能夠得到概似函數的最大可能值,稱為最大概似參數
估計量(maximum likelihood estimators)。
由前述的討論可知,對數線性函數中各效果項的大小主要為觀
察次數與期望次數的比值( )所表示,如果將此一比值定義為
一 個 概 似 函 數 Λ , Wi l k s (  9 3 5 ,  9 3 8 ) 發 現 將 此 一 函 數 取 對 數 值
(logΛ)再乘以(- 2)的數值,當樣本數趨近於無限大時,近似
於卡方分配,此一量數即為著名的概似比檢定統計量(likelihood-
ratio test statistic),定義如下:
第二章 類別變數的特性與分析 31

      (2-2)

公式2-2普遍被稱為- 2LL,其中第一個 L 是對數,第二個L是


概似函數,L0 與 L1 則為兩個對數概似函數,此一數值在樣本數足夠
大時服從卡方分配。此又稱為對數比卡方統計量(likelihood-ratio
chi-squared statistic)。對於列聯表分析,以細格次數的比值來檢
驗變項獨立性時,係求取各細格的觀察次數與期望次數比值,然後對
這些比值取對數,再乘上觀察次數,累加後定義為 G 2 :

     (2-3)

以本題數據為例,檢驗兩變項是否具有獨立性的獨立模式 G2 統
計量計算過程如下:

模 型 的 自 由 度 為 各 變 數 組 數 減 一 相 乘 : ( I -  )×( J -  ) =
( 3 -  )×( 2 -  ) = 2 , 由 於 自 由 度 為 2 的 卡 方 分 配 α = . 0 5 的 臨 界 值
為5.9, G 2 統計量大於臨界值,顯示細格次數顯著不同於期望次數,拒
絕變項間具獨立性之虛無假設,兩個變數的交互作用具有統計顯著性。
本範例是一個當有兩個變數的對數線性模型,如果有兩個以上的
類別變數,變數間關係的檢測也可以相同的方式,檢驗不同的假設模
型,求出期望值後,計算 G2 統計量,即可檢驗各模型的適配度,且
由 於 G 2具 有 可 加 性 , 不 同 巢 狀 模 型 間 可 以 計 算 G 2統 計 量 的 差 值 , 此
差值亦服從卡方分配,因此可進行顯著性考驗。

三、對數線性模式與卡方考驗的差異

基本上,對數線性模式可以說是複雜化的列聯表分析,為了使列
32 潛在類別模式—原理與技術

聯表能夠包含更多的類別變數,或為了使研究者能夠同時分析多個類
別變數的關係,統計學者運用了機率論的方法,將次數的比較轉換成
機率的比值,取對數後即可還原成線性模型,因而可以利用線性模式
來分析複雜的變數關係。但是從本質上來說,對數線性模式也是一種
卡方考驗,只是因為使用了機率的對數化處理,得到的統計量不再稱
為卡方值,改稱為 G 2 或轉換成 - 2 LL 數值,在進行考驗時,還是在
卡方分配的假定下,進行統計決策,基本原理非常相似。
也正因為對數線性模式可以處理多個不同類別變數,因此應用的
彈性更加擴大。例如研究者可以指定其中一個變數為依變數,其他變
數為自變數,進行類似於迴歸分析(regression analysis)的研究,
檢驗自變數對於依變數影響力效果,以卡方考驗的術語來說,就是一
種有方向性的顯著性卡方考驗,此種帶有自變數與依變數一遍向的對
數線性模式分析,又稱為邏輯模型(logit model)。更進一步地,
如果對數線性模式可以仿照迴歸分析來探討變數間的預測關係,那麼
就可以延伸到路徑分析(path analysis),建立一個完整的因果預測
關係模型,這些都是邏輯模型的應用。
本書的目的並不在詳細介紹傳統類別變數的分析技術,因此僅將
多個類別變數的對數線性模式簡略介紹,對於對數線性模式如何應用
到更複雜的情境有興趣的讀者,可以參閱Agresti(2002)的類別變

數分析專書,或其他多變量統計技術或資料分析教材 。本書將在下
一章起,將類別變數分析加入潛在變數模式的思維,這就是對數線性
模式或邏輯模型力有未逮之處了!


Melissa Hardy and Alan Bryman(2004)所編之資料分析大全(Handbook of
data analysis)(由美國Sage出版社出版)當中有專章說明對數線性模式與邏
輯模型的分析原理與範例。
第三章 潛在類別分析原理

前言

潛在類別分析的統計原理建立在機率(probability)的多變
量分析之上。對於類別變數的不同水準(levels)上的頻率或次
數,除以總次數後,即可得到各水準的反應機率。一個潛在類別
模式由外顯變數與潛在變數所構成,外顯變數的不同水準是指實
際測量時的各受測者所屬的不同類別,潛在變數的不同水準是指
估計之後得到的不同潛在類別(latent class)。對於這些機率之間
的關聯性,以及潛在變數之估計的統計分析程式,稱為潛在類別
分析(LCA),而對於潛在變數的界定,以及外顯變數與潛在變
數之間的理論關係,透過統計模型的方式來表示者,稱為潛在類
別模型,一個完整的潛在類別模型的分析、估計、評估、比較、
解釋的整個過程,稱為潛在類別模式(LCM)。
34 潛在類別模式—原理與技術

第一節 潛在類別分析的基本模式

一、列聯表的資料格式

如果有一個最簡單的雙類別變數分析,例如男生與女生(性別)
是否在耳語傳播行為(會或不會)上有所差異,傳統的分析方法是進行
一個2 × 2的列聯表分析,如表3.所示。其中性別(A)資料放置於直
欄,有兩個水準(i = , 2);口耳相傳行為(B)列於橫列,亦有兩個
水準(j = , 2),共有四個細格,表3.列出各細格的觀察次數之外,
還有三種機率:逐欄(各橫列機率和為.0,以 表示)、逐列(各直
欄機率和為.0,以 表 示 ) 、 逐 細 格 ( 各 細 格 機 率 和 為  . 0 , 以 P ij表
示)。如果A與B兩個變數獨立無關,則:

表3. 性別與口耳相傳行為的2 × 2雙類別變數列聯表數據
性別(I = 2)
男 2女 TOTAL
不會   次數 69 345 54

欄機率 44.6% 34.7% 37.4%


口 列機率 32.9% 67.%

細格機率 2.3% 25.% 37.4%

傳 2會     次數 20 649 859
(J = 2) 欄機率 55.4% 65.3% 62.6%
列機率 24.4% 75.6%
細格機率 5.3% 47.3% 62.6%
TOTAL 379 994 373

列機率 27.6% 72.4% 00.0%


第三章 潛在類別分析原理 35

             (3-)

公式3-表示第 ij 細格的機率等於A變數在第 i 細格機率與B變


數在第 j 細格機率的乘積,稱為局部獨立(local independence);
如果兩個變數之間有關聯(非獨立),則上式無法成立,必須在方程
式中增加能夠反映兩個變數相依性的項目,在統計上則可以不同的非
獨立量數(measures of non-independence)來反映兩個變數的關聯
強度。但是,值得注意的是,雖然研究者可以從非獨立量數來描述
兩個變數的關聯性,但是並不能對變數關聯性的本質提供進一步的資
訊。例如這兩變數的關聯性是否能夠被其他第三個變數(X)解釋,
這個 X 變數是外部變數還是內部變數?是外顯變數還是潛在變數?
如果兩個類別變數A與B的關聯能夠被一個內在的潛在類別變數來解
釋,使得A與B的關係在經過 X 的估計後,能夠維持其局部獨立性,
即是潛在類別分析。

二、潛在類別分析的數學模式

(一)基本概念

典型的LCA係假設研究者所獲得的任何一筆觀察資料,可歸屬
於某一個潛在變項 X 的 T 個潛在類別中的某一水準中,各水準是完
全互斥且獨立的,因此每一個觀察資料僅可能被歸屬於某一水準。研
究者實際測量的外顯變數在考慮了各觀察資料的潛在屬性之後,外顯
變數之間應具有局部獨立性的基本條件,也就是說,如果把觀察資料
的類別屬性考慮進去之後,外顯變數彼此之間應該是完全獨立無關。
在前述假設之下所形成的潛在類別模式,可以利用機率函數式來表
示。
如果今天有A、B、C三個外顯變數,潛在類別模式的數學式
中,應包含一項屬於表示潛在類別的非條件化機率(un-conditional
probability),以 表示,與三個反映各題對潛在類別結構構成的
36 潛在類別模式—原理與技術

條件機率(conditional probability),構成最基本的潛在類別模式,其
一般化方程式為:

          (3-2)

公式3-2中, 表示一個LCA模式的聯合機率(joint
p r o b a b i l i t y ) , 為 各 潛在類別的機率的總和。 表示觀察資料歸屬於某一個
潛在變數 X  的特定潛在類別(第 t 類)的機率,以機率符號表示為P(X = t),t = ,
2,…, T。 (符號中的 A 上方的短線表示 A 為變動變數,X 上方無短
線則表示固定條件)意指屬於第  t  個潛在類別的受訪者對於第 A 個題目
上第  i  種反應的條件機率,亦即P( A = i | X = t), i = , 2,…, I ,依此類
推。公式中各符號的意義與一般情況下的限定條件列於表3.2。

表3.2 潛在類別模式的主要數學符號(以三個測量變數為例)
符號 意義說明 一般限定條件
X 潛在變數(T 個潛在類別) 類別化變數
A 第一個觀察變數(I 個外顯類別) 類別化變數
B 第二個觀察變數(J 個外顯類別) 類別化變數
C 第三個觀察變數(K 個外顯類別) 類別化變數
某模式的(聯合)機率,為各潛在類別機率的總和
觀察資料歸屬於某一個潛在變數 X 的特定潛在類別
的機率。
屬 於 第  t  個 潛 在 類 別 的 受 訪 者 對 於 第 A 個 題 目 上
第 i 種反應(共 I 種)的條件機率。
屬 於 第  t  個 潛 在 類 別 的 受 訪 者 對 於 第 B 個 題 目 上
第 j 種反應(共 J 種)的條件機率。
屬 於 第  t  個 潛 在 類 別 的 受 訪 者 對 於 第 C 個 題 目 上
第 k 種反應(共 K 種)的條件機率。
第三章 潛在類別分析原理 37

(二)範例數據

我們以一個實際的資料庫為例,說明潛在類別模式的各種重
要數據。表3.3列出了臺灣地區2000位參與一項調查研究的反應數
據,其中000人是大專院校的學生,另外000人是這些學生身邊不
具學生身分8歲以上的家長或親人。每一個受訪者回答下列題目:
「在SARS疫情嚴重期間,您是從何種管道獲得有關SARS疫情的資
訊?」第一個選項(第題,即第A個觀察變數)是報章雜誌,第二
個選項(第2題,即第B個觀察變數)是網路資訊,第三個選項(第3
題,即第C個觀察變數)是人們之間的對話討論(口耳相傳)。受試
者分別對這三個題目進行評估,類似可以重複選擇的複選題,編碼
時以0代表「無」,以代表「有」,在本範例中被視為三個外顯變
數。
為便於說明,我們將八種不同的作答形式,以{000}(三題皆
回 答 「 無 」 ) 到 {  } ( 三 題 皆 回 答 「 有 」 ) 的 集 合 符 號 來 表 示 。
由表3.3的數據可知,學生樣本最多的類型是三種都回答「有」,共
有 3 5 7 人 ( f 111 = 3 5 7 ) , 佔 了 3 5 . 7 % , 機 率 是 . 3 5 7 ( P 111 = . 3 5 7 ) ,
其 次 是 報 章 + 網 路 ( P 11 0 = .  ) 與 網 路 + 口 耳 相 傳 ( P 0 11 = .  0 ) ;
成人樣本則是以三者都回答「無」最多,共有255人,機率為
P 0 0 0 = . 2 5 5  , 其 次 是 三 者 都 有 ( P 111 = .  8 8 ) 與 報 章 雜 誌 單 一 來 源
( P 100 = .  3 3 ) 。 如 果 是 以 傳 統 的 列 聯 表 來 描 述 這 些 資 料 , 則 如 表
3.4所示。
對照表3.3與3.4,可以發現以LCA模式來整理資料時(表
3.3),所列出的次數皆為細格次數,機率則為細格百分比。相對之
下,各邊際次數與邊際機率則僅在列聯表中可以看到(表3.4)。由
此可知,LCA所關心的主要是各細格次數(機率)的分佈特性與關
聯性。


三題都回答無者,未必是完全不關心SARS疫情。在調查問卷中,還包括
「看電視」這個選項,由於幾乎所有的受訪者均回答「有」,機率將近
.00,因此不列入本文數據示範。
38 潛在類別模式—原理與技術

表3.3 2000位受測者在三個題目上的作答情形(LCA分析格式)
作答情形 學生(000名) 成人(000名)
代號 A B C f P f P
{000} 0 0 0 93 .093 255 .255
{00} 0 0  68 .068 72 .072
{00} 0  0 95 .095 2 .2
{0} 0   0 .0 39 .039
{00}  0 0 8 .08 33 .33
{0}  0  95 .095 05 .05
{0}   0 0 .0 87 .087
{}    357 .357 88 .88
總和 643 .00 53 .00
A:報章雜誌,B:網路,C:口耳相傳。0表示「無」,表示「有」。

表3.4 2000位受測者在三個題目上的作答情形(列聯表格式)
學生(000名) 成人(000名)
A B C A B C
0  小計 0  小計
0 0 93 68 161 0 0 255 72 327
 95 0 196  2 39 160
小計 188 169 357 小計 376 111 487
 0 8 95 176  0 33 05 238
 0 357 467  87 88 275
小計 191 452 643 小計 220 293 513
全體 1000 全體 1000
A:報章雜誌,B:網路,C:口耳相傳。0表示「無」,表示「有」。
第三章 潛在類別分析原理 39

第二節 潛在類別分析的參數估計

一、機率參數化

潛在類別模式最突破性的原理是將類別變數的機率轉換成參
數的模式,亦即機率參數化(probabilistic parameterization)
(McCutcheon, 2002; Goodman, 2002)。而傳統的LCA參數涉及
兩種類別變數:可以觀察與測量的外顯變數與不可觀察的潛在變數,
以及兩種不同的參數:潛在類別機率(latent class probabilities)
與條件機率(conditional probabilities)。茲介紹如後:

(一)潛在類別機率

假設今天有三個二分變數A、B、C,每一個變數具有兩個可能
的數值{0}與{},三個變數共有2 × 2 × 2 = 2 3 = 8種不同的數據型
態 , 亦 即 有 八 個 不 同 的 細 格 , 各 細 格 的 觀 察 次 數 標 以 f 0 0 0 到 f 111 。 潛
在 類 別 機 率 ( l a t e n t c l a s s p r o b a b i l i t y, )表示當測量變數具有局
部獨立性時,帶有 t 個類別的潛在變數在第 t 個水準的機率。這個機
率被兩個因素所決定,第一個要素是潛在變數 X 的類別數目 T,表
示研究者針對所獲得的觀察資料所提出的潛在類別模式中,潛在屬性
的定義方式。若以測量尺度的觀點來看,每一個潛在類別是量尺上的
一個分離、獨立、可辨識其特性的區段(location)。一個有意義的
潛在變數 X ,至少必須要有兩個潛在類別。
第二個要素是各個潛在類別的相對大小,規模越大的潛在類別代
表在潛在變數中具有較重要的地位(比重較大),類似於因素分析中
的解釋變異百分比。在LCA中,相對大小仍然是以機率表示。各潛
在類別的機率總和為.00:
40 潛在類別模式—原理與技術

             (3-3)

以先前的範例資料為例,如果000位學生在三個題目上的答題被
一個帶有三個組別(class = 到3)的潛在變數所解釋,經過估計的結
果,三個潛在類別機率分別為 = .65、 = .535、 = .300,三者
的總和為.00。將這些機率乘以總人數,即得到各潛在類別的期望次數
( )。顯然地,三組當中,以第二組的比重.507最重,顯示學生作答
類型是以第二個類別為多數,超過全體樣本的一半以上。

(二)條件機率

在LCM的各潛在類別中,隨機抽取一個人,在外顯變數上作答的機
率即為條件機率(conditional probabilities)。對於A、B、C三個題
目 , 在 潛 在 變 數  X   的 不 同 條 件 ( 不 同 組 別 ) 下 , 各 外 顯 變 數 的 條 件 機 率
分別計為 、 、 。若A、B、C各有兩個水準,三個外顯變數在
每一個潛在類別各可計算出兩個條件機率,如果 X 有兩個潛在類別,
則有2個條件機率,如果 X 有三個潛在類別,則有8個條件機率。這
些條件機率類似於因素分析中的因素負荷量,可用於說明各潛在類別與
外顯題目之間的關係,亦即可以協助研究者解釋各潛在類別的內容與性
質。在各潛在類別中,較大的條件機率值,表示潛在變數對於該外顯變
數的影響較強,比重較大。
對於各潛在類別,也就是潛在變數下的各水準 T,由於相互獨立,
因此各水準下各外顯變數(測量題目)的條件機率總和為.00:

           =.00 (3-4)

公式3-4表示在各潛在類別內,所有外顯變項的條件機率總和為
.00,而潛在類別的機率總和亦為.00,這是LCM中,最基本的限制
條件。因此,為維持此一限制條件,在估計參數時,各外顯變數的條件
第三章 潛在類別分析原理 41

機率中,會有一個是固定的,例如第A題有兩個水準,當第一個組
的條件機率決定時,另一組的條件機率也被決定。因此,各組潛在
類別的待估計條件機率(待估計參數)分別為(I- )、(J- )與
(K- )。總參數數目為[(I + J + K)-3] × T。
以表3.5的數據來說,三個潛在類別下,各種作答反應的期望
機率各有偏重。第A題在三個潛在類別下的機率在 i = 0時各為
= .070、 = .029、 = .258,總和為 = .357,在 i = 時各為
= .095、 = .507、 = .04,總和為 = .643,兩者相加為
.00;第B題在三個潛在類別下機率總和為 = .337、 = .663;
第C題則為 = .379、 = .62。若將各細格機率轉換成各潛在類
別的條件機率(各題在各潛在類別的機率和為.00),數據列於表
3.5的括弧中。

表3.5 000名學生的潛在類別模式機率估計結果
潛在變數 X
外顯變數 數值 t= t=2 t=3 Total
.070 .029 .258 .357
i=0
A (.422) (.053) (.863)
( ) .095 .507 .04 .634
i=
(.578) (.947) (.37)
.0 .06 .30 .379
j=0
B (.66) (.96) (.434)
( ) .064 .430 .69 .62
j=
(.384) (.804) (.566)
.6 .085 .33 .337
k=0
C (.978) (.27) (.446)
( ) .004 .45 .66 .663
k=
(.022) (.843) (.554)
.65 .535 .300 .000
註:括弧內的機率為條件機率(各外顯變數的機率在各潛在類別內總和為
)。
42 潛在類別模式—原理與技術

一般而言,在解釋各潛在類別的意義時,多參考條件機率,因為
潛在類別的機率不同,各類別比重不同,不容易理解外顯變數的答題型
態。
由表3.5當中的機率數值可知,第二組的受試者在三個題目的作答
傾向於回答「有」者均高於「無」,第三組的受試者在第A題傾向回答
「無」,第一組的受測者在三題的反應均很低。

二、對數參數化

除了將機率以參數模式進行估計之外,LCA亦可以傳統應用於類別
資料分析的對數線性模式來說明(Goodman, 974; Haberman, 979;
McCutcheon, 2002)。然而,由於LCA模型中帶有潛在變數,且須令
外顯變數在考量了潛在變數後,保有局部獨立性,因此以對數線性模型
來進行LCA估計時,僅可將潛在變數與各外顯變數的兩兩配對的二階項
以下各項納入模型中,二階以上的高階項被設定為0,而不是如同傳統
飽和模式的對數線性模型,將所有的類別變數納入模型中。以對數線性
模型進行LCA估計的模型如下:

      (3-5)

從公式3-5可知,對數線性方程式中,僅有各單一變數的一階項與
外顯變數與潛在變數交互作用的二階項。除了λ常數項之外,各項的對
數值總和為0。由此一模型進行估計所耗費的參數數目,以及期望值估
計的結果,均與公式的未限制模型相同。因此可以利用λ係數來導出條
件機率參數(Haberman, 979):

           (3-6)
第三章 潛在類別分析原理 43

三、最大概似估計數

參數估計可以說是各種高階統計分析共通的作業。當研究者提
出一個假設模型之後,接下來的重要工作是求出參數的終解(final
solution)。在LCM中,模型求解的方法主要是最大概似法。對於一
個具有 T 個潛在類別的潛在變數 X 的LCM模型,最大概似估計函數
如下:

           (3-7)

公式3-7中, 表示為機率估計值, 、 、 稱為A、B、


C三個外顯變數的潛在類別機率(條件機率)最大概似估計數(MLE
latent class probability)。若套用公式3-2的概念,將各外顯變數
在T個類別下的機率估計值加總,即得到聯合機率最大概似估計數
(MLE joint probability),也就是將用於檢驗模型適配性的期望機
率:

             (3-8)

若將公式3-7與公式3-8二式相除,得到各潛在類別中,各外顯變
數在各水準的最大概似機率:

          (3-9)

公式3-8與3-9的 符號標示中在潛在變數符號 加一短橫,


表示該公式係針對 X 變數的各水準進行個別估計, 反映了各外
顯變數的各水準在某一潛在類別上的比重,可做為各外顯變數在某一
個潛在類別的相對重要性的比較之用。
44 潛在類別模式—原理與技術

四、參數疊代估計

若, 、 、 、 表示各模型參數的估計的起始值(start
value),依據公式3-7,初始的最大概似估計數 如下:

           (3-0)

公式3-0的目的是要求出聯合機率最大概似估計數( )與各潛
在類別在各外顯變數的最大概似估計數( )的初始值 與
。利用公式3-8,得到:

            (3-)

同樣利用公式3-9,得到:

            (3-2)

利用觀察機率 p ijk ,即可得到一個新的起始值 與 :

             (3-3)

也可以進一步求得新的各潛在類別的條件機率估計數:

             (3-4)

             (3-5)
第三章 潛在類別分析原理 45

             (3-6)

起始值導出後,反覆估算得到新的估計數,直到估計數的變化小
於一定的程度(低於容忍值tolerance)即停止估計,亦即參數估計
疊代達成收斂。所獲得的聯合機率估計數即可應用於模式適配檢驗。
至於疊代所使用的算則可能有EM(Expectation-
Maximization)、NR(Newton-Raphson)算則等不同方式,其中
EM算則是目前最被廣泛使用於LCM當中的,其最大的優點是較不
受到起始值選擇的影響的強韌性,但是缺點是疊代次數較多,且不
提供標準誤的估計數(參見Everitt, 987; McLachlan & Krishnan,
 9 9 7 ; Ve r m u n t ,  9 9 7 ; We d e l & K a m a k u r a ,  9 9 7 ; M c C u t c h e o n ,
2 0 0 2 ) 。 Ve r m u n t 與 M a g i d s o n ( 2 0 0 2 ) 建 議 在 估 計 初 期 先 以 E M 算
則進行疊代,當接近收斂時,則可應用NR算則,如此將可兼顧EM的
穩定性與RM的速度優點。
值得注意的是,疊代作業最後收斂所得到的解,取決於最初的起
始值,當使用不同的起始值時,收斂的結果未必相同。換言之,最大
概似估計法的收斂,是一種區域性的收斂,而非最大化或整體性的收
斂。雖然多數情況下,不同起始值得到相同的收斂解,但是區域性收
斂的限制仍是參數估計的一個潛在問題。
另一個估計上的問題是辨識問題。如果模型中的參數要能夠順利
求出一組最佳解,那麼參數數目必須小於自由度。對於三個各有 i、
j 、 k 個 水 準 的 外 顯 變 數 A 、 B 、 C , 所 構 成 的 I × J × K  細 格 , 初
始自由度為I × J × K- 。相對地,假設模型中帶有一個具 T 組
的潛在變數 X,若沒有特殊設限,將會估計 T- 個潛在類別機率
與 T  [( I - ) + ( J - ) + ( K - )]個條件機率,總估計參數數目為:

    (T-) + T(I-) + T(J-) + T(K-) = (I + J + K-2)T- (3-7)


46 潛在類別模式—原理與技術

因此,假設模型的自由度將是:

        df = (IJk-)-[(I + J + K-2)T-] (3-8)

如果自由度小於0,將造成模型的辨識不足問題,無法進行收斂求
解的疊代。
然而,並非自由度大於0就必然可以讓模型具有可辨識性。
Goodman(974a)提出了一個局部辨識(local identifiability)原
則,利用偏微分矩陣(partial derivative matrix)來判斷模型是否可
以得到有意義的解。如果模型無法辨識,可以將部分的參數設定限制,
改變機率估計的方式,提高模型估計的數學條件,不過值得注意的是,
此時自由度的數目就未必反映估計參數的多寡,若我們要進行設限模型
(restricted model)的比較時,參數的變動未必是自由度相減。

第三節 模式適配評鑑

一、概似比檢定

最簡單的LCA模型是帶有一個類別的潛在變數模式(T = )。又
稱為基線模型(baseline model),亦即做為所有後續多類別模型的對
比模型,因此又可以稱為零模型(null model)。此時假設外顯變數之
間具有完全獨立性,各細格期望機率如下:

            (3-9)

如果零模型與觀察資料不適配,即可進行 T = 2 的單一潛在變數
第三章 潛在類別分析原理 47

LCA估計。如此逐一增加類別數目,反覆進行假設模型與觀察數據
之間的適配狀況檢定,直到找到最佳的模型為止。
LCA模型是否適配觀察資料,可利用最大概似估計法
(maximum likelihood, ML),計算各細格的觀察次數( f ijk )與期
望次數( )的差異情形,利用對數函數轉換成概似比卡方統計量
( G 2 )(也稱為 L 2 值),用以反映模型適配程度(參考公式2-3):

           (3-20)

當 f ijk 與 差 異 很 大 時 , G 2數 值 將 會 很 大 , 反 之 , 當 f ijk 與 差
異很小並趨近相同時, G 2  將會很小並趨近於0。很顯然地,上述 G 2  的
計算中,最關鍵的統計量數為各細格的期望次數( ),估計方法
可以利用ML法,估計各組的條件機率 ,然後將各組條件機率加
總,乘以樣本數後,得到 :

            (3-2)

如果觀察資料與理論推導的數據相近,在 i、j、k 的每一個細格
中 的 觀 察 次 數 f ijk等 於 期 望 值 , 模 型 會 得 到  G 2 = 0  的 完 美 適 配 。 如
果 L 2大 於 0 越 多 , 表 示 模 型 與 觀 察 資 料 越 不 適 配 , 即 外 顯 變 數 之 間 的
關聯性無法被潛在類別變數充分解釋,局部獨立性無法維繫。
基 於 傳 統 的 假 設 考 驗 的 原 理 , 在 我 們 能 掌 握 G 2數 值 的 機 率 分
配 的 前 提 下 , 當 G 2數 值 很 小 , 小 到 被 認 為 在 一 定 的 決 策 錯 誤 概 率 下
(.05水準)是一種偶發的數值時,可以宣稱假設模型與觀察資料處
於 適 配 的 狀 態 。 一 般 而 言 , 當 樣 本 數 N 夠 大 時 , G 2數 值 服 從 卡 方 分
配,可利用卡方分配來進行假設考驗,自由度為列聯表細格總數減去
估計參數數目再減一。另一種方法,則是直接利用 Pearson χ2 來計
算模型適配度(亦即傳統的類別變數獨立性考驗)。
48 潛在類別模式—原理與技術

但是眾所周知的是,以 χ2 分配來進行模式適配的 χ2 考驗時,會受


到樣本數與模型複雜度的影響造成過度拒絕的現象。亦即當樣本數增
大,檢定值(G2 或 Pearson χ2 值)會放大而造成拒絕虛無假設(模型
為適配的假設)的結果,或是當模型趨於複雜、細格數增多時,檢定值
也會增大而造成拒絕虛無假設的結果。
考量 χ2 考驗的特性,一般在高階模型分析中均不建議採取模型
適配優劣的絕對考驗法來判定模型的優劣,而建議採用階層性或巢套
性的模型適配的相對比較。絕對考驗法係利用檢定值的尾機率(tail
probability)的 p 值是否小於 χ 2 分配的某個臨界值(例如 .05),來決
定模式適配 χ 2 值是否顯著不同於 0,以決定某一個 LCA 模式是否適配
於觀測資料。相對比較法則是比較不同模型的適配差異檢定值。
另外,當樣本數很大時,以卡方檢驗為基礎的判斷方式容易發生過
度拒絕虛無假設的問題,亦即使得模型被解讀為不適配的不良模型。此
時可以利用特異指標(index of dissimilarity; I D )來改善這個問題:

             (3-22)

由於 ID 的最小值為0,最大值不會大於,因此是一個便於檢視的
指標,一般在.05以下被視為是很好的模式適配性(Dayton, 998)。

二、χ2 差異檢定

為了解決單獨一個模型的適配統計量 G2 或Pearson χ2 值容易受到


樣本數與模型複雜度的影響,另一種通用的做法是利用兩個具有巢套關
係 的 模 型 ( 例 如 比 較 具 有 T 與 T-  個 潛 在 類 別 數 目 的 兩 個 L C A 模 型 ,
或是比較設限與非設限模型),計算兩個模型的 χ 2 差異量,檢驗此差異
量在 χ2 分配上是否顯著不等於0,一般的判準是當尾機率(p)小於.05
時,即可宣稱兩個模型的適配差異達到顯著,適配統計量 G 2 或Pearson
χ2 值較低的一個模型是較為理想的模型。此種策略稱之為巢套模型的卡
第三章 潛在類別分析原理 49

方差異檢驗(chi-square difference test)。


卡方差異檢驗的優點是兩個巢套模型都有相似的計量基礎(樣本
數相同、模型複雜度相近),因此不會出現過度拒絕的現象,因而廣
泛被學者所採用。但是卡方差異檢驗的主要威脅仍是出在兩個模型的
適配統計量 G2 或Pearson χ2 值差異是否服從 χ2 分配這個關鍵議題
上。McLachlan與Peel(2000)指出在LCM這類的混合模型的差異
比較上,這個假設有違反的可能,造成尾機率的計算不正確,進而影
響卡方考驗的效力。Nylund、Asparouhov與Muthen(2007)稱這
種以卡方分配所計算得出的尾機率p為輕率卡方(naive chi-square;
NCS),認為不應過度倚賴此種檢驗方式。
為了修正卡方差異檢驗的問題,Lo、Mendell與Rubin(200)
提出了另一種近似於概似比檢驗的巢套模型比較的替代方法,在計
算p值時並非採用卡方分配,而是另行估計兩個概似比差異的漸近分
配,因此可以迴避卡方分配假設不成立的困境。另外,McLachlan
與Peel(2000)則建議使用拔靴法(bootstrap method)所建立的
樣本來估計概似比檢定量的分配來進行考驗,稱為拔靴概似比考驗
( b o o t s t r a p l i k e l i h o o d r a t i o t e s t ; B L RT ) 。 雖 然 以 這 兩 種 方 式 來
估計p值能夠改善卡方差異檢驗的效力,Nylund、Asparouhov與
Muthen(2007)的模擬研究發現這兩種方式確實優於傳統策略,但
是目前坊間的應用軟體尚未將此兩種檢驗方式納入執行功能中,因此
其流行還需要一段時間。

三、訊息適配指標

基於訊息理論(information theory)所發展出來的模式適配指
標稱為訊息指標(information criteria; IC),由Akaike在970年代
所發展,應用於模型競爭比較的模型選擇研究中。IC指標的基本概
念是在某模型下(例如第 h 個模型)的適配估計量(- 2 LL h )之外,
增加一個懲罰項(penalty term; PT)來進行某些調整或控制:
50 潛在類別模式—原理與技術

            IC = -2LLh + PT (3-23)

因而IC指標可以對於影響模型適配的特定參數或樣本大小等額外訊息
納入考量,發展出不同的訊息指標,藉以提升模式適配比較的彈性與效
能。以下即介紹幾種常用的IC指標。

(一)AIC指標

最早發展的IC指標可說是Akaike(973, 987)的AIC指標,適於
比較兩個或多個模型的適配情形,AIC指標能夠反映出若更換新樣本進
行複核效化的概似值增加量最小的模型。值得注意的是,AIC的使用必
須考慮到各模型必須具有巢套關係,模型的比較才有合理的計量基礎。
Akaike對於AIC的計算,是以最大概似算則來推導。若有 H 個有待
比 較 的 模 型 , P h( Y s) 為 第 h 個 模 型 基 於 最 大 概 似 估 計 法 所 得 到 的 反 映 向
量觀察機率:

           (3-24)

         (3-25)

其 中  d f h  為 第  h  個 模 型 自 由 度 , A I C 最 小 者 , 表 示 模 型 適 配 情 形 最
好。AIC也可以下列較簡單的公式計算得出:

            (3-26)

即 為 第 h  個 模 型 適 配 度 的 統 計 量 。 這 兩 個 公 式 的 差 異 在 於 常 數
項 樣 本 數  N   與 觀 察 反 映 的 向 量 個 數 2 V 。 使 用 的 原 則 相 同 , 都 是 取 較 小 的
AIC值有較佳的適配度。在LatentGOLD軟體中提供了一個AIC3指標,
第三章 潛在類別分析原理 51

係針對懲罰項以三倍的自由度來處理:

             (3-27)

(二)BIC指標

由於AIC指標並沒有考慮樣本數的影響,因此當樣本數越大
時,AIC的機率推導的漸近性缺乏,是AIC的一個缺點。Schwarz
(978)基於貝氏理論提出了BIC指標(Bayesian information
criterion),來改善此一問題:

    (3-28)

前 述 B I C 指 標 的 計 算 過 程 中 , 由 於 加 入 了 l n ( N  ) 的 調 整 項 , 得 以
將樣本數的影響納入考量,也使得當使用BIC來進行模型比較時,會
對較單純的模型(參數較少的模型)較有利。當樣本放大時,BIC的
檢測能力會較佳。
為了讓IC指標的檢測能力更佳準確,Sclove(987)對於BIC
指標當中樣本數進行的調整,稱為adjusted BIC,樣本的修正式如
下:

             N = (N + 2)/24 (3-29)

由公式3-29可知,adjusted BIC在小樣本時的懲罰項較弱,可以
改善BIC指標在小樣本時且模型複雜時的檢測劣勢。國內學者楊志堅
教授的研究發現,將樣本數進行修正的adjusted BIC指標在判斷LCA
模型優劣時,有非常理想的表現(Yang, 988, 2006)。
52 潛在類別模式—原理與技術

(三)CAIC指標

另一個類似於BIC的修正是Bozdogan(987)所提出的CAIC指
標:

         CAIC = G2h-[ln(N) + ]dfh (3-30)

由公式可以看出,CAIC的懲罰項較BIC更大,對複雜模型過度參數
化的懲罰較AIC與BIC嚴格,因而對於較簡單的模型更為有利。同時,
類似於adjusted BIC的調整原理,CAIC也可以將樣本數以公式3-29加以
調整,成為adjusted ACAIC。
根據學者的模擬研究發現,上述這些IC指標的表現在不同的條件下
各有擅長。一般而言,BIC類的指標會優於AIC類指標。Lin與Dayton
(997)指出當模型參數數目較少時(模型較簡單時),以及樣本數
較大時,宜採取BIC指數,且在測量變數為類別變數情況下,AIC指標
用 於 檢 測 適 配 模 型 的 表 現 不 佳 ( Ya n g , 2 0 0 6 ) , 但 是 L i n 與 D a y t o n 認 為
當模型趨於複雜時,AIC指標仍是較佳的指標。Nylund, Asparouhov與
Muthen(2007)認為,雖然AIC類指標在判定潛在類別數目與模型適
配程度的檢測上,均不如BIC類指標,但是在其他模型條件下BIC是否
一定優於AIC,還需進行更進一步的研究,蓋棺論定何者較優還為時尚
早。
另一方面,如果比較IC類指標與概似比差異檢定策略,Nylund,
Asparouhov與Muthen(2007)認為McLachlan與Peel(2000)的拔
靴 概 似 比 考 驗 ( B L RT ) 會 較 B I C 指 標 更 能 正 確 判 定 潛 在 類 別 的 正 確 模
型 。 同 時 傳 統 的 卡 方 顯 著 性 檢 驗 與 卡 方 差 異 檢 驗 均 不 如 B L RT , L o 、
Mendell與Rubin(200)的LMR修正策略雖優於傳統卡方差異檢驗,
但相對於BLRT法則不一定有優勢。
值 得 一 提 的 是 , B L RT 亦 有 其 缺 點 , 相 對 於 其 他 模 型 , B L RT 需 耗 費
5 到 3 5 倍 的 估 計 時 間 。 此 外 , B L RT 與 B I C 指 標 均 須 仰 賴 對 於 分 配 的 假 定
第三章 潛在類別分析原理 53

與基本假設的維持。例如當某一個潛在類別當中具有明顯偏態,或
帶 有 特 殊 的 極 端 值 時 , B L RT 的 穩 定 性 就 不 得 而 知 了 。 尤 其 當 資 料 趨
於複雜的調查數據時,資料型態往往不是十分理想,此時模擬研究
得到的結論不一定適用於真實情境,此時LMR策略可能會較佳。因
此Nylund, Asparouhov與Muthen(2007)建議,研究者可以先利用
B I C 與 L M R 策 略 來 找 到 較 佳 模 型 後 , 再 利 用 要 耗 費 時 間 的 B L RT 來 慢
慢 估 計 , 進 行 更 精 確 的 比 較 。 未 來 如 果 應 用 軟 體 能 夠 將 B L RT 納 入 分
析選項,這些建議將更能付之實踐。

第四節 分類

潛在類別分析的最後步驟,是將所有的觀察值分類(c l a s s i f i c a t i o n )
到適當的潛在類別當中,亦即創造一個新的類別變數來說明觀察值的
事後類別屬性(posterior membership)。分類的原理是利用貝氏理
論,分類機率的計算公式如下:

            (3-3)

上述分類的過程與傳統的叢集分析相似,事實上,這兩種方法有
非常高的相似性,Wolfe(970)最早將LCA與叢集分析的原理一併
探討,990年代後,由於電腦的普及與性能提升,將LCA的概念應
用於叢集分析的理論與技術不斷被提出,例如McLachlan與Basford
(988)與Everitt(993)所提出的混合概似叢集法(mixture-
likelihood approach to clusting),Banfield與Raftery(993)
與 B e n s m a i l , C e l e u x , R a f t e r y, R o b e r t (  9 9 7 ) 提 出 了 模 基 叢 集 法
(model-based clustering),Cheeseman & Stutuz(995)的貝氏
分類法(Bayesian classification),Bacher(2000)的機率叢集法
54 潛在類別模式—原理與技術

( p r o b a b i l i s t i c c l u s t e r i n g ) , Ve r m u n t 與 M a g i d s o n ( 2 0 0 0 , 2 0 0 2 ) 的
潛在叢集分析(latent class cluster analysis)。
基本上,潛在類別取向的叢集分析多是以連續變項為基礎,因此假
設各潛在類別下,這些連續變數呈常態分配,因此在潛在變數的分類過
程中,還牽涉到外顯變數的平均數、變異數與共變數的估計與同質性判
斷 問 題 ( Ve r m u n t 與 M a g i d s o n , 2 0 0 2 ) , 顯 然 這 些 方 法 都 是 L C A 的 進 階
應用議題,細節不在此處討論。
基本上,傳統的叢集分析分類原理,是計算觀察值在多個指標反應
上的相似性,高相似性者被視為同一個組的成員,但叢集的數目與性質
均 是 未 知 的 ( K a u f m a n & R o u s s e e u w,  9 9 0 ) , 而 潛 在 類 別 分 析 的 分
類,則是在一定的機率模型之下,利用機率的估計與比較來進行分類。
當一個潛在類別模式,經過前面幾節的最大概似疊代估計,利用概似機
率的對數化(log-likelihood)決定模型的適配性,確立了各潛在類別的
機率型態之後,可以據以計算出某一個細格的事後機率。例如受試者在
第A、B、C三題都答「是」(i = j = k = 1)的{,,}細格者,在三個
潛在類別的機率是.002、.962、.036:

= .00/(.00 + .343 + .03) = 002


= .343/(.00 + .343 + .03) = .962
= .03/(.00 + .343 + .03) = .036

因為在第二組的事後機率最高,因此被分到第二組,依照各細格的
期望機率,可以逐一求出各細格的歸屬類別,完成所有觀察值的分類,
本範例的000位學生樣本八種填答狀況的分類結果列於表3.6。
第三章 潛在類別分析原理 55

表3.6 000位學生受測者在三個題目上的作答期望機率與分類情形
原始數據 期望機率 期望次數 分類結果
{ABC} F P Class Class2 Class3 Class Class2 Class3 Class Class2 Class3
{000} 93 .093 .042 .001 .050 42 1 50 0 0 93
{00} 68 .068 .00 .005 .062 1 5 62 0 0 68
{00} 95 .095 .026 .004 .065 26 4 65 0 0 95
{0} 0 .101 .001 .019 .081 1 19 81 0 0 101
{00} 8 .08 .057 .06 .008 57 6 8 8 0 0
{0} 95 .095 .001 .084 .010 1 84 10 0 95 0
{0} 0 .0 .036 .064 .00 36 64 10 0 110 0
{} 357 .357 .001 .343 .013 1 343 13 0 357 0
Total 000 .165 .535 .300 165 535 300 81 562 357

基於各條件機率,可以導出各題在各組中的期望機率,據以計
算各細格的期望次數以及各潛在類別命名的參考。在比例最重的第二
組中,最高的期望機率是{}的.343,其次是{0}的.084與{0}
的.064,表示此種類型的作答者,多有多重的資訊來源(從兩種以上
的管道獲知SARS疫情)。在比重次之的第三組中,期望機率最高者
為{0}(.08),次高者僅有{00}的.065與{00}的.062,顯示偏
向不看報章雜誌,但可能採用網路使用與口耳相傳。至於比重最少的
第一組,由於各期望機率均很低,可以說是沒有明確意向的受訪者。
第四章 探索性分析

前言

基於研究目的的不同,潛在類別模式可以區分為探索性與驗
證性兩種不同操作模式。其中探索性模式是指在進行潛在類別分
析時,對於潛在類別的數目沒有預設的假定,而對於參數也沒有
特定設限,純粹由觀察資料來決定潛在變數模式,以未設限的方
式(未設限模型)來進行參數估計,因此又稱為資料推導(data
driven)取向。相對之下,驗證性模式則是由研究者就不同的理
論觀點或特殊需要,在進行分析之前即先提出一個先驗的假設模
型,然後與觀察資料進行比對,據以決定研究者的假設模型是否
被支援,此一理論推導(theory driven)取向,在潛在類別分析係
以設限模型來進行參數估計。本章首先介紹探索性模式的操作原
理,並以實際的範例來說明LatentGOLD與Mplus如何處理相關細
節。下一章則介紹驗證性模式。
58 潛在類別模式—原理與技術

第一節 探索性模式的原理

潛在類別分析最簡單的操作方式,是採探索性的分析方法,從潛
在類別數目為1的基線模型,逐漸增加潛在類別的數目,逐一檢驗每
一個模型的適配性,藉以選擇出最佳模型。從方法學的角度來說,探
索性模式從未知所以到能夠確立模型,整個過程有助於我們去理解觀
察資料背後的潛在結構,從而發展研究命題、建立理論,具有探索、
發現的積極意義。雖然在操作上,探索性模式沒有明確的先驗理論做
為模型設定的引導,但是從驗證的過程當中,仍然可以掌握重要的資
訊與研究發現,提供我們對現象與理論上的檢驗與理解。
探索性模式的主要任務,在決定外顯變數的變異最能夠被幾個
潛在類別所解釋。當 T 個潛在類別能夠解釋最大的外顯變數變異
時 , 會 使 理 論 模 式 最 接 近 觀 察 資 料 , 此 一 T 個 類 別 ( T- c l u s t e r ) 的
模型即為最佳模型。每一個潛在類別由一群具有相同特徵(高同質
性 ) 的 觀 察 值 所 組 成 , Ve r m u n t 與 M a g i d s o n ( 2 0 0 5 ) 將 此 種 模 型 叢
集分類的潛在類別分析稱為潛在類別叢集模型(latent class cluster
model)。分析過程須經過下列幾個步驟:

■ 估計初始模型(T = 1的1-cluster模型)。
■ 逐步增加類別數目,進行各模型的參數估計,計算適配性。
■ 進行適配性考驗與差異檢定,以決定最佳模型。
■ 進行類別的命名與參數估計結果整理。
■ 進行分類,決定各觀察值的歸屬類別。

邱皓政等人(2004)在SARS疫情結束後,進行一項調查研
究,全體樣本包括2673位18歲以上成人,其中一半是大學生(1369
人),一半是非學生的成人樣本(1363人)。問卷中為了瞭解民眾
對於SARS這種高傳染性疾病的瞭解程度,納入了一個簡單的能力測
第四章 探索性分析 59

驗,由10題SARS傳染病的題目所組成,作答型態為是非題,答對得
1分,答錯為0分,因此是一個二分變數。本節利用其中學生樣本來
進行示範說明,10個題目的內容與答題情形列於表4.1。
由表4.1可知,有幾個題目非常簡單,幾乎所有受訪者都能答
對,例如第1題「發燒高於38度是SARS的主要特徵」,有1291位學
生答對(佔94%),第7題「只要一直帶著口罩,就可以不需要量體
溫」,有1298位學生答對(佔95%),第8題「肌肉酸痛是SARS患
者可能會有的症狀」,有1275位學生答對(佔93%)。這幾題可以
說幾乎沒有鑑別力,基本上並不適合做為潛在變數的指標,但為了示
範的目的,仍予以保留。

表4.1 10個SARS能力測驗題目與1363名大學生的作答狀況
題目 答對 答錯
1 發燒高於38度是SARS的主要特徵。 1291 94% 78 6%
2 SARS的潛伏期一般為1到3天左右。 769 56% 600 44%
3 SARS是一種細菌感染。 1210 88% 159 12%
接觸帶有SARS感染源的器物也有可能罹患
4 1084 79% 285 21%
SARS。
5 空氣傳染為SARS的傳染途徑。 788 58% 581 42%
居家隔離者只要不脫下口罩,可以搭乘大眾
6 1085 79% 284 21%
運輸工具。
7 只要一直帶著口罩,就可以不需要量體溫。 1298 95% 71 5%
8 肌肉酸痛是SARS患者可能會有的症狀。 1275 93% 94 7%
9 老鼠、蟑螂是SARS的傳染媒介。 1132 83% 237 17%
因為病毒大小比口罩縫隙小,所以戴口罩是
10 1085 79% 284 21%
沒有用的。
60 潛在類別模式—原理與技術

第二節 探索性分析的過程

一、模型選擇

探索性模式的最重要工作是決定最佳模型,也就是決定有幾個
潛在類別的模型最能適配觀察資料。表4.2列出了從 T = 1到 T = 5
五種不同類別數目的模式適配估計結果。其中類別數目為1的模型
做為零模型(null model),事實上,T = 1下的模型,所有觀察值
並沒有被分組,也就是外顯變數背後並沒有潛在變數的設定,因此
做為比較的基準,標示為M0。模型適配情形最差,χ2 = 1314.592
( p < . 0 0 1 ) , G 2 = 5 8 6 . 9 0 7 ( p < . 0 0 1 ) , d f = 1 0 0 3 。 χ 2係 直 接 由 各
細 格 次 數 與 期 望 次 數 的 差 異 情 形 計 算 得 出 , G 2則 來 自 第 三 章 介 紹 的
最大概似機率值所算出之模型適配估計值,兩者均利用卡方分配進行
顯著性考驗。顯著的卡方值(p<.001)表示外顯變數間的相依關聯
沒有被解釋,因此需要潛在變數來解釋。

表4.2 探索性潛在類別分析模型適配指標摘要表(N = 1369)
Models χ2 G2 AIC BIC df Para
1314.592 586.907
M0: Null model  12046.659 12098.877 1003 10
(.000) (.000)
1238.328 556.459
M1: 2-class model 11923.985 12033.643 1000 21
(.000) (.000)
897.160 513.862
M2: 3-class model 11897.553 12064.652 989 32
(.983) (1.000)
909.501 494.682
M3: 4-class model 11891.353 12115.892 979 43
(.945) (1.000)
890.196 476.447
M4: 5-class model 11895.157 12177.136 968 54
(.964) (1.000)
註:Para表示參數數目。
第四章 探索性分析 61

由表4.2可知,帶有潛在類別的模型(M1到M4)的卡方
統計量逐步減少。當潛在類別達到三個之後(T = 3以後),
即已達到良好適配(p>.05)。當 T = 3 時,Pearson卡方為
897.160(p = .983),此時的概似卡方值為513.862,亦顯著
較 T = 2 與 T = 1 的模型為低。如果從BIC指標來看,亦以 T = 3 的
模型有最小的BIC值,反映了採取 T = 3 模型最適配於觀察資料。
值 得 注 意 的 是 , 當 T = 3 時 , 模 型 自 由 度 應 為 2 10- ( 2 × 1 0 - 1 0
)3 = 1024- 270 = 754,但是實際觀察自由度卻有989,顯示有235個
細格因為條件機率為0,或是有極端偏離的卡方值而被刪除。很明顯
地,當外顯變數越多,細格數目越多,樣本數也要很多才不會導致各
細格人數過少,產生遺漏細格的現象過於嚴重的扭曲現象。

表4.3 10個題目在三個潛在類別上的條件機率與潛在類別機率
ITEMS t = 1 t = 2 t = 3
1 發燒高於38度是SARS的主要特徵。 .969 .943 .852
2 SARS的潛伏期一般為1到3天左右。 .751 .476 .335
3 SARS是一種細菌感染。 .934 .892 .659
接觸帶有SARS感染源的器物也有可能罹患
4 .872 .793 .496
SARS。
5 空氣傳染為SARS的傳染途徑。 .866 .411 .410
居家隔離者只要不脫下口罩,可以搭乘大眾運
6 .911 .754 .569
輸工具。
7 只要一直帶著口罩,就可以不需要量體溫。 .966 .973 .746
8 肌肉酸痛是SARS患者可能會有的症狀。 .920 1.00 .601
9 老鼠、蟑螂是SARS的傳染媒介。 .939 .800 .563
因為病毒大小比口罩縫隙小,所以戴口罩是沒
10 .881 .739 .758
有用的。
潛在類別機率 .362 .538 .099
註:各題均為二分變數,因此僅列出答對的機率。答錯機率 = 1-答對機率。
62 潛在類別模式—原理與技術

二、潛在類別機率與條件機率

當我們決定了最佳模型之後,即應針對這個模型的特性加以說
明。此時最重要的工作是報告參數估計(潛在類別機率與條件機率)
的結果,並利用條件機率來進行潛在類別的命名的工作。因此,將
M3模型的三個潛在類別的機率估計值,以及三個潛在類別在10個題
目反應型態的條件機率的參數估計結果列於表4.3。
從潛在類別機率可以看出,以第二個潛在類別(t = 2)的受測
者最多(.538),其次是第一類(t = 1)的.362,最少的是第三類
的.099。從條件機率可以看出,第一類受測者在各題的答對機率都很
高,因此可以命名為SARS「知識豐富者」,第二類受測者在第2與
5 兩 題 上 的 答 對 率 較 差 ( . 4 7 6 與 . 4 11 ) , 這 兩 題 分 別 是 S A R S 潛 伏 期
與SARS傳染途徑的問題,顯示受訪者在SARS對自己威脅性題目高
者,有較大的錯誤率,可以命名為「認知威脅者」。第三類則普遍答
對率較低,可以說是「能力較差者」。各潛在類別在10個題目的反
應情形可以由圖4.1的條件機率折線圖看出。

圖4.1 三個潛在類別的條件機率分佈情形
第四章 探索性分析 63

很明顯地,利用折線圖來呈現各潛在類別特性,可以很明顯看
出不同潛在類別的差異,對於命名非常有幫助。坊間的LCA分析軟
體(例如LatentGOLD)都提供此種圖表,否則研究者也可以自行繪
製。

三、觀察值分類

經由前述的參數估計程式,可以得出每一個潛在類別與各外顯
變數的相對關係。進一步地,可以利用這些期望機率,計算每一個
觀察值在三個組的分類機率,據以將觀察值分成三類(McCutcheon,
1985)。由於10個題目共有1024個可能細格,每一個細格的受試者
答題情況相同,因此觀察值雖然有1369位,事實上僅須以細格為單
位,計算潛在變數三個組的條件機率,然後比較各細格觀察值在三組
出現的實際機率,即可將1024細格的觀察值分成三類。
一旦各觀察值被分到不同組之後,即可進行進一步的分析,
檢驗不同組的觀察值在其他變數上的分佈特性,藉以理解各潛在
類別的特性。例如,本範例的1369位學生,被分配到三組的比率
為.382、.560、.058,在性別分佈上並沒有顯著差異(χ2 = 1.814,
df = 2,p = .404),列聯表如表4.4所示。三組平均年齡亦無顯著差
異(F(2,1359) = .894, p = .409)。

表4.4 分類結果(T = 3)與性別的列聯表
男 女 小計
class
人數 列% 人數 列% 人數 欄%
1 148 28.3 375 71.7 523 38.2
2 208 27.1 559 72.9 767 56.0
3 27 34.2 52 65.8 79 5.8
小計 383 383 1369
64 潛在類別模式—原理與技術

第三節 探索性分析的操作示範

為了示範如何使用LatentGOLD與Mplus來進行探索性LCA分
析,本範例取SARS疫情調查問卷的部分資料進行分析。所取用的題
目為8個詢問有關民眾在SARS期間的心理與行為狀況的題目,題目
的答題型態原為Likert四點量尺(非常不同意、不同意、同意、非常
同意),但為了示範,在本範例改以兩點尺度來分析,非常不同意
與不同意轉為1(標示為「無」),非常同意與同意轉為2(標示為
「有」)。樣本總計有1366名大學生,各題的題目、反應次數與百
分比列於表4.5中。
由表4.5的數據可以看出,八個題目的答題狀況中,出現較為極
端的反應為第3題的「有睡眠問題」與第2題的「擔憂不幸的事情發
生在自己或親人身上」,反應的傾向則恰好相反,前者回答「無」者
較多,後者回答「有」者較少。以下,我們將分別以LatentGOLD與
Mplus來進行探索性LCA。

表4.5 SARS期間心理與行為反應調查題目(N = 1366)
題目 有 無
1 覺得緊張不安。 728 53% 638 47%
擔憂不幸事件可能發生在自己或親人身
2 1090 80% 276 20%
上。
3 有睡眠問題(如失眠)。 236 17% 1130 83%
比以前慮病,對自己身體狀況敏感懷疑生
4 521 38% 845 62%
病。
5 盡量與人保持距離,不做不必要的交談。 484 35% 882 65%
6 隨身攜帶可消毒的東西(如酒精)。 457 33% 909 67%
7 每星期做屋內或居家環境消毒的工作。 651 48% 715 52%
避免出入公共場所、醫院或人潮擁擠的地
8 958 70% 408 30%
方。
第四章 探索性分析 65

一、LatentGold操作程序

步驟一:開啟LatentGOLD軟體視窗,開啟SPSS的資料檔。
LatentGOLD可以處理SPSS的資料檔,或是固定格式的ASCII資
料檔(.txt、.dat)。以及以LatentGOLD處理之後的定義檔.lgf檔。

開啟資料檔,已
經開啟過的檔案
會列於下方。

LatentGOLD可以
處理不同形式的檔
案,預設為SPSS資
料檔。
66 潛在類別模式—原理與技術

步驟二:模型設定

(一)開啟工具列中的 Model,選擇 Cluster,亦即探索性LCA分析

(二)選擇需要的變數,移至 Indicators

變數預設的量尺是順序尺度(Ord),此時將游標停在
Indicators對話方格中,即可按滑鼠右鍵,浮現出量尺修改的選擇按
扭,選取適當量尺型態。如果按下Scan,電腦將自動掃描資料庫,
檢查出各變數各有幾個水準數。

(三)利用 Clusters 數字框指定潛在類別的數目或數目範圍

變數視窗的下方,有一個Clusters數字框,可以輸入單一數值,
表示有幾個潛在類別。例如選1,代表僅有一個類別(虛無模型),
選6則為6個潛在類別。如果鍵入1-6,則會分別執行當潛在類別數目
為1、2、3、4、5、6之時的六種模型。
第四章 探索性分析 67

在對話框中
按滑鼠右鍵
可以調整各
變數的量尺
型態。

按scan後可查
知各變數有
幾個水準或
幾個數值。

輸入潛在類別
的數目,或是
直接輸入一個
區間,電腦會
執行各種不同
的類別數目的
模型。
68 潛在類別模式—原理與技術

步驟三:選擇Output中所需的分析數據,以及技術條件的設定等。一般情形下,
可以不必進行調整,以預設的功能即可執行。

顯著性考驗所使
用的標準誤形
式。可為標準形
式、強韌調整或
快速估計。

報表輸出
可選擇參數、殘
差與各種數據。
以及疊代的過
程。

編碼形式
預設為效果編碼。
亦可為虛擬編碼
(以最初組或最末
組為參照組)。

設定收斂的
條件、疊代
的限制、以
及初始值的
設定。
第四章 探索性分析 69

二、LatentGold報表解釋

LatentGOLD的報表十分容易整理、複製。當我們下達估計指令
後,電腦將會進行估計,並將分析結果列於輸出視窗中。視窗的左邊
是目錄,右邊是結果。利用滑鼠點選左邊的目錄,將會整理出不同
的資料表格。使用者可以將各個畫面加以儲存(可以儲存為html檔
或.txt檔),之後即可應用於其他軟體。

(一)模型適配摘要清單

LatentGOLD最早出現的結果畫面是各模型的適配指標。如果使
用者要求電腦分析多個不同類別數目的模型,結果視窗會停留在最後
一個模型。例如輸入1-6時,產生六個模型,結果則停留在最後一個
模型。

如果點選左邊目錄的最上方,也就是整批結果的最上層,
70 潛在類別模式—原理與技術

LatentGOLD將列出所有模型的摘要數據。

如果在右邊的結果視窗中按滑鼠右鍵,則可以增減挑選摘要表中
的資訊。此時若打開 File 中的 Save Results ,可以將此一摘要表儲
存為不同的格式。或選取 Print 加以列印。
第四章 探索性分析 71

以.txt檔案與html檔案格式儲存的結果分別如下:
72 潛在類別模式—原理與技術

(二)模型選擇結果

根據六個模型的分析結果,可以看出當類別數目越多,模型適配
的對數概似值(LL)下降,卡方數值也變小,如表4.6所示。六個模
型中,以4-Cluster模型有最低的BIC值(12510.91),顯示模型4是
較佳的模型。AIC指標則以七個類別的模型7較為理想。
以卡方統計量來判斷的話,個別模型中,模型6的概似卡方統計
量未達顯著(G2 = 215.93, df = 202, p = .240),表示本模型與觀
察數據的適配情形理想。但若以概似卡方差異檢定來看,七個類別的
模型7到第八個模型的概似卡方差異量到達不顯著,表示增加第八個
分組並無助於模型的改善,因此八個組的模型並不被我們所考慮,七
個分組的模型較為理想。
一般來說,當樣本數很大時,建議以BIC指數來判斷模型的優
劣,因此,本範例的樣本數達到1300以上,因此以BIC做為模型適切
性決策的標準,以下的說明以4類別的模型來說明。

表4.6 八個模型的模型適配指標摘要表
Mo BIC(LL) AIC(LL) Npar G2 df p ΔG 2 Δdf p
1 13467.59 13425.83 8 1459.08 247 .000 - - -
2 12703.50 12614.77 17 630.01 238 .000 829.07 9 .000
3 12581.20 12445.49 26 442.74 229 .000 187.27 9 .000
4 12510.91 12328.23 35 307.47 220 .000 135.27 9 .000
5 12522.47 12292.80 44 254.05 211 .023 53.42 9 .000
6 12549.32 12272.68 53 215.93 202 .240 38.12 9 .000
7 12590.18 12266.57 62 191.81 193 .510 24.12 9 .004
8 12645.38 12274.78 71 182.03 184 .520 9.78 9 .369
第四章 探索性分析 73

(三)模型適配結果(以Model 4為例)

下圖中,可以得到模型4的相關資料。例如樣本數為1366,參數
數目為35,亦即4個類別機率、32個條件機率。卡方統計量中,自由
度為220,χ2 = 441.0791(p<.001),G2 = 307.4731(p<.001)。
由此可知,左邊目錄視窗所列出的適配度L?數值為 G2 值。LL值則
為- 6129.1132。如下圖所示:
74 潛在類別模式—原理與技術

(四)參數估計結果(以Model 4為例)

參數估計的結果列於左邊目錄視窗的Parameters選單之下。點選
+號後可開啟下列畫面,出現各外顯變數在各潛在類別的條件機率與
顯著性檢定值。
由所列出的參數可知,每一個外顯變數的不同水準被潛在類
別解釋的強度逐一列出,各參數的編碼形式為效果編碼(effect
c o d i n g ) , 因 此 總 和 為 0 。 各 題 的 參 數 檢 定 ( Wa l d 檢 定 ) 、 p 值 與 R 2
數值都一併列出。以第一個外顯變數(bi1)為例,被四個類別解釋
的百分比是39.34%(.3934),Wald = 95.972,p<.05,因此虛無假
設(各個潛在類別對本題解釋效果為0)被拒絕,亦即本題的變異能
夠被潛在類別有效解釋。
第四章 探索性分析 75

值 得 注 意 的 是 , 預 設 的 畫 面 所 提 供 的 檢 定 值 是 Wa l d 檢 定 , 如 果
要列出標準誤與Z檢定則須將滑鼠移至右邊視窗,按右鍵後出現選
擇不同統計量的對話框,挑選 Standard Errors、 Z Statistic、或
Std Errs & Z,即可出現Z檢定的相關資訊。列出時,會取各外顯變
數的第一個水準為參照值,列出其他參數的檢定結果,如下圖所示:

最後,點選loadings將會列出對應於潛在變數的各外顯變數與
潛在變數的關聯強度(也就是因素分析的因素負荷量),以因素
分析各負荷量的平方就是各題被解釋的比例(因素分析的共同性
community)。
由下圖的數據可知,潛在變數與第7題的關係最強,loading
達.7256,R2 達.5265,表示潛在變數可以解釋該題變異量的
52.65%。其次為第6題,loading = .6470,潛在變數可以解釋該題變
異量的41.86%。
76 潛在類別模式—原理與技術

(五)參數估計的條件機率值與圖示(以Model 4為例)

除了列出各參數的條件機率值之外,LatentGOLD可以比照因素
分析的因素負荷圖,將各題的條件機率以圖示方法列出。
點選Profiles,首先將出現各潛在類別機率值(cluster size),
分別是.3204、.2517、.2360、.1919,總和為1.0,表示四個類別所
佔的比重。其次,將列出各外顯變數在個潛在類別的條件機率值。
機率越大者,表示該潛在類別越可能出現該反應。例如第一個外顯
變數(覺得緊張不安),在第一個潛在類別中的反應傾向是「無」
(.8348),而不是「有」(.1652)。此一數據可以協助我們對潛在
類別進行命名。
LatentGOLD更可以直接將各潛在類別的條件機率以折線圖的方
式來呈現,使得研究者對於潛在類別的反應型態可以透過折線變化一
目了然,協助命名的工作。如果需要進行顯著性考驗,則可按滑鼠右
鍵,即可得到標準誤數值,進行Z檢定。
第四章 探索性分析 77

條件機率與平均數
如果外顯孌數是名義變
數,則看條件機率值(各
選項機率和為1.0);如果
是連續變數,則看平均數
(編碼「無」=1,「有」
=2,因此平均數介於1至2
之間)。
78 潛在類別模式—原理與技術

(六)潛在類別命名(以Model 4為例)

條件機率越高者,表示該潛在類別的受訪者在該題的回答傾向
高,在命名時,潛在類別的性質與高條件機率者有關。折線圖如下
圖:

由條件機率的變動情形可知,第1組(cluster 1)在多數題目都
是不傾向回答「有」,除了第2題的回答較高以外,其他的反應都偏
無。由於第2題大多數受訪者均回答「是」,因此鑑別度較低,從內
容來看,屬於一般性的擔憂,因此不特別做解釋。因此,我們可以命
名為「無明顯心理與行為反應群」。這群人佔最多,達32.04%。
第2組的條件機率除了第2題的高反應之外,還有第1、8題的反
應較強,第1題是「緊張不安」(.8387)、第8題是「避免出入公共
場所」(.8247),第5題的慮病傾向也高(.5849),因此可以命名
為「心理性反應群」。這群人佔了25.17%。
第3組則在第6、7、8四題有較高的答「是」的條件機率
第四章 探索性分析 79

(.5668、.9261、.8098),這三題都與具體的行為有關,尤其是第
7題「每週做環境消毒」的機率超過.92,因此此一因素可以命名為
「行為性反應群」。這群人佔了23.6%。
最後,第4組則幾乎在所有的題目都有最高的條件機率,因此這
群人可以命名為「心理與行為嚴重反應群」。這群人最少,但也佔了
19.19%。各參數的標準誤如下圖所示,根據這些數據可進行統計顯
著性考驗(Z考驗)。

除了呈現各條件機率外,LatentGOLD也呈現了各題目回
答「有」與「無」者,被歸類到四個類別的比例,如果點選
ProbMeans,則列出這些機率(這些機率並非條件機率,而是分類的
歸屬機率:membership probability)。
以第1題為例,回答「有」的受訪者,被分到四組的百分比分別
為9.92%、39.61%、17.76%、32.71%,總和為100%。這些數據可
以協助我們理解各題答題情況與實際分類的傾向。甚至於可以利用圖
形來表示歸屬機率的分佈情形。
80 潛在類別模式—原理與技術
潛在類別模式-原理與技術/邱皓政著. --

初版.--臺北市:五南, 2008.09

 面; 公分

ISBN 978-957-11-5193-9 (平裝)

1.統計方法 2.數學模式

511.2 97006261

1H56

潛在類別模式-原理與技術
作  者 ─ 邱皓政(151.1)

發 行 人 ─ 楊榮川

總 編 輯 ─ 龐君豪

主  編 ─ 張毓芬

責任編輯 ─ 吳靜芳 楊如萍

封面設計 ─ 盧盈良

出 版 者 ─ 五南圖書出版股份有限公司

地  址:106台 北 市 大 安 區 和 平 東 路 二 段 3 3 9 號 4 樓

電  話:(02)2705-5066  傳  真:(02)2706-6100

網  址:http://www.wunan.com.tw

電子郵件:wunan@wunan.com.tw

劃撥帳號:0 1 0 6 8 9 5 3

戶  名:五南圖書出版股份有限公司

台中市駐區辦公室/台中市中區中山路6號

電  話:(04)2223-0891  傳  真:(04)2223-3549

高雄市駐區辦公室/高雄市新興區中山一路290號

電  話:(07)2358-702   傳  真:(07)2350-236

法律顧問 元貞聯合法律事務所 張澤平律師

出版日期 2 0 0 8 年 9 月 初 版 一 刷

定  價 新 臺 幣 3 5 0 元

※版權所有.欲利用本書內容,必須徵求本公司同意※