Consider the air-pollution data listed in table 1.5. your job is to
summarize these data in fewer than p=7 dimensions if possible.
Conduct a principal component analysis of the data using both the
covariance matrix S and the correlation matrix R. What have you
learned? Does it makes any difference which matrix is chosen for
analysis? Can the data be summarized in three or fewer dimensions?
Can you interpret the principal components?
a) Principal component analysis of the data using covariance matrix
Ada 3 cara menentukan jumlah komponen utama (principal
component), yaitu sebagai berikut:
1. Dengan melihat nilai eigen.
Dengan menggunakan MINITAB diperoleh:
Principal Component Analysis: total popula; professional; employed age;
governm
Eigenanalysis of the Covariance Matrix
Eigenvalue
Proportion
Cumulative
107,02
0,677
0,677
39,67
0,251
0,928
8,37
0,053
0,981
Variable
total population (thousands)
professional degree (percent)
employed age over 16 (percent)
government employment (percent)
median home value ($100.000)
2,87
0,018
0,999
0,15
0,001
1,000
PC1
-0,039
0,105
-0,492
0,863
0,009
PC2
0,071
0,130
0,864
0,480
0,015
PC3
0,188
-0,961
0,046
0,153
-0,125
PC4
0,977
0,171
-0,091
-0,030
0,082
PC5
-0,058
-0,139
0,005
0,007
0,989
Pilih jumlah nilai eigen
>1. Pada output ada 4 nilai eigen yang
1
2
memiliki nilai
>1. Tetapi disini kita pilih
dan
dengan alasan
3 , 4 , 5
bahwa range nilainya jauh berbeda jika dibandingkan dengan
.
nilai eigen dan vektor eigen untuk matriks kovarian adalah:
maka
e3' 0.187, 0.960, 0.045, 0.153, 0.124
3 8,37
maka
e4' 0.977, 0.171, 0.091, 0.029, 0.081
4 2,87
maka
5 0,15
maka
e5' 0.057, 0.138, 0.004, 0.006, 0.988
2. Scree plot
Scree Plot of total population (thousands); ...; median home value ($100.000)
120
100
Eigenvalue
80
60
40
20
0
1
2
3
Component Number
4
5
Pada scree plot diatas menunjukan bahwa banyaknya komponen
utama yang dapat diambil sehingga bisa menjelaskan variasi total
adalah sebanyak 2 komponen utama.
3. Total variansi yang bisa dijelaskan >70%
Berdasarkan output minitab diatas dapat disimpulkan bahwa secara
kumulatif proporsi variasi yang dapat dijelaskan oleh PC 1 dan PC 2
adalah sebanyak 92,8%. Sehingga variasi total dapat diringkas
dengan sangat baik oleh dua komponen utama tersebut. Oleh karena
itu reduksi data dari 61 observasi pada 5 variabel menjadi 61
observasi pada 2 komponen utama sudah cukup baik.
Jadi, berdasarkan ketiga kriteria diatas diputuskan untuk mengambil
2 komponen utama yaitu PC 1 dan PC 2 untuk mewakili variabilitas
variabel yang ada. Sehingga, komponen utama yang diperoleh dari
matriks kovarian adalah:
'
Y1 e$1 X 0.038 X 1 0.105 X 2 0.492 X 3 0.863 X 4 0.009 X 5
'
Y2 e$2 X 0.0071X 1 0.129 X 2 0.864 X 3 0.480 X 4 0.014 X 5
b) Principal component analysis of the data using correlation matrix
Langkah-langkah dalam mendapatkan komponen utama (PC) dengan
matriks korelasi sama dengan pada matriks kovarian. Yang berbeda
hanya pada penggunaan data. Data yang digunakan pada analisis
komponen utama dengan menggunakan matriks korelasi adalah data
yang sudah distandarkan. Datanya adalah sebagai berikut:
No
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
1. Nilai eigen
Dengan menggunakan data yang sudah distandarkan diatas
diperoleh hasil MINITAB sebagai berikut:
Principal Component Analysis: z1; z2; z3; z4; z5
Eigenanalysis of the Correlation Matrix
Eigenvalue
Proportion
Cumulative
Variable
z1
1,9919
0,398
0,398
PC1
-0,263
1,3675
0,274
0,672
PC2
-0,463
0,8642
0,173
0,845
PC3
-0,784
0,5351
0,107
0,952
PC4
-0,217
0,2413
0,048
1,000
PC5
0,235
z2
z3
z4
z5
0,593
-0,326
0,479
0,493
-0,326
-0,605
0,252
-0,500
0,164
0,225
-0,551
0,069
0,145
0,663
0,572
-0,407
0,703
-0,194
-0,277
-0,580
Berdasarkan nilai eigen yang diperoleh pada output minitab diatas
maka nilai
µ
yang diambil adalah
µ1
dan
µ2
karena nilainya lebih
dari 1.
µ1
= 1,9919 maka
µ2
µ3
µ4
µ5
e1' 0.262, 0.593, 0.325, 0.479, 0.493
= 1,3675 maka
= 0,8642 maka
=0.5351 maka
=0,2413 maka
3. Total variansi yang bisa dijelaskan >70%
Berdasarkan tabel diatas dapat disimpulkan bahwa secara kumulatif
PC 1, PC 2, dan PC 3 dapat menjelaskan total variasi hingga 84,5%.
Oleh karena itu, walaupun dilihat dari nilai eigen yang nilainya lebih
besar 1 hanya ada 2 nilai eigen akan tetapi berdasarkan proporsi
variasi diputuskan mengambil 3 komponen utama, karena proporsi
variasi yang dapat dijelaskan oleh ketiga komponen utama adalah
sebanyak 84,5% dimana > 70%.
Sehingga dengan menggunakan variabel-variabel yang distandarkan,
diperoleh komponen-komponen utamanya adalah sebagai berikut:
µy e$1' z 0.262 z 0.593 z 0.325 z 0.479 z 0.493 z
1
1
2
3
4
5