multivariate

Published on January 2017 | Categories: Documents | Downloads: 48 | Comments: 0 | Views: 400
of 9
Download PDF   Embed   Report

Comments

Content

8.12

Consider the air-pollution data listed in table 1.5. your job is to
summarize these data in fewer than p=7 dimensions if possible.
Conduct a principal component analysis of the data using both the
covariance matrix S and the correlation matrix R. What have you
learned? Does it makes any difference which matrix is chosen for
analysis? Can the data be summarized in three or fewer dimensions?
Can you interpret the principal components?

NO

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34

Total

Professional

Employed

Government

Median

population

degree

age over 16

employment

home value

(percent)
69,02
72,98
64,94
71,29
74,94
53,61
67,00
67,20
83,03
72,60
64,32
82,64
84,25
69,93
70,31
70,53
69,85
79,44
66,24
67,25
63,00
72,57
75,13
67,78
77,43
58,57
64,32
78,61
83,77
76,04
74,65
65,43
68,03
49,50

(percent)
30,3
43,3
32,0
24,5
31,0
48,2
37,6
36,8
19,7
24,5
27,7
20,3
20,6
16,4
29,0
37,7
41,7
33,0
38,1
33,4
18,2
20,1
16,5
17,4
21,6
31,2
27,4
34,1
31,4
25,0
24,1
23,7
26,2
21,9

(thousands)
2,67
2,25
3,12
5,14
5,54
5,04
3,14
2,43
5,38
7,34
4,94
4,82
5,02
3,37
3,63
7,43
2,20
7,16
6,33
2,57
6,38
5,34
4,87
2,04
5,48
7,77
6,29
6,38
5,76
6,03
5,09
4,36
3,07
1,82

(percent)
5,71
4,37
10,27
7,44
9,25
4,84
4,82
2,40
4,30
2,73
4,66
4,26
4,17
1,00
6,40
6,00
10,59
4,71
2,88
1,85
1,56
3,41
5,20
4,83
1,34
5,32
2,60
3,71
4,06
3,10
1,85
1,67
2,00
1,13

($100.000)
1,48
1,44
2,11
1,85
2,23
1,60
1,52
1,40
2,07
1,42
1,42
1,46
1,42
1,17
2,00
1,44
2,01
1,55
1,73
1,18
0,93
1,66
3,64
1,49
1,32
3,21
1,78
1,30
1,52
1,08
0,97
1,07
1,19
1,62

35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61



3,31
3,45
1,74
1,81
5,59
3,72
3,39
2,25
3,31
5,27
3,26
6,76
2,92
1,64
1,36
3,58
3,38
7,25
5,44
5,83
3,74
9,21
2,14
6,62
4,24
4,72
6,48

0,94
0,72
0,97
1,54
1,66
1,69
1,24
2,80
1,30
1,20
1,02
1,53
4,42
16,70
14,26
3,38
2,17
1,16
2,93
4,47
2,26
2,36
6,30
4,79
5,82
4,71
4,93

74,75
65,99
60,24
70,05
77,96
82,40
67,17
70,81
71,30
73,08
74,36
78,37
58,50
64,61
66,42
65,57
66,10
78,52
73,59
77,33
79,70
74,58
86,54
78,84
71,39
78,01
74,23

Summary statistics of data:
Mean:
x '   4, 469 3,962 71, 420 26,91 1, 6356 
Matrix covariance:
2, 078 0, 027
 3,396 1,102 4,305
 1,102 9, 672 1,513 10,953 1, 203


S   4,305 1,513 55, 625 28,937 0, 043


 2, 078 10,953 28,937 89, 066 0,957
 0, 027 1, 203 0, 043
0,957
0,318
Matrix correlation:
 1 0,192 0,313 0,119 0, 026
 0,192 1 0, 065 0,373 0, 685


R   0,313 0, 065 1 0, 411 0, 010


 0,119 0,373 0, 411 1 0,179
 0, 026 0, 685 0, 010 0,179 1 

26,5
22,0
22,0
24,4
17,1
16,3
27,7
23,4
19,2
30,3
16,5
22,6
68,5
49,4
22,5
26,1
22,6
23,6
22,3
26,2
20,2
21,8
17,4
20,0
27,1
20,6
20,9

1,12
1,20
1,17
1,00
1,30
1,52
1,03
1,14
1,21
1,35
1,23
1,33
2,25
3,13
2,80
1,31
1,44
1,50
1,65
2,16
1,58
1,72
2,80
2,33
1,69
1,55
1,98

a) Principal component analysis of the data using covariance matrix
Ada 3 cara menentukan jumlah komponen utama (principal
component), yaitu sebagai berikut:
1. Dengan melihat nilai eigen.
Dengan menggunakan MINITAB diperoleh:
Principal Component Analysis: total popula; professional; employed age;
governm
Eigenanalysis of the Covariance Matrix
Eigenvalue
Proportion
Cumulative

107,02
0,677
0,677

39,67
0,251
0,928

8,37
0,053
0,981

Variable
total population (thousands)
professional degree (percent)
employed age over 16 (percent)
government employment (percent)
median home value ($100.000)

2,87
0,018
0,999

0,15
0,001
1,000

PC1
-0,039
0,105
-0,492
0,863
0,009

PC2
0,071
0,130
0,864
0,480
0,015

PC3
0,188
-0,961
0,046
0,153
-0,125

PC4
0,977
0,171
-0,091
-0,030
0,082

PC5
-0,058
-0,139
0,005
0,007
0,989



Pilih jumlah nilai eigen
>1. Pada output ada 4 nilai eigen yang

1
2
memiliki nilai
>1. Tetapi disini kita pilih
dan
dengan alasan
3 , 4 , 5
bahwa range nilainya jauh berbeda jika dibandingkan dengan
.
nilai eigen dan vektor eigen untuk matriks kovarian adalah:

1  107, 02

2  39, 67

maka

e1'   0.038, 0.105, 0.492, 0.863, 0.009 
e2'   0.071, 0.129, 0.864, 0.480, 0.014 

maka
e3'   0.187, 0.960, 0.045, 0.153, 0.124 
3  8,37
maka
e4'   0.977, 0.171, 0.091, 0.029, 0.081
4  2,87
maka

5  0,15

maka

e5'   0.057, 0.138, 0.004, 0.006, 0.988

2. Scree plot
Scree Plot of total population (thousands); ...; median home value ($100.000)
120
100

Eigenvalue

80
60
40
20
0
1

2

3
Component Number

4

5

Pada scree plot diatas menunjukan bahwa banyaknya komponen
utama yang dapat diambil sehingga bisa menjelaskan variasi total
adalah sebanyak 2 komponen utama.
3. Total variansi yang bisa dijelaskan >70%
Berdasarkan output minitab diatas dapat disimpulkan bahwa secara
kumulatif proporsi variasi yang dapat dijelaskan oleh PC 1 dan PC 2
adalah sebanyak 92,8%. Sehingga variasi total dapat diringkas
dengan sangat baik oleh dua komponen utama tersebut. Oleh karena
itu reduksi data dari 61 observasi pada 5 variabel menjadi 61
observasi pada 2 komponen utama sudah cukup baik.
Jadi, berdasarkan ketiga kriteria diatas diputuskan untuk mengambil
2 komponen utama yaitu PC 1 dan PC 2 untuk mewakili variabilitas

variabel yang ada. Sehingga, komponen utama yang diperoleh dari
matriks kovarian adalah:
'
Y1  e$1 X  0.038 X 1  0.105 X 2  0.492 X 3  0.863 X 4  0.009 X 5

'

Y2  e$2 X  0.0071X 1  0.129 X 2  0.864 X 3  0.480 X 4  0.014 X 5

b) Principal component analysis of the data using correlation matrix
Langkah-langkah dalam mendapatkan komponen utama (PC) dengan
matriks korelasi sama dengan pada matriks kovarian. Yang berbeda
hanya pada penggunaan data. Data yang digunakan pada analisis
komponen utama dengan menggunakan matriks korelasi adalah data
yang sudah distandarkan. Datanya adalah sebagai berikut:
No
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26

z1
-0,97610
-1,20398
-0,73194
0,36406
0,58109
0,30980
-0,72109
-1,10632
0,49428
1,55772
0,25554
0,19043
0,29895
-0,59630
-0,45523
1,60655
-1,23111
1,46006
1,00972
-1,03036
1,03685
0,47257
0,21756
-1,31792
0,54853
1,79103

z2
0,56194
0,13109
2,02813
1,11819
1,70017
0,28221
0,27578
-0,50233
0,10858
-0,39622
0,22433
0,09572
0,06678
-0,95247
0,78380
0,65519
2,13102
0,24041
-0,34799
-0,67917
-0,77242
-0,17758
0,39796
0,27900
-0,84315
0,43655

z3
-0,32177
0,20919
-0,86881
-0,01741
0,47198
-2,38793
-0,59261
-0,56579
1,55668
0,15824
-0,95194
1,50439
1,72026
-0,19976
-0,14881
-0,11931
-0,21048
1,07534
-0,69451
-0,55909
-1,12892
0,15421
0,49746
-0,48803
0,80584
-1,72290

z4
0,35870
1,73618
0,53883
-0,25587
0,43287
2,25539
1,13221
1,04744
-0,76448
-0,25587
0,08320
-0,70090
-0,66911
-1,11414
0,22095
1,14281
1,56665
0,64479
1,18519
0,68718
-0,92342
-0,72209
-1,10355
-1,00818
-0,56315
0,45407

z5
-0,27561
-0,34647
0,84048
0,37987
1,05307
-0,06302
-0,20475
-0,41734
0,76962
-0,38191
-0,38191
-0,31104
-0,38191
-0,82480
0,64561
-0,34647
0,66332
-0,15160
0,16728
-0,80708
-1,24998
0,04327
3,55100
-0,25790
-0,55906
2,78922

27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61

0,98802
1,03685
0,70045
0,84695
0,33693
-0,05915
-0,75907
-1,43729
-0,62885
-0,55289
-1,48069
-1,44271
0,60822
-0,40640
-0,58545
-1,20398
-0,62885
0,43459
-0,65598
1,24303
-0,84046
-1,53495
-1,68687
-0,48236
-0,59087
1,50889
0,52683
0,73843
-0,39555
2,57233
-1,26366
1,16707
-0,12426
0,13618
1,09111

-0,43802
-0,08112
0,03142
-0,27726
-0,67917
-0,73705
-0,63094
-0,91067
-0,97177
-1,04250
-0,96212
-0,77885
-0,74026
-0,73062
-0,87531
-0,37372
-0,85601
-0,88817
-0,94604
-0,78206
0,14717
4,09558
3,31104
-0,18723
-0,57628
-0,90103
-0,33192
0,16324
-0,54734
-0,51519
0,75165
0,26613
0,59731
0,24041
0,31115

-0,95194
0,96405
1,65590
0,61947
0,43310
-0,80311
-0,45451
-2,93899
0,44651
-0,72803
-1,49898
-0,18367
0,87690
1,47221
-0,56981
-0,08177
-0,01607
0,22259
0,39421
0,93187
-1,73228
-0,91306
-0,67037
-0,78434
-0,71328
0,95198
0,29097
0,79243
1,11020
0,42371
2,02730
0,99489
-0,00400
0,88360
0,37678

0,05142
0,76135
0,47526
-0,20289
-0,29825
-0,34064
-0,07574
-0,53136
-0,04395
-0,52077
-0,52077
-0,26646
-1,03997
-1,12474
0,08320
-0,37242
-0,81746
0,35870
-1,10355
-0,45719
4,40638
2,38254
-0,46779
-0,08633
-0,45719
-0,35123
-0,48898
-0,07574
-0,71150
-0,54196
-1,00818
-0,73269
0,01963
-0,66911
-0,63732

0,25586
-0,59449
-0,20475
-0,98424
-1,17912
-1,00196
-0,78937
-0,02759
-0,91338
-0,77165
-0,82480
-1,12597
-0,59449
-0,20475
-1,07282
-0,87795
-0,75394
-0,50592
-0,71851
-0,54135
1,08850
2,64749
2,06287
-0,57678
-0,34647
-0,24018
0,02556
0,92906
-0,09845
0,14957
2,06287
1,23023
0,09642
-0,15160
0,61018

1. Nilai eigen
Dengan menggunakan data yang sudah distandarkan diatas
diperoleh hasil MINITAB sebagai berikut:
Principal Component Analysis: z1; z2; z3; z4; z5
Eigenanalysis of the Correlation Matrix
Eigenvalue
Proportion
Cumulative
Variable
z1

1,9919
0,398
0,398
PC1
-0,263

1,3675
0,274
0,672
PC2
-0,463

0,8642
0,173
0,845
PC3
-0,784

0,5351
0,107
0,952
PC4
-0,217

0,2413
0,048
1,000
PC5
0,235

z2
z3
z4
z5

0,593
-0,326
0,479
0,493

-0,326
-0,605
0,252
-0,500

0,164
0,225
-0,551
0,069

0,145
0,663
0,572
-0,407

0,703
-0,194
-0,277
-0,580

Berdasarkan nilai eigen yang diperoleh pada output minitab diatas

maka nilai

µ

yang diambil adalah

µ1

dan

µ2

karena nilainya lebih

dari 1.

µ1

= 1,9919 maka

µ2
µ3

µ4
µ5

e1'   0.262, 0.593, 0.325, 0.479, 0.493

= 1,3675 maka
= 0,8642 maka
=0.5351 maka
=0,2413 maka

e2'   0.462, 0.325, 0.605, 0.252, 0.499
e3'   0.789, 0.164, 0.224, 0.550, 0.068

e4'   0.216, 0.144, 0.662, 0.571, 0.407 
e5'   0.234, 0.702, 0.194, 0.276,0.580

2. scree plot

Scree Plot of z1; ...; z5
2,0

Eigenvalue

1,5

1,0

0,5

0,0
1

2

3
Component Number

4

5

3. Total variansi yang bisa dijelaskan >70%
Berdasarkan tabel diatas dapat disimpulkan bahwa secara kumulatif
PC 1, PC 2, dan PC 3 dapat menjelaskan total variasi hingga 84,5%.
Oleh karena itu, walaupun dilihat dari nilai eigen yang nilainya lebih
besar 1 hanya ada 2 nilai eigen akan tetapi berdasarkan proporsi
variasi diputuskan mengambil 3 komponen utama, karena proporsi
variasi yang dapat dijelaskan oleh ketiga komponen utama adalah
sebanyak 84,5% dimana > 70%.
Sehingga dengan menggunakan variabel-variabel yang distandarkan,
diperoleh komponen-komponen utamanya adalah sebagai berikut:
µy  e$1' z  0.262 z  0.593 z  0.325 z  0.479 z  0.493 z
1
1
2
3
4
5

'
µ
y2  e$2 z  0.462 z1  0.325 z2  0.605 z3  0.252 z4  0.499 z5

µy  e$3' z  0.783 z  0.164 z  0.224 z  0.550 z  0.068 z
3
1
2
3
4
5

Sponsor Documents

Or use your account on DocShare.tips

Hide

Forgot your password?

Or register your new account on DocShare.tips

Hide

Lost your password? Please enter your email address. You will receive a link to create a new password.

Back to log-in

Close