6/12/2015
Multivariate Data Analysis | Menrva Lab | Research Assistance and Creative Studio
ALL
PHILOSOPHY
POPULAR SCIENCE
RESEARCH & STATISTICS
TUTORIALS
Multiple Linear
Regression (Bagian 1):
Teori
Forecasting & Prediction, Multivariate Data Analysis, Research & Statistics, Statistics •
Comments Off
On April 2, 2015 • By Admin
Kontributor: Anas Teguh S.
Editor: Kharisma Prima
[latexpage]
http://menrvalab.com/category/researchstatistics/statistics/multivariateanalysis/
1/40
6/12/2015
Multivariate Data Analysis | Menrva Lab | Research Assistance and Creative Studio
1. PENDAHULUAN
Multiple Linear Regression Analysis (Analisis Regresi Linier Majemuk) adalah salah
satu teknik multivariat yang digunakan untuk mengestimasi hubungan antara satu
variabel dependen metrik dengan satu himpunan variabel independen metrik atau
nonmetrik. Dengan analisis regresi majemuk peneliti dapat mengestimasi dan atau
memprediksi nilai ratarata (populasi) satu variabel dependen berdasarkan dua atau
lebih variabel independen. Analisis regresi akan menghasilkan sebuah
persamaan/model regresi.
Analisis regresi majemuk berbeda dengan analisis korelasi yang hanya
menghasilkan nilai korelasi. Pada analisis korelasi, yang dianalisis ialah keberadaan
hubungan antara dua variabel dan seberapa kuat hubungan tersebut, sedangkan
pada analisis regresi majemuk yang dianalisis adalah seberapa besar pengaruh
suatu variabel (selanjutnya disebut variabel independen) terhadap variabel lainnya
(selanjutnya disebut variabel dependen).
Sebagai contoh analisis regresi, yaitu seorang peneliti menduga bahwa tingkat
penjualan produk tertentu dipengaruhi oleh jumlah dana periklanan, jumlah
salesman yang dikerahkan dan jumlah outlet yang tersebar di setiap tempat. Untuk
keperluan studinya ini, peneliti dapat memanfaatkan analisis regresi majemuk yaitu
dengan menempatkan tingkat penjualan sebagai variabel dependen metrik dan
ketiga variabel lainnya sebagai variabel independen metrik. Peneliti akan
memperoleh suatu model regresi yang dapat digunakan untuk menjelaskan dan
memprediksi variansi tingkat penjualan yang dipengaruhi oleh ketiga variabel
independen tersebut.
Adapun model dasar dari teknik analisis regresi majemuk ini adalah sebagai berikut:
$\hat{Y}=\beta_0+\beta_1X_1+\beta_2X_2+\beta_3X_3+…+\beta_iX_i$
dengan:
$\hat{Y}$ : Prediksi nilai variabel dependen
$\beta_0$ : Konstanta (intercept)
$\beta_i$ : Bobot (koefisien) regresi untuk variabel independen kei
$X_i$ : Variabel independen kei
2. TAHAPAN ANALISIS REGRESI LINIER MAJEMUK
http://menrvalab.com/category/researchstatistics/statistics/multivariateanalysis/
2/40
6/12/2015
Multivariate Data Analysis | Menrva Lab | Research Assistance and Creative Studio
Gambar 1. Tahapan Multiple Linear Regression Analysis (Hair, et al, 1987)
2.1. Masalah Penelitian
Analisis regresi majemuk dapat digunakan untuk:
http://menrvalab.com/category/researchstatistics/statistics/multivariateanalysis/
3/40
6/12/2015
Multivariate Data Analysis | Menrva Lab | Research Assistance and Creative Studio
1. Menghasilkan prediksi (prediction) nilai dari suatu variabel dependen
berdasarkan nilainilai variabel independen. Dalam model regresi yang dibentuk,
setiap variabel independen diberi bobot berdasarkan kontribusi relatifnya
terhadap prediksi keseluruhan.
2. Memberikan penjelasan (explanation) mengenai tingkat dan karakteristik
hubungan antara variabel dependen dengan variabelvariabel independen.
Dalam hal ini dapat diperkirakan seberapa penting sebuah variabel independen
mempengaruhi nilai prediksi variabel dependen.
Analisis regresi majemuk tepat untuk digunakan jika hubungan antara variabel
dependen dan independen yang ingin diteliti adalah statistical relationship, bukan
functional relationship. Pada functional relationship prediksi terhadap nilai variabel
dependen bersifat pasti atau diharapkan tidak memiliki error sama sekali. Contoh
dari functional relationship terdapat pada persamaan berikut:
Total_cost = Variable_cost + Fixed_cost
Jika variable cost sebesar Rp.2.000 per unit, fixed cost sebesar Rp.500.000, dan
jumlah barang yang diproduksi sebanyak 100 unit, maka dapat diperkirakan nilai
total cost adalah sebesar Rp.700.000. Seandainya terdapat deviasi antara total cost
hasil perhitungan dengan fakta total cost yang sebenarnya terjadi, maka deviasi
tersebut dihasilkan dari kesalahan menghitung variable cost dan fixed cost. Deviasi
tidak disebabkan oleh hubungan antara ketiga jenis cost di atas karena hubungan
tersebut sudah bersifat pasti.
Pada statistical relationship variabel dependen diasumsikan sebagai variabel
random. Untuk setiap nilai variabel independen tertentu, hasil yang diperoleh hanya
berupa estimasi atas nilai ratarata variabel dependen, bukan nilai pastinya. Output
dari statistical relationship bukanlah prediksi sempurna, karena masih mengandung
error.
Keberhasilan penggunaan teknik analisis regresi majemuk ditentukan oleh ketepatan
pemilihan variabelvariabel yang akan diteliti. Pemilihan baik variabel dependen
maupun variabel independen sebaiknya dilakukan berdasarkan dasar teori yang
sudah ada. Berkaitan dengan pemilihan variabel ini, terdapat dua kemungkinan
untuk melakukan kesalahan. Kemungkinan pertama dikenal dengan istilah
measurement error, yaitu kesalahan yang terjadi karena variabel dependen yang
dipilih bukan merupakan alat ukur yang akurat dan konsisten bagi konsep yang
sedang diteliti.
Kesalahan kedua yang mungkin timbul adalah specification error. Specification error
dapat terjadi karena peneliti memasukkan variabel independen yang tidak relevan,
atau sebaliknya tidak mengikutkan variabel independen yang relevan. Masuknya
variabel yang tidak relevan dalam analisis dapat mengakibatkan bias, sedangkan
tidak diikutsertakannya variabel independen yang relevan dalam analisis akan
http://menrvalab.com/category/researchstatistics/statistics/multivariateanalysis/
4/40
6/12/2015
Multivariate Data Analysis | Menrva Lab | Research Assistance and Creative Studio
menyebabkan tertutupinya efek dari variabel yang lebih berguna serta menyebabkan
tes signifikansi menjadi kurang presisi.
2.2. Desain Penelitian
Halhal berikut ini perlu diperhatikan sebelum melakukan perhitunganperhitungan
dalam analisis regresi:
2.2.1. Ukuran Sampel
Analisis regresi mensyaratkan ukuran sampel minimal 20 observasi dan
perbandingan antara jumlah subjek sampel dan variabel independen sebesar 5
banding 1 (artinya untuk setiap satu variabel independen minimum terdapat lima
buah subjek sampel). Idealnya terdapat 1520 subjek sampel untuk setiap satu
variabel independen.
Penentuan ukuran sampel biasanya dikaitkan dengan power dari analisis regresi.
Kekuatan (power) analisis regresi ini mengacu kepada probabilitas mendeteksi nilai
koefisien determinasi R2 yang signifikan pada tingkat alpha dan ukuran sampel
tertentu. Tabel 1 berikut ini dapat digunakan untuk menentukan ukuran sampel yang
sesuai dengan tingkat alpha dan power tertentu yang hendak dicapai.
Tabel 1. Minimum RSquare yang Dapat Dinyatakan Sebagai Signifikan dengan Power 0,80
untuk Berbagai Jumlah Variabel Independen dan Ukuran Sampel. Keterangan: NA = Not
Applicable (tidak dapat dilakukan)
2.2.2. Variabel Dummy
Sebenarnya, analisis regresi merupakan teknik yang dapat digunakan hanya jika
variabel dependen serta variabel independennya bersifat metrik. Akan tetapi, analisis
regresi majemuk ini dapat pula mengakomodasi variabel independen nonmetrik.
Caranya ialah dengan menggunakan variabel dummy, yaitu jawaban kualitatif
(kategori) yang diberikan suatu kode tertentu (misalkan 0 = panas; dan 1 = dingin).
Variabel dummy ini, jika nantinya masuk ke dalam model, akan berperan sebagai
http://menrvalab.com/category/researchstatistics/statistics/multivariateanalysis/
5/40
6/12/2015
Multivariate Data Analysis | Menrva Lab | Research Assistance and Creative Studio
intercept.
2.2.3. Efek Kurvilinier
Analisis regresi majemuk juga dapat mengakomodasi sifat data yang tidak linear
(curvilinear). Data yang bersangkutan dapat ditransformasi dengan dilogaritma atau
diakar kuadrat. Akan tetapi, metode ini hanya dapat berlaku untuk mengubah sedikit
plot data. Selain itu, metode ini tidak memiliki landasan statistik yang memadai
mengenai ketepatan model linear yang akan dibentuk. Oleh karena itu, dapat
digunakan alternatif lain berupa polinomial. Polinomial dibentuk dengan
mengikutsertakan suatu komponen nonlinear dari variabel independen ke dalam
model regresi. Efek kurvilinier ini dapat dimodelkan dengan menggunakan
persamaan berikut:
$\hat{Y}=\beta_0+\beta_1X_1+\beta_2X_1^2$
dengan:
$\hat{Y}$ : Prediksi nilai variabel dependen
$\beta_0$ : Konstanta (intercept)
$\beta_1X_1$ : Efek linier $X_1$
$\beta_2X_1^2$ : Efek kurvilinier $X_1$
2.2.4. Efek Moderator
Karakteristik lain yang juga dapat diakomodasi adalah efek moderator atau efek
interaksi, yaitu suatu kondisi yang terjadi ketika suatu variabel mempengaruhi bentuk
hubungan antara variabel independen lainnya dengan variabel dependen. Misalnya
tingkat penghasilan ditemukan sebagai variabel moderator terhadap hubungan
antara ukuran keluarga dan jumlah pengggunaan kartu kredit. Akibatnya, ukuran
keluarga yang besar belum menjamin tingginya penggunaan kartu kredit. Hubungan
ini hanya berlaku untuk keluarga dengan tingkat penghasilan yang tinggi. Untuk
mengakomodasi karakteristik ini, maka ke dalam model regresi dapat diikutsertakan
suatu variabel independen yang merupakan perkalian antara variabel tingkat
penghasilan dengan variabel ukuran keluarga.
Berikut contoh untuk memodelkan efek moderator dalam analisis regresi majemuk:
$\hat{Y}=\beta_0+\beta_1X_1+\beta_2X_2+\beta_3X_1X_2$
dengan:
$\hat{Y}$ : Prediksi nilai variabel dependen
$\beta_0$ : Konstanta (intercept)
$\beta_1X_1$ : Efek linier $X_1$
$\beta_2X_2$ : Efek linier $X_2$
$\beta_3X_1X_2$ : Efek moderator dari $X_2$ pada $X_1$
2.3. Asumsi
http://menrvalab.com/category/researchstatistics/statistics/multivariateanalysis/
6/40
6/12/2015
Multivariate Data Analysis | Menrva Lab | Research Assistance and Creative Studio
Dalam membentuk model regresi – menentukan koefisien regresi – peneliti dituntut
untuk dapat meminimasi jumlah total kuadrat error (residu). Error ini merupakan
selisih antara nilai variabel dependen aktual dengan nilai variabel dependen yang
diprediksi melalui model regresi. Metode minimasi kuadrat error ini dikenal sebagai
leastsquare method.
Sebelum menggunakan analisis regresi, peneliti harus menjamin bahwa datadata
yang dikumpulkannya memenuhi asumsi berikut ini :
1. Linieritas.
Suatu model linier harus dapat memprediksikan nilai (variabel dependen) pada
suatu garis lurus yang perubahan nilainya konstan terhadap perubahan nilai
variabel independen. Pengujian hubungan linier antara variabel dependen dan
independen dapat dilakukan dengan membuat plot residu. Apabila plot residu
mengikuti suatu garis lurus untuk setiap pertambahan nilai variabel independen
dan dependen, maka model dinyatakan memenuhi asumsi linieritas.
2. Variansi Residu yang Konstan (homoscedasticity).
Asumsi ini diperlukan karena diharapkan bahwa variansi nilai variabel dependen
yang dijelaskan melalui model tidak terkonsentrasi pada nilai variabel independen
yang terbatas. Pengujian variansi ini dapat dilakukan dengan membuat plot
antara residu (studentized residu) terhadap nilai variabel dependen. Pada output
SPSS ditunjukkan dengan scatter plot yang bentuknya acak.
3. Independensi Residu.
Nilai variabel dependen yang diprediksi harus independen satu dengan lainnya.
Tidak ada kaitan antara suatu hasil prediksi nilai variabel dependen dengan
prediksi berikutnya. Untuk mendeteksinya dapat dilakukan dengan membuat plot
antara residu dengan dengan variabel independen terurut yang mungkin
(misalnya plot antara residu dengan variabel waktu). Apabila residu bersifat
independen, maka plot akan terlihat random.
4. Residu yang Berdistribusi Normal.
Sifat kenormalan harus dimiliki oleh variabel dependen maupun independen.
Pengujian ini dapat dilakukan dengan melakukan pemeriksaan visual terhadap
histogram residu. Metode lainnya adalah dengan membuat normal probability
plot, yaitu plot antara residu yang distandarisasi dengan plot distribusi normal.
Jika normal, maka plot residu ini akan mengikuti suatu garis lurus.
http://menrvalab.com/category/researchstatistics/statistics/multivariateanalysis/
7/40
6/12/2015
Multivariate Data Analysis | Menrva Lab | Research Assistance and Creative Studio
Gambar 2. Analisis Grafis Terhadap Residual (Error)
2.4. Estimasi Model Regresi
Metode yang digunakan untuk mengestimasi fungsi regresi adalah metode
pendekatan kuadrat terkecil (least square approach). Melalui metode ini peneliti
bermaksud memperkecil jumlah kuadrat error yang terjadi (error total merupakan
selisih antara nilai aktual dengan nilai yang diprediksi melalui model regresi).
2.4.1. Seleksi Variabel
Estimasi model dimulai dengan menentukan variabel independen yang akan masuk
dalam persamaan regresi. Salah satu pendekatan yang dapat dan sering digunakan
adalah pendekatan pencarian sekuensial. Selain itu ada dua pendekatan lain yaitu
spesifikasi konfirmatori dan combinatorial. Ada tiga metode yang umum digunakan
dalam pendekatan sekuensial ini, yaitu:
Pemilihan ke Belakang (Backward)
Metode ini dimulai dengan memasukkan semua variabel independen yang ada ke
dalam persamaan regresi. Kemudian dilakukan penilaian terhadap setiap variabel
independen apakah layak untuk tetap berada dalam persamaan regresi. Variabel
independen yang telah dikeluarkan tidak dapat masuk kembali.
Secara ringkas, langkahlangkah yang dilakukan pada metode ini adalah sebagai
berikut:
http://menrvalab.com/category/researchstatistics/statistics/multivariateanalysis/
8/40
6/12/2015
Multivariate Data Analysis | Menrva Lab | Research Assistance and Creative Studio
1. Tampilkan persamaan regresi yang mencakup seluruh variabel bebas yang
ada.
2. Hitung nilai $R^2$ yang disebabkan penghilangan setiap variabel, atau secara
ekivalen adalah nilai uji F bagi setiap variabel independen yang diperlakukan
sebagai variabel terakhir yang masuk ke persamaan regresi.
3. Nilai uji F parsial yang terendah, diberi lambang $F_L$, dibandingkan dengan
suatu nilai kritis yang telah ditentukan, diberi lambang $F_C$. Jika:
a. $F_L<F_C$, keluarkan variabel yang berhubungan dengan nilai $F_L$ ini, lalu
hitung kembali persamaan regresi berdasarkan susunan variabel independen
yang baru dan kembali ke tahap 2.
b. $F_L>F_C$, ambil persamaan regresi tersebut.
Pemilihan ke Depan (Forward)
Metode ini dimulai dari keadaan ketika semua variabel independen berada di luar
persamaan regresi. Lalu dilakukan penilaian satu persatu terhadap variabel
independen tersebut. Variabel independen yang sudah masuk tidak dapat keluar
lagi.
Tahaptahap yang dilakukan sebagai berikut:
1. Proses dimulai dalam keadaan tidak ada variabel independen yang berada
di dalam persamaan regresi.
2. Hitung nilai korelasi semua variabel independen terhadap variabel
dependen. Variabel independen dengan korelasi terbesar dipilih jika nilai $F$
parsialnya secara statistik signifikan.
3. Setelah variabel independen yang dipilih pada tahap 2 masuk, hitung
persamaan regresi.
4. Pada tahap selanjutnya, pilih variabel independen lainnya dengan korelasi
parsial terbesar.
5. Nilai uji F untuk setiap variabel independen, diberi lambang $F_H$,
dibandingkan dengan nilai kritis yang telah ditentukan sebelumnya, diberi
lambang $F_C$. Kemudian, jika:
a. $F_H>F_C$, masukkan variabel yang berhubungan dengan nilai $F_H$ ini,
lalu hitung kembali persamaan regresi berdasarkan susunan variabel
independen yang baru dan kembali ke tahap 4.
b. $F_H<F_C$, ambil persamaan regresi yang telah dihitung.
Pemilihan Stepwise
Cara ini lebih ketat dibandingkan kedua metode sebelumnya. Kelebihannya
adalah sifat reversibel terhadap variabel independen yanga akan masuk
persamaan regresi. Tahapannya sebagai berikut:
1. Hitung nilai korelasi masingmasing variabel independen terhadap variabel
variabel dependen. Variabel dengan nilai korelasi terbesar akan masuk
http://menrvalab.com/category/researchstatistics/statistics/multivariateanalysis/
9/40
6/12/2015
Multivariate Data Analysis | Menrva Lab | Research Assistance and Creative Studio
pertama ke dalam persamaan regresi (misalkan $X_I$)
2. Regresikan $Y$ terhadap $X_I$. Tahan $X_I$ di dalam model jika seluruh
uji F menunjukkan bahwa persamaan regresi secara statistik signifikan.
3. Hitung nilai korelasi parsial dari seluruh variabel independen yang berada di
luar persamaan. Pilih variabel independen dengan korelasi parsial terbesar
sebagai variabel independen kedua yang masuk ke persamaan (misalkan
$X_J$).
4. Dengan dua variabel independen di dalam model, hitung kembali
persamaan regresi. Tahan $X_J$ pada persamaan bila nilai $F$ parsialnya
signifikan dibandingkan dengan nilai kritis di bawah distribusi F dengan derajat
kebebasan $1$ dan $n21$. Selanjutnya, periksa apakah $X_I$ masih layak
berada di dalam persamaan yang telah mengandung $X_J$. Bandingkan nilai
$F$ parsial $X_I$ dengan nilai kritis di bawah distribusi F dengan derajat
kebebasan $1$ dan $n21$. Tahan $X_I$ pada persamaan bersamasama
$X_J$ bila nilai $F$ parsialnya signifikan bila dibandingkan dengan kriteria
yang telah ditentukan.
5. Selanjutnya pilih variabel independen lainnya yang akan masuk ke
persamaan, dengan syarat memiliki nilai koefisien parsial terbesar di antara
variabel independen lainnya yang berada di luar persamaan (misalkan
$X_K$).
6. Masukkan $X_K$ ke dalam persamaan yang telah mengandung $X_I$ dan
$X_J$, dan putuskan berdasarkan nilai $F$ parsial, apakah:
a. $X_K$ sebaiknya masuk dalam persamaan yang mengandung $X_I$ dan
$X_J$.
b. $X_I$ masih layak berada dalam persamaan, di mana telah ada $X_K$ dan
$X_J$.
c. $X_J$ masih layak berada dalam persamaan, di mana telah ada $X_K$ dan
$X_I$.
Sebagai contoh, jika nilai $F$ parsial jatuh pada variabel $X_I$ dan ternyata
nilai tersebut kurang dari nilai kritis di bawah distribusi F dengan derajat
kebebasan $1$ dan $n31$, maka keluarkan $X_I$ dari persamaan. Lalu
hitung kembali persamaan regresi dan uji nilai $F$ parsial dari kedua variabel
lainnya ($X_J$ dan $X_K$).
7. Prosedur stepwise berlanjut hingga tidak ada lagi variabel independen yang
akan masuk atau keluar persamaan regresi.
2.4.2. Pengujian Signifikansi Model
Beberapa konsep berikut dapat dijadikan pedoman penentuan signifikansi dalam
model.
Multiple $R$.
http://menrvalab.com/category/researchstatistics/statistics/multivariateanalysis/
10/40
6/12/2015
Multivariate Data Analysis | Menrva Lab | Research Assistance and Creative Studio
Multiple R merupakan koefisien korelasi untuk variabel yang masuk ke dalam
model dengan variabel dependen.
R square ($R^2$).
R square merupakan kuadrat dari koefisien korelasi dan biasa juga disebut
sebagai koefisien determinasi (coefficient of determination). Nilai ini
mengindikasikan total variasi dari variabel dependen yang terjelaskan oleh
variabel independen yang masuk dalam model.
Adjusted $R^2$.
$R^2$ dipengaruhi oleh jumlah variabel independen relatif terhadap ukuran
sampel. Adjusted $R^2$ digunakan untuk menghilangkan pengaruh jumlah
variabel independen sehingga beberapa model dengan jumlah variabel
independen yang berbeda dapat diperbandingkan.
Standard error of estimate (SEE).
Standard error of estimate merupakan salah satu ukuran akurasi kemampuan
memprediksi oleh model. Standard error of estimate merupakan akar dari sum of
the squared error dibagi dengan degree of freedom. Standard error of estimate
digunakan sebagai estimasi atas deviasi standar dari nilai dependen aktual di
sekitar garis regresi.
Standard error of the coefficient.
Semakin kecil standard error of the coefficient, maka semakin reliabel prediksi
yang dihasilkan.
Partial t values of variables in the equation.
Partial t values of variables in the equation menunjukkan ukuran signifikansi
korelasi parsial dari variabelvariabel yang terdapat dalam model. Angka ini
berguna untuk menentukan apakah suatu variabel tetap dipertahankan dalam
model atau dihilangkan. Jika nilai partial t suatu variabel kurang dari nilai $t$
kritisnya (dilihat dari tabel, tergantung degree of freedom), maka variabel
tersebut sebaiknya dihilangkan dari model.
Partial correlation variables not in the equation.
Partial correlation variables not in the equation menunjukkan persentase variansi
yang belum terjelaskan oleh variabelvariabel dalam persamaan yang dapat
dijelaskan oleh variabel yang tidak berada dalam persamaan.
Partial t values of variables not in the equation.
Sama dengan partial t values of variables in the equation hanya saja berlaku bagi
variabel yang tidak berada dalam persamaan. Jika nilai t dari suatu variabel
http://menrvalab.com/category/researchstatistics/statistics/multivariateanalysis/
11/40
6/12/2015
Multivariate Data Analysis | Menrva Lab | Research Assistance and Creative Studio
signifikan, maka variabel tersebut dapat dimasukkan ke dalam persamaan.
2.5. Interpretasi Hasil Analisis Regresi
Interpretasi dilakukan dengan menganalisis koefisien regresi yang terbentuk dari
model regresi. Koefisien regresi dalam hal ini merupakan bobot yang dimiliki oleh
setiap variabel independen dalam persamaan regresi. Akan tetapi, koefisien regresi
yang besar pada suatu variabel tidak mengindikasikan bahwa variabel yang
bersangkutan menjadi lebih penting.
Untuk membandingkan tingkat kepentingan tersebut, peneliti harus menggunakan
koefisien beta. Beta merupakan koefisien regresi yang sudah distandarisasikan. Hal
ini berarti setiap koefisien tidak lagi mengandung satuan pengukuran variabel
independennya, melainkan sudah memiliki satuan pengukuran yang seragam. Oleh
karena itu, koefisien ini dapat digunakan sebagai bahan perbandingan.
Satu hal yang harus diperhatikan dari model regresi yang diperoleh adalah
keberadaan multikolinearitas (multicolinearity), yaitu adanya hubungan antarvariabel
independen. Multikolinearitas dapat mempengaruhi kemampuan model dalam
menjelaskan dan mengestimasi variabel dependen. Adanya multikolinearitas dapat
diketahui dengan melihat paramater Variance Inflation Factor (VIF) dan tolerance.
Parameter ini menunjukkan korelasi antarvariabel independen dalam model regresi.
Multikolinearitas ini dapat diatasi dengan menghilangkan variabelvariabel yang
diduga saling berkorelasi tinggi. Multikolinearitas tidak menjadi masalah yang krusial
jika model regresi digunakan untuk keperluan prediksi saja, tidak untuk interpretasi.
2.6. Validasi Hasil Analisis
Validasi model regresi dapat dilakukan dengan dua cara berikut:
1. Menerapkan model ini ke dalam sampel lainnya.
Sampel lainnya di sini dapat diperoleh dari sampel baru atau sampel yang diambil
sebagai bagian dari sampel terdahulu. Jika datadata baru sukar untuk diperoleh,
peneliti dapat menggunakan data awal dengan membagi dua data tersebut
secara random. Dengan demikian, sebelum analisis regresi dilakukan akan
terdapat dua set data. Set data pertama digunakan untuk membangun model,
sedangkan set data kedua digunakan untuk menguji validitas model.
2. Membandingkan beberapa model regresi.
Cara ini dilakukan dengan membandingkan suatu model regresi terhadap model
model regresi lainnya dengan jumlah variabel independen dan atau ukuran
sampel yang berbeda. Perbandingan dilakukan berdasarkan nilai adjusted
$R^2$.
http://menrvalab.com/category/researchstatistics/statistics/multivariateanalysis/
12/40
6/12/2015
Multivariate Data Analysis | Menrva Lab | Research Assistance and Creative Studio
Referensi:
Hair, Joseph F. ,et al., 2006. Multivariate Data Analysis. New Jersey: Pearson
Education, Inc.
Read More
Factor Analysis (Bagian 1):
Teori
Multivariate Data Analysis, Research & Statistics, Statistics • Comments Off
On March 27, 2015 • By Admin
Kontributor: Anas Teguh S.
Editor: Kharisma Prima
PENDAHULUAN
Analisis faktor merupakan pendekatan statistika yang dapat digunakan untuk
menganalisis interrelationship di antara sejumlah variabel dengan mengelompokkan
variabelvariabel yang berhubungan erat satu sama lain atau yang disebut sebagai
faktor. Analisis faktor tergolong metode interdependence, yaitu metode yang
digunakan untuk menganalisis hubungan antar obyek dimana semua variabel
berstatus sama, tidak ada variabel independen yang menjadi prediktor bagi variabel
dependence, seperti yang terdapat pada regresi. Contoh lain dari metode
interdependence adalah analisis cluster dan multidimension scaling. Pada dasarnya
analisis faktor mencoba memberikan dimensi evaluasi yang lebih luas terhadap
variabelvariabel yang terkait dengan permasalahan sehingga memudahkan
interpretasi melalui penggambaran pola hubungan ataupun reduksi data. Hal ini
dilakukan dengan cara mengidentifikasi hubungan yang terdapat dalam set variabel
terobservasi.
Tujuan utama seorang peneliti menggunakan tools analisis faktor adalah untuk
merangkum informasiinformasi yang terkandung dalam setiap variabel sehingga
menjadi suatu set yang lebih ringkas (faktor) untuk memudahkan interpretasi dengan
http://menrvalab.com/category/researchstatistics/statistics/multivariateanalysis/
13/40
6/12/2015
Multivariate Data Analysis | Menrva Lab | Research Assistance and Creative Studio
meminimalkan informasi yang hilang dari masingmasing variabelnya.
TAHAPAN ANALISIS FAKTOR
Secara garis besar, terdapat 6 tahap dalam melakukan analisis faktor :
Tahap Analisis Faktor
1. Masalah Penelitian
Tahap pertama analisis faktor adalah menentukan masalah penelitian atau tujuan
yang akan dicapai dari penelitian yang akan dilakukan. Terdapat 2 tipe tujuan yang
dapat dicapai dari suatu penelitian :
Penelitian eksploratori
http://menrvalab.com/category/researchstatistics/statistics/multivariateanalysis/
14/40
6/12/2015
Multivariate Data Analysis | Menrva Lab | Research Assistance and Creative Studio
Penelitian eksploratori adalah penelitian yang bertujuan untuk mencari ideide
atau hubunganhubungan yang baru. Dalam analisis faktor, penelitian
eksploratori merupakan penelitian dimana peneliti tidak menset batasanbatasan
apriori estimasi komponen atau jumlah faktor yang akan diekstraksi (take what
data the data give you).
Penelitian konfirmatori
Penelitian konfirmatori adalah penelitian yang bertujuan untuk menguji hipotesis
atau kerangka konsep yang telah dirumuskan sebelumnya. Penelitian
konfirmatori ini juga bertujuan untuk menguji derajat kesesuaian data dengan
struktur yang telah dibuat sebelumnya.
2. Tipe Analisis Faktor
Analisis faktor sebenarnya merupakan model yang dapat mengidentifikasikan
hubungan yang terdapat di antara sejumlah variabel maupun yang terdapat dalam
sejumlah responden. Jika analisis faktor dilakukan untuk mengidentifikasikan
hubungan yang terdapat di antara sejumlah variabel, maka analisis faktor yang
dilakukan adalah analisis faktor R (R factor analysis). Jika analisis faktor dilakukan
untuk mengidentifikasikan hubungan yang terdapat di antara sejumlah responden,
maka analisis faktor yang dilakukan adalah analisis faktor Q (Q factor analysis).
Pengelompokkan sejumlah responden ini dapat juga dilakukan dengan
menggunakan analisis cluster. Perbedaan antara analisis faktor Q dengan analisis
cluster terdapat pada dasar pengelompokkan yang digunakan, yaitu analisis faktor Q
mengelompokkan responden berdasarkan kesamaan struktur atau interkorelasi
antar responden sedangkan analisis cluster mengelompokkan responden
berdasarkan jarak aktual antar responden (distancebased similarity). Untuk lebih
jelasnya, perbedaan antara analisis faktor Q dan analisis cluster dijelaskan melalui
ilustrasi berikut,
Misalkan terdapat sejumlah responden yang memiliki nilai untuk sejumlah variabel
penilaian sebagai berikut:
Tabel Data Responden
http://menrvalab.com/category/researchstatistics/statistics/multivariateanalysis/
15/40
6/12/2015
Multivariate Data Analysis | Menrva Lab | Research Assistance and Creative Studio
Diagram Data Responden
Jika pengelompokkan responden dilakukan dengan analisis faktor Q maka akan
diperoleh 2 kelompok dimana kelompok pertama terdiri dari responden A dan
responden C, sedangkan kelompok kedua terdiri dari responden B dan responden
D. Jika pengelompokkan responden dilakukan dengan analisis cluster maka akan
diperoleh 2 kelompok dimana kelompok pertama terdiri dari responden A dan
responden B, sedangkan kelompok kedua terdiri dari responden C dan responden
D.
3. Desain Penelitian
Desain analisis faktor meliputi tiga hal berikut:
1. Penentuan Input untuk Analisis Faktor
Penentuan variabelvariabel dilakukan sesuai dengan landasan teoritis tertentu
dan relevan dengan tujuan penelitian, serta sebaiknya satuan yang digunakan
untuk mengukur variabelvariabel tersebut adalah sama. Jika tidak dimungkinkan
digunakan satuan pengukuran yang sama, input nilai ini harus distandardisasikan
terlebih dahulu (memiliki rataan sama dengan nol dan deviasi standar sama
dengan satu). Sedapat mungkin, jenis skala yang digunakan adalah metrik
(interval atau rasio), namun skala nonmetrik bisa juga digunakan dengan
mengubahnya ke dalam variabel dummy yaitu variabel yang bernilai 0 atau
1.Input data mentah pada analisis faktor pada umumnya berupa satu set nilai
variabelvariabel untuk masingmasing individu atau objek dalam sampel.
Kemudian diolah menjadi matriks berukuran p (jumlah variabel orisinal) yang
akan menjadi input algoritma dalam analisis faktor.Matriks data mentah n × p (n
obyek dan p variabel) diubah menjadi matriks variansikovariansi atau matriks
korelasi. Pada umumnya pendekatan yang digunakan adalah menggunakan
matriks korelasi. Penggunaan matriks korelasi menghilangkan perbedaan yang
diakibatkan oleh mean dan dispersi variabel. Penggunaan matriks kovariansi
dapat dilakukan jika variansi pada masingmasing variabel tidak jauh berbeda
atau pada data mentah telah dilakukan standardidasi (sedemikian hingga variansi
http://menrvalab.com/category/researchstatistics/statistics/multivariateanalysis/
16/40
6/12/2015
Multivariate Data Analysis | Menrva Lab | Research Assistance and Creative Studio
dari masingmasing variabel menjadi seragam).Perbandingan penggunaan
antara matriks korelasi dan matriks kovariansi:
a. Alasan utamanya adalah karena variabelvariabel yang diukur biasanya
mempunyai unit dan skala pengukuran yang berbeda. Penggunaan matriks
korelasi menghilangkan perbedaan yang diakibatkan oleh mean dan dispersi
variabel. Jadi variabel yang tadinya mempunyai skala dan satuan yang berbeda
siap untuk dibandingkan.
b. Penggunaan matriks kovariansi dapat dilakukan jika variansi pada masing
masing variabel tidak jauh berbeda atau pada data mentah telah dilakukan
standardidasi (sedemikian hingga variansi dari masingmasing variabel menjadi
seragam).
c. Pendekatan dengan matriks kovariansi lebih jarang digunakan, walaupun input
ini memberikan keuntungan, antara lain sifatsifat sampling Principal Component
(variabel) yang diperoleh dari matriks kovariansi lebih dapat ditelusuri.
Matriks Korelasi antar Variabel Awal
Koefisien korelasi:
Koefisien korelasi yang ditampilkan dalam Tabel 2.1. menggambarkan seberapa
kuat hubungan antar dua variabel. Nilai korelasi 1 menunjukkan hubungan linier
sempurna dari dua buah variabel (nilai satu variabel dapat diramalkan secara
tepat dari nilai variabel pasangannya). Tanda () menunjukkan hubungan
tersebut berlawanan. Di sini terlihat bahwa variabel X4 berkorelasi kuat dengan
variabel X3 (dalam arah negatif) dan X5. Responden yang memberi nilai tinggi
pada variabel X4 pada umumnya memberikan nilai tinggi pada variabel X5 dan
sebaliknya memberi nilai rendah pada variabel X3.
Koefisien korelasi parsial:
Indikator yang menunjukkan kekuatan hubungan antar variabel. Jika variabel
variabel tergabung dalam faktor bersama, maka koefisien korelasi parsial antar
pasang variabel seharusnya kecil jika efek linier dari variabel lain dihilangkan.
Korelasi parsial merupakan estimasi korelasi antarfaktor unik dan seharusnya
mendekati 0 agar asumsi analisis faktor terpenuhi.
2. Penentuan jumlah variabel, pengukuran variabel, dan tipe variabel
http://menrvalab.com/category/researchstatistics/statistics/multivariateanalysis/
17/40
6/12/2015
Multivariate Data Analysis | Menrva Lab | Research Assistance and Creative Studio
Variabel yang dipilih adalah yang relevan dengan tujuan penggunaan analisis
faktor dalam penelitian yang dilakukan. Variabel yang dipilih dalam analisis faktor
juga harus merupakan variabelvariabel yang memiliki hubungan keterkaitan
antara satu variabel dengan variabel lainnya. Dalam menggunakan analisis
faktor, variabel yang diikutsertakan harus diusahakan sesedikit mungkin
jumlahnya. Namun, jumlah variabel yang terkelompok dalam setiap faktor harus
tetap masuk akal sehingga ditetapkan variabel yang dilibatkan dalam analisis
faktor minimal berjumlah lima.Data mentah variabel ini sebaiknya merupakan
hasil pengukuran metrik. Jika terdapat variabel dengan data yang bersifat
nonmetrik yang harus diikutsertakan dalam analisis faktor, maka digunakan
variabel dummy.
3. Ukuran sampel
Sebuah penelitian awal dengan menggunakan analisis faktor sebaiknya memiliki
sampel tidak kurang dari 50 buah, dan lebih baik jika mencapai 100 buah. Namun
terdapat aturan umum yang dapat dipegang, yaitu jumlah sampel minimum lima
kali dari jumlah variabel yang ada. Jadi jika suatu penelitian melibatkan 20
variabel awal, maka jumlah sampel minimumnya adalah 100 buah. Dalam
beberapa kejadian, perbandingan jumlah sampel dan jumlah variabel sebesar 2 :
1 masih dapat memberikan output yang cukup baik. Namun dalam hal ini,
interpretasi harus dilakukan dengan hatihati.Secara statistik, kecukupan jumlah
sampel secara keseluruhan dapat dilihat dari angka KaiserMeyerOlkin (KMO).
Nilai ukuran KMO yang kecil mengindikasikan bahwa penggunaan analisis faktor
perlu dipertimbangkan. Kaiser (1974) mencirikan ukuran KMO sebagai berikut:
Kriteria Ukuran KMO
Selain angka KMO, kecukupan data pada analisis faktor dapat dilihat pada
matriks korelasi antiimage (antiimage correlation matrix). Kalau angka KMO
menggambarkan kecukupan data secara keseluruhan, maka diagonal matriks
korelasi antiimage menunjukkan kecukupan data untuk masingmasing variabel.
Jika nilainya kurang dari 0,50 maka penyertaan variabel tersebut perlu
dipertimbangkan kembali.
4. Asumsi
Terdapat 2 jenis asumsi yang digunakan dalam analisis faktor yaitu asumsi
berdasarkan conceptual issues dan asumsi berdasarkan statistical issues.
Asumsi berdasarkan conceptual issues
http://menrvalab.com/category/researchstatistics/statistics/multivariateanalysis/
18/40
6/12/2015
Multivariate Data Analysis | Menrva Lab | Research Assistance and Creative Studio
Dalam analisis faktor, asumsi berdasarkan isu konseptual lebih kritis dibandingkan
dengan asumsi berdasarkan isu statistik. Asumsi ini berhubungan dengan adanya
hubungan yang mendasari set variabel atau sampel yang dipilih oleh peneliti,
dimana peneliti disini bertanggung jawab untuk memastikan bahwa variabelvariabel
yang dianalisis dengan menggunakan analisis faktor ini valid dan layak untuk
dipelajari secara konseptual. Hal ini penting karena penggunaan analisis faktor
hanya menentukan korelasi antar variabelvariabel yang dianalisis tanpa
memperhatikan apakah variabelvariabel tersebut layak untuk dikorelasikan. Sebagai
contoh, misalnya terdapat satu jenis set variabel yang penilaiannya berbeda
karakteristiknya untuk gender yang berbeda. Set variabel tersebut akan diambil
sampelnya sebanyak 100 buah dengan cara 50 sampel diambil dari populasi
respoden yang berjenis kelamin pria dan 50 lainnya diambil dari responden yang
berjenis kelamin wanita. Disini kita tidak boleh melakukan analisis faktor untuk set
variabel tersebut dengan cara menggabungkan semua sampel karena telah
diketahui sebelumnya bahwa karakteristik variabel akan berbeda berdasarkan
gender. Analisis faktor tidak bisa mengidentifikasi kesalahan ini, jadi disinilah
pentingnya peran peneliti untuk mengerti asumsi konseptual ini.
Asumsi berdasarkan statistical issues
Data berasal dari populasi yang berdistribusi normal univariat, bersifat
homoscedasticity, dan linearity.
Dalam setdata terdapat multikolinearitas karena tujuan dari analisis faktor ini
adalah mengukur keterkaitan antar variabel. Beberapa metode untuk melihat ada
atau tidaknya multikolinearitas antara lain :
Antiimage correlation matrix
Antiimage correlation matrix merupakan matriks yang menunjukkan angka
negative dari korelasi parsial yang terdapat antar variabel sehingga jika nilai anti
image correlation (semakin negatif) antarvariabel semakin besar, maka
penggunaan analisis faktor harus kembali dipertimbangkan.
Bartlett’s Test of Sphericity
Bartlett’s Test of Sphericity merupakan salah satu metode yang digunakan untuk
melihat korelasi antar variabel secara keseluruhan atau sekaligus. Bartlett’s Test
of Sphericity menguji hipotesis bahwa matriks korelasi adalah matriks identitas.
Jika hipotesis ini diterima, maka penggunaan analisis faktor perlu
dipertimbangkan (model faktor yang dipergunakan tidak sesuai).
5. Metode Faktor
Pada tahap keempat ini dilakukan dua hal yaitu menentukan model faktor dan
menentukan jumlah faktor. Terdapat dua prosedur analisis faktor yang paling banyak
digunakan, yaitu: principal component analysis dan common factor analysis.
Principal component analysis digunakan apabila peneliti ingin mengekstraksi
sejumlah besar variabel penelitian menjadi beberapa variabel penelitian saja agar
http://menrvalab.com/category/researchstatistics/statistics/multivariateanalysis/
19/40
6/12/2015
Multivariate Data Analysis | Menrva Lab | Research Assistance and Creative Studio
lebih
mudah
tertangani.
Adapun
common
factor
analysis
digunakan
mengidentifikasikan struktur hubungan antarvariabel dengan mengungkapkan
konstruksi (dimensidimensi) yang mendasari hubungan tersebut. Perbedaan antara
principal component analysis dan common factor analysis digambarkan pada
Gambar berikut.
Perbedaan antara Principal Component Analysis dan
Common Factor Analysis
Perbedaan antara PCA dan CFA
Dari gambaran awal, di sini dipertegas perbedaan antara analisis komponen utama
(PCA) dan analisis faktor umum (CFA) dalam bentuk matematisnya:
Principal Component Analysis (PCA):
Secara matematis model PCA , dapat dituliskan sebagai:
di mana:
PCm : skor faktor untuk faktor kem
wm : koefisien skor faktor untuk faktor kem
Xp : variabel awal (orisinal) kep
Perhatikan bahwa masingmasing principal component (komponen utama)
merupakan kombinasi linier dari variabelvariabel orisinal.
Common Factor Analysis (CFA)
Secara matematis model CFA, dapat dituliskan sebagai:
http://menrvalab.com/category/researchstatistics/statistics/multivariateanalysis/
20/40
6/12/2015
Multivariate Data Analysis | Menrva Lab | Research Assistance and Creative Studio
Keterangan:
CF m : skor faktor untuk faktor kem
vpm : bobot (loading) faktor kem untuk variabel kep
Xp : variabel awal (orisinal) kep
ep : variansivariansi errorPerhatikan bahwa masingmasing variabel
variabel orisinal merupakan kombinasi linier dari principal component (komponen
utama).Ada beberapa kelemahan yang terdapat pada Common Factor Analysis
(CFA):
1. Factor indeterminancy, yaitu setiap responden dapat memiliki beberapa
skor yang berbeda yang dihasilkan dari model yang dihasilkan (faktor loading
dapat berbeda antar responden).
2. Communalities tidak selalu dapat dicari, kalaupun bisa, hasilnya dapat
invalid (lebih besar dari 1). Dengan adanya kelemahankelemahan tersebut,
pemakaian principal component analysis menjadi lebih luas.
Secara garis besar, metodologi analisis faktor berupa proses transformasi variabel
variabel orisinal (awal) menjadi variabelvariabel baru yang saling tidak berkorelasi.
Variabel baru ini disebut dengan faktor. Masingmasing faktor merupakan kombinasi
linier dari variabel orisinal.
Salah satu ukuran jumlah informasi yang dibawa atau diteruskan oleh masing
masing faktor adalah variansinya. Sehubungan dengan hal ini, faktorfaktor disusun
dengan urutan variansi yang menurun. Faktor pertama merupakan faktor yang
paling informatif (memiliki variansi terjelaskan yang maksimum) dan faktor terakhir
adalah faktor yang paling sedikit meneruskan informasi (memiliki variansi terjelaskan
yang minimum).
Jumlah faktor yang dibangkitkan adalah maksimum sebanyak jumlah variabel awal.
Namun dikaitkan dengan tujuannya, pada umumnya jumlah faktor yang dibangkitkan
adalah sejumlah kecil faktor yang dinilai mencukupi oleh peneliti.
Penentuan Jumlah Faktor yang Diekstraksi:
Terdapat beberapa kriteria yang dapat digunakan dalam menentukan jumlah faktor
yang akan dibentuk, antara lain:
1. Kriteria nilai eigen.
Nilai eigen menggambarkan jumlah variansi yang dapat dijelaskan oleh sebuah
faktor. Telah dibahas bahwa nilainilai dari sebuah variabel, setelah
http://menrvalab.com/category/researchstatistics/statistics/multivariateanalysis/
21/40
6/12/2015
Multivariate Data Analysis | Menrva Lab | Research Assistance and Creative Studio
distandardisasikan akan memiliki variansi sebesar 1. Hal ini berimplikasi bahwa
jika sebuah faktor memiliki nilai eigen < 1, artinya faktor tersebut membawa
informasi yang lebih sedikit dibandingkan variabel awal. Atau dengan kata lain,
kemampuan menjelaskan variansi data (yang diukur dengan variansi) oleh faktor
tersebut lebih buruk dibandingkan dengan kemampuan variabel awal. Jika faktor
ini dimasukkan dalam analisis lebih lanjut, maka akan bertentangan dengan
tujuan penggunaan analisis faktor. Kesimpulannya, akan sangat beralasan jika
faktor yang diekstraksi dibatasi pada faktorfaktor dengan nilai eigen > 1.
2. Kriteria scree plot.
Sebuah scree plot adalah plot dari nilai eigen terhadap jumlah faktor, dalam
urutan proses ekstraksi (sebagai contoh lihat Gambar di bawah). Bentuk dari plot
dapat digunakan untuk menentukan jumlah faktor yaitu dengan memperhatikan
kecuraman garis yang ada. Proses ekstraksi berhenti pada titik di mana garis
menjadi relatif lebih landai. Proses ekstraksi berhenti pada titik yang merupakan
pangkal garis yang mengalami penurunan yang paling tajam. Pada Gambar di
bawah, terlihat bahawa setelah faktor 2 terjadi penurunan nilai eigen value yang
cukup tajam ke faktor 3. Oleh karena itu, faktor yang valid hanya sampai faktor 2.
Contoh Scree Plot
3. Kriteria variansi yang terjelaskan.
Pada kriteria ini faktorfaktor akan diekstraksi sampai dengan jumlah proporsi nilai
eigen kumulatifnya melebihi suatu batas yang dianggap cukup memuaskan
(salah satu pedoman umum: untuk ilmu pasti 80 % dan untuk ilmu sosial 65 %).
4. Kriteria a priori.
Analisis faktor dapat digunakan pada penelitian yang bersifat eksploratori atau
konfirmatori. Pada penelitian yang bersifat eksploratori, peneliti belum
mengetahui terdapat berapa faktor yang akan terbentuk. Sebaliknya, pada
penelitian yang bersifat konfirmatori sudah terdapat penelitian atau teori atau
hipotesis tertentu yang menyatakan bahwa akan terdapat sekian faktor. Pada
penelitian konfirmatori ini, secara a priori (sesuai kerangka teoritis) ditetapkan
jumlah faktor yang akan diekstraksi. Contoh: konsep ServQual dari Zeithaml dan
Parasuraman menyatakan bahwa dimensi kualitas layanan ada lima, yaitu
http://menrvalab.com/category/researchstatistics/statistics/multivariateanalysis/
22/40
6/12/2015
Multivariate Data Analysis | Menrva Lab | Research Assistance and Creative Studio
keandalan (reliability), aspekaspek berwujud (tangibles), daya tangkap
(responsiveness), jaminan (assurance), dan empati (empathy). Sudah tentu,
kalau kita melakukan analisis faktor terhadap atributatribut kualitas layanan,
jumlah faktor yang kita minta lima, karena konsep mengatakan demikian.
6. Interpretasi Output Analisis Faktor
Terdapat tiga tahap dalam melakukan interpretasi faktor :
1. Perhitungan matriks faktor inisial (yang belum dirotasikan).
Matriks faktor:
Bobot Faktor (Tanpa Rotasi)
Bobot Faktor (Faktor loading). Bobot faktor menggambarkan hubungan (korelasi)
antara suatu variabel dengan suatu faktor. Pada Tabel 2 angka –0.30
menunjukkan bahwa variabel awal X1 memiliki korelasi negatif yang tidak cukup
besar dengan Faktor 1. Sebaliknya, variabel awal X1 memiliki korelasi yang cukup
besar (0.85) dengan Faktor 2. Ini menunjukkan bahwa Faktor 2 lebih mampu
menjelaskan variansi nilai yang terjadi pada variabel awal X1 dibandingkan
dengan Faktor 1. Pada umumnya, pada bobot faktor 0.3 masih dapat dianggap
bahwa terdapat korelasi yang signifikan. Beberapa variabel dengan bobot faktor
yang signifikan dapat digabungkan dan diberi nama baru yang sedapat mungkin
mencerminkan variabelvariabel penyusunnya tersebut.
Komunalitas. Masingmasing variabel awal memiliki nilai variansi yang terkait
dengan variabilitas respons dari tiap responden. Jumlah variansi variabel X1 yang
dijelaskan atau diteruskan oleh faktorfaktor yang ada (Faktor 1 dan Faktor 2)
disebut dengan komunalitas. Dari output pada Tabel di atas, tampak bahwa 81
persen variansi variabel X1 dapat dijelaskan oleh faktorfaktor yang ada. Jadi,
komunalitas adalah persentase variansi dari sebuah variabel yang berkontribusi
terhadap korelasi dengan variabelvariabel lain atau yang umum (common) bagi
variabel yang lain.
2. Ekstraksi faktor
Ekstraksi faktor adalah tahap yang bertujuan untuk menghasilkan sejumlah faktor
dari data yang ada. Matriks faktor setelah dirotasi dapat mempermudah
interpretasi dalam menentukan variabelvariabel mana saja yang dapat tercakup
http://menrvalab.com/category/researchstatistics/statistics/multivariateanalysis/
23/40
6/12/2015
Multivariate Data Analysis | Menrva Lab | Research Assistance and Creative Studio
dalam suatu faktor. Rotasi faktor dapat menghasilkan output beberapa solusi
(bobot dan nilai faktor). Solusi ini tidak selalu mudah diinterpretasikan. Idealnya
suatu variabel memiliki bobot faktor yang tinggi untuk sebuah faktor dan bobot
faktor yang rendah untuk faktorfaktor lainnya. Ini dapat diinterpretasikan bahwa
variabel tersebut dapat diwakili oleh faktor dengan bobot faktor yang tinggi
tersebut.Solusi dengan variabelvariabel bernilai bobot faktor menengah untuk
semua faktor akan sulit diinterpretasikan. Untuk mengatasi hal ini dilakukanlah
rotasi faktor. Rotasi faktor berarti merotasikan dimensi. Hasil rotasi ini tidak
mengurangi komunalitas. Artinya, informasi masingmasing variabel yang
diteruskan oleh keseluruhan faktor tidak berubah. Yang dapat berubah adalah
nilai eigen. Namun, umumnya tidak berbeda jauh. Karena lebih mudah
diinterpretasikan, pada umumnya hasil rotasi faktor inilah yang digunakan untuk
analisis lebih lanjut.
Bobot Faktor (Rotasi Varimax)
Rotasi Orthogonal vs Rotasi Oblique. Rotasi dapat dilakukan secara orthogonal
(sikusiku) atau oblique (tidak sikusiku). Rotasi orthogonal menghasilkan faktor
faktor baru yang tetap orthogonal (masingmasing faktor saling independen atau
memiliki korelasi nol), sedangkan pada rotasi oblique, masingmasing faktor
dapat memiliki korelasi yang nilainya kecil. Terdapat banyak sekali metode rotasi,
misalnya varimax, quartimax, dan equimax untuk rotasi orthogonal dan oblimax,
quartimin, oblimin, dan promax untuk rotasi oblique. Ilustrasi untuk kedua jenis
rotasi digambarkan pada Gambar berikut.
Rotasi Faktor Orthogonal (kiri) dan Rotasi Faktor Oblique (kanan)
3. Interpretasi matriks faktor.
Setelah diolah (dengan bantuan beberapa jenis program statistika), input data
http://menrvalab.com/category/researchstatistics/statistics/multivariateanalysis/
24/40
6/12/2015
Multivariate Data Analysis | Menrva Lab | Research Assistance and Creative Studio
mentah akan menghasilkan beberapa output sebagai berikut:
Nilai Eigen dari Masingmasing Komponen Utama
Variansi yang Terjelaskan oleh Masingmasing Faktor
Koefisien Skor Faktor (Standardized)
Skor Faktor
Beberapa interpretasi dapat dilakukan atas output analisis faktor yang ditampilkan
http://menrvalab.com/category/researchstatistics/statistics/multivariateanalysis/
25/40
6/12/2015
Multivariate Data Analysis | Menrva Lab | Research Assistance and Creative Studio
dalam keempat Tabel di atas.
Nilai Eigen (Eigen value):
Nilai eigen menggambarkan jumlah variansi yang diteruskan oleh sebuah faktor.
HOME
Nilai eigen dapat diperoleh dengan menjumlahkan kuadrat dari bobot faktor untuk
ABOUT
US
SERVICES
PORTFOLIO
CREW
BLOG
PARTNERS
seluruh variabel (jumlah kuadrat dalam satu kolom faktor). Nilai eigen Faktor 1
yang sebesar 2,7546 menunjukkan bahwa variansi yang terjelaskan oleh Faktor 1
CONTACT
adalah sebesar 2,7546 dari keseluruhan nilai variansi awal yang sebesar 5
(karena terdapat 5 buah variabel yang masingmasing memiliki nilai variansi
sama dengan 1). Atau proporsi variansi yang terjelaskan oleh Faktor 1 adalah
sebesar 0.5509 atau 55.09% (lihat baris proportion). Variansi sisanya dijelaskan
oleh Faktor 2 (0.3550 atau 35.5%) dan faktorfaktor lainnya. Faktor 1 dan Faktor
2 secara bersamasama mampu menjelaskan 0.9059 atau (90.59%) dari total
variansi yang ada (lihat baris cumulative). Dari sini tampak cukup beralasan untuk
menggunakan Faktor 1 dan Faktor 2 sebagai variabel pengganti kelima variabel
awal.
Variansi Terjelaskan (Explained Variance):
Angka pada Tabel kedua. ini menunjukkan jumlah variansi yang dapat dijelaskan
atau diteruskan oleh masingmasing faktor. Sebelum rotasi, variansi terjelaskan
ini sama dengan nilai eigen (lihat Tabel pertama.) dan sesudah rotasi sedikit
berkurang. Total variansi terjelaskan dari kedua faktor setelah rotasi adalah
sebesar 4.529 atau masih terdapat 0.471 variansi yang belum terjelaskan. Ini
berarti apabila digunakan kedua faktor untuk menggantikan kelima variabel awal
maka akan terjadi kehilangan informasi sebesar 0.471 nilai variansi yang menjadi
tidak terjelaskan.
Skor Faktor (Factor Scores):
Meskipun faktorfaktor yang diperoleh tidak teramati/terukur sebagaimana kelima
variabel awal, namun faktorfaktor ini juga dapat berlaku sebagai variabel. Pada
analisis lebih lanjut, hasil dari analisis faktor ini dapat digunakan untuk
menggantikan kelima variabel awal tadi. Nilai dari masingmasing faktor yang
menggantikan informasi dari kelima variabel awal ini disebut dengan skor faktor.
Koefisien Skor Faktor:
Menunjukkan nilai koefisien dari masingmasing variabel awal (yang telah
distandardisasikan) pada model faktor yang digunakan. Contohnya untuk
Responden 1 pada Faktor 1:
0.916 = 0.039X1 + 0.089X2 – 0.315X3 + 0.359 X4 + 0.359X5
7. Validasi
Salah satu cara memvalidasi hasil analisis faktor adalah dengan melihat replicability
hasil analisis faktor. Hal ini dapat dilakukan dengan menggunakan data yang sama
http://menrvalab.com/category/researchstatistics/statistics/multivariateanalysis/
26/40
6/12/2015
Multivariate Data Analysis | Menrva Lab | Research Assistance and Creative Studio
dengan data yang dianalisis yaitu dengan membagi dua data tersebut, atau dengan
menggunakan data lain yang terpisah. Kemudian bandingkan hasilnya dengan hasil
analisis faktor yang telah didapat sebelumnya.
8. Penggunaan untuk Analisis Lebih Lanjut
Output dari analisis faktor (skor faktor) dapat digunakan sebagai input untuk analisis
analisis statistika multivariat lainnya (misalkan analisis cluster, analisis diskriminan,
dan analisis regresi linier berganda). Dengan menggunakan analisis faktor (principal
component analysis) jumlah variabel awal akan direduksi menjadi sejumlah faktor
yang berhasil diekstraksi sehingga akan lebih memudahkan perhitungan.
Referensi:
Kaiser, Henry F. Mar 1974 An Index of Factorial Simplicity. Psychometrika, Vol
39, pp. 31–36.
DOI: http://dx.doi.org/10.1007/BF02291575
Zeithaml, V.A., Parasuraman, A. and Berry, L.L. (1990), Delivering Quality
Service; Balancing Customer Perceptions and Expectations. New York: The Free
Press.
Read More
Binary Logistic
Regression (Bagian 2):
SPSS Tutorial
Multivariate Data Analysis, Research & Statistics, Statistics, Tutorials • Comments Off
On March 23, 2015 • By ginthegum
Kontributor: Kharisma Prima
Editor: Gin Gumilang
Seperti yang telah dipaparkan pada artikel sebelumnya, dimana model regresi
logistik digunakan untuk menggambarkan hubungan antara variabel respon biner
dengan satu atau beberapa buah variabel prediktor, kali ini saya akan
memberikan tutorial singkat tentang bagaimana cara mengestimasi model regresi
logistik tersebut dengan menggunakan bantuan aplikasi program SPSS.
http://menrvalab.com/category/researchstatistics/statistics/multivariateanalysis/
27/40
6/12/2015
Multivariate Data Analysis | Menrva Lab | Research Assistance and Creative Studio
Dalam tutorial ini saya menggunakan SPSS versi 13.0, namun Anda dapat
menggunakan versi lainnya dengan tampilan yang kurang lebih sama dengan versi
yang saya gunakan. Oke, langsung saja kita beranjak pada contoh kasus.
Misalkan seorang peneliti ingin mengetahui faktorfaktor apa saja yang
mempengaruhi sebuah perusahaan akan melakukan praktik perataan laba (income
smoothing). Faktorfaktor tersebut telah diidentifikasi sebanyak 3 faktor yang
kemudian akan menjadi variabel prediktor, antara lain: ukuran perusahaan (LnTA);
profitabilitas perusahaan (RoA); dan rasio debt perusahaan (DAR). Ketiga
variabel ini akan memprediksi praktik perataan laba, sehingga variabel respon di
dalam model regresi logistik ini adalah variabel income smoothing (IS).
Menyiapkan Data
Pertamatama, buka SPSS Data Editor dan pada tab Variable View (1) buatlah 4
variabel dengan nama masingmasing LnTA, RoA, DAR dan IS. Ubah nilai desimal
variabel IS pada kolom Decimals (2) menjadi 0.
Langkah selanjutnya, klik pada bagian baris IS dan kolom Values (3), sehingga akan
muncul jendela Value Labels. Pada bagian ini kita definisikan kategori Income
Smoothing (IS) berdasarkan data yang kita miliki (4), dimana kategori “perata” kita
beri skor 1 dan kategori “bukan perata” kita beri skor 0. Masukkan skor 0 pada
bagian Value dan “bukan perata” pada bagian Value Label, lalu klik Add. Lakukan
hal yang sama untuk kategori “perata”. Klik OK. Perlu diperhatikan bahwa
pendefinisian skor 1 dan 0 tidak boleh terbalik, skor 1 untuk kategori/peluang sukses
dan skor 0 untuk kategori/peluang gagal.
http://menrvalab.com/category/researchstatistics/statistics/multivariateanalysis/
28/40
6/12/2015
Multivariate Data Analysis | Menrva Lab | Research Assistance and Creative Studio
Klik pada tab Data View (5), lalu masukkan satu per satu data penelitian sesuai
variabelvariabel yang bersangkutan (6).
http://menrvalab.com/category/researchstatistics/statistics/multivariateanalysis/
29/40
6/12/2015
Multivariate Data Analysis | Menrva Lab | Research Assistance and Creative Studio
Sebagaimana terlihat pada gambar di atas, variabel LnTA, RoA dan DAR masing
masing bertipe data metrik, sedangkan variabel IS bertipe data kategorik (binary).
Langkahlangkah Estimasi
Klik Analyze > Regression > Binary Logistic, sehingga akan muncul jendela Logistic
Regression. Masukkan variabel LnTA, RoA dan DAR ke kolom Covariates,
sedangkan variabel IS ke kolom Dependent. Pada bagian Method paling tidak
terdapat 3 opsi yang dapat digunakan, yakni Enter dan Stepwise. Metode Stepwise
sendiri terbagi menjadi dua, yakni Forward dan Backward. Pada contoh kali ini kita
gunakan metode Enter, dimana seluruh variabel prediktor dimasukkan ke dalam
model dan diestimasi secara bersamasama. Metode Stepwise akan dibahas pada
artikel lainnya.
http://menrvalab.com/category/researchstatistics/statistics/multivariateanalysis/
30/40
6/12/2015
Multivariate Data Analysis | Menrva Lab | Research Assistance and Creative Studio
Masih pada jendela Logistic Regression, klik Options, lalu beri tanda checklist pada
bagian Classification plots, HosmerLameshow goodnesoffit, Correlations of
estimates, Iteration history dan CI for exp(B). Klik Continue.
Apabila pada variabelvariabel prediktor terdapat variabel yang bertipe data
kategorik, maka kita perlu mendefinisikannya dengan cara klik Categorical, lalu
masukkan variabel prediditor bertipe data kategorik tersebut ke kolom Categorical
covariates, klik Continue. Namun pada contoh kasus kali ini, seluruh variabel
prediktor bertipe data metrik.
Klik OK, maka akan muncul jendela SPSS Viewer yang berisi output hasil estimasi
regresi logistik.
Hasil dan Interpretasi
http://menrvalab.com/category/researchstatistics/statistics/multivariateanalysis/
31/40
6/12/2015
Multivariate Data Analysis | Menrva Lab | Research Assistance and Creative Studio
Melalui kedua tabel Iteration History di atas kita dapat menghitung nilai 2(L0–L1)
sebagai berikut:
2(L0–L1) = 715,356 – 693,364 = 21,992
Dengan α = 0,05 dan degree of freedom (df) = k = 3, dimana k adalah jumlah
variabel prediktor, didapat nilai χ²(p) dari tabel distribusi chikuadrat sebesar 7,815.
Dikarenakan 21,992 > 7, 815 atau 2(L0–L1) > χ²(p), maka dapat disimpulkan bahwa
secara bersamasama (simultan), ketiga variabel prediktor berpengaruh signifikan
terhadap variabel Income Smoothing (IS).
SPSS
tidak
mengakomodir
nilai
R²0,adj
(koefisien
determinasi
yang
disesuaikan). Namun sebagai alternatif, SPSS menyediakan Cox & Snell R
http://menrvalab.com/category/researchstatistics/statistics/multivariateanalysis/
32/40
6/12/2015
Multivariate Data Analysis | Menrva Lab | Research Assistance and Creative Studio
Square dan Nagelkerke R Square. Untuk dapat mengestimasi nilai R²0,adj, kita harus
melakukannya secara manual menggunakan bantuan aplikasi program Ms.Excel
atau yang lainnya. Tutorial estimasi nilai R²0,adj ini akan dibahas pada artikel lainnya.
Cox & Snell’s R Square merupakan ukuran yang mencoba meniru ukuran R² pada
multiple linear regression yang didasarkan pada teknik estimasi likelihood dengan
nilai maksimum kurang dari 1 (satu) sehingga sulit diinterpretasikan (Ghozali,
2011:341). Lebih lanjut menurut Ghozali, Nagelkerke’s R Square merupakan
modifikasi dari koefisien Cox dan Snell untuk memastikan bahwa nilainya bervariasi
dari 0 (nol) sampai 1 (satu). Hal ini dilakukan dengan cara membagi nilai Cox &
Snell’s R Square dengan nilai maksimumnya. Nilai Nagelkerke’s R Square dapat
diinterpretasikan seperti nilai R² pada multiple linear regression.
Melalui tabel Model Summary di atas didapat nilai Nagelkerke’s R Square sebesar
0,055. Hal ini mengindikasikan bahwa variabilitas variabel dependen (IS) yang dapat
dijelaskan oleh variabilitas variabel independen (LnTA, RoA dan DAR secara
simultan) adalah sebesar 5,5%, sedangkan sisanya sebesar 94,5% dijelaskan oleh
variabilitas variabel lain diluar ketiga variabel independen yang diteliti tersebut.
Melalui tabel Variables in the Equation di atas dapat terlihat nilai taksiran koefisien
regresi modelnya, sehingga didapatkan model regresi logistik sebagai berikut:
atau
dimana e adalah bilangan konstanta bernilai 2,71828. Hasil persamaan regresi
logistik di atas tidak bisa langsung diinterpretasikan dari nilai koefisiennya seperti
dalam regresi linier biasa. Interpretasi bisa dilakukan dengan melihat nilai Exp(B)
atau nilai eksponen dari koefisien persamaan regresi yang terbentuk (Yamin &
Kurniawan, 2014:101). Interpretasi dalam persamaan regresi logistik harus dilakukan
secara hatihati ketika variabel prediktor yang dimasukkan ke dalam model
http://menrvalab.com/category/researchstatistics/statistics/multivariateanalysis/
33/40
6/12/2015
Multivariate Data Analysis | Menrva Lab | Research Assistance and Creative Studio
memiliki beberapa tipe data. Untuk variabel prediktor pada contoh kasus ini, dimana
ketiga variabel prediktor bertipe data metrik, nilai Exp(B) dapat diinterpretasikan jika
variabel
LnTA
meningkat
sebesar
1
satuan,
maka
akan
terdapat
perubahan odds ratio sebesar 1,207. Demikian juga halnya interpretasi pada
variabel prediktor lainnya.
Melalui persamaan model tersebut kita dapat melakukan prediksi income smoothing
(IS) berdasarkan nilainilai tertentu yang telah diketahui pada variabel LnTA, RoA
dan DAR. Misalkan diketahui nilai LnTA sebesar 20,51 RoA sebesar 6,67 dan DAR
sebesar 0,62, kemudian nilainilai tersebut kita substitusikan ke dalam persamaan
model sebagai berikut:
Seperti yang telah didefinisikan sebelumnya bahwa skor 1 merupakan kategori
“perata” dan skor 0 merupakan kategori “bukan perata”, maka hasil prediksi di atas
dapat dikategorikan sebagai perusahaan yang melakukan praktik perataan laba
(income smoothing). Hal ini dikarenakan hasil nilai logit sebesar 0,718 tersebut di
atas bernilai lebih besar dari nilai cutoff 0,5. Namun jika nilai logit kurang dari nilai
cutoff 0,5, maka hasil prediksi dapat dikategorikan sebagai “bukan perata”.
Masih melalui tabel Variables in the Equation, nilai probabilitas (pvalue) signifikansi
parameter dapat dilihat pada kolom Sig., dimana pvalue yang lebih kecil dari taraf
signifikansi yang telah ditetapkan (0,05) dapat diartikan bahwa variabel prediktor
yang bersangkutan memiliki pengaruh yang signifikan terhadap variabel
respon. Dapat diketahui bahwa secara parsial, variabel LnTa berpengaruh signifikan
terhadap IS (0,001 < 0,05), variabel RoA tidak berpengaruh signifikan terhadap IS
(0,068 > 0,05) dan variabel DAR tidak berpengaruh signifikan terhadap IS (0,067
> 0,05). Uji signifikansi parameter dapat pula dilakukan menggunakan nilai interval
konfidensi 95%. Sebagai contoh nilai 95,0% C.I. for EXP(B) pada variabel LnTa
adalah sebesar 1,077 (Lower) dan sebesar 1,353 (Upper), maka dapat disimpulkan
bahwa LnTA berpengaruh nyata terhadap IS. Hal ini dikarenakan nilai 1 (satu)
berada diluar retang interval konfidensi tersebut. Sebaliknya, apabila nilai 1 (satu)
berada di dalam rentang interval konfidensi, maka variabel prediktor dapat
dinyatakan tidak berpengaruh nyata terhadap variabel respon seperti terlihat pada
hasil interval konfidensi variabel RoA dan DAR.
http://menrvalab.com/category/researchstatistics/statistics/multivariateanalysis/
34/40
6/12/2015
Multivariate Data Analysis | Menrva Lab | Research Assistance and Creative Studio
Tabel Hosmer and Lemeshow Test di atas digunakan untuk menguji kesesuaian
model (goodness of fit), atau dengan kata lain untuk menguji apakah model yang
kita gunakan, yaitu dengan menggunakan dua variabel independen (LnTa, RoA dan
DAR) sudah sesuai dengan data empiris atau tidak. Hipotesis nol pada pengujian ini
adalah “model telah cukup menjelaskan data (fit)” dengan kriteria uji tolak hipotesis
nol jika nilai probabilitas lebih kecil atau sama dengan taraf signifikansi yang telah
ditetapkan (p ≤ 0,05). Berdasarkan tabel di atas didapat nilai Chisquare sebesar
8,502 dengan nilai probabilitas sebesar 0,386. Dengan demikian hipotesis nol
diterima (0,386 > 0,05), artinya model telah cukup menjelaskan data (fit).
Referensi:
Ghozali, Imam. 2011. Aplikasi Multivariate dengan Program IBM SPSS 19, Edisi
5. Semarang: Badan Penerbit Universitas Diponegoro.
Yamin, Sofyan & Heri Kurniawan. 2014. SPSS Complete Teknik Analisis Statistik
Terlengkap dengan Software SPSS, Edisi 2. Jakarta: Salemba Infotek.
Bagian 1 | Bagian 2
Read More
Binary Logistic
Regression (Bagian 1):
Teori
Multivariate Data Analysis, Research & Statistics, Statistics • Comments Off
On March 20, 2015 • By ginthegum
Kontributor: Kharisma Prima
Editor: Gin Gumilang
Model regresi logistik digunakan untuk menggambarkan hubungan antara variabel
respon biner dengan satu atau beberapa buah variabel prediktor. Menurut Agresti
(1996), dalam model regresi logistik dapat menggunakan variabel independen yang
berupa kualitatif (berskala pengukuran nominal atau ordinal) atau kuantitatif
(berskala pengukuran interval atau rasio) atau gabungan (campuran) dari keduanya.
Dalam regresi logistik digunakan link function logit.
http://menrvalab.com/category/researchstatistics/statistics/multivariateanalysis/
35/40
6/12/2015
Multivariate Data Analysis | Menrva Lab | Research Assistance and Creative Studio
Variabel dependen dalam regresi logistik pada umumnya berbentuk dikotomus,
dimana variabel dependen dapat mengambil nilai 0 dengan suatu kemungkinan
sukses π(x), atau nilai 1 dengan kemungkinan kegagalan 1π(x). Variabel jenis ini
disebut variabel biner.
Seperti yang telah dijelaskan sebelumnya, variabel independen atau prediktor dalam
regresi logistik dapat berbentuk apapun, baik itu berbentuk kategori atau kontinu.
Selain itu, terdapat juga asumsiasumsi dalam regresi logistik, yakni tidak harus
berdistribusi normal, berhubungan secara linier atau memiliki varians yang sama di
dalam masingmasing kelompok. Hubungan antara variabel prediksi dan variabel
respon bukanlah suatu fungsi linier dalam regresi logistik, sebagai alternatif, fungsi
regresi logistik yang digunakan merupakan transformasi logit dari π(x):
dimana α = konstanta, β = koefisien regresi, dan i = banyaknya variabel independen.
Namun terdapat suatu bentuk alternatif dari persamaan regresi logistik, yaitu:
Untuk menaksir parameter dalam model regresi logistik digunakan metode
penaksiran maximum likelihood melalui iterasi. Dengan cara ini, regresi logistik
menaksir peluang terjadinya suatu peristiwa tertentu. Perhatikan bahwa regresi
logistik menghitung perubahan dalam log odds variabel dependen, bukan perubahan
dalam variabel dependen itu sendiri seperti halnya pada regresi linier biasa.
Odds dapat diartikan sebagai rasio antara dua peluang, seperti rasio antara peluang
peristiwa sukses dengan peluang peristiwa gagal. Nilai odds yang tinggi dapat
disamakan dengan nilai peluang yang tinggi. Begitu pula sebaliknya, nilai odds yang
rendah sesuai dengan nilai peluang yang rendah. Odds yang dinotasikan oleh θ
dapat dirumuskan sebagai berikut:
Untuk menghitung asosiasi X dan Y dapat diperlihatkan melalui rasio dua buah odds
yang disebut Odds Ratio, yang mana dinotasikan oleh ψ dengan perumusan sebagai
berikut:
Regresi logistik memiliki banyak kesamaan dengan regresi linier biasa: koefisien logit
dapat disamakan dengan koefisien β dalam persamaan regresi linier biasa, koefisien
logit yang distandarisasi dapat disamakan dengan β yang diboboti, dan R2 untuk
meringkas kekuatan hubungan. Walau bagaimanapun tidak seperti regresi linier
biasa, regresi logistik tidak mengasumsikan hubungan linier antara variabel
independen dan variabel dependen, tidak memerlukan variabel yang berdistribusi
http://menrvalab.com/category/researchstatistics/statistics/multivariateanalysis/
36/40
6/12/2015
Multivariate Data Analysis | Menrva Lab | Research Assistance and Creative Studio
normal, tidak mengasumsikan homokedastisitas, dan biasanya memiliki syarat yang
lebih sedikit. Akan tetapi, regresi logistik memiliki syarat bahwa pengamatan bersifat
independen. Uji kecocokan model dapat dilakukan dengan menggunakan chisquare
sebagai indikator kecocokan model, dan statistik Wald untuk menguji signifikans
variabel independen secara individual.
Uji Signifikansi Parameter
Sebelum melakukan uji signifikansi parameter secara individual, lakukan uji
signifikansi parameter secara overall terlebih dahulu. Pengujian secara overall dapat
disebut juga uji keberartian model, dimana salah satu alat pengujiannya adalah
Likelihood Ratio Test. Hipotesis dalam Likelihood Ratio Test adalah H0: β1 = β2 = …
= βp = 0, yang menyatakan model tidak berarti. Statistik uji yang digunakan dalam
Likelihood Ratio Test, yaitu:
dengan:
l0 : Nilai maksimum dari fungsi likelihood untuk model dibawah hipotesis nol.
l1 : Nilai maksimumdari fungsi likelihood untuk model dibawah hipotesis alternatif.
L0 : Nilai fungsi log likelihood yang maksimum untuk model dibawah hipotesis nol.
L1 : Nilai fungsi log likelihood yang maksimum untuk model dibawah hipotesis
alternatif.
Nilai 2(L0–L1) tersebut mengikuti distribusi chisquare dengan df = p. Jika 2(L0–L1)
≥ χ²(p), maka tolak H0, terima dalam hal lainnya. Jika H0 ditolak artinya model berarti,
sehingga uji signifikansi parameter dapat dilanjutkan dengan pengujian secara
individual untuk mengetahui variabelvariabel X yang signifikan terhadap variabel Y.
Wald Test digunakan untuk menguji signifikans dari tiap koefisien (β) dalam model.
Hipotesis dalam Wald Test adalah H0: β = 0, yang menyatakan peluang sukses
independen terhadap variabel X. Statistik uji yang digunakan dalam Wald Test, yaitu:
Nilai kuadrat Z tersebut mengikuti distribusi chisquare dengan df = 1. Jika Z² ≥ χ²(1),
maka tolak H0, terima dalam hal lainnya.
Uji Kecocokan Model
Salah satu alat yang dapat digunakan untuk menguji kecocokan model dari regresi
logistik adalah Uji HosmerLemeshow. Statistik HosmerLemeshow mengevaluasi
kecocokan model dengan membuat 10 kelompok pengamatan yang direncanakan
dan kemudian dibandingkan dengan jumlah yang sebenarnya pada masingmasing
kelompok (yang diamati) dengan jumlah yang diprediksi oleh model regresi logistik
(yang diprediksi). Sehingga, statistik uji adalah suatu statistik chisquare dengan df =
http://menrvalab.com/category/researchstatistics/statistics/multivariateanalysis/
37/40
6/12/2015
Multivariate Data Analysis | Menrva Lab | Research Assistance and Creative Studio
g2, dimana g adalah banyaknya kelompok. Hipotesis (H0) dalam uji Hosmer
Lemeshow adalah model prediksi dengan yang diamati tidak berbeda secara
signifikan.
Langkahlangkah dalam uji HosmerLemeshow adalah sebagai berikut:
Koefisien Determinasi
Koefisien determinasi dapat menjelaskan besarnya kekuatan hubungan antara
variabel dependen dengan variabel independen. Koefisien determinasi pada regresi
linier tidak dapat digunakan pada analisis regresi logistik karena dalam analisis
regresi linier biasa terdapat asumsi bahwa variabel dependen harus berupa metrik.
Agresti (1990), mengemukakan suatu nilai koefisien determinasi pada model regresi
logistik untuk variabel dependen berupa biner yaitu (koefisien determinasi) dan
R²0,adj (koefisien determinasi yang disesuaikan), yang dapat dirumuskan sebagai
berikut:
1. Bentuk sepuluh kelompok pengamatan yang dapat menggunakan dua cara,
yaitu:
a. Pengamatan dapat dikelompokkan berdasarkan peluang taksirannya; yaitu
pengamatan yang mempunyai peluang taksiran 00,1 membentuk satu kelompok,
kemudian pengamatan yang mempunyai peluang taksiran 0,10,2 membentuk
satu kelompok pula, dan begitu seterusnya, sampai kepada pengamatan yang
mempunyai peluang 0,91,0.
b. Pengamatan dikelompokkan berdasarkan persentil dari nilai peluang
taksirannya; yaitu kelompok pertama beranggotakan n1 = n/10 pengamatan yang
memiliki peluang taksiran terkecil, dan begitu seterusnya hingga kelompok
terakhir beranggotakan n10 = n/10 pengamatan yang memiliki peluang taksiran
terbesar.
2. Masingmasing kelompok tersebut selanjutnya dibagi menjadi dua kelompok
berdasarkan variabel hasil pengamatan yang sebenarnya (sukses, gagal).
Kemudian sebagian besar pengamatan dengan peristiwa sukses digolongkan
dalam desil resiko yang lebih tinggi dan pengamatan dengan peristiwa gagal
digolongkan dalam desil resiko yang lebih rendah.
3. Hitung statistik chisquare dengan perumusan sebagai berikut:
dengan:
Ni : Total frekuensi pengamatan kelompok kei,
Oi : Frekuensi pengamatan kelompok kei,
πi : Ratarata taksiran peluang kelompok kei.
4. Bandingkan dengan nilai χ² pada tabel chisquare dengan df = g2, dimana g
adalah banyaknya kelompok. Jika χ²HL ≥ χ²(g2) maka tolak hipotesis (H0), dan
http://menrvalab.com/category/researchstatistics/statistics/multivariateanalysis/
38/40
6/12/2015
Multivariate Data Analysis | Menrva Lab | Research Assistance and Creative Studio
terima dalam hal lainnya.
Koefisien Determinasi
Koefisien determinasi dapat menjelaskan besarnya kekuatan hubungan antara
variabel dependen dengan variabel independen. Koefisien determinasi pada regresi
linier tidak dapat digunakan pada analisis regresi logistik karena dalam analisis
regresi linier biasa terdapat asumsi bahwa variabel dependen harus berupa metrik.
Agresti (1990), mengemukakan suatu nilai koefisien determinasi pada model regresi
logistik untuk variabel dependen berupa biner yaitu (koefisien determinasi) dan
R²0,adj (koefisien determinasi yang disesuaikan), yang dapat dirumuskan sebagai
berikut:
dan R²0,adj sebagai berikut:
dengan:
n: banyaknya pengamatan
k: banyaknya prediktor
Untuk
memudahkan
proses
estimasi
model,
kita
dapat
menggunakan software statistik seperti SPSS, Stata, Minitab, atau yang lainnya.
Pada artikel berikutnya akan dijelaskan langkahlangkah analisa dan interpretasi
model binary logistic regression dengan menggunakan software SPSS.
Referensi:
Agresti, Alan. 1990. Categorical Data Analysis. USA: John Wiley and Sons.
Agresti, Alan. 1996. An Introduction to Categorical Data Analysis. USA: John
Wiley and Sons.
Hosmer, D. W. And Lemeshow, S. 1989. Applied Logistic Regression. New York:
John Wiley and Sons.
Bagian 1 | Bagian 2
http://menrvalab.com/category/researchstatistics/statistics/multivariateanalysis/
39/40
6/12/2015
Multivariate Data Analysis | Menrva Lab | Research Assistance and Creative Studio
Read More
JOIN OUR
COMMUNITY !
Menrva Lab
Lihat peta lebih besar
fb/MenrvaLab
PHH. Mustapa 81 Bandung
West Java Indonesia
@MenrvaLab
+MenrvaLab
40125
Location Map: via Google
Maps
Lat: 6,9002164 | Lon:
MenrvaLab Channel
Customer Service 1
Customer Service 2
Customer Service 3
107,6451648
+62 22 8778 8091 (Office)
+62 82 11 888 0011
Laporkan
peta
Data
petakesalahan
©2015
Google
(Mobile)
: 08.00 am 08.00
MonSat pm (UTC+7)
Sun
: 10.00 am 05.00
pm (UTC+7)
[email protected]
© 2015 Menrva Lab. All Rights Reserved.
http://menrvalab.com/category/researchstatistics/statistics/multivariateanalysis/
Privacy Policy • Terms of Use
40/40