Data Mining

Published on January 2017 | Categories: Documents | Downloads: 31 | Comments: 0 | Views: 319

of 16

Content

DATA CLUSTERING MENGGUNAKAN
METODE CRISP DM UNTUK MENGETAHUI KEBUTUHAN
TENAGA PENDIDIK JENJANG SMA DI KABUPATEN BANJAR

Oleh :
Muhammad Zaien
J1F111016

KEMENTERIAN PENDIDIKAN DAN KEBUDAYAAN
UNIVERSITAS LAMBUNG MANGKURAT
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
PROGRAM STUDI S1 ILMU KOMPUTER
BANJARBARU
2014

1

Bab 1 : PENDAHULUAN
1.1 Latar Belakang
Dalam proses pendidikan, guru tidak hanya menjalankan fungsi alih ilmu
pngetahuan (transfer of knowledge) tapi juga berfungsi untuk menanamkan nilai
(value) serta membangun karakter (Character Building) peserta didik secara
berkelanjutan dan berkesinambungan. (Sri Sunarti, 2012).
Oleh karena itu pembagian jumlah tenaga pendidik di tiap kecamatan dapat
membantu dalam program pendidikan di tiap kecamatan. Untuk mengetahui
bagaimana kebutuhan tenaga pendidik di kabupaten banjar saya menggunakan teknik
clustering untuk mengelompokkan kebutuhan tenaga pendidik di tiap kecamatan
kabupaten banjar.
Clustering merupakan teknik data mining yang berfungsi untuk
mengelompokan data berdasarkan kemiripan data pada suatu kelompok dan
meminimalkan kemiripan pada kelompok lain (Irwan Budiman, 2012). Sehingga
didapat kelompok kecamatan yang masih membutuhkan tenaga pendidik.
Sebelumnya disini saya ingin menerangkan kenapa dibagi per kecamatan,
karena data yang saya dapat di internet untuk statistik siswa kabupaten banjar sudah
dikelompokkan per kecamatan.
1.2 Perumusan Masalah
Berdasarkan latar belakang yang diuraikan diatas maka untuk perumusan
masalah adalah bagaimana kebutuhan tenaga pendidik di kabupaten banjar per
kecamatan untuk jenjang SMA dan sederajat.
1.3 Batasan Masalah
Batasan masalah dalam laporan ini adalah :
1. Database yang diolah adalah database sekolah yang berisi data guru dan
sekolah untuk jenjang SMA/SMK/MA yang bersumber dari Sistem
Informasi Administrasi Pendidikan Kabupaten Banjar (SIAP) . Serta data

2

statistik siswa yang bersumber dari Buku tahunan “Kabupaten banjar dalam
angka 2013” yang diterbitkan oleh Badan Pusat Statistik Kabupaten Banjar.
2. Metodologi yang digunakan adalah CRISP-DM
3. Algoritma Clustering yang digunakan adalah K-Means dengan
menggunakan Aplikasi Matlab.
4. DBMS yang digunakan adalah Microsoft Access.
1.4 Tujuan
Tujuan dari pembuatan laporan ini adalah :
1. Untuk memenuhi tugas pengganti UTS
2. Pembelajaran dalam melakukan Data Mining dengan metode CRISP-DM.

3

Bab 2 : Isi Laporan
2.1 Alat dan Bahan
Bahan dalam laporan ini adalah :
1. Database sekolah dan statistik siswa.

Alat yang digunakan :
1. Microsoft Access 2010
2. Matlab
3. Metodologi CRISP-DM.
4. Teknik Data Mining : Clustering
5. Algoritma K-Means
2.2 Hasil
Berikut alur proses data mining mengikuti standar proses metodologi Cross
Industry Standard Process for Data Mining (CRISP-DM).

Gambar 1. Proses Data
2.2.1 Business Understanding
Pemahaman bisnis mengacu pada mengetahui kebutuhan tenaga pendidik di
kabupaten banjar per kecamatan.
1. Determine Business Objectives
Tujuan bisnis pada laporan ini adalah sebagai referensi dalam evaluasi
pemerataan pendidikan di kabupaten banjar untuk tiap kecamatan, dengan
pengetahuan terhadap kebutuhan tenaga pendidik di tiap kecamatan.

4

2. Assess The Situation
a. Perubahan Jumlah Siswa selalu terjadi tiap tahun sehingga statistik
siswa berubah sehingga kebutuhan tenaga pendidikpun berubah.
b. Perubahan Jumlah siswa dan penduduk dapat memicu pembangunan
sekolah baru sehingga dengan adanya sekolah baru maka kebutuhan
tenaga pendidik pun bertambah.
c. Data pada program SIAP, kurang lengkap sehingga datanya rinciannya
sedikit.
3. Determine The Data Mining Goals
Tujuan data mining ini adalah mengelompokkan kebutuhan tenaga pendidik per
kecamatan di kabupaten banjar.
2.2.2 Data Understanding
Pemahaman data mengacu pada database sekolah dan guru, serta data statistik
siswa yang diambil dari SIAP kabupaten banjar dan buku tahunan “Kabupaten Banjar
dalam Angka 2013” yang diterbitkan badan pusat statistik kabupaten banjar.
1. Collect Initial Data
Tahap mengumpulkan data dari website SIAP kabupaten banjar Buku tahunan
“Kabupaten banjar dalam angka 2013” yang diterbitkan oleh Badan Pusat Statistik
Kabupaten Banjar. Data tersebut didapat dalam bentuk tabular dan laporan. Oleh
karena itu disini saya coba rancang database dengan inputan data dari kedua sumber
tersebut.
2. Describe the Data
Seperti yang dijelaskan pada bagian Collect initial data, data yang saya
dapatkan berbentuk tabular dan laporan, untuk data yang saya dapatkan pun terdapat
isian-isian yang masih kosong, sehingga pada rancangan database isian tersebut tidak
dibuat. Berikut gambar bentuk data yang saya dapatkan.

5

Gambar 3. Data Sekolah (SIAP)
Gambar diatas table data sekolah yang terdaftar dalam program SIAP.

Gambar 4. Detail Sekolah

6

Diatas adalah gambar detail info dari sekolah, disana terlihat beberapa isian
yang kosong, sehingga isian-isian tersebut tidak dimasukkan dalam rancangan
database.

Gambar 5. Data Guru satu sekolah
Diatas merupakan data guru untuk satu sekolah, disana ada beberapa guru yang
isian No Pegawai dan Nomor Unik Pendidik dan Tenaga Kependidikan (NUPTK)
yang kosong.
Untuk data Siswa pada SIAP ini masih belum tersedia sehingga data statistik
siswa didapat dari Buku tahunan “Kabupaten Banjar dalam Angka 2013” sebagai
berikut :

7

Gambar 6. Statistik Siswa
Gambar diatas adalah statistik siswa dari buku tahunan. Dalam buku tersebut
data statistik siswa digolongkan berdasar, jenjang sekolah (SD,SMP,SMA,SMK,MA)
dan status nya swasta atau negeri.
3. Explore the Data
Dari data-data tersebut agar memudahkan dalam pencarian knowledge maka
dirancang database nya dengan hasilnya sebagai berikut

Gambar 7. Relasi Database

8

Dari ke enam tabel tersebut 5 diisi data dari data SIAP, dan 1 tabel statistik
siswa disi dari data yang diambil dari buku tahunan statistik kabupaten banjar.
Sehingga hasil pengisian datanya sebagai berikut :

Gambar 8. Tabel Sekolah

Gambar 9. Tabel Kecamatan, Status Sekolah, dan Tipe

9

Gambar 10. Tabel Guru

Gambar 11. Tabel StatistikSiswa
4. Verify Data Quality
Dalam data terdapat beberap kekurangan :
a. Terdapat sekolah yang nama dan alamatnya sama, tapi no NPSN nya
berbeda, sehingga akan membingungkan yang mana no NPSN yang
valid.
b. Pada tabel guru, terdapat No pegawai dan No NUPTK yang kosong.

10

2.2.3 Data Preparation
1. Data Set Description
Untuk data set desciption, disini menyesuaikan Business understanding yaitu
kebutuhan guru di kabupaten banjar per kecamatan. Untuk mengetahui kebutuhan
guru didapat dari data jumlah guru, jumlah murid dan jumlah sekolah. Dari tiga data
tersebut akan dibuat ratio guru-murid, dan ratio guru-sekolah, dengan rumusan :
Ratio Guru-Murid =

Ratio Guru-Sekolah =

Sehingga bentuk akhir dari format tabelnya adalah sebagai berikut :
Nama Field Tipe Data Keterangan
KodeKec Number Kode Kecamatan Kab. Banjar
Kecamatan Text Kecamatan Kab. Banjar
RatioGuru Number Nilai Ratio Guru-Murid
RatioSekolah Number Nilai Ratio Guru-Sekolah

2. Select Data
Data yang dipilih untuk menghitung jumlah guru,dan sekolah perkacamatan ada
pada tabel : Sekolah, Kecamatan, dan Guru, sedangkan untuk jumlah siswa
menggunakan tabel : StatistikSiswa dan kecamatan.
3. Construct Data
Untuk tabel jumlah guru yang diambil dari 3 tabel tersebut menggunakan query
berikut :

SELECT Sekolah.Kecamatan, Kecamatan.NamaKec, Count(Guru.NIP) AS
JumlahGuru FROM (Kecamatan INNER JOIN Sekolah ON Kecamatan.KodeKec =
Sekolah.Kecamatan) INNER JOIN Guru ON Sekolah.NPSN =
Guru.NPSNSekolah GROUP BY Sekolah.Kecamatan, Kecamatan.NamaKec;

11

Gambar 12. Design SQL Tabel Jumlah Guru
Untuk tabel Jumlah Sekolah per kecamatan sebagai berikut :
SELECT Kecamatan.KodeKec, Kecamatan.NamaKec,
Count(Sekolah.Kecamatan) AS JumlahSekolah INTO JumlahSekolah FROM
Kecamatan INNER JOIN Sekolah ON Kecamatan.KodeKec =
Sekolah.Kecamatan GROUP BY Kecamatan.KodeKec, Kecamatan.NamaKec,
Sekolah.Kecamatan;

Gambar 13. Design SQL Tabel Jumlah Sekolah

12

Untuk tabel jumlah Siswa per kecamatan sebagai berikut :
SELECT StatistikSiswa.KodeKec, Kecamatan.NamaKec,
Sum(StatistikSiswa.JumlahSiswa) AS JumlahSiswa FROM Kecamatan INNER
JOIN StatistikSiswa ON Kecamatan.KodeKec = StatistikSiswa.KodeKec
GROUP BY StatistikSiswa.KodeKec, Kecamatan.NamaKec;

Gambar 14. Design SQL Tabel Jumlah Siswa
4. Integrate Data & Format Data
Disini digabungkan tabel jumlah guru,jumlah sekolah dan jumlah siswa yang
telah dibuat diatas dan dilakukan format data untuk mencari nilai ratio guru murid
dan ratio guru sekolah dengan rumus yang telah dijelaskan diatas. Berikut Query
SQL dan design nya :
SELECT Kecamatan.KodeKec, Kecamatan.NamaKec,
Format(([JumlahGuru].[JumlahGuru]/[JumlahSiswa].[JumlahSiswa]),"0.00
00") AS RatioGuru, Format( ( [JumlahGuru].[JumlahGuru] /
[JumlahSekolah].[JumlahSekolah] ) ,"0.0000") AS RatioSekolah FROM
(JumlahGuru INNER JOIN (JumlahSiswa INNER JOIN Kecamatan ON
JumlahSiswa.KodeKec = Kecamatan.KodeKec) ON JumlahGuru.Kecamatan =
Kecamatan.KodeKec) INNER JOIN JumlahSekolah ON Kecamatan.KodeKec =
JumlahSekolah.KodeKec;

13

Gambar 15. Design SQL Ratio

2.2.4 Modelling
1. Select Modelling Technique
Teknik data mining yang dipilih adalah clustering dengan menggunakan
algoritma K-means. Clustering dan algortima K-means digunakan untuk
mengelompokkan kebutuhan tenaga pendidik di kabupaten banjar per kecamatan.
2. Build Model
Algoritma yang digunakan untuk clustering adalah K-Means dengan Data set
yang diambil adalah data set terakhit pada Data Prepartion yaitu tabel ratio. Jumlah
kluster yang digunakan pada proses ini adalah 2, diharapkan dari 2 kluster tersebut
adalah satu untuk mewakili “Ratio Rendah”, dan satu lagi untuk mewakili “Ratio
Tinggi”.
3. Assess Model
Untuk proses clustering dengan K-Means disini saya menggunakan matlab
sehingga untuk inisiasi pusat kluster otomatis dilakukan oleh program tersebut.

14

2.2.5 Evaluation
1. Evaluation Result
Sebelum membahas hasil, kita kembali ke rumus ratio Guru-Murid, dan Guru-
Sekolah. Dari ratio tersebut dapat kita ambil kesimpulan bahwa jika rationya rendah
(baik ratio Guru-Murid dan Guru-Sekolah) maka ada kemungkinan membutuhkan
tambahan tenaga pendidik, dan sebaliknya.
Berikut hasil clustering dengan algoritma K-Means menggunakan aplikasi
matlab, (dalam bentuk grafik) :

Gambar 16. Hasil Clustering
Dari hasil diatas, terlihat Cluster 1 memiliki 3 anggota, dan cluster 2 memiliki
11 anggota. Berdasarkan kesimpulan dari rumus ratio diatas berarti dapat diartikan
bahwa Cluster 1 (ratio rendah) yang memiliki 3 anggota memerlukan tambahan
tenaga pendidik, sedangkan Cluster 2 (ratio tinggi) yang memiliki 11 anggota dapat
diartikan Cukup atau belum memerlukan tenaga pendidik tambahan, atau ada
kemungkinan bisa diartikan kelebihan tenaga pendidik.

15

2. Review Process
Untuk review process disini saya menyadari banyak kekurangannya, khususnya
dibagian kelengkapan data, banyak data yang masih kurang, khususnya data sekolah,
dan jumlah guru. Sehingga hasil ini masih belum bisa dijadikan masukan untuk
pemerataan pendidikan.
Dan untuk dibagian lain mungkin pada Data Preparation, disini dihasilkan data
ratio untuk data set clustering. Mungkin ada kritik saran untuk penggunaan data set
tersebut untuk melakukan clustering dengan tujuan Bisnis Understanding seperti
tercantum di atas.
3. Determine Next Steps
Untuk menghasilkan pengetahuan yang dapat digunakan tentu perlu dilakukan
perbaikan pada bagian-bagian yang telah disebutkan pada Review Process. Jadi,
untuk langkah selanjutnya baiknya kembali ke tahap awal, dengan persiapan data
yang lebih lengkap.

Data Mining

Comments

Content

Sponsor Documents

Recommended