PENERAPAN DATA MINING UNTUK MENGOLAH INFORMASI KONSENTRASI KEAHLIAN DI UNIVERSITAS BINA DARMA DENGAN METODE CLUSTERING
Halooo semuanya, kembali lagi nih untuk membahasa topik mata kuliah yang lain, yaitu Data Mining. Kali ini penjelasan mengenai contoh penerapan data mining untuk mengolah informasi konsentrasi keahlian dengan metode clustering di Universitas Bina Darma. Ya sudah langsung saja disimak penjelasan berikut ini, check it out guys!
1.) Apa itu Data Mining?
Data Mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari database yang besar. Data Mining merupakan suatu rangkaian proses untuk menggali nilai tambah dari sekumpulan data yang berupa pengetahuan yang selama ini tidak diketahui secara manual.
Data Mining sebenarnya memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistik dan basis data. Beberapa teknik yang sering disebut-sebut dalam literatur Data Mining antara lain : clustering, classification, association rule mining, neural network, dan genetic algorithm.
2.) Clustering
Salah satu teknik yang dikenal dalam Data Mining yaitu clustering. Pengertian clustering keilmuan dalam Data Mining adalah pengelompokan sejumlah data atau objek ke dalam cluster (group) sehingga setiap dalam cluster tersebut akan berisi data yang semirip mungkin dan berbeda dengan objek dalam cluster yang lainnya.
Metode clustering yang paling banyak digunakan ialah metode K-Means clustering. Kelemahan utama dari metode ini adalah hasil yang sensitif terhadap pemilihan pusat cluster awal dan perhitungan solusi lokal untuk mencapai kondisi optimal. Analisis Cluster merupakan teknik multivariat yang mempunyai tujauan utama untuk mengelompokkan objek-objek berdasarkan karakteristik yang dimilikinya. Analisis Cluster mengklasifikasi objek sehingga setiap objek yang paling dekat kesamaannya dengan objek lain berada dalam cluster yang sama.
3.) Algoritma K-Means
K-Means mempunyai kemampuan mengelompokkan data dalam jumlah yang cukup besar dengan waktu komputasi yang relatif cepat dan efisien. Namun, K-Means mempunyai mempunyai kelemahan yang diakibatkan oleh penentuan pusat awal cluster. Hasil cluster yang terbentuk dari metode K-Means ini sangatlah tergantung pada inisiasi nilai pusat awal cluster yang diberikan.
K-Means merupakan teknik pengelompokan yang bekerja berdasarkan Partitioned Clustering. Prinsip kerja dari pengelompokan Hierarchical Clustering dilakukan secara bertahap.
4.) Penerapan Clustering dengan Algoritma K-Means
Setelah melakukan proses transformasi data ke dalam bentuk data yang sesuai untuk penerapan data mining dengan teknik Clustering maka tahapan ini dapat dilakukan. Clustering merupakan proses membagi data dalam suatu himpunan ke dalam beberapa kelompok yang kesamaan datanya dalam suatu kelompok lebih besar dari pada kesamaan tersebut dengan data kelompok lainnya.
Dalam tahapan penemuan aturan clustering ini, langkah yang dilakukan adalah mengembangkan aturan yang mungkin akan menjadi informasi data mahasiswa. Dalam tahapan awal untuk menghasilkan informasi aturan clustering dari setiap data mahasiswa dihitung dengan dataset. Dalam terminologi pengolahan pola, kolom dalam matriks disebut patterns atau objects, baris disebut fatures atau attribute, dan Z disebut patterns atau data matrix. Arti kolom dan baris dalam Z bergantung pada konteks. Cluster secara umum merupakan wujud himpunan bagian dari suatu himpunan data dan metode clustering dapat diklasifikasikan berdasarkan himpunan bagian yang dihasilkan : apakah fuzzy atau crisp (hard). Metode hard clustering merupakan model yang berdasarkan pada teori himpunan klasik, yang mana suatu objek menjadi anggota atau tidak menjadi anggota secara penuh ke dalam suatu kelompok. Hard clustering membagi data ke dalam sejumlah himpunan bersamaan dengan perbedaan level keanggotaan.
5.) Proses Data Mining
Adapun metode untuk menganalisis data dalam penerapan data mining ini adalah dengan menggunakan tahapan Knowledge Discovery in Database (KDD) yang terdiri dari beberapa tahapan, yaitu data selection, preprocessing, transformation, data mining, dan evaluation. (Kusrini, 2009:7).
Berikut adalah tahapan Knowledge Discovery in Database (KDD) yang ditunjukkan pada gambar di bawah ini.
- Data Selection
Data yang digunakan dalam penelitian
berasal dari Universitas Bina Darma Palembang yaitu data Mahasiswa Teknik Informatika
Universitas Bina Darma Palembang tahun 2009
dan 2010, terdiri dari beberapa tabel antara lain
tabel Mahasiswa, Tabel Khs, Tabel Matkul. Dari
data Mahasiswa mempunyai data 697 record,
Tabel Khs mempunyai 20,646 record sedangkan
untuk tabel Matkul mempunyai 365 record
selama 2 tahun. Dari semua atribut yang ada
pada tabel Matkul dan tabel Khs terdapat 4
atribut yang akan digunakan dalam proses Knowledge Discovery in Databases (KDD).
Atribut
tersebut, yaitu :
1. kd_matkul merupakan atribut yang terdapat
pada tabel khs yang berperan sebagai
primary key dalam menghubungkan tabel
khs dan tabel matkul.
2. nilai merupakan atribut yang terdapat pada
tabel khs yang berisi mengenai nilai
mahasiswa.
3. kd matkul merupakan atribut yang terdapat
pada tabel matkul yang akan dihubungkan
dengan tabel khs.
4. matkul merupakan atribut yang terdapat
pada tabel matkul yang berisikan
matakuliah yang diambil oleh para
mahasiswa.
- Prepocessing
Pada tahapan preprocessing ini akan
dilakukan proses integrasi data untuk
menghubungkan tabel khs dan tabel matkul,
selanjutnya dilakukan proses data cleaning
untuk menghasilkan dataset yang bersih, sehingga dapat digunakan dalam tahap
berikutnya yaitu mining dengan tujuan untuk
melihat prediksi pemilihan konsentrasi jurusan
terhadap mahasiswa teknik informatika Bina
Darma Palembang. Berikut
langkah-langkah yang dimaksud diatas :
a. Data Cleaning
Data Cleaning, tahap pembersihan
data merupakan tahap awal dari proses
KDD. Seluruh atribut yang ada pada dataset
di atas selanjutnya akan diseleksi untuk
mendapatkan atribut-atribut yang berisi nilai
yang relavan. Tidak redundant dan tidak
missing value, di mana syarat tersebut
merupakan syarat awal yang harus
dikerjakan dalam data mining sehingga akan
diperoleh dataset yang bersih untuk
digunakan pada tahap mining data. Data
dikatakan missing value bila atribut-atribut
dalam dataset tidak berisi nilai atau kosong,
sedangkan data dikatakan redundant jika
dalam satu dataset yang sama terdapat lebih
dari satu record yang berisi nilai yang sama.
Dataset Mahasiswa Universitas Bina
Darma Palembang, pada tahap ini akan
diseleksi dari data yang mengandung
missing value dan data dengan nilai yang
redundant. Databases Mahasiswa
Universitas Bina Darma Palembang terdapat 697 record dengan item
sebanyak 4 item, dan tidak ditemukan data
dengan missing value dan tidak terdapat
nilai yang sama dalam satu record. Sehingga
dataset mahasiswa dapat digunakan untuk
tahap selanjutnya.
Tahap selanjutnya adalah tahap seleksi
data yang berasal dari atribut yang relavan.
Tahapan ini sangat penting dilakukan
sebelum proses data mining, karena seleksi
data yang berarti atribut-atributnya relavan
yang ditentukan oleh output/keluaran yang
dihasilkan. Dalam tugas akhir ini hasil yang
ingin dicapai adalah mengetahui indikator
yang dilihat adalah nama_mahasiswa,
mata_kuliah, khs. Berikut ini disajikan
contoh data hasil proses seleksi data.
b. Integrasi Data
Integrasi data, tahap integrasi data adalah
tahap penggabungan data dari berbagai sumber.
Dataset mahasiswa teknik informatika
Universitas Bina Darma Palembang ini berasal
dari satu sumber, dan dari data yang sudah dapat
digunakan untuk teknik clustering, yaitu tabel
Mahasiswa Teknik Informatika Universitas Bina
Darma Palembang.
- Transformation
Tahap transformation data, yaitu ini dapat
diubah menjadi bentuk yang sesuai untuk dimining. Karena pada penelitian ini hanya
dilakukan uji coba secara teoritis. Maka data
yang telah dicleaning akan di transformasi
menjadi data yang siap diminingkan.
Pada tahapan penelitian ini ditambahkan atribut baru yaitu atribut skor
untuk menentukan banyaknya mahasiswa yang
mengambil konsentrasi keahlian sebagai dataset.
- Interpretation
Berdasarkan dari penelitian yang telah
dilaksanakan dan sudah diuraikan dalam
penerapan data mining dari data mahasiswa
teknik informatika di Universitas Bina Darma
Palembang , maka penulis dapat menarik
kesimpulan sebagai berikut :
1. Penerapan data mining dengan teknik
clustering dan algoritma K-Means yang
dilakukan menghasilkan sebuah informasi
mengenai data mahasiswa dalam
mengambil keputusan untuk menentukan
konsentrasi keahlian.
2. Dalam penerapan data mining ini dapat
memberikan informasi konsentrasi keahlian
mana yang paling banyak yang diambil oleh
mahasiswa, dan dapat menjadi suatu
keputusan atau pertimbangan agar
Universitas Bina Darma lebih baik lagi
untuk ke depannya.
3. Semakin kecil batasan nilai dari data
mahasiswa yang mengambil keputusan
dalam menentukan konsentrasi keahlian
yang ditentukan maka semakin sedikit pula
pola/aturan yang dapat dihasilkan dan
waktu yang diperlukan lebih sedikit.
4. Perhitungan yang dilakukan secara teoritis
dan aplikatif menghasilkan nilai dari data
mahasiswa yang mengambil keputusan
dalam menentukan konsentrasi keahlian
yang ditentukan.
5. Waktu yang diperlukan untuk pemprosesan
tergantung pada spesifikasi komputer,
jumlah mahasiswa yang diolah dan jumlah
item yang terlibat sehingga perumusan yang
tepat untuk perhitungan waktu belum dapat
ditentukan.
Sekian penulisan saya kali ini, semoga bermanfaat dan dapat dipergunakan dengan sebaik-baiknya. Mohon maaf bila ada kesalahan, karena kesempurnaan hanya milik Allah SWT.
With love,
Bianca Ayu Saraswati
Sumber:
http://eprints.binadarma.ac.id/244/1/PENERAPAN%20DATA%20MINING%20UNTUK%20MENGOLAH%20INFORMASI%20KONSENTRASI.pdf