twitter
rss

Halooo semuanya, kembali lagi nih untuk membahasa topik mata kuliah yang lain, yaitu Data Mining. Kali ini penjelasan mengenai contoh penerapan data mining untuk mengolah informasi konsentrasi keahlian dengan metode clustering di Universitas Bina Darma. Ya sudah langsung saja disimak penjelasan berikut ini, check it out guys!

1.) Apa itu Data Mining?

Data Mining adalah proses yang menggunakan teknik statistik, matematika, kecerdasan buatan, dan machine learning untuk mengekstraksi dan mengidentifikasi informasi yang bermanfaat dan pengetahuan yang terkait dari database yang besar. Data Mining merupakan suatu rangkaian proses untuk menggali nilai tambah dari sekumpulan data yang berupa pengetahuan yang selama ini tidak diketahui secara manual.

Hasil gambar untuk data mining

Data Mining sebenarnya memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistik dan basis data. Beberapa teknik yang sering disebut-sebut dalam literatur Data Mining antara lain : clustering, classification, association rule mining, neural network, dan genetic algorithm.

2.) Clustering

Salah satu teknik yang dikenal dalam Data Mining yaitu clustering. Pengertian clustering keilmuan dalam Data Mining adalah pengelompokan sejumlah data atau objek ke dalam cluster (group) sehingga setiap dalam cluster tersebut akan berisi data yang semirip mungkin dan berbeda dengan objek dalam cluster yang lainnya.

Metode clustering yang paling banyak digunakan ialah metode K-Means clustering. Kelemahan utama dari metode ini adalah hasil yang sensitif terhadap pemilihan pusat cluster awal dan perhitungan solusi lokal untuk mencapai kondisi optimal. Analisis Cluster merupakan teknik multivariat yang mempunyai tujauan utama untuk mengelompokkan objek-objek berdasarkan karakteristik yang dimilikinya. Analisis Cluster mengklasifikasi objek sehingga setiap objek yang paling dekat kesamaannya dengan objek lain berada dalam cluster yang sama.

3.) Algoritma K-Means

K-Means mempunyai kemampuan mengelompokkan data dalam jumlah yang cukup besar dengan waktu komputasi yang relatif cepat dan efisien. Namun, K-Means mempunyai mempunyai kelemahan yang diakibatkan oleh penentuan pusat awal cluster. Hasil cluster yang terbentuk dari metode K-Means ini sangatlah tergantung pada inisiasi nilai pusat awal cluster yang diberikan.

K-Means merupakan teknik pengelompokan yang bekerja berdasarkan Partitioned Clustering. Prinsip kerja dari pengelompokan Hierarchical Clustering dilakukan secara bertahap.


Hasil gambar untuk langkah langkah metode k-means


Beberapa teknik clustering yang paling sederhana dan umum adalah klastering K-means. Secara detail teknik ini menggunakan ukuran ketidakmiripan untuk mengelompokan obyek. Ketidakmiripan dapat diterjemahkan dalam konsep jarak. Dua obyek dikatakan mirip jika jarak dua objek tersebut dekat. Semakin tinggi nilai jarak, semakin tinggi nilai ketidakmiripannya.

4.) Penerapan Clustering dengan Algoritma K-Means

Setelah melakukan proses transformasi data ke dalam bentuk data yang sesuai untuk penerapan data mining dengan teknik Clustering maka tahapan ini dapat dilakukan. Clustering merupakan proses membagi data dalam suatu himpunan ke dalam beberapa kelompok yang kesamaan datanya dalam suatu kelompok lebih besar dari pada kesamaan tersebut dengan data kelompok lainnya.

Dalam tahapan penemuan aturan clustering ini, langkah yang dilakukan adalah mengembangkan aturan yang mungkin akan menjadi informasi data mahasiswa. Dalam tahapan awal untuk menghasilkan informasi aturan clustering dari setiap data mahasiswa dihitung dengan dataset. Dalam terminologi pengolahan pola, kolom dalam matriks disebut patterns atau objects, baris disebut fatures atau attribute, dan Z disebut patterns atau data matrix. Arti kolom dan baris dalam Z bergantung pada konteks. Cluster secara umum merupakan wujud himpunan bagian dari suatu himpunan data dan metode clustering dapat diklasifikasikan berdasarkan himpunan bagian yang dihasilkan : apakah fuzzy atau crisp (hard). Metode hard clustering merupakan model yang berdasarkan pada teori himpunan klasik, yang mana suatu objek menjadi anggota atau tidak menjadi anggota secara penuh ke dalam suatu kelompok. Hard clustering membagi data ke dalam sejumlah himpunan bersamaan dengan perbedaan level keanggotaan.

5.) Proses Data Mining

Adapun metode untuk menganalisis data dalam penerapan data mining ini adalah dengan menggunakan tahapan Knowledge Discovery in Database (KDD) yang terdiri dari beberapa tahapan, yaitu data selection, preprocessing, transformation, data mining, dan evaluation. (Kusrini, 2009:7). 

Berikut adalah tahapan Knowledge Discovery in Database (KDD) yang ditunjukkan pada gambar di bawah ini.

Hasil gambar untuk proses kdd data mining


  • Data Selection
Data yang digunakan dalam penelitian berasal dari Universitas Bina Darma Palembang yaitu data Mahasiswa Teknik Informatika Universitas Bina Darma Palembang tahun 2009 dan 2010, terdiri dari beberapa tabel antara lain tabel Mahasiswa, Tabel Khs, Tabel Matkul. Dari data Mahasiswa mempunyai data 697 record, Tabel Khs mempunyai 20,646 record sedangkan untuk tabel Matkul mempunyai 365 record selama 2 tahun. Dari semua atribut yang ada pada tabel Matkul dan tabel Khs terdapat 4 atribut yang akan digunakan dalam proses Knowledge Discovery in Databases (KDD). 

Atribut tersebut, yaitu :
1. kd_matkul merupakan atribut yang terdapat pada tabel khs yang berperan sebagai primary key dalam menghubungkan tabel khs dan tabel matkul.
2. nilai merupakan atribut yang terdapat pada tabel khs yang berisi mengenai nilai mahasiswa.
3. kd matkul merupakan atribut yang terdapat pada tabel matkul yang akan dihubungkan dengan tabel khs.
4. matkul merupakan atribut yang terdapat pada tabel matkul yang berisikan matakuliah yang diambil oleh para mahasiswa.

  • Prepocessing
Pada tahapan preprocessing ini akan dilakukan proses integrasi data untuk menghubungkan tabel khs dan tabel matkul, selanjutnya dilakukan proses data cleaning untuk menghasilkan dataset yang bersih, sehingga dapat digunakan dalam tahap berikutnya yaitu mining dengan tujuan untuk melihat prediksi pemilihan konsentrasi jurusan terhadap mahasiswa teknik informatika Bina Darma Palembang. Berikut langkah-langkah yang dimaksud diatas :

a. Data Cleaning 
Data Cleaning, tahap pembersihan data merupakan tahap awal dari proses KDD. Seluruh atribut yang ada pada dataset di atas selanjutnya akan diseleksi untuk mendapatkan atribut-atribut yang berisi nilai yang relavan. Tidak redundant dan tidak missing value, di mana syarat tersebut merupakan syarat awal yang harus dikerjakan dalam data mining sehingga akan diperoleh dataset yang bersih untuk digunakan pada tahap mining data. Data dikatakan missing value bila atribut-atribut dalam dataset tidak berisi nilai atau kosong, sedangkan data dikatakan redundant jika dalam satu dataset yang sama terdapat lebih dari satu record yang berisi nilai yang sama.

Dataset Mahasiswa Universitas Bina Darma Palembang, pada tahap ini akan diseleksi dari data yang mengandung missing value dan data dengan nilai yang redundant. Databases Mahasiswa Universitas Bina Darma Palembang terdapat 697 record dengan item sebanyak 4 item, dan tidak ditemukan data dengan missing value dan tidak terdapat nilai yang sama dalam satu record. Sehingga dataset mahasiswa dapat digunakan untuk tahap selanjutnya.

Tahap selanjutnya adalah tahap seleksi data yang berasal dari atribut yang relavan. Tahapan ini sangat penting dilakukan sebelum proses data mining, karena seleksi data yang berarti atribut-atributnya relavan yang ditentukan oleh output/keluaran yang dihasilkan. Dalam tugas akhir ini hasil yang ingin dicapai adalah mengetahui indikator yang dilihat adalah nama_mahasiswa, mata_kuliah, khs. Berikut ini disajikan contoh data hasil proses seleksi data.

b. Integrasi Data
Integrasi data, tahap integrasi data adalah tahap penggabungan data dari berbagai sumber. Dataset mahasiswa teknik informatika Universitas Bina Darma Palembang ini berasal dari satu sumber, dan dari data yang sudah dapat digunakan untuk teknik clustering, yaitu tabel Mahasiswa Teknik Informatika Universitas Bina Darma Palembang.

  • Transformation
Tahap transformation data, yaitu ini dapat diubah menjadi bentuk yang sesuai untuk dimining. Karena pada penelitian ini hanya dilakukan uji coba secara teoritis. Maka data yang telah dicleaning akan di transformasi menjadi data yang siap diminingkan. Pada tahapan penelitian ini ditambahkan atribut baru yaitu atribut skor untuk menentukan banyaknya mahasiswa yang mengambil konsentrasi keahlian sebagai dataset.

  • Interpretation
Berdasarkan dari penelitian yang telah dilaksanakan dan sudah diuraikan dalam penerapan data mining dari data mahasiswa teknik informatika di Universitas Bina Darma Palembang , maka penulis dapat menarik kesimpulan sebagai berikut :
1. Penerapan data mining dengan teknik clustering dan algoritma K-Means yang dilakukan menghasilkan sebuah informasi mengenai data mahasiswa dalam mengambil keputusan untuk menentukan konsentrasi keahlian.
2. Dalam penerapan data mining ini dapat memberikan informasi konsentrasi keahlian mana yang paling banyak yang diambil oleh mahasiswa, dan dapat menjadi suatu keputusan atau pertimbangan agar Universitas Bina Darma lebih baik lagi untuk ke depannya.
3. Semakin kecil batasan nilai dari data mahasiswa yang mengambil keputusan dalam menentukan konsentrasi keahlian yang ditentukan maka semakin sedikit pula pola/aturan yang dapat dihasilkan dan waktu yang diperlukan lebih sedikit.
4. Perhitungan yang dilakukan secara teoritis dan aplikatif menghasilkan nilai dari data mahasiswa yang mengambil keputusan dalam menentukan konsentrasi keahlian yang ditentukan.
5. Waktu yang diperlukan untuk pemprosesan tergantung pada spesifikasi komputer, jumlah mahasiswa yang diolah dan jumlah item yang terlibat sehingga perumusan yang tepat untuk perhitungan waktu belum dapat ditentukan.


Sekian penulisan saya kali ini, semoga bermanfaat dan dapat dipergunakan dengan sebaik-baiknya. Mohon maaf bila ada kesalahan, karena kesempurnaan hanya milik Allah SWT.


With love,



Bianca Ayu Saraswati








Sumber:
http://eprints.binadarma.ac.id/244/1/PENERAPAN%20DATA%20MINING%20UNTUK%20MENGOLAH%20INFORMASI%20KONSENTRASI.pdf

0 komentar:

Posting Komentar