Minggu, 08 April 2018

KONSEP DATA MINING V-CLASS



Jelaskan algoritma Classification lainnya , yaitu : decision tree, adaptive naive bayes,logistic regression dan support vector machine. Bagaimana penerapannya dalam kasus.

1. Support Vector Machine
Support Vector Machine (SVM) adalah sistem pembelajaran yang pengklasifikasiannya menggunakan ruang hipotesis berupa fungsi-fungsi linear dalam sebuah ruang fitur (feature space) berdimensi tinggi, dilatih dengan algoritma pembelajaran yang didasarkan pada teori optimasi dengan mengimplementasikan learning bias yang berasal dari teori pembelajaran statistik (Nello Christianini dan John S. Taylor, 2000). Dalam konsep SVM berusaha menemukan fungsi pemisah (hyperplane) terbaik diantara fungsi yang tidak terbatas jumlahnya. Hyperplane pemisah terbaik antara kedua kelas dapat ditemukan dengan mengukur margin hyperplane tersebut dan mencari titik maksimalnya. Pada gambar 2.2 dapat dilihat margin adalah jarak antara hyperplane tersebut dengan fungsi terdekat dari masing-masing kelas. Adapun data yang berada pada bidang pembatas disebut support vector.

2. Decision Tree
Decision tree adalah algoritma yang paling banyak digunakan untuk masalah pengklasifikasian. Sebuah decision tree terdiri dari beberapa simpul yaitu tree’s roo, internal nod dan leafs. Konsep entropi digunakan untuk penentuan pada atribut mana sebuah pohon akan terbagi (split). Semakin tinggi entropy sebuah sampel, semakin tidak murni sampel tersebut. Rumus yang digunakan untuk menghitung entropy sampel S adalah sebagai berikut :
Dimana p1, p2, ...., pn masing-masing menyatakan proposi kelas 1, kelas 2, ..., kelas n dalam output.

3. Naïve Bayes
Klasifikasi Bayesian adalah klasifikasi statistik yang bisa memprediksi probabilitas sebuah class. Klasifikasi Bayesian ini dihitung berdasarkan Teorema Bayes berikut ini :
Berdasarkan rumus di atas kejadian H merepresentasikan sebuah kelas dan X merepresentasikan sebuah atribut. P(H) disebut prior probability H, contoh dalam kasus ini adalah probabilitas kelas yang mendeklarasikan normal. P(X) merupakan prior probability X, contoh untuk probabilitas sebuah atribut protocol_type. P(H|X) adalah posterior probability yang merefleksikan probabilitas munculnya kelas normal terhadap data atribut protocol_type. P(X|H) menunjukkan kemungkinan munculnya prediktor X (protocol_type) pada kelas normal. Dan begitu juga seterusnya untuk proses menghitung probabilitas ke-empat kelas lainnya.

Contoh Kasus :
      Teknik Klasifikasi (Classification) Menggunakan Algoritma Naive Bayes

Teknik Klasifikasi merupakan teknik yang umum digunakan untuk memprediksi outcome yang spesifik dan biasanya bersifat kategorikal. Dalam kasus ini digunakan untuk memprediksi pola biaya RENDAH , SEDANG dan TINGGI. Untuk menganalisa menggunakan teknik ini digunakan atribut hasil analisa menggunakan Attribute Importance (AI). Atribut yang tidak memiliki pengaruh signifikan tidak diikutsertakan dalam analisa ini.

Tabel 3. Atribut data set
Gambar 11 Predictive confidence

Predictive confidence menunjukkan bahwa model yan dibuat menggunakan teknik klasifikasi menggunakan Algoritma Naïve Bayes cukup baik untuk digunakan dengan predictive confidence sebesar 50,41%. Predictive. confidence 50,41 % menandakan bahwa model Naïve
Bayes yang dibuat 50,41% lebih baik dari Naïve Rule.




Gambar 12. Akurasi dari model

Pada tabel akurasi menunjukkan bahwa model cukup baik memprediksi kasus pola biaya RENDAH dengan prosentase 83,36 %, kasus pola biaya SEDANG dengan prosentase 64 % dan kasus pola biaya TINGGI dengan prosentase 53,45 %. Average Accuracy sebesar 0.669372 , Overall Accuracy sebesar 0.764488.


Gambar 13. Confusion matrix

Pada gambar confusion matrix dapat diketahui ada 461 kasus yang diklasifikasi dengan benar sebagai pola biaya RENDAH dari total 553 kasus, ada 46 kasus yang salah klasifikasi yang seharusnya adalah pola biaya SEDANG tetapi di prediksi sebagai pola RENDAH dan ada 9 kasus
yang salah klasifikasi yang seharusnya adalah pola biaya TINGGI diprediksi sebagai pola biaya RENDAH.
Untuk pola biaya SEDANG dapat diketahui ada 128 kasus yang diklasifikasi dengan benar sebagai pola biaya SEDANG dari total 200 kasus. Sedangkan untuk pola biaya TINGGI dapat diketahui ada 31 kasus yang diklasifikasi dengan benar sebagai pola biaya TINGGI dari total 58 kasus. Dari model tersebut diterapkan model scoring untuk data yang akan di tes maka hasil nya adalah sebagai berikut (data sample 25 kasus kunjungan pasien):




Tabel 2. Data scoring
  
Kolom prediction pada tabel diatas adalah nilai target kasus(kunjungan) tersebut dan kolom probability adalah adalah nilai confidence dari prediksi tersebut. Kolom cost merupakan biaya (cost) dari prediksi yang salah, dengan biaya (cost) yang rendah berarti probabilitas yang tinggi.

1.       Kesimpulan

Pada paper ini telah dilakukan studi dengan menggunakan teknik Attribute Importance (AI) untuk mengetahui peringkat atribut yang berpengaruh terhadap pola biaya data kunjungan pasien yang didefinisikan sebagai kelas target RENDAH, SEDANG dan TINGGI. Dengan mengetahui atribut-atribut yang mempengaruhi biaya tinggi, maka manajemen rumah sakit dapat lebih memfokuskan program efisiensi pada prosedur-prosedur medis berbiaya tinggi dan mengurangi LOS.
Percobaan kedua adalah dengan membuat model menggunakan teknik classification dengan  Naive Bayes yang kemudian digunakan untuk memprediksi pola biaya pada data kunjungan pasien yang akan datang (scoring data). Dengan model prediksi biaya tersebut, dapat diperkirakan biaya pasien rawat inap pada saat awal kunjungan. Informasi perkiraan biaya tersebut bermanfaat bagi pihak pasien, karena dapat mempersiapkan pembiyaan dan pihak rumah sakit karena dapat mengetahui perkiraan biaya dan sumberdaya yang harus disiapkan untuk merawat pasien