proses render
Sabtu, 28 April 2018
Minggu, 08 April 2018
KONSEP DATA MINING V-CLASS
Jelaskan algoritma Classification
lainnya , yaitu : decision tree, adaptive naive bayes,logistic regression dan
support vector machine. Bagaimana penerapannya dalam kasus.
1. Support Vector Machine
Support Vector
Machine (SVM) adalah sistem pembelajaran yang pengklasifikasiannya menggunakan
ruang hipotesis berupa fungsi-fungsi linear dalam sebuah ruang fitur (feature space)
berdimensi tinggi, dilatih dengan algoritma pembelajaran yang didasarkan pada
teori optimasi dengan mengimplementasikan learning bias yang berasal dari teori
pembelajaran statistik (Nello Christianini dan John S. Taylor, 2000). Dalam
konsep SVM berusaha menemukan fungsi pemisah (hyperplane) terbaik diantara fungsi
yang tidak terbatas jumlahnya. Hyperplane pemisah terbaik antara kedua kelas
dapat ditemukan dengan mengukur margin hyperplane tersebut dan mencari titik
maksimalnya. Pada gambar 2.2 dapat dilihat margin adalah jarak antara
hyperplane tersebut dengan fungsi terdekat dari masing-masing kelas. Adapun
data yang berada pada bidang pembatas disebut support vector.
2. Decision Tree
Decision tree
adalah algoritma yang paling banyak digunakan untuk masalah pengklasifikasian.
Sebuah decision tree terdiri dari beberapa simpul yaitu tree’s roo, internal
nod dan leafs. Konsep entropi digunakan untuk penentuan pada atribut mana
sebuah pohon akan terbagi (split). Semakin tinggi entropy sebuah sampel, semakin
tidak murni sampel tersebut. Rumus yang digunakan untuk menghitung entropy
sampel S adalah sebagai berikut :
Dimana p1, p2, ...., pn masing-masing
menyatakan proposi kelas 1, kelas 2, ..., kelas n dalam output.
3. Naïve Bayes
Klasifikasi Bayesian adalah
klasifikasi statistik yang bisa memprediksi probabilitas sebuah class.
Klasifikasi Bayesian ini dihitung berdasarkan Teorema Bayes berikut ini :
Berdasarkan
rumus di atas kejadian H merepresentasikan sebuah kelas dan X merepresentasikan
sebuah atribut. P(H) disebut prior probability H, contoh dalam kasus ini adalah
probabilitas kelas yang mendeklarasikan normal. P(X) merupakan prior probability
X, contoh untuk probabilitas sebuah atribut protocol_type. P(H|X) adalah
posterior probability yang merefleksikan probabilitas munculnya kelas normal
terhadap data atribut protocol_type. P(X|H) menunjukkan kemungkinan munculnya
prediktor X (protocol_type) pada kelas normal. Dan begitu juga seterusnya untuk
proses menghitung probabilitas ke-empat kelas lainnya.
Contoh Kasus :
Teknik
Klasifikasi (Classification) Menggunakan Algoritma Naive Bayes
Teknik
Klasifikasi merupakan teknik yang umum digunakan untuk memprediksi outcome yang
spesifik dan biasanya bersifat kategorikal. Dalam kasus ini digunakan untuk
memprediksi pola biaya RENDAH , SEDANG dan TINGGI. Untuk menganalisa menggunakan
teknik ini digunakan atribut hasil analisa menggunakan Attribute Importance
(AI). Atribut yang tidak memiliki pengaruh signifikan tidak diikutsertakan
dalam analisa ini.
Tabel 3. Atribut data set
Gambar 11 Predictive confidence
Predictive confidence menunjukkan bahwa model yan dibuat
menggunakan teknik klasifikasi menggunakan Algoritma Naïve Bayes cukup baik
untuk digunakan dengan predictive confidence sebesar 50,41%. Predictive.
confidence 50,41 % menandakan bahwa model Naïve
Bayes yang
dibuat 50,41% lebih baik dari Naïve Rule.
Gambar
12. Akurasi dari model
Pada tabel akurasi menunjukkan bahwa model cukup baik
memprediksi kasus pola biaya RENDAH dengan prosentase 83,36 %, kasus pola biaya
SEDANG dengan prosentase 64 % dan kasus pola biaya TINGGI dengan prosentase
53,45 %. Average Accuracy sebesar 0.669372 , Overall Accuracy sebesar 0.764488.
Gambar 13. Confusion matrix
Pada gambar confusion matrix dapat
diketahui ada 461 kasus yang diklasifikasi dengan benar sebagai pola biaya
RENDAH dari total 553 kasus, ada 46 kasus yang salah klasifikasi yang
seharusnya adalah pola biaya SEDANG tetapi di prediksi sebagai pola RENDAH dan
ada 9 kasus
yang salah klasifikasi yang seharusnya adalah pola biaya
TINGGI diprediksi sebagai pola biaya RENDAH.
Untuk pola biaya SEDANG dapat
diketahui ada 128 kasus yang diklasifikasi dengan benar sebagai pola biaya
SEDANG dari total 200 kasus. Sedangkan untuk pola biaya TINGGI dapat diketahui
ada 31 kasus yang diklasifikasi dengan benar sebagai pola biaya TINGGI dari
total 58 kasus. Dari model tersebut diterapkan model scoring untuk data yang
akan di tes maka hasil nya adalah sebagai berikut (data sample 25 kasus kunjungan
pasien):
Tabel 2. Data scoring
Kolom prediction pada tabel
diatas adalah nilai target kasus(kunjungan) tersebut dan kolom probability
adalah adalah nilai confidence dari prediksi tersebut. Kolom cost merupakan
biaya (cost) dari prediksi yang salah, dengan biaya (cost) yang rendah
berarti probabilitas yang tinggi.
1. Kesimpulan
Pada paper ini telah dilakukan studi
dengan menggunakan teknik Attribute Importance (AI) untuk mengetahui
peringkat atribut yang berpengaruh terhadap pola biaya data kunjungan pasien
yang didefinisikan sebagai kelas target RENDAH, SEDANG dan TINGGI. Dengan
mengetahui atribut-atribut yang mempengaruhi biaya tinggi, maka manajemen rumah
sakit dapat lebih memfokuskan program efisiensi pada prosedur-prosedur medis
berbiaya tinggi dan mengurangi LOS.
Percobaan kedua adalah dengan
membuat model menggunakan teknik classification dengan Naive
Bayes yang kemudian digunakan untuk memprediksi pola biaya pada data
kunjungan pasien yang akan datang (scoring data). Dengan model prediksi biaya
tersebut, dapat diperkirakan biaya pasien rawat inap pada saat awal kunjungan.
Informasi perkiraan biaya tersebut bermanfaat bagi pihak pasien, karena dapat
mempersiapkan pembiyaan dan pihak rumah sakit karena dapat mengetahui perkiraan
biaya dan sumberdaya yang harus disiapkan untuk merawat pasien
Langganan:
Postingan (Atom)