Credit Risk
Berikut
ini merupakan contoh dari salah satu kasus resiko kredit (credit risk)
yang
menggunakan decision tree untuk menentukan apakah seorang potential
customer
dengan karakteristik saving, asset dan income tertentu memiliki good credit
Dapat dilihat
pada gambar tersebut, bahwa target variable dari decision tree
tersebut atau variable yang akan
diprediksi adalah credit risk dengan menggunakan
predictor variable : saving,
asset, dan income. Setiap nilai atribut dari predictor
variable akan memiliki cabang
menuju predictor variable selanjutnya, dan seterusnya
hingga tidak dapat dipecah dan
menuju pada target variable.
Penentuan apakah
diteruskan menuju predictor variable (decision node) atau menuju
target variable (leaf node)
tergantung pada keyakinan (knowledge) apakah potential
customer dengan nilai atribut
variable keputusan tertentu memiliki keakuratan nilai
target variable 100% atau tidak.
Misalnya pada kasus di atas untuk saving medium,
ternyata knowledge yang dimiliki
bahwa untuk seluruh potential customer dengan
saving medium memiliki credit
risk yang baik dengan keakuratan 100%. Sedangkan
untuk nilai low asset terdapat
kemungkinan good credit risk dan bad credit risk.
Jika tidak
terdapat pemisahan lagi yang mungkin dilakukan, maka algoritma
decision tree akan berhenti
membentuk decision node yang baru. Seharusnya setiap
branches diakhiri dengan “pure”
leaf node, yaitu leaf node dengan target variable
yang bersifat unary untuk setiap
records pada node tersebut, di mana untuk setiap nilai predictor
variable yang sama akan memiliki nilai target variable yang sama.
Tetapi, terdapat kemungkinan
decision node memiliki “diverse” atributes, yaitu
bersifat non‐unary untuk nilai target
variablenya, di mana untuk setiap record dengan
nilai predictor variable yang
sama ternyata memiliki nilai target variable yang
berbeda. Kondisi tersebut
menyebabkan tidak dapat dilakukan pencabangan lagi
berdasarkan nilai predictor
variable. Sehingga solusinya adalah membentuk leaf node
yang disebut “diverse” leaf node,
dengan menyatakan level kepercayaan dari diverse
Dari training
data tersebut kemudian disusunlah alternatif untuk candidate
split, sehingga setiap nilai
untuk predictor variable di atas hanya membentuk 2
Kemudian untuk
setiap candidate split di atas, dihitung variabel‐variabel
berikut berdasarkan training data
yang dimiliki. Adapun variabel‐variabel
tersebut,
Dapat dilihat
dari contoh perhitungan di atas, bahwa yang memiliki nilai
goodness of split * Φ(s/t) + yang
terbesar, yaitu split 4 dengan nilai 0.64275. Oleh
karena itu split 4 lah yang akan
digunakan pada root node, yaitu split dengan : assets
= low dengan assets = {medium,
high}.
Untuk penentuan
pencabangan, dapat dilihat bahwa dengan assets=low maka
didapatkan pure node leaf, yaitu
bad risk (untuk record 2 dan 7). Sedangkan untuk
assets = {medium, high} masih
terdapat 2 nilai, yaitu good credit risk dan bad credit
risk. Sehingga pencabangan untuk
assets = {medium, high} memiliki decision node
baru. Adapun pemilihan split yang
akan digunakan, yaitu dengan menyusun
Demikian
seterusnya hingga akhirnya dibentuk leaf node dan membentuk
Post a Comment