Pada kesempatan yang lalu kita sudah membahas konsep perluasan dari analisis regresi dengan mempertimbangkan ketergantungan pada aspek kewilayahan (spasial). Pada dasarnya penggunaan regresi spasial harus dipastikan bahwa ketergantungan atau keberagaman dari aspek wilayah signifikan pada model regresi sehingga penggunaan regresi spasial pada data merupakan langkah yang tepat, akan tetapi jika hasil pengujian tidak signifikan maka regresi biasa merupakan langkah tepat yang sederhana. Selain itu, pembahasan pengaplikasian data pada software GWR 4 dapat membantu peneliti atau data master dalam memahami tahapan dalam menghasilkan model regresi yang terboboti oleh kewilayahan (spasial).
Pada kesempatan kali ini akan sedikit diuraikan pemahaman terhadap salah satu intrumen yang ada pada regresi spasial yang sangat menentukan dalam mengukur baik atau tidaknya model regresi spasial yang dihasilkan oleh data yaitu metode yang erat kaitannya dengan bandwidth yang dihasilkan untuk model. Pembahasan kali ini ada kaitannya juga dengan pertanyaan pembaca, yang hendak memahami secara konsepsi apa itu dan teknik penentuan bandwidth.
Definisi Bandwidth
Secara teoritis, bandwidth merupakan lingkaran dengan radius (b) dari titik pusat lokasi yang digunakan sebgai dasar penentuan bobot setiap pengamatan terhadap model regresi pada lokasi tersebut. Untuk pengamatan-pengamatan yang dekat dengan lokasi i maka akan lebih berpengaruh dalam membentuk parameter model lokasi ke-i. Karena itu pengamatan-pengamatan yang terletak di dalam radius (b) masih dianggap berpengaruh terhadap model pada lokasi tersebut, sehingga akan diberi bobot yang akan bergantung pada fungsi yang digunakan.
Metode pemilihan bandwidth sangat penting digunakan untuk pendugaan fungsi kernel yang tepat. Nilai bandwidth yang sangat kecil akan mengakibatkan varians membesar. Hal tersebut dapat disebabkan karena jika nilai bandwidth sangat kecil maka akan sedikit pengamatan yang berbeda pada radius (b). Namun ketika nilai bandwidth yang sangat besar akan mengakibatkan varians mengecil. Sehingga untuk menghindari varians yang tidak homogen akibat nilai pendugaan koefisien parameter yang meningkat, maka diperlukan suatu cara untuk memilih bandwidth yang tepat.
Menurut Fortheringham, dkk (2002) beberapa metode pilihan untuk pemilihan bandwidth optimum adalah sebagai berikut : 1) Cross Validation; 2) Akaike Information Criterion (AIC); 3) Generalized Cross Validation (GCV) dan 4) Bayesian Information Criterion (BIC).
Definisi Fungsi Likelihood
Karena dalam beberapa metode yang digunakan untuk menentukan bandwidth terdapat istilah likelihood, yang merupakan istilah matematik statistik, ada baiknya kita coba sampaikan sedikit pengertian terkait dengan likelihood atau fungsi likelihood yang merujuk pada definisi atau konsepsi yang diuraikan pada literatur rujukan.
Ide umum yang melatarbelakangi metode maksimum likelihood adalah sebagai berikut. Misalkan f(x,θ) merupakan fungsi kepadatan (density function) dari variabel random X dan misalkan θ merupakan parameter fungsi kepadatan. Kalau kita mengamati suatu sampel random X1, X2, . . , XN, maka penaksiran maksimum likelihood dari θ adalah nilai θ yang mempunyai probabilitas terbesar untuk menghasilkan sampel yang diamati. Dengan perkataan lain, taksiran maksimum likelihood dari θ adalah yang memaksimumkan fungsi kepadatan (density function). Note : fungsi kepadatan dapat diperjelas dengan pengdekatan distribusi peluang (jenis distribusi peluang yang sesuai dengan data).
Secara prinsipil pemahaman atas fungsi likelihood yang didapat dari literatur adalah sebagai berikut.
In frequentist inference, a likelihood function (often simply the likelihood) is a function of the parameters of a statistical model, given specific observed data. Likelihood functions play a key role in frequentist inference, especially methods of estimating a parameter from a set of statistics. In informal contexts, “likelihood” is often used as a synonym for “probability”. In mathematical statistics, the two terms have different meanings. Probability in this technical context describes the plausibility of a future outcome, given a model parameter value, without reference to any observed data. Likelihood describes the plausibility of a model parameter value, given specific observed data.
Cross Validation
Cross validation adalah salah satu teknik dalam mendapatkan nilai bandwidth yang sangat berguna dalam mendapatkan nilai pembobotan yang akan digunakan dalam proses perhitungan model regresi spasial. Jika dilihat dari perumusan yang digunakan untuk mendapatkan nilai bandwidth, CV, memiliki pola perumusan yang paling sederhana, seperti tampak pada perumusan CV berikut,
dengan y taksiran (y topi) adalah nilai penaksir yi dimana pengamatan di lokasi (ui,vj) dihilangkan dari proses estimasi. Untuk mendapatkan nilai radius (b) yang optimal maka diperoleh dari radius (b) yang menghasilkan nilai CV yang minimum.
Jika kita merujuk pada pemahaman dasar tentang cross validasi dan keluar telebih dahulu dari konsep bandwidth maka cross validasi dapat dimaknai sesuai dengan definisi dari literatur sebagai berikut.
“Cross-validation, sometimes called rotation estimation, is a model validation technique for assessing how the results of a statistical analysis will generalize to an independent data set. It is mainly used in settings where the goal is prediction, and one wants to estimate how accurately a predictive model will perform in practice. In a prediction problem, a model is usually given a dataset of known data on which training is run (training dataset), and a dataset of unknown data (or first seen data) against which the model is tested (called the validation dataset or testing set).The goal of cross validation is to define a dataset to “test” the model in the training phase (i.e., the validation set), in order to limit problems like overfitting, give an insight on how the model will generalize to an independent dataset (i.e., an unknown dataset, for instance from a real problem), etc.
One round of cross-validation involves partitioning a sample of data into complementary subsets, performing the analysis on one subset (called the training set), and validating the analysis on the other subset (called the validation set or testing set). To reduce variability, in most methods multiple rounds of cross-validation are performed using different partitions, and the validation results are combined (e.g. averaged) over the rounds to estimate a final predictive model.
Secara ringkas definisi teori di atas menunjukkan bahwa proses cross validasi melibatkan 2 konsep kelompok data dimana terdapat kelompok data validasi (test data) dan kelompok data rill (training data) yang diambil dari populasi yang sama dan jika dilakukan pemodelan pada dua kelompok data tersebut akan menghasilkan model yang relatif sama. Sedangkan apabila dihasilkan model yang tidak sama maka pada model yang dihasilkan (training data) terdapat masalah overfitting.
Gambar 1. Ilutrasi Data Fitting Berdasarkan Kriteria Cross Validation
Jika kita kembalikan kepada konsepsi bandwith maka fungsi cross validasi diterapkan pada data yang sama, berdasarkan konsepsi rumus di atas, kelompok data validasi (test data) diambil dengan cara menghilangkan nilai titik data ke-i untuk dibandingkan dengan kelompok data keseluruhan (training data) dengan cara iterasi sampai diiperoleh nilai CV yang minimum.
Akaike Information Criterion (AIC)
Konsepsi pada AIC tidak jauh beda dengan konsepsi pada CV. Yang pada intinya mengkomparasikan model yang mungkin dibentuk dari suatu set data yang dapat menghasilkan model dengan kekeliruan seminimal mungkin. Sehingga kaitannya dengan konsepsi regresi spasial khususnya pada pemilihan bandwidth, maka akan dipilih nilai AIC yang dapat meminimalkan kekeliruan model atau meminimalkan hilangnya informasi dari data pada model yang terbentuk.
Jika kita merujuk pada pemahaman dasar tentang AIC dan keluar telebih dahulu dari konsep bandwidth maka AIC dapat dimaknai sesuai dengan definisi dari literatur sebagai berikut.
The Akaike information criterion (AIC) is an estimator of the relative quality of statistical models for a given set of data. Given a collection of models for the data, AIC estimates the quality of each model, relative to each of the other models. Thus, AIC provides a means for model selection.
AIC does not provide a test of a model in the sense of testing a null hypothesis. It tells nothing about the absolute quality of a model, only the quality relative to other models. Thus, if all the candidate models fit poorly, AIC will not give any warning of that.
Misal kita memiliki model-model statistik dari suatu set data. Dengan k adalah jumlah parameter dalam model yang akan ditaksir dan L adalah nilai maksimum dari fungsi likelihood model. Maka AIC dapat dirumuskan secara matematis sebagai berikut :
Dengan kriteria berdasarkan definisi yang didapat dari literatur sebagai berikut,
Given a set of candidate models for the data, the preferred model is the one with the minimum AIC value. Thus, AIC rewards goodness of fit (as assessed by the likelihood function), but it also includes a penalty that is an increasing function of the number of estimated parameters. The penalty discourages overfitting, because increasing the number of parameters in the model almost always improves the goodness of the fit.
Bayesian Information Criterion (BIC)
Sama halnya dengan AIC, BIC berdasar pada fungsi likelihood dari suatu set data. Fungsi dari BIC adalah sebuah kriteria dalam pemilihan model terbaik dari suatu set model (banyak model). Dimana yang menjadi kriteria adalah model yang memiliki nilai BIC yang paling rendah adalah model yang paling baik.
Dimana L adalah nilai maksimum dari fungsi likelihood dari model; n adalah ukuran sampel dan k adalah jumlah parameter model yang ditaksir (termasuk konstantan, koefisien beta dan error).
Pada prinsipnya konsepsi penggunaan BIC dengan AIC adalah sama, yang membedakan adalah pada operator penalti bagi parameter yang digunakan dalam kedua model perumusan. Dimana pada AIC operator penalti yang digunakan adalah “2k” sedangkan pada BIC operator yang digunakan adalah “ln(n)k”.
Dan secara prinsipil perbedaan antara AIC dan BIC yang didapat dari literatur adalah sebagai berikut.
A point made by several researchers is that AIC and BIC are appropriate for different tasks. In particular, BIC is argued to be appropriate for selecting the “true model” (i.e. the process that generated the data) from the set of candidate models, whereas AIC is not appropriate. To be specific, if the “true model” is in the set of candidates, then BIC will select the “true model” with probability 1, as n → ∞; in contrast, when selection is done via AIC, the probability can be less than 1. Proponents of AIC argue that this issue is negligible, because the “true model” is virtually never in the candidate set. Indeed, it is a common aphorism in statistics that “all models are wrong”; hence the “true model” (i.e. reality) cannot be in the candidate set.
Guna memandu pemahaman pada para peneliti atau data master, ada baiknya kita sarankan untuk memahami terlebih dahulu secara mendalam konsep CV dibandingkan dengan AIC dan BIC. CV relatif sederhana (sebagai analogi pahami gambar 1) dalam segi memahami dalam konsepsi matematisnya dibandingkan dengan konsepsi matematis pada AIC dan BIC. Namun secara umum ketiga kriteria CV, AIC dan BIC dalam hal penerapannya pada konsepsi bandwitdh pada pemodelan regresi spasial dapat dijadikan dasar pertimbangan yang saling melengkapi, dikarenakan secara aplikasi (pada software GWR 4) ketiga ukuran tersebut muncul dan dapat dikomparasikan sehingga memudahkan peneliti dalam menentukan pemilihan model regresi spasial yang ideal pada data yang dimilikinya. SEMANGAT MEMAHAMI!!!
Referensi :
- https://en.wikipedia.org/wiki/Akaike_information_criterion
- https://en.wikipedia.org/wiki/Likelihood_function
- https://en.wikipedia.org/wiki/Cross-validation_(statistics)
- https://en.wikipedia.org/wiki/Bayesian_information_criterion
———————————————————————————————————————————————————-
- Jika rekan peneliti memerlukan bantuan Survey Lapangan, Survey Online ataupun Olah Data dapat menghubungi mobilestatistik.com :
- WhatsApp : 081321709749
- Email : welcome@mobilestatistik.com
- Klik “Konsultasi Gratis” untuk mendapatkan informasi atau solusi terkait dengan pertanyaan-pertanyaan seputar metodologi penelitian.
- “1st Kirim Pertanyaan, Kami Jawab . . . InsyaAllah”
———————————————————————————————————————————————————-