ANALISIS STATISTIK UNTUK MISSING DATA (INTRODUCTION)


Metode baku statistik telah dikembangkan untuk menganalisis data rectangular yaitu berupa matriks. Baris pada matriks data merepresentasikan unit, atau biasa juga disebut observasi, kasus (case), atau subyek, tergantung dari konteks permasalahan. Sedangkan kolom pada matriks merepresentasikan variabel yang diukur dari suatu unit. Sehingga suatu matriks data berukuran n x m terdiri dari n unit observasi dengan m variabel yang diukur. Tapi dalam prakteknya, tak selamanya akan diperoleh suatu matriks data yang lengkap. Misalnya dalam sebuah survey mungkin ada rumah tangga yang tidak menjawab pertanyaan tentang pendapatan. Atau dalam percobaan industri (misal untuk quality control) beberapa hasilnya akan hilang (missing) akibat kesalahan mekanis. Atau dalam jajak pendapat beberapa orang mungkin tak bisa memberikan pendapatnya. Pada dua kasus pertama tadi, sungguh wajar jika kita memperlakukan nilai yang ‘tak teramati’ tersebut sebagai ‘missing’, dengan anggapan bahwa sebenarnya nilai ‘tak teramati’ itu ada seandainya diterapkan metode atau cara survey atau percobaan yang lebih baik. Sedangkan pada kasus ketiga justru tidak wajar jika kita menganggap data tersebut sebagai ‘missing’ sehingga cukup diklasifikan sebagai kelompok ‘tidak tahu’.

Kasus ‘missing data’ ini akan mengakibatkan ketidaklengkapan data (incomplete data) dalam suatu model, sehingga akan menghambat analisis statistik yang akan dilakukan. Selain disebabkan oleh missing data, incomplete data juga bisa disebabkan oleh truncated distribution dan censored observation atau grouped observation.

Metode untuk Menangani Missing Data

Terdapat berbagai metode untuk menangani permasalahan missing data dalam analisis statistik. Berbagai metode tersebut dapat dibagi ke dalam kategori sebagai berikut:

1). Prosedur berbasis unit yang lengkap (completely recorded units)

Pada prosedur ini analisis hanya dilakukan terhadap unit (sebanyak n1 case, baris pada matriks data n x m) dimana untuk seluruh m variabel nilainya tercatat atau memiliki data yang lengkap. Sedangkan sebanyak n2 cases yang terdapat missing data pada variabel-variabelnya diabaikan, atau dikeluarkan dari analisis.

Metode ini cukup memuaskan jika jumlah missing data tidak terlalu besar, tapi prosedur ini menjadi tidak efisien jika persentase missing data (n2/n).100 meningkat atau jika missing data tersebut mengelompok. Hal tersebut akan menyebabkan hasil yang sangat bias.

2). Prosedur berbasis Imputasi.

Imputasi merupakan suatu alternatif yang umum dan fleksibel. Dalam prosedur ini, missing value diisi baik dengan menduga langsung atau menggunakan penduga berbasis korelasi. Namun bagaimanapun metode ini tetap menghasilkan bias, dimana nilai yang diimput berbeda dengan nilai sebenarnya dari missing data. Terdapat beberapa macam pendekatan untuk imputasi ini, antara lain:

a. Hot deck imputation, dimana dari unit-unit yang tercatat disubstitusikan terhadap missing data.

b. Cold deck imputation, dimana missing value diganti oleh suatu nilai yang konstan.

c. Mean imputation, yaitu dimana nilai yang hilang diganti oleh rata-rata (mean) dari kelompok sampel unit terkait.

d. Regression (correlation) imputation, yaitu dimana missing value dari suatu variabel diestimasi menggunakan nilai penduga dari regresi atau korelasi variabel tersebut pada variabel lainnya yang diketahui.

3). Prosedur Weighting

Pada prosedur ini estimasi biasanya didasarkan pada design weight, yaitu proporsional secara  terbalik terhadap peluang pemilihan sampelnya.

4). Prosedur berbasis Model

Suatu prosedur yang dibentuk dengan menentukan suatu model sebagian data yang hilang (missing data) tersebut dan selanjutnya melakukan inferensi berbasis pada likelihood dibawah model tersebut. Parameter diestimasi dengan suatu prosedur iteratif maximum likelihood dimulai dengan unit atau cases yang lengkap.

One Response

  1. maaf,, mau nnya klo untuk pengklasteran data dari mhasiswa yg mengajukan beasiswa, kriteria yg di pake untuk pengklasteran itu ada ipk, jumlah sks, pendapatan orang tua perbulan dan jumlah tanggungan keluarga, yg ingin saya tanyakan, itu untuk kriteria pendapatan org tua perbulan terdapat missing value, cara yg tepat untuk mengatasinya menggunakan metode apa ya..??
    mohon bantuannya,, terimakasih,,

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: