Data Mining: Market Basket Analysis for Marketing Strategy


Kehadiran teknologi informasi terutama basis data dalam suatu perusahaan sudah menjadi hal yang umum bahkan mungkin menjadi kebutuhan pokok perusahaan. Basis data tersebut pada mulanya hanya digunakan sebagai alat penyimpan data atau transaksi. Sejalan dengan perkembangan perusahaan, basis data tersebut mulai dimanfaatkan oleh pihak manajemen sebagai sumber analisa yang berguna untuk mengambil keputusan.

Aplikasi manajemen bisnis, pengawasan produksi, dan analisa pemasaran sampai dengan desain produksi dan eksplorasi pengetahuan (knowledge) merupakan beberapa contoh pemanfaatan basis data saat ini. Untuk memperoleh potensi pengetahuan yang sangat berguna kita dapat memanfaatkan algoritma data mining. Pengertian data mining menurut Robert Grossman adalah penemuan dari pola-pola, asosiasi-asosiasi, anomali-anomali, struktur-struktur dan perubahan-perubahan di dalam basis data berukuran besar secara semi otomatis.
Data mining juga sering disebut sebagai Associaton Rule Mining. Menurut Jiawei Han & Micheline Chamber “Association rule mining searches for interesting relationships among items in a given data set“. Dari pendapat tersebut dapat disimpulkan bahwa data mining adalah teknik untuk menampilkan pola-pola keterkaitan data dalam basis data secara otomatis. Penemuan hubungan menarik sejumlah besar data transaksi perusahaan dapat banyak membantu proses pengambilan keputusan bisnis, seperti desain katalog, cross marketing and loss-leader analysis.

Data Mining yang diaplikasikan untuk bidang usaha retail adalah analisa keranjang belanja (market basket analysis). Market basket analysis adalah suatu analisa atas perilaku konsumen secara spesifik dari suatu golongan / kelompok tertentu. Sumber data dari market basket analysis antara lain dapat bersumber dari transaksi kartu kredit, kartu lotere, kupon diskon, panggilan keluhan pelanggan. Market basket analysis umumnya dimanfaatkan sebagai titik awal pencarian pengetahuan dari suatu transaksi data ketika kita tidak mengetahui pola spesifik apa yang kita cari. Kebutuhan market basket analysis berawal dari keakuratan dan manfaat yang dihasilkannya dalam wujud aturan assosiasi (association rules). Yang dimaksud dengan association rules adalah pola-pola keterkaitan data dalam basis data.

Untuk dapat lebih memahami tentang market basket analysis kita perlu membayangkan isi sebuah keranjang belanja seorang pengunjung/pelanggan pada saat berbelanja di supermarket, seperti yang terlukis pada gambar berikut:

Dengan memanfaatkan market basket analysis, kita akan mendapatkan pengetahuan tentang produk apa yang dibeli pelanggan (what), produk apa saja (which) yang sering dibeli secara bersama-sama dan berpeluang untuk dipromosikan, siapakah mereka (who) dan mengapa mereka melakukan suatu pembelian (why).

Hasil market basket analysis akan semakin baik jika item yang dilibatkan memiliki proposi frekuensi yang seimbang. Proposi yang seimbang membantu mencegah aturan yang didominasi oleh produk yang sering muncul. Cara yang dapat digunakan agar seluruh item dalam proposi yang seimbang adalah dengan menaikkan sebagian item yang berfrekuensi rendah ke klasifikasi yang lebih tinggi sehingga frekuensi mereka menjadi meningkat. Meskipun cara tersebut memberikan solusi, namun virtual item yang dihasilkan dapat menjadi penyebab utama redudansi aturan.

Proses market basket analysis dimulai dengan transaksi yang terdiri dari satu/lebih penawaran produk/jasa dan beberapa informasi dasar suatu transaksi. Hasil dari market basket analysis adalah berwujud aturan assosiasi (association rules).

…………..(1)

…………..(2)

Persamaan 1 menjelaskan bahwa nilai support
itemset (group variasi produk) A terhadap itemset B sebesar probabilitas dari gabungan itemset A dan B. Sedangkan Persamaan 2 menjelaskan bahwa persentase keyakinan (confidence) itemset A terhadap itemset B sebesar probabilitas dari gabungan itemset A dan B dibagi probabilitas itemset A.

Pengertian minimum support count adalah nilai minimum transaksi yang terlibat dalam setiap pembelian itemset (group variasi produk). Sedangkan confidence adalah besar nilai keyakinan atau kepastian bahwa suatu itemset lain akan turut dibeli pada saat bersamaan pembelian suatu itemset tertentu.

Pada proses market basket analysis bagian yang paling membutuhkan waktu terbanyak adalah proses pencarian kandidat support count Untuk memperoleh hasil terbaik dalam segi waktu dan kinerja maka proses pencarian kandidat support count dapat dilakukan secara serentak maupun terdistribusi. Serentak artinya proses pencarian dilakukan serentak pada setiap tingkat variasi itemset. Terdistribusi artinya proses pencarian pada setiap tingkat variasi itemset dibagi sejumlah itemset yang dihasilkan dari proses sebelumnya.

Penentuan nilai minimum support count dan persentase minimum confidence sebaiknya tidak terlampau kecil. Untuk itu besar dan kecil nilai / persentase minimum sangat bergantung pada ukuran database yang diolah serta bidang usaha perusahaan tersebut. Terdapat saran lain pengukuran hasil market basket analysis, yaitu peningkatan (improvement). Improvement merepresentasikan seberapa baik sebuah aturan dalam memprediksi hasil daripada sekedar mengasumsikan hasil pada tempat yang utama.

…………..(3)

Persamaan 3 menampilkan perhitungan improvement. Dari persamaan tersebut dijelaskan bahwa besar nilai improvement diperoleh dari probabilititas gabungan penentu (conditional) danhasil (result) dibagi dengan hasil perkalian antara probabilititas penentu dengan probabilititas hasil.

Ketika improvement lebih besar dari 1 maka hasil aturan menjadi lebih baik dari pada kesempatan acak dan merupakan hasil yang berguna. Dari rumus ini dapat disimpulkan bahwa nilai improvement akan semakin besar bila nilai probabilitas penentu (conditional) dan probabilitas hasil (result) semakin kecil. Misalkan nilai probabilitas penentu sebesar 3%, nilai probabilitas hasil sebesar 2 % dan nilai probabilitas gabungan dari penentu dan hasil sebesar 1%. Nilai improvement yang dihasilkan adalah 0,01 / (0,03 0,02) = 16,6.

Kelebihan dari proses market basket analysis, adalah sebagai berikut:

  • Hasilnya jelas dan mudah dimengerti sebab hanya merupakan suatu pola “jika-maka”. Misalnya: Jika produk A dan B dibeli secara bersamaan, maka kemungkinan produk C turut dibeli.
  • Market basket analysis sangat berguna untuk undirected data mining, yaitu pencarian awal pola.
  • Market basket analysis dapat memproses transaksi tanpa harus kehilangan informasi sebab dapat memproses banyak variabel tanpa perlu dirangkum (summarization) terlebih dahulu.
  • Proses komputasi yang lebih mudah daripada teknik yang kompleks seperti algoritma genetik & sistem syaraf, meskipun jumlah perhitungan akan meningkat pesat bersamaan dengan peningkatan jumlah transaksi dan jumlah items yang berbeda dalam analisis.

Kekurangan dari proses market basket analysis, adalah sebagai berikut:

  • Tingkat pertumbuhan proses secara eksponensial sebagai akibat pertumbuhan ukuran data.
  • Memiliki keterbatasan untuk atribut data, misalnya hanya berdasarkan tipe produk.
  • Sulit untuk menentukan items yang akan diolah secara tepat, sebab frekuensi dari items tersebut harus diusahakan seimbang.

Market basket analysis memiliki masalah dengan frekuensi items yang tidak merata

Disarikan dari karya tulis (thesis) Suwito.

14 Responses

  1. mau nanya tentang algoritma apriori pak, bisa minta tolong di jelaskan perhitungan manual algoritmanya?

  2. materi tentang asosiation rule yg pake algoritma ais bisa di share juga ndak pak? soalnya saya bingung cari tentang materinya. terima kasih

  3. pak budi, apakah kalo kita memakai algortima C5 harus membayar…???, s

  4. pak,,saya berterima kasih atas informasi tersebut..
    same dengan bapak gumy diatas,,saya juga sedang menjalani tugas akhir,,saya berencana memakai c5,,bisa tolong bantu saya pak masalah bahan bacaan,…trims

  5. hmm..begitu ya..

    bagaimana dengan algoritma C5.0??

    • Algoritma c5.0 merupakan pengembangan c4.5, perbedaannya pada c4.5, eror klasifikasi pada setiap kelas node dianggap sama, sedangkan pada c5.0 bisa dipisahkan untuk masing-masing node. Kemudian pada c5.0 atribut case weight, untuk memberi mana case yang lebih penting.
      Kalo algoritmanya sama dengan c4.5, menggunakan konsep information gain atau entropy reduction untuk memilih split yang optimal.

      • bisa share materi tentang Algoritma C5.0 pak?
        atau kalau ada link ebook yang khusus membahasnya?
        Nampaknya saya memang memakai algoritma ini dalam Tugas AKhir saya

        Best Regard.

      • Wah maaf karena kesibukan saya thesis baru sempat membalas. Ya insya Allah saya bisa bantu, nanti saya kirim lewat email Anda.

      • bagaimana dengan share materinya pak?
        Terimakasih

      • Maaf sampai saat ini ternyata saya tidak mendapatkan materi tentang C5.0.. mohon maaf sekali lagi

      • Maaf pak,,
        bisakah saya mendapatkan file, link, atau ebook mengenai C5 ini?
        karena saya juga sedang ingin mempelajarinya,Pak..
        Terimakasih..

      • Wah permintaan Anda sama dengan saudara gumy.. sayangnya sampai saat ini saya belum mendapatkan materinya. Kebanyakan materi yang saya miliki membahas C4.5 dan hanya sekilas menyebut C5.0. Jadi saya mohon maaf belum bisa memenuhi request Anda.

  6. mau nanya tentang algoritma daalam data mining terutama algoritma THAID ( theta AID )…
    bisa diterangkan lebih rinci?
    terimakasih

    • wah sebelumnya saya mohon maaf saya takut tak bisa menjawab pertanyaan Anda. Di blog ini saya juga sedang sama-sama belajar, apa yang saya tulis disini adalah apa yang saya peroleh dalam proses kuliah. Dan kebetulan belum menyentuh materi THAID (entah kenapa padahal THAID dikembangkan lebih awal dibanding berbagai metode lain). Saya hanya bisa menjawab THAID merupakan suatu classification tree biner yang dirancang untuk mengkaji hubungan dengan variabel responnya nominal. Algoritmanya tak jauh berbeda dengan classification tree lainnya seperti CHAID. Mudah2an nanti saya bisa mengulasnya disini.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s

%d bloggers like this: