Langkah-Langkah Data Preparation Menggunakan Excel

digitalskola

digitalskola

8 Desember 2021

data preparation menggunakan excel
Photo by Campaign Creators on Unsplash

Sebagian besar data sets perlu sebelum melewati proses analisis. Hal ini dikarenakan hasil analisishanya menghasilkan output yang berarti apabila data yang diolah punya kualitas tinggi. Sekumpulan data berukuran kecil maupun menengah, data entry yang salah, maupun value yang tidak konsisten dapat berpengaruh besar pada hasil analisis yang cenderung bias. Proses pelaksanaan data preparation meliputi proses yang berbeda-beda, tergantung jenis data yang ingin dianalisis. Bagaimana kamu bisa melakukan langkah-langkah yang dibutuhkan secara efektif menggunakan Excel? Dengan asumsi bahwa kamu sudah mengumpulkan seluruh data yang dibutuhkan, kamu harus melalui lima langkah data preparation menggunakan Excel.

Sebelum melangkah menuju proses preparation, jangan lupa untuk melakukan back up dari data mentah. Tujuannya untuk mencari beberapa informasi dalam data asli. Bila berurusan dengan big data yang menyebabkan Excel menjadi lambat beroperasi, gunakan operasi dengan sampel kecil sebelum menerapkannya pada data sets. Selain menghasilkan data berkualitas, nyatanya proses ini mampu membantu menangkap error agar tidak memegaruhi kebenarannya. Oleh karena itu, simak langkah-langkah praktis data preparation yang dapat kamu lakukan memakai Excel di bawah ini.

Langkah-Langkah Data Preparation Menggunakan Excel

Import data

Pisahkan data dari adanya batasan-batasan tertentu. Ketika melakukan import data, kamu harus menyadari adanya batasan yang bersih dari entries. Sistem IT biasanya mendefinisikan batasan atau delimiter seperti titik koma atau koma. Melalui Microsoft Excel, kamu juga disarankan memakai import function untuk membuatnya dalam bentuk tabel. Lakukan impor terhadap file csv dan bukan file txt. Dibandingkan membuka file csv, import function memiliki keuntungan berupa kemudahan menentukan character encoding. Bila import tidak berfungsi dengan baik atau kamu hanya membutuhkan atribut tertentu, lakukan split operations di tingkatan advanced

Misalnya, ketika kamu ingin melakukan ekstrak terhadap domain alamat e-mail. Kamu perlu mengekstrak bagian antara @ dengan tiitik terakhir. Bila memakai fungsi Excel yang asli, LEFT dan RIGHT dapat membantu kamu dalam melakukan extract dari bagian-bagian teks. FIND function mampu menentukan delimiter yang dimaksud dan LEN function dapat menghasilkan panjang urutan karakter untuk melewati proses extract

BACA JUGA: Excel Hacks: Tips Menaklukkan Data Analyzing

Format adjustments

Sebelum menggabungkan dan menganalisis data, sangat penting untuk menyelaraskan format data. Jika data atau sistem IT berasal dari negara dan bahasa yang berbeda, kamu harus memastikan ketepatan pemisah desimal secara konsisten. Hal yang sama juga berlaku pada format penanggalan, mata uang, atau unit pengukuran. Mengubah data sets dengan format berbeda menjadi sebuah standar sebelum menggabungkannya adalah solusi terbaik di Excel. Untuk tipe tanggal, kamu dapat menggunakan Number function pada Excel. Untuk memastikan bahwa data dianalisis dengan tepat, kamu harus menyimpannya dalam format yang benar. 

Misalnya, data yang kamu kerjakan mungkin mempunyai numerical identifier yang tidak memiliki makna numerik. Masukkan ke dalam format teks sebagai bentuk pemberitahuan kepada Excel bahwa data tersebut bukanlah angka. Excel akan membantu menentukan format tanggal di bagian Home, tepatnya Number section. Jika aktivitas impor masih gagal karena alasan tertentu, beberapa simbol mungkin telah rusak akibat character encoding yang berbeda pada sistem IT. Perbaiki dengan memanfaatkan find and replace function. Saat mengekspor data dari sistem IT, banyak gangguan yang mungkin bisa terjadi. Salah satunya adalah truncations atau putusnya data entries pada posisi tertentu. Solusinya adalah meminta aktivitas ekspor terbaru dan lebih sehat.

Perbaiki inkonsistensi

Periksa entry yang tidak konsisten menggunakan aturan khusus. Sumber daya berharga saat melakukan data preparation adalah pengetahuan kamu sendiri mengenai data tersebut. Aturan khusus tersebut dapat mendeteksi data yang salah. Seluruh proses yang terjadi akan mengikuti prinsip-prinsip logika Boolean. Sebelum menerapkan aturan apapun ke dalam data, kamu akan terbantu jika mengejanya memakai natural language. Kamu juga dapat menerapkan validation rules pada Excel menggunakan IF function. Kamu akan memperoleh additional validation column yang menunjukkan aturan telah terpenuhi atau tidak. Di sini, kamu ingin output pada validation column menjadi “ok”  ketika bila usia lebih besar atau sama dengan nol dan “error”bila usia lebih kecil dari 0. Dengan asumsi F adalah usia, maka rumusnya:

=IF(F2>=0;”ok”;”error”)

Kamu juga dapat mempraktikkannya pada kondisi yang lebih kompleks. Misalnya, ketika kamu ingin menganalisis product range. Kamu bisa menerapkan aturan, “Berat pengiriman celana selalu lebih kecil dari 2 kilogram”. Untuk membuat implementasi Excel yang lebih mudah, kamu dapat mengungkapkan kondisi terdekat menuju terminologi logis terlebih dahulu dengan rumus:

IF”category”EQUAL TO”pants”THEN”shipping_weight”SMALLER THAN”2”

Jika kamu bekerja dengan numerical data, kamu perlu memeriksa data untuk keperluan outlier. Adanya outlier merupakan nilai menyimpang dari distribusi data yang dapat diamati. Deteksi statistik outlier cenderung lebih rumit untuk diterapkan di Excel. Kamu disarankan untuk mengurutkan nilai berdasarkan ukuran dan memeriksa entry mencurigakan di batas atas atau bawah dari range yang telah dibuat.

Sedangkan, categorical data memerlukan proses untuk memastikan bahwa tidak ada konvensi berbeda untuk menerapkan kategori tertentu. Misalnya, jika kamu ingin menganalisis portofolio produk, pastikan produk serupa tidak dimasukkan ke kategori berbeda. Jika kamu memiliki sejumlah kecil kategori, masukkan filter dan periksa seluruh kategori yang tersedia secara manual. Bila range kategori yang bersangkutan lebih besar, kamu disarankan melakukan plotting terhadap seluruh frekuensi kemunculan pada setiap kategori.

Remove duplicates

Lakukan duplikat data dengan mempertimbangkan fuzzy duplicates. Langkah penting lainnya sebelum menggabungkan dan menganalisis data sets adalah menghapus duplicate entries. Upaya ini cukup sederhana jika kamu hanya ingin menemukan duplikat paling tepat. Kamu dapat menghapusnya dengan Remove Duplicates function di Data Ribbon. Duplikat yang sebenarnya tidak persis sama. Sedikit perbedaan bisa terjadi karena kesalahan pengetikan atau konvensi penamaan yang berbeda. Untuk mendeteksi duplikat semacam ini, gunakan fuzzy matching algorithm yang canggih atau solusi manual.

BACA JUGA: Excel vs Google Sheets: Serupa tapi Tak Sama?

Gabungkan data sets

Jika kamu tidak hanya ingin menganalisis single data entry, langkah terakhir pada data preparation adalah menggabungkannya. Cukup salin kolom dari satu sheet menuju sheet lainnya bila data sudah diurutkan. Namun, hal ini terkadang tidak direkomendasikan karena kamu berisiko menyalin data yang salah bila melewatkan satu baris saja. Akan lebih baik bila mengidentifikasi kriteria kecocokan dan menarik data berdasarkan kriteria dari satu tabel terhadap tabel lainnya. Gunakan VLOOKUP bila ada kriteria kecocokan yang unik pada setiap baris data sets. Namun, lebih dari satu kriteria kecocokan dapat menggunakan kombinasi antara INDEX dan MATCH. 

Itulah tahapan-tahapan yang perlu kamu lakukan untuk mengimplementasikan data preparation menggunakan Excel. Data sets berukuran kecil sampai besar perlu melewati proses preparation agar mampu menghasilkan pengolahan dan output berkualitas. Selain itu, kamu juga tidak perlu kebingungan mengalami error atau kesalahan di tengah-tengah proses analisis memakai Excel.

Ingin menguasai data analysis lebih lanjut menggunakan Excel yang serbaguna dan merasakan manfaatnya di dunia kerja? Belajar sekarang di Short Course: Learn Data Analysis with Excel dan kuasai keterampilan pengolahan data secara efektif dalam 4 sesi pembelajaran bersama Digital Skola.

chat