Proses Kerja Data Scientist

digitalskola

digitalskola

13 April 2021

proses kerja data scientist
Proses Kerja Data Scientist (Foto: Freepik)

Data science adalah ilmu yang menggabungkan keahlian pemrograman, matematika, dan statistika. Tujuan dari data science adalah mengekstrak pengetahuan atau informasi yang ada pada data untuk membantu perusahaan mengambil keputusan. Orang di balik proses mengubah data menjadi insight ini adalah data scientist. Tentunya, dalam proses kerja data scientist, mereka menggunakan algoritma machine learning atau pembelajaran mesin untuk mengolah gambar, video, audio, teks, dan lainnya untuk menghasilkan insight yang digunakan bisnis untuk merancang strategi yang tepat untuk menyelesaikan suatu masalah atau mencapai tujuan tertentu. 

Bagi kamu yang saat ini baru belajar mengenai data science, mungkin akan muncul pertanyaan semacam, ‘Seperti apa pekerjaan data scientist?’, ‘Bagaimana data scientist melakukan pekerjaan mereka sehari-hari?’ atau ‘Bagaimana sebenarnya proses kerja data scientist berjalan?’. Jawabannya adalah data scientist di perusahaan-perusahaan umumnya akan melakukan proses kerja data scientist mengacu pada framework OSEMN dan data science life cycle. Penasaran? Simak artikel ini sampai akhir!

BACA ARTIKEL: Fantastis! Ini Gaji Data Scientist Fresh Graduate

Proses Kerja Data Scientist: Framework OSEMN 

Proses Kerja Data Scientist: Framework OSEMN 
                    Proses Kerja Data Scientist (Photo: Pinterest)

Salah satu framework yang banyak digunakan untuk proses kerja data scientist adalah framework OSEMN yaitu tahapan-tahapan atau urutan aktivitas yang dilakukan data scientist dalam proses pengelolaan data. Framework OSEMN ini memuat berbagai langkah yang dikerjakan oleh data scientist seperti:

  • Pengumpulan data
  • Persiapan data
  • Interpretasi data

Berikut penjelasan lengkap dari masing-masing step di framework OSEMN: 

Proses Kerja Data Scientist Obtain 

Proses kerja data scientist yang pertama menurut framework OSEMN adalah obtain  yaitu mendapatkan atau mengumpulkan data dari berbagai sumber seperti:

  • Media sosial
  • Feedback customer
  • Hasil survei

Data-data yang sudah dikumpulkan ini akan diproses menggunakan technical tools seperti:

  • MySQL
  • Python
  • R

Agar bisa dibaca dari sumbernya secara langsung ke program data science yang digunakan. 

Proses Kerja Data Scientist Scrub 

Proses Kerja Data Scientist - Scrub 
Data Scrubbing (Photo: Hevo Data)

Setelah data dikumpulkan, selanjutnya data akan masuk ke proses scrubbing data alias membersihkan data. Di tahapan ini, data scientist akan melakukan filter untuk menyingkirkan data yang tidak penting atau tidak relevan. Di tahapan ini juga akan dilakukan standrasisasi format data dengan proses:

  • Data dikonversi ke satu format yang sama
  • Data yang kurang atau hilang akan dilakukan penyesuaian
  • Penyatuan dan pemisahan kategori data

Jika disimpulkan, tahapan scrubbing ini adalah proses merapikan data dan membuang data yang tidak diperlukan. 

Proses Kerja Data Scientist Explore 

Proses Kerja Data Scientist - Explore 
                Data Exploration (Photo: Jaspersoft)

Selanjutnya tahap data scientist ketiga yaitu data exploration, di tahap ini data scientist akan melakukan pemeriksaan data yang meliputi:

  • Data diperiksa propertinya 
  • Statistik deskriptif dihitung untuk mengekstrak dan menguji variabel 
  • Visualisasi data untuk mengidentifikasi pola dan tren dalam data

Melalui tiga tahapan pemeriksaan data ini, data scientist akan memperoleh gambaran yang lebih jelas dan data yang sudah dikelola akan lebih mudah dipahami.

Proses Kerja Data Scientist Model 

Proses Kerja Data Scientist - Model 
Data Modeling (Photo: IBM)

Tahapan selanjutnya setelah memastikan tahapan obtain, scrub, dan explore sudah dilakukan dengan benar, maka data scientist akan masuk ke tahapan selanjutnya yaitu model. Pada tahapan ini data scientist akan menggunakan regresi dan prediksi untuk memperkirakan nilai di waktu yang mendatang dan melakukan klasifikasi serta pengelompokan grup nilai dari data. 

Proses Kerja Data Scientist Interpret 

Proses Kerja Data Scientist - Interpret 
           Data Interpreting (Photo: YouTube AIRichards314)

Tahap yang terakhir dalam proses data science adalah interpretasi data yaitu proses interpretasi model dan data. Output dari pengolahan data yang sudah diinterpretasi ini akan lebih mudah dipahami oleh orang-orang awam yang tidak mengerti istilah-istilah teknis di bidang data. Pada tahapan ini, data scientist akan mempresentasikan data untuk membantu menjawab persoalan bisnis berdasarkan data yang diperoleh. 

BACA JUGA: Bocoran Interview dan Data Science Test

Proses Kerja Data Scientist: Data Science Life Cycle 

Selanjutnya, proses kerja data scientist juga bisa terjawab dengan memahami data science life cycle. Jika kebetulan kamu memiliki pertanyaan yang sama, yakni seputar proses kerja data science, berikut jawaban termudah yang bisa kamu temukan: 

Business Understanding

Tugas seorang data scientist adalah menemukan jawaban dan solusi dari permasalahan bisnis. Untuk itu, hal pertama yang harus dilakukan oleh seorang data scientist adalah menentukan tujuan dan solusi secara persis masalah bisnis yang harus diselesaikan. Hal ini terlihat mudah, namun menjadi proses fundamental dalam kerja data scientist. Seorang data scientist sangat mungkin mendapatkan masukan mengenai berbagai masalah dari berbagai sumber. Dari berbagai masalah ini, data scientist harus mampu menerjemahkannya menjadi sebuah tindakan yang solutif.

Sebut saja, Manajer Penjualan perusahaan menyampaikan sebuah permasalahan. Data scientist harus mampu memahami permasalahan yang disampaikan serta tujuan yang ingin dicapai dari pengolahan data. Sebelum menemukan solusi yang tepat, data scientist harus mampu untuk mengkristalkan permasalahan dan cara terbaik melakukannya adalah dengan mengajukan pertanyaan yang tepat. Seperti apa pertanyaan yang tepat itu? Data scientist dapat mengajukan set pertanyaan kepada Manajer Penjualan seperti di bawah ini:

  1. Siapa konsumen kita?
  2. Mengapa mereka membeli produk kita?
  3. Bagaimana kita memprediksikan konsumen akan membeli produk kita?
  4. Bagaimana perbedaan segmentasi kelompok yang melakukan pembelian lebih baik dibandingkan segmentasi kelompok lain?
  5. dan seterusnya

Dalam merespons pertanyaan tersebut, Manajer Penjualan akan menunjukkan data yang dimiliki mengenai konsumen perusahaan. Jika Manajer Penjualan bermaksud mengembangkan penjualan kepada segmentasi kelompok lain, maka tugas data scientist adalah untuk menganalisis masalah tersebut dan memahami keseluruhan informasi yang dapat membantu mendukung tercapainya konklusi yang kuat.

Data Mining

         Data Mining (Photo: School of Information System BINUS)

Setelah berhasil mendefinisikan masalah, selanjutnya data scientist membutuhkan seluruh informasi yang dibutuhkan mengenai masalah tersebut demi tercapainya sebuah solusi. Proses ini meliputi pencarian dan penyeleksian seluruh data yang kemungkinan dibutuhkan, cara mendapatkan data tersebut baik itu dari sumber internal maupun eksternal. Dari data yang dimiliki, data scientist dapat mengekspornya menjadi file bertipe CSV untuk selanjutnya dilakukan analisis.

Data Cleaning

Data Cleaning
          Data Cleaning (Photo: WallStreetMajo)

Semua data mentah atau raw data telah diperoleh. Namun, sebelum dapat menggunakan data tersebut untuk dianalisis, data scientist perlu untuk memprosesnya terlebih dulu. Sebab, seringkali data yang dimiliki masih begitu berantakan dan acak terutama bila data tersebut belum pernah dikelola dengan baik. Jika memaksakan data mentah dianalisis, maka akan ditemukan error yang dapat mengacaukan analisis. Value dari analisis data dapat bernilai nol, bernilai ganda, atau bahkan menghasilkan value yang keliru. 

Untuk itu, sangat penting untuk mengecek data mentah agar proses analisis dapat menghasilkan nilai yang akurat. Ada beberapa kesalahan umum yang biasa dilakukan dalam pengecekan, yakni:

  1. Missing value
  2. Corrupted value
  3. Perbedaan zona waktu
  4. Data range error

Dibutuhkan pengecekan dalam kolom dan test value untuk memastikan value yang dihasilkan masuk akal. Jika terdeteksi data yang tidak masuk akal, maka data scientist perlu menghilangkan atau menggantinya dengan default value. Di sini intuisi sangat berperan dalam kerja data scientist.

Data Exploration

Data Exploration
          Data Exploration (Photo: Alteryx)

Jika data yang dimiliki sudah ‘bersih’ maka proses selanjutnya adalah mengeksplorasinya. Data scientist tentu bekerja dengan tenggat waktu, untuk itu prioritas permasalahan wajib dilakukan. Temukan pola menarik yang dapat menjelaskan alasan rendahnya penjualan pada kelompok tertentu. Data scientist akan menemukan pola tertentu seperti sebagian besar kelompok ini tidak aktif di media sosial, tidak memiliki Twitter, atau usia yang lebih tua daripada kelompok yang aktif membeli. Berdasarkan informasi ini, data scientist akan dapat melakukan eksplorasi pola secara lebih mendalam.

Feature Engineering

Feature Engineering
          Feature Engineering (Photo: SplashBI)

Feature engineering adalah proses untuk mengembangkan dan memilih fitur yang akan digunakan untuk melakukan analisis data atau membuat model machine learning. Tahapan feature engineering ini sangat penting dalam proses analisis data dan machine learning karena kualitas fitur yang dihasilkan nantinya bisa digunakan untuk menghasilkan manfaat yang besar pada kinerja model dan hasil analisis data yang dihasilkan. 

Predictive Modeling

Predictive Modeling
          Predictive Modeling (Photo: Analytics Vidhya)

Predictive modeling adalah metode untuk memprediksi hasil masa depan dengan menggunakan pemodelan data. Biasanya, metode ini digunakan oleh data scientist di perusahaan sebagai cara utama untuk melihat masa depan dan membuat rencana masa depan yang sesuai. Metode ini memiliki tingkat akurasi yang tinggi, oleh karena itu metode ini sangat umum digunakan. 

Data Visualization

Data Visualization
          Data Visualization (Photo: Beautiful.ai)

Proses terakhir dari kerja data scientist adalah mempresentasikan atau mengomunikasikan hasil dari analisis yang telah dilakukan. Seorang data scientist diharapkan memberikan solusi dan alternatif strategi berdasarkan analisis yang telah dilakukannya. Oleh karenanya, akan lebih baik bila data scientist tidak datang hanya dengan solusi tunggal, namun dengan pilihan beserta performa serta posibilitas keberhasilan strategi tersebut. 

Dalam proses ini, soft skills data science yakni interpersonal communication sangat berpengaruh. Data scientist harus mampu mengkomunikasikan hasil temuannya dengan bahasa yang mengalir dan mudah dimengerti oleh lawan bicaranya. Jelaskan secara runut permasalahan, sumber masalah, pola beserta solusinya. Dengan demikian, manajemen akan dapat mengambil sikap terbaik dalam merespons saran dari data scientist ini.

Belajar Proses Kerja Data Scientist

Belajar Proses Kerja Data Scientist
          Belajar Proses Kerja Data Scientist (Photo by Markus Spiske on Unsplash)

Bagaimana setelah mengetahui proses kerja data scientist kamu jadi semakin tertarik tidak nih untuk berkarier jadi data scientist? Jika tertarik, kamu bisa belajar di kelas Bootcamp Data Science Digital Skola. Di kelas ini, kamu akan belajar skill Data Science dengan bimbingan mentor expert menggunakan kurikulum sesuai kebutuhan industri seperti:

  • Data Science Methodology
  • SQL
  • Programming with Python
  • Analytics with Numpy
  • Statistics
  • Data Visualization
  • Dataframe
  • Git & Version Control System
  • Machine Learning

Penasaran? Cek info lengkapnya di bawah!

chat