Interview Data Science: Contoh Pertanyaan dan Jawaban

digitalskola

digitalskola

5 September 2021

interview data science
Photo by Tim Gouw on Unsplash

Data science adalah salah satu ilmu teknologi yang terkemuka dan terus berkembang pesat sampai hari ini. Kondisi tersebut menyebabkan perusahaan besar berlomba-lomba untuk merekrut tenaga kerja profesional di bidang ini. Dengan tanggung jawab besar dan pemasukan yang sebanding, tidak sedikit orang yang memutuskan berpindah karier menjadi Data Scientist. Dalam upaya meraih karier impian, setiap proses dari membuat lamaran sampai interview data science harus dipersiapkan dengan baik.

Di antara sekian banyak topik terkait data science, salah satu yang paling sering menjadi materi interview adalah coding. KDNuggets menyebut, sebesar 34% interview data science melibatkan pertanyaan mengenai topik ini. Meskipun demikian, topik-topik lain yang penting dan krusial juga harus kamu kuasai dalam menghadapi sesi wawancara. Untuk itu, ada baiknya kamu mempersiapkan diri sejak awal sebelum melangkah ke tahap interview.

Jika kamu cermati, penerimaan tenaga kerja data science juga memiliki daftar pertanyaan interview yang umum diberikan kepada pelamar. Apa sajakah itu? Kamu dapat melihat daftar dan tips jawabannya lewat penjelasan di bawah ini.

BACA JUGA: Sertifikasi Data Science untuk Buktikan Performa

Pertanyaan dan Tips Jawaban untuk Interview Data Science

Coding

Sesuai pembahasan di atas, pertanyaan berbasis coding sangat penting dan cenderung dominan diantara materi lainnya. Saat mengerjakan tes terkait topik ini, kamu dapat melakukan praktik berdasarkan studi kasus yang diberikan. Soal-soal tersebut memang dirancang untuk menguji kemampuan coding, pemecahan masalah, serta kreativitas. Kamu dapat menjawabnya lewat media komputer maupun papan tulis.

Contoh pertanyaan yang berasal dari Facebook:

  • Buat return share terhadap pengguna aktif bulanan di Amerika Serikat. Pengguna aktif adalah pengguna yang berstatus ‘open’ pada tabel!

Pertanyaan tersebut tergolong dalam kategori topik kategorisasi, agregasi, dan rasio. Dalam menyelesaikan soal tersebut kamu harus mampu melakukan hal-hal berikut:

  • Memahami cara menulis kasus dengan benar
  • Melakukan agregasi hasil pernyataan kasus secara tepat
  • Mengambil rasio dari agregasi tersebut
  • Atur pengkodean berdasarkan langkah-langkah yang logis. Berdasarkan kasus, kamu dapat mengatur subquery untuk membagi logika. Selain itu, ada pula konversi tipe data dari integer ke float sehingga output berada diantara 0 dan 1.

Sering-seringlah berlatih untuk mempraktikkan coding. Selain model soal tersebut, masih ada empat konsep studi kasus lainnya dan dapat kamu pelajari lebih lanjut DI SINI.

Dasar-dasar machine learning

Memasuki materi machine learning, interview akan berjalan secara ketat dalam menilai bermacam-macam keterampilan teknis serta pemrograman. Tema-tema tersebut sudah termasuk pengetahuan seputar metode serta pemaparan terhadap konsep dasar. Tidak jarang, terdapat pertanyaan mengenai industri dan wawasan terkini tentang tren machine learning. Contoh pertanyaannya:

  • Apa perbedaan utama antara supervised dan unsupervised machine learning? Berikan contoh konkret!

Jawaban:

Teknik supervised machine learning yang mempelajari fungsi dan memetakan input menuju output. Misalnya dalam hal memecahkan masalah klasifikasi. Sebaliknya, unsupervised machine learning digunakan menarik kesimpulan dan menemukan pola data dari input data tanpa referensi menuju hasil berlabel.

Misalnya, jika saya mempunyai dataset dengan dua variabel, yaitu usia sebagai input serta tinggi badan sebagai output. Saya dapat menggunakan supervised learning untuk memprediksi tinggi badan berdasarkan usianya. Penggunaan umum pada unsupervised learning adalah pengelompokan pelanggan berdasarkan purchasing behavior untuk mencari target market.

  • Apa itu Kernel? Jelaskan mengenai Kernel trick!

Jawaban:

Kernel adalah cara menghitung dot product dua vektor x dan y di beberapa ruang pada fitur. Inilah sebabnya fungsi kernel biasa disebut sebagai generalized dot product. Kernel trick adalah metode penggunaan klasifikasi linier untuk menyelesaikan masalah non-linier melalui transformasi menuju data linier. Pemisahan secara linier memiliki dimensi yang lebih tinggi.

Statistik

interview data scientist
Interview Data Scientist (Photo by Sora Shimazaki from Pexels)

Komputasi statistik akan memproses pengambilan data dalam pembuatan model serta prediksi. Kumpulan pertanyaan pada topik ini menguji pengetahuan tentang teori statistik dan prinsip-prinsip yang terkait. Sangat penting untuk memahami latar belakang teoritis serta matematis berdasarkan analisis yang telah dilakukan. Pastikan kamu menguasai ragam topik seperti varian dan standar deviasi, kovarian dan korelasi, mean dan median, nilai-p, pengujian hipotesis, serta statistik Bayesian. Contoh pertanyaan terkait statistik:

  • Apa saja asumsi yang diperlukan untuk regresi linier?

Jawaban:

Terdapat empat asumsi utama, yaitu:

  • Ada hubungan linier antara variabel dependen dan regresi, artinya model yang telah dibuat sudah sesuai dengan data
  • Kesalahan data-data telah terdistribusi secara normal dan independen satu dengan yang lain
  • Terdapat multikolinearitas minimal antara variabel penjelas
  • Homoscedasticity yang artinya varian di sekitar garis regresi sama bagi seluruh nilai variabel prediktor
  • Bagaimana Anda menilai signifikansi statistik pada suatu insight?

Jawaban:

Saya akan melakukan pengujian hipotesis untuk menentukan signifikansi statistik. Pertama, saya akan menyatakan hipotesis nol dan hipotesis alternatif. Kedua, saya menghitung nilai nilai-p, probabilitas memperoleh hasil dari aktivitas pengamatan pada pengujian. Ada asumsi bahwa hipotesis nol adalah benar. Terakhir, saya menetapkan tingkat signifikansi (alpha). Bila nilai-p lebih kecil daripada alpha, maka reject null atau hasilnya signifikan secara statistik.

BACA JUGA: Skill Data Science yang Harus Dikuasai

Probabilitas atau peluang

Topik ini memberikan pertanyaan khusus yang hanya berhubungan dengan probabilitas, tanpa ada subtopik lainnya. Sifatnya cenderung imajinatif dan umumnya mampu menunjukkan pemikiran kamu secara kritis. Umumnya, interview data science ini dibungkus dalam bentuk soal mengenai peluang dari kartu atau dadu. Sebagian besar perusahaan tidak ingin melewatkan sesi tanya jawab mengenai probabilitas.

  • Alisa mempunyai 2 anak dan salah satunya adalah perempuan. Berapa peluang bahwa anak yang lain juga perempuan? Anda dapat berasumsi bahwa jumlah laki-laki dan perempuan sama di seluruh dunia.
  1. 0,5
  2. 0,25
  3. 0,333
  4. 0,75

Jawaban: C

Hasil peluang untuk dua anak: {LL, LP, PL, PP}

Telah disebutkan jika salah satunya adalah anak perempuan. Oleh sebab itu, kita dapat menghapus LL dari ruang sampel. Hanya satu opsi yang menunjukkan bahwa kedua anak perempuan. Maka dari itu, jawabannya adalah ⅓ atau 0,333

  • Sebuah roda roulette mempunyai 38 slot yang terdiri dari 18 merah, 18 hitam, dan 2 hijau. Anda memainkan lima pertandingan dan selalu bertaruh merah. Berapa peluang Anda memenangkan seluruh pertandingan?
  1. 0,0368
  2. 0,0238
  3. 0,0526
  4. 0,0473
  • Jawaban: Peluang untuk semua putaran yang mengenai warna merah adalah 18/38. Sekarang, saya bermain sebanyak 5 kali dengan peluang memenangkan semuanya adalah (18/38)5 = 0,0238 (B)

Desain sistem

Topik interview data science berikutnya berhubungan dengan perancangan sistem teknologi. Sebagai kandidat, perekrut akan meminta kamu menganalisis suatu proses pemecahan masalah, pembuatan, sampai perancangan sistem yang mampu membantu klien. Kunci utama yang dapat membantu kamu adalah mengetahui dan memahami bisnis perusahaan. Pikirkan database yang cenderung diperlukan perusahaan bersamaan dengan pendekatan desain sistem tersebut.

Terdapat susunan kerangka berpikir yang dapat kamu terapkan dalam menyusun desain sistem, antara lain:

  • Klarifikasi  kebutuhan dengan menjawab banyak data yang dapat diakses, jenis model, kendala hardware, serta pengulangan model
  • Matriks online dan offline
  • Arsitektur model dan data
  • Penyajian melalui A/B testing, pemantauan performa, analisis bias serta kekurangan, dan seberapa sering pengulangan dilakukan

Product

Tahapan interview ini akan meminta kamu untuk mengevaluasi kinerja sebuah produk maupun jasa terhadap data. Kamu akan melatih adaptasi dalam menerapkan data science pada lingkungan kerja lainnya. Konsep yang diujikan biasanya bergantung pada perusahaan tersebut. Pastikan bahwa kamu sudah mengetahui bisnis, produk, serta penggunanya. Contoh pertanyaan mengenai produk:

  • Pertumbuhan pada jumlah tweet yang dikirim cenderung lambat bulan ini. Apa yang akan Anda lihat untuk menentukan penyebab masalah?

Jawaban:

  • Melihat pertumbuhan tweet kompetitor
  • Mengecek engagement pada media sosial
  • Periksa data penjualan
  • Katakanlah Anda bekerja di bagian Facebook News Feed. Menurut Anda, apa saja matriks yang termasuk penting? Bagaimana upaya Anda agar setiap orang dapat menerima news feed yang lebih relevan?

Jawaban:

  • Menyusun peringkat setiap tindakan user, durasi tinggal, serta CTR yang disponsori
  • Optimasi news feed melalui affinity score, weight, dan time decay

Berbagai tips serta contoh pertanyaan dan jawaban interview data science di atas adalah referensi yang dapat menjadi bekal selama mengikuti proses pelamaran kerja. Pelajari setiap kebutuhan interview melalui topik-topik detail yang mendukung kinerja kamu sebagai seorang Data Scientist. Selamat mencoba!

Referensi Portfolio Data Science

Biasanya, saat interview data science lebih tepatnya saat interview user, kamu juga akan diminta untuk menunjukkan portfolio data science yang kamu miliki dan mempresentasikan portfolio tersebut. Bahkan tak jarang ada user yang melemparkan beberapa pertanyaan terkait portfolio data science yang kamu buat. Jika kamu saat ini masih belum menyusun portfolio dan ingin mencari referensi portfolio, kamu bisa ikuti beberapa referensi di bawah ini: 

Portfolio Python 

Portofolio Python (Source: Fiverr)

Pertama, kamu bisa membuat portfolio yang berisi berbagai project Python. Mengutip dari Kaggle, ada lima project Python yang bisa kamu jadikan referensi untuk membuat portfolio data science

Scraping Stock Prices from Yahoo Finance, kamu bisa membuat portfolio dengan scrape dan membersihkan data keuangan dari Yahoo menggunakan berbagai perpustakaan yang ada di Python. Di project ini kamu akan menggunakan berbagai komponen HTML dan mengekstrak komponen dari situs web. Lalu, kamu juga akan menulis fungsi untuk mengurai data mentah, memilih beberapa saham, dan mengekspor data sebagai file JSON. Untuk tutorialnya, kamu bisa menonton lebih lengkap di YouTube John Watson Rooney

Instagram Reach Analysis Project, dalam project ini kamu akan menganalisis kumpulan data Instagram menggunakan berbagai grafik visualisasi untuk menjelaskan tren dan pola yang ada di Instagram dan membuat model machine learning sederhana untuk memprediksi jangkauan postingan di Instagram. Untuk tutorialnya dan dataset yang bisa digunakan kamu bisa akses lebih lengkap di Instagram Reach Analysis using Python – Aman Kharwal

Flight Price Prediction with Flask App, dalam project ini kamu akan membersihkan data, melakukan analisis data, dan memvisualisasikan data untuk memahami tren harga tiket, melatih dan mengevaluasi model, serta membuat inferensi modal menggunakan Flask. Untuk tutorialnya dan dataset yang bisa digunakan kamu bisa akses lebih lengkap di Flight Price Prediction with Flask app – Abhishek Sharma

Time Series Analysis and Forecasting End-to-End Project, dalam project ini kamu akan membuat menganalisis data dan memvisualisasikan tren untuk menghasilkan strategi perkiraan yang lebih baik. Dalam project ini kamu juga akan mendalami analisis rangkaian waktu dan membandingkan tren masa lalu dan masa depan. Untuk tutorialnya dan dataset yang bisa digunakan kamu bisa akses lebih lengkap di An End-to-End Project on Time Series Analysis and Forecasting with Python – Towards Data Science

Automatic Speech Recognition Project, dalam project ini kamu akan menangani dan memproses data audio dan teks untuk membangun dan meningkatkan model pengenalan suara multi-bahasa, membersihkan data audio dan teks serta menggunakan model bahasa n-gram untuk meningkatkan metrik kinerja WER. Untuk tutorialnya dan dataset yang bisa digunakan kamu bisa akses lebih lengkap di Automatic Speech Recognition using Facebook wav2vec2-xls-r-300m

Portfolio Machine Learning  

Portofolio Machine Learning (Source: Towards Data Science)

Kedua, kamu bisa membuat portfolio yang berisi berbagai project machine learning. Untuk memecahkan masalah dan mendapatkan insight dari data. Melalui project machine learning juga kamu bisa menunjukkan keterampilan kamu dalam pemrograman dan keterampilan menyelesaikan masalah menggunakan machine learning. Berikut lima project machine learning yang bisa kamu jadikan referensi atau bahan untuk portfolio data science

Product Review Sentiment Analysis, dalam project ini kamu akan membedakan antara sentimen negatif dan sentimen positif yang ada pada teks sumber. Dalam project ini kamu akan memerlukan teknik-teknik pemrosesan bahasa alami dan algoritma machine learning yang bisa diimplementasikan untuk membangun model yang akurat dalam menganalisis sentimen. Dengan model ini juga kamu bisa menunjukkan kemampuan kamu dalam memahami sentimen pelanggan, kecenderungan pasar, dan cara memperbaiki layanan serta produk untuk meningkatkan kepuasan pelanggan. Untuk tutorialnya dan dataset yang bisa digunakan kamu bisa akses lebih lengkap di GeeksforGeeks

Stock Price Prediction, dalam project ini kamu akan membangun model yang bisa memprediksi harga saham di masa depan berdasarkan data historis harga saham dan faktor lainnya yang mempengaruhi. Project ini juga bisa menunjukan kemampuan kamu dalam mengambil keputusan investasi yang tepat berdasarkan prediksi harga saham yang dibuat oleh model machine learning. Untuk tutorialnya dan dataset yang bisa digunakan kamu bisa akses lebih lengkap di Worldnews on Reddit from 2008 to Today – Kaggle.

Sales Forecast, dalam project ini kamu akan memprediksi angka penjualan di masa depan berdasarkan data historis menggunakan algoritma machine learning seperti pohon keputusan dan regresi linier untuk menganalisis pola dari data historis dan menghasilkan model prediksi yang memberikan perkiraan penjualan pada periode waktu tertentu. Untuk tutorialnya dan dataset yang bisa digunakan kamu bisa akses lebih lengkap di Walmart Sales Forecast – Kaggle.

Movie Ticket Price Predictions, dalam project ini kamu akan memprediksi harga tiket dari suatu film berdasarkan berbagai faktor seperti sutradara, pemain, genre, hingga popularitas film tersebut menggunakan algoritma machine learning yang menganalisis data historis harga tiket dan faktor-faktor terkait untuk akhirnya menghasilkan prediksi harga tiket yang akurat. Untuk tutorialnya dan dataset yang bisa digunakan kamu bisa akses lebih lengkap di TMDB Box Office Prediction EDA + ML – Kaggle. 

Music Recommendation, dalam project ini kamu akan membuat rekomendasi musik atau lagu sesuai dengan preferensi masing-masing pengguna memanfaatkan berbagai teknik machine learning seperti content-based filtering dan collaborative filtering. Untuk tutorialnya dan dataset yang bisa digunakan kamu bisa akses lebih lengkap di WSDM – KKBox’s Music Recommendation Challenge – Kaggle. 

Portfolio SQL 

Portofolio SQL (Source: StackDiary)

Ketiga, kamu bisa membuat portfolio yang berisi berbagai project SQL yaitu alat analisis dan manipulasi data yang penting untuk menarik insight berharga dari kumpulan data besar dalam ilmu data science. Berikut lima project SQL yang bisa kamu jadikan referensi atau bahan untuk portfolio data science

Fraud Detection, dalam project ini kamu akan menghasilkan insight dan temuan yang berharga seperti mengidentifikasi transaksi dengan jumlah yang sangat rendah atau tinggi, mendeteksi pola aktivitas mencurigakan, dan mengidentifikasi potensi akun atau perilaku penipuan. Untuk tutorialnya dan dataset yang bisa digunakan kamu bisa akses lebih lengkap di Fraud Detection SQL – GitHub. 

Library Management System, dalam project ini kamu akan mendapatkan insight terkait buku yang paling banyak dipinjam dan genre bacaan yang paling populer, mengidentifikasi waktu puncak pengunjung perpustakaan, menilai efisiensi staf perpustakaan dalam mengelola peminjaman dan pengembalian buku, pola keterlambatan pengembalian, dan dampak program dan acara perpustakaan terhadap keterlibatan pengguna. Untuk tutorialnya dan dataset yang bisa digunakan kamu bisa akses lebih lengkap di  Library Management System using MYSQL – Analytics Vidhya. 

Sales Analysis, dalam project ini kamu akan mendapatkan data terkait tren kinerja penjualan dari waktu ke waktu, menunjukkan produk atau kategori terlaris, menyoroti wilayah kinerja buruk, demografi pelanggan, strategi pemasaran yang dipersonalisasi, hingga korelasi antara penjualan dan faktor eksternal. Untuk tutorialnya dan dataset yang bisa digunakan kamu bisa akses lebih lengkap di  PROJECT-PORTFOLIO–Superstore-Sales-SQL-Data-Analysis – Github. 

Website Analysis, dalam project ini kamu akan memanfaatkan SQL untuk analisis data situs web untuk mengidentifikasi halaman dengan lalu lintas tertinggi, memahami pola navigasi pengguna, mengevaluasi efektivitas campaign pemasaran, dan mengukur dampak perusahan situs web terhadap keterlibatan pengguna. Untuk tutorialnya dan dataset yang bisa digunakan kamu bisa akses lebih lengkap di  Song-Website-Data-Analysis – GitHub. 

Inventory Management, dalam project ini kamu akan mengidentifikasi produk yang terjual dengan cepat, mengoptimalkan tingkat untuk mencegah kehabisan stok atau kelebihan stok, mengidentifikasi item yang pergerakannya lambat untuk potensi likuidasi atau strategi promosi. Untuk tutorialnya dan dataset yang bisa digunakan kamu bisa akses lebih lengkap di Inventory-Management-System – GitHub. 

Portfolio Bidang Meteorologi 

Selanjutnya, kamu bisa membuat portfolio yang berisi project terkait meteorologi, diantaranya:

Deteksi Cuaca, dalam project ini kamu akan menggunakan data rangkaian waktu dan algoritma untuk membuat prakiraan pada waktu tertentu. Kamu bisa meramalkan cuaca memanfaatkan dataset yang berisi data historis cuaca berdasarkan lokasi tertentu. Untuk tutorialnya dan dataset yang bisa digunakan kamu bisa akses lebih lengkap di daily climate time series data – Kaggle.

Portfolio Mengenai Pertanian 

Terakhir, kamu bisa membuat portfolio yang berisi project terkait bidang pertanian, diantaranya:

Plant Health Detection, dalam project ini kamu akan mendeteksi penyakit pada tanaman. Project ini bertujuan untuk menyediakan interface inspeksi otomatis berbasis gambar yang melihatkan penggunaan pemrosesan gambar yang dirancang sendiri dan teknik deep learning. Nantinya, kamu akan mendeteksi kondisi kesehatan tanaman. Kamu bisa mencoba mengerjakan project ini menggunakan Leaf Dataset.

Buat Portofolio Data Science dari 0

Jika kamu tertarik untuk mempelajari ilmu data science dan mempersiapkan diri untuk menjadi data scientist profesional, kamu bisa belajar bersama di Bootcamp Data Science di Digital Skola. Setelah menyelesaikan kelas, kamu akan menghasilkan portofolio seperti berikut:

Telco Churn Rate

Home Credit Default Risk

Rain in Australia

Di kelas ini, selain bimbingan tutor expert dan kurikulum yang lengkap, kamu juga akan membuat berbagai project untuk dijadikan portofolio meliputi:

  • Output Excel (library pandas)
  • Data Visualization with library Python
  • Data Visualization with Google Data Studio
  • Price Prediction (Regression)
  • Churn Prediction (Classification)
  • Object Segmentation (Clustering)
  • Demografi Data Set 
  • Profiling (Clustering or Classification) atau Transaction Data Set 
  • Behaviour (Regression, Clustering, Classification)

Tertarik mengikuti kelasnya? Klik link di bawah untuk info lengkap mengenai kelas!


Artikel Rekomendasi