Kumpulan Proyek untuk Belajar Data Science bagi Pemula

digitalskola

digitalskola

4 Oktober 2021

belajar data science
Photo by ThisIsEngineering from Pexels

Apakah saat ini kamu sedang giat-giatnya untuk belajar data science? Tidak hanya mempelajari teori dan pengetahuan dari berbagai sumber, pembelajaran secara praktik juga penting untuk meningkatkan kemampuan sebagai seorang Data Scientist. Untuk mencapai tujuan pembelajaran yang efektif, salah satu cara yang bisa kamu lakukan adalah mengerjakan berbagai proyek di bidang data science. Setelah dirasa punya pengetahuan yang luas dan mendalam mengenai topik tertentu, kamu perlu mengeksekusi model belajar ini secara maksimal.

Apakah saat ini kamu sedang giat-giatnya untuk belajar data science? Jika iya, kamu harus mengetahui untuk bisa menjadi data scientist, kamu harus melewati beberapa tahapan belajar mulai dari mempelajari teori hingga praktik untuk meningkatkan kemampuan sebagai seorang data scientist. Faktanya, data science merupakan multidisiplin ilmu yang menggabungkan ilmu statistika, bahasa pemrograman, dan pengetahuan bisnis. Maka dari itu, tahapan belajar data science yang kamu lalui harus mencakup tiga ilmu tersebut.

Jika kamu saat ini sedang mencari informasi terkait tahapan belajar data science untuk pemula. Maka kamu bisa simak artikel ini sampai akhir!

BACA JUGA: Fantastis! Ini Gaji Data Scientist Fresh Graduate

Pahami Peran Profesi di Bidang Data

Tahapan belajar data science pertama sebagai pemula adalah memahami perbedaan dari masing-masing peran di setiap profesi di bidang data. Ini jadi hal yang penting untuk dipelajari karena nantinya saat bekerja di industri kamu tidak hanya bekerja sendiri, namun juga bekerja dengan profesi di bidang data lainnya. Berikut perbedaan dari masing-masing profesi yang ada di team data:

  • Data scientist = Bertanggung jawab untuk mengekstrak data untuk pengembangan bisnis dan operasional
  • Data engineer = Bertanggung jawab untuk membangun infrastruktur kebutuhan analisis dan operasional
  • Data analyst = Bertanggung jawab menerjemahkan data menjadi laporan
  • Business Intelligence = Bertanggung jawab menerjemahkan data menjadi bentuk tampilan visual
  • Machine learning engineer = Bertanggung jawab membuat sistem untuk melakukan prediksi

Pelajari Kompetensi Dasar Ilmu Data Science 

Untuk pemula, kamu bisa fokus untuk pelajari kompetensi dasar ilmu data science yang dibagi jadi tiga kompetensi utama, yaitu:

Statistika dan Matematika

Pada penerapannya, ilmu data science sangat membutuhkan ilmu matematika karena data harus diolah secara kuantitatif. Nantinya saat kamu bekerja sebagai data scientist akan menghadapi banyak permasalahan bisnis yang harus diselesaikan dengan membuat model analitik dengan dasar matematika. Contohnya, algoritma untuk merancang machine learning itu sangat lekat dengan ilmu matematika.

Selain matematika, statistika juga jadi ilmu penting yang erat dengan dengan data science. Pada penerapannya, statistik jadi inti dari algoritma machine learning yang bisa menerjemahkan pola data menjadi bukti yang bisa ditindaklanjuti. Umumnya, data science menggunakan statistika untuk:

  • Menganalisa data
  • Meninjau data
  • Menarik kesimpulan dari data

Teknologi dan Bahasa Pemrograman

Tentu saja data science tidak bisa lepas dari teknologi termasuk bahasa pemrograman karena data science merupakan keilmuan yang menggunakan data dalam jumlah besar dan algoritma yang rumit, sehingga butuh bantuan dari teknologi seperti bahasa pemrograman. Untuk pemula, kamu bisa mulai dari mempelajari beberapa bahasa pemrograman ini:

  • R
  • Julia
  • Python
  • C++
  • JavaScript
  • Scala

Pengetahuan Bisnis

                         Pengetahuan Bisnis (Photo by Daria Nepriakhina from Unsplash)

Selanjutnya yang perlu kamu asah adalah ketajaman bisnis. Karena nantinya seorang data scientist tidak akan bekerja sendiri. Mereka akan berkolaborasi dengan berbagai tim, salah satunya tim bisnis. Oleh karena itu, kamu harus mengasah skill ketajaman bisnis khususnya di industri yang ingin kamu tuju agar bisa menggali insight dari data yang dibutuhkan perusahaan dan memberi keputusan yang cerdas, efisien, dan efektif. Pada akhirnya, data scientist yang baik adalah mereka yang bisa mengkombinasikan keterampilan teknis dan ketajaman bisnis untuk memecahkan masalah perusahaan.

Jika dirasa sudah menguasai tiga kompetensi dasar ilmu data science, maka kamu bisa mengasah kemampuan lain di bidang data science seperti:

  • Machine learning
  • Visualisasi data
  • Data wrangling
  • Manipulasi data
  • Deep learning

Jangan lupa untuk asah juga kemahiran kamu dalam menggunakan berbagai tools data science seperti:

  • Google Data Studio
  • MySQL
  • Tableau
  • Microsoft Excel
  • Google Sheets

Praktik Menggunakan Project Data Science 

Tahapan belajar data science selanjutnya untuk mencapai tujuan pembelajaran yang efektif, salah satu cara yang bisa kamu lakukan adalah mengerjakan berbagai proyek di bidang data science. Setelah dirasa punya pengetahuan yang luas dan mendalam mengenai topik tertentu, kamu perlu mengeksekusi model belajar ini secara maksimal.

Proyek data science tidak hanya memberikan pengalaman belajar yang lebih intensif. Kamu dapat menjadi individu yang lebih menonjol diantara calon profesional lain yang ingin terjun ke lapangan kerja. Apalagi, proyek-proyek belajar yang berhasil kamu selesaikan dapat menjadi bekal portofolio yang berguna bagi proses pelamaran kerja untuk kali pertama. Ketika kamu belum memiliki pengalaman sebagai Data Scientist, kamu harus benar-benar mampu mengerjakan proyek secara aktif dan  independen (Towards Data Science). Berikut beberapa project yang bisa kamu kerjakan:

Prediksi Harga Saham

Prediksi Harga Saham
                            Prediksi Harga Saham (Photo by Towards Data Science)

Prediksi pasar saham menjadi bidang yang sangat menarik bagi investor sejak dulu. Setiap hari, perdagangan uang terjadi di bursa saham dan melibatkan berbagai upaya dari para investor untuk dapat membuat keputusan terbaik. Apabila investor berhasil memprediksi pergerakan pasar secara akurat, mereka dapat memperoleh keuntungan yang signifikan. Dengan pemanfaatan machine learning dan Python, seorang investor dapat melakukan prediksi harga saham secara otomatis. Kamu perlu mempersiapkan Python library berikut untuk proyek yang satu ini:

  • import numpy as np
  • import pandas as pd
  • from sklearn import preprocessing
  • from sklearn.model_selection import train_test_split
  • from sklearn.linear_model import LinearRegression

Berikut langkah-langkah yang dapat kamu lakukan untuk mengerjakan proyek prediksi harga saham setelah mengimpor Python libraries:

  • Tuliskan fungsi persiapan data set agar dapat memasukkannya ke dalam model Linear Regression secara lebih mudah
  • Baca data yang bersangkutan
  • Siapkan tiga variabel input untuk menyebutkan kolom yang ingin diprediksi. Variabel berikutnya berdasarkan sejauh mana prediksi data terjadi. Sedangkan, variabel terakhir adalah ukuran dari test set
  • Saatnya mengaplikasikan machine learning ke dalam perhitungan harga saham. Bagi data dan masukkan ke dalam model Linear Regression
  • Prediksi output kemudian cek harga saham yang muncul

BACA JUGA: Langkah Belajar Python untuk Data Science

Pengenalan Angka dari Tulisan Tangan

Merupakan kemampuan komputer untuk mengenali angka yang berasal dari tulisan tangan manusia. Tugas ini cukup rumit bagi mesin karena setiap tulisan tangan punya ciri khas dan bentuknya masing-masing. Selain itu, tulisan tangan berupa angka juga memiliki karakter dan selera penulisan yang beragam. Kamu akan menggunakan konsep deep learning menggunakan MNIST data set. Perlu kamu ketahui bahwa data set ini populer di kalangan penggemar deep learning dan machine learning. 

MNIST data set sudah mencakup 60.000 gambar digit dari tulisan tangan mulai angka 0 sampai 9 serta 10.000 data untuk proses testing. Gambar dari digit tulisan tangan akan direpresentasikan sebagai matriks 28×28 dengan setiap sel berisi grayscale pixel value. Prosedur yang dapat kamu lakukan untuk proyek belajar data science ini, antara lain:

  • Impor libraries dan muat data set yang dibutuhkan. Sebuah library bernama Keras sudah memiliki MNIST data set untuk memudahkan pengerjaan. Pakai metode mnist.load_data() yang mencakup data pelatihan dan data testing disertai pengujian masing-masing.
  • Mengulang pemrosesan data untuk mempersiapkan neural network sekaligus mengumpankan data gambar secara langsung menuju model. Dimensi dari pelatihan data adalah (60000,28,28). Dibutuhkan satu matriks lagi untuk membentuknya menjadi (60000,28,28,1).
  • Lanjutkan ke tahap pembuatan model CNN ke dalam proyek data science Python. Model CNN biasanya terdiri dari pooling dan convutional. CNN lebih baik dalam hal klasifikasi gambar karena mampu mempresentasikan data dalam struktur grid. Kompilasi model dilakukan dengan optimasi Adadelta.
  • Fungsi model.fit() dari library Keras bisa melewati proses pelatihan. Selain itu, kamu juga membutuhkan data validation, epoch, serta batch size. Setelah beberapa waktu pelatihan, kamu dapat menyimpannya dengan definisi model ke dalam file ‘mnist.h5’.
  • Terdapat 10.000 gambar dalam kumpulan data yang akan digunakan untuk mengevaluasi seberapa baik model tersebut bekerja. MNIST data set bersifat seimbang dan memiliki tingkat akurasi hingga 99%.
  • Lakukan pembuatan GUI untuk melakukan prediksi angka. Dalam aspek GUI, kamu dapat membuat file baru untuk membangun jendela interaktif. Tujuannya untuk menggambar angka di atas kanvas dan mengenali angka dengan suatu button. Gunakan fungsi predict_digit() yang mengambil gambar sebagai input kemudian menggunakan model terlatih dalam memproduksi digit.

BACA JUGA: Pilih Mana? Bootcamp Programmer vs Belajar Otodidak

Text Summarization

Text summarization merupakan proses untuk membuat ringkasan dokumen tertentu berisi informasi penting seperti aslinya. Tujuannya mendapatkan ringkasan atau poin-poin utama dari suatu dokumen. Proyek yang satu ini menggunakan machine learning pada Python sebagai basis pemrograman terkait. Mengapa menggunakan machine learning untuk menyusun text summarization? Karena kamu akan mengurangi referensi teks ke dalam bentuk yang lebih kecil sembari merangkum makna dan pengetahuan di dalamnya. Awali dengan mengimpor Python libraries berikut:

  • import nltk
  • import string
  • from heapq import nlargest

Dalam proyek ini, kamu tidak perlu menggunakan banyak machine learning. Teks dapat diringkas dengan mudah tanpa menggunakan pelatihan model. Meskipun begitu, kamu tetap membutuhkan beberapa pemrosesan secara alami. Untuk itulah diperlukan NLTK dengan Python library. Lanjutkan dengan beberapa langkah penghapusan tanda baca dan pemrosesan dari teks tersebut. Tandai teks kemudian periksa hasil peringkasan dengan Python. Kode yang muncul akan memberikan ringkasan teks sesuai keinginan ke dalam variabel teks.

Beberapa proyek di atas dapat kamu gunakan untuk belajar data science dalam mengeksekusi praktik kemampuan secara langsung. Ketika sudah punya bekal pengetahuan dan teori yang mendukung praktik data science, manfaatkan waktu pembelajaran yang ada untuk menghasilkan produk-produk penunjang karier sebagai seorang Data Scientist andal di dunia kerja.

Belajar Data Science Bersama Mentor Expert 

    Belajar Data Science Untuk Pemula (Photo by Caspar Camille Rubin from Unsplash)

Ingin menjadi seorang data scientist profesional dan dibekali dengan praktik proyek intensif selama proses pembelajaran? Belajar sekarang di Bootcamp Data Science Digital Skola, di kelas ini tak hanya belajar dengan kurikulum komprehensif, kamu juga akan mendapatkan fasilitas lengkap seperti:

  • Job connector
  • Sertifikasi BNSP
  • Real experience internship
  • 6 personal projects
  • 1 portfolio end-to-end dari final project
  • e-Certificate 
  • Professional branding
  • Personality and career assessment
  • 1-on-1 career counseling with HR expert

Tunggu apalagi? Jadilah data scientist siap kerja hanya dalam 3,5 bulan bareng Digital Skola! Klik button di bawah untuk info lengkap.