Saat ini ada banyak sumber belajar data science yang bisa diakses oleh siapa saja seperti di YouTube, buku, podcast, hingga berbagai forum dan GitHub yang bisa dimanfaatkan untuk belajar data science untuk pemula. Namun faktanya meskipun kini ada banyak sumber belajar gratis yang bisa jadi sumber belajar otodidak, untuk bisa menjadi data scientist tidak cukup memahami teorinya saja, tapi kamu juga harus menguasai practical knowledge, memiliki sertifikasi yang bisa memvalidasi skill, dan yang tak kalah penting adalah memiliki portofolio yang relevan dan up to date berisi berbagai data science project yang sudah kamu kerjakan.
Portofolio memang jadi salah satu kunci utama untuk bisa menembus karier sebagai data scientist untuk menunjukkan keahlian kamu dalam mengerjakan berbagai project dan menunjukan skill yang kamu kuasai. Umumnya, portfolio data scientist akan berisi kumpulan data science project yang pernah dikerjakan yang menampilkan kombinasi dokumentasi dan code hingga beberapa contoh data science project lain seperti visualisasi data yang bisa menunjukkan kemampuan kamu dalam berkomunikasi secara efektif mengenai data. Nantinya, dari hasil visualisasi data ini recruiter bisa melihat bahwa kamu tak hanya mampu mengolah data tapi juga bisa memvisualisasikan data untuk memecahkan sebuah masalah.
Jika kamu saat ini masih belum memiliki contoh data science project untuk jadi referensi portofolio kamu, simak artikel ini sampai akhir!
Baca juga: Skill Wajib Untuk Lolos Data Science Internship Indonesia
Data Science Project Untuk Portofolio
Umumnya data science project yang dikerjakan oleh calon data scientist untuk jadi bahan portofolio berisi project terkait analisis data, eksplorasi data, computer science, pemrograman, machine learning, dan masih banyak lagi. Jika kamu saat ini kebingungan mencari ide project yang bisa diangkat dalam portofolio, berikut rekomendasi data science project yang bisa kamu coba:
Data Science Project Bidang Keuangan
Financial Budget Analysis = Ide project data science selanjutnya adalah analisis financial budget menggunakan bahasa pemrograman Python. Biasanya, setiap negara memiliki anggaran keuangan yang menggambarkan kapasitas belanja pemerintah di berbagai sektor perekonomian, kamu bisa mencoba menganalisis anggaran keuangan di suatu negara setiap tahunnya untuk bisa mendapatkan analisis terkait prioritas keuangan secara keseluruhan setiap tahunnya. Kamu bisa mencoba mengerjakan project ini menggunakan dataset financial.
Financial Modeling = Selanjutnya kamu bisa membuat project data science dengan membuat model keuangan untuk mengevaluasi investasi, memperkirakan arus kas masa depan, dan menilai kinerja keuangan. Kamu juga bisa membuat analisis yang mencakup pembuatan model untuk penilaian, perkiraan, analisis risiko, dan optimalisasi portfolio Kamu bisa mencoba mengerjakan project ini menggunakan dataset business and financial modeling specialization.
Risk Management = Kamu juga bisa membuat project data science dengan menganalisis risiko dalam portfolio keuangan dan mengembangkan model untuk mengelola eksposur risiko keuangan. Nantinya kamu akan membuat evaluasi risiko berbagai aset atau portofolio, membuat simulasi untuk menguji dampak berbagai skenario, dan mengembangkan strategi untuk memitigasi risiko. Kamu bisa mencoba mengerjakan project ini menggunakan dataset portfolio risk and return dari Kaggle.
Market Analysis = Data science project selanjutnya adalah analisis pasar keuangan dan model untuk memperkirakan tren pasar. Dalam project ini nantinya kamu bisa menganalisis data pasar, pelacakan indikator ekonomi, dan pengembangan model prediktif untuk memperkirakan pergerakan pasar. Kamu bisa mencoba mengerjakan project ini menggunakan dataset stock market analysis dari Kaggle.
Data Science Project Bidang Pertanian
Deteksi Kesehatan Tanaman = Ide project data science selanjutnya adalah mendeteksi penyakit pada tanaman. Project ini bertujuan untuk menyediakan interface inspeksi otomatis berbasis gambar yang melihatkan penggunaan pemrosesan gambar yang dirancang sendiri dan teknik deep learning. Nantinya, kamu akan mendeteksi kondisi kesehatan tanaman. Kamu bisa mencoba mengerjakan project ini menggunakan Leaf Dataset.
Identifikasi Spesies Tumbuhan = Proyek data science ini bertujuan untuk mengidentifikasi 99 spesies tumbuhan secara akurat menggunakan gambar daun biner dan atribut yang diekstraksi, seperti bentuk, margin, dan tekstur. Nantinya kamu akan menggunakan berbagai algoritma klasifikasi untuk menentukan efektivitas pengklasifikasian dalam aplikasi klasifikasi gambar. Project ini juga akan membantu kamu menemukan pustaka Python, Scipy, Sklearn, dan TensorFlow untuk mengembangkan sistem yang efektif dalam mengidentifikasi spesies tanaman. Kamu bisa mencoba mengerjakan project ini menggunakan dataset Image Classifier for Plant Species Identification.
Smart Agriculture System = Ide project data science selanjutnya adalah menganalisis data yang melibatkan kondisi tanah, seperti kadar air, suhu, dan komposisi kimia, yang semuanya mempengaruhi pertumbuhan tanaman dan kesejahteraan ternak. Proyek ini bertujuan untuk menilai kualitas tanaman berbagai spesies tanaman untuk mendeteksi penyakit tanaman dan serangan gulma. Proyek ini menggunakan berbagai model machine learning untuk tujuan berbeda, seperti pengklasifikasi KNN untuk prediksi tanaman, decision tree, dan lain sebagainya untuk klasifikasi. Kamu bisa mencoba mengerjakan project ini menggunakan Dataset Smart Agriculture System.
Data Science Project Bidang Media Sosial
Analisis Sentimen = Maksud dari analisis sentimen adalah menganalisis kata-kata untuk menentukan pendapat atau sentimen yang mungkin tergolong positif atau negatif dalam polaritas. Analisis ini bisa menunjukan kata-kata tertentu dalam kategori bahagia, sedih, marah, tidak suka, dan lain sebagainya. Untuk mengimplementasikan ke project data science kamu bisa menggunakan bahasa R menggunakan dataset janeaustenr. Nantinya kamu akan menggunakan bahasa umum seperti bing, loughran, AFINN, dan lain sebagainya yang akhirnya hasilnya akan ditunjukkan menggunakan word cloud.
Pendeteksi Berita Hoax = Berita hoaks adalah berita palsu atau informasi palsu yang disebar melalui media sosial atau media online lainnya. Tak bisa dipungkiri, kini ada banyak sekali berita palsu yang bertebaran di media online khususnya di media sosial. Sebagai calon data scientist, kamu bisa membuat gebrakan untuk memberantas berita palsu ini dengan membuat data science project berupa alat pendeteksi berita palsu.
Kamu bisa menggunakan Python untuk membuat model yang bisa mendeteksi berita palsu atau nyata secara akurat. Menggunakan TfidfVectorizer dan Passive Aggressive Classifier kamu bisa mengklasifikasikan berita nyata atau palsu di Jupyter Lab. Kamu bisa coba menggunakan dataset atau package news.csv.
Reviews Rating Analysis = Kini ada banyak media sosial yang populer digunakan banyak orang seperti Instagram, Twitter, TikTok, dan lain sebagainya. Kamu bisa memanfaatkan era media sosial ini untuk jadi data science project dengan membuat reviews rating analysis. Ada beberapa poin yang bisa kamu analisis untuk project ini diantaranya:
- Kecenderungan ulasan dari pengguna media sosial
- Kata atau kalimat yang sering muncul di ulasan media sosial
- Presentasi rating yang diberikan pengguna
- Kategori kata atau kalimat yang termasuk positif
- Kategori kata atau kalimat yang termasuk negatif
Kamu bisa coba gunakan dataset TikTok yang disediakan oleh The Clever Programmer untuk menganalisis berbagai poin tersebut.
Chatbot = Selanjutnya, salah satu hasil project data science yang mungkin paling sering kamu temukan adalah chatbot yang bisa mengotomatisasi sebagian besar interaksi pelanggan dengan menjawab beberapa pertanyaan yang paling sering diajukan oleh pelanggan. Ada dua jenis chatbots yang biasa digunakan yaitu Domain-specific dan chatbots Open-domain. Chatbot Domain-specific biasa digunakan untuk memecahkan masalah tertentu. Sedangkan Chatbots Open–domain bisa ditanyai jenis pertanyaan apa pun, sehingga butuh dilatih dengan data dalam jumlah besar. Kamu bisa mencoba mengerjakan project ini menggunakan dataset Intents json file.
Data Science Project Bidang Meteorologi
Deteksi Cuaca = Dalam ilmu data kamu bisa membuat prakiraan cuaca menggunakan data rangkaian waktu dan algoritma untuk membuat prakiraan pada waktu tertentu. Kamu bisa meramalkan cuaca menggunakan Python dengan memanfaatkan dataset yang berisi data historis cuaca berdasarkan lokasi tertentu. Kamu bisa mencoba mengerjakan project ini menggunakan daily climate time series data dari Kaggle.
Rekomendasi Source Dataset Untuk Data Science Project
Ada banyak sumber dataset yang bisa kamu gunakan untuk jadi bahan data science project, berikut rekomendasi source dataset yang bisa kamu gunakan:
- Kaggle = Di website ini, kamu bisa menemukan banyak dataset menarik yang awalnya merupakan bagian dari kompetisi bagi para penggemar ilmu data. Salah satu contohnya adalah kumpulan data Titanic untuk memprediksi penumpang mana yang selamat dari kapal karam
- Dataset Search = Di sini, kamu bisa memilih dataset dari berbagai topik dan format termasuk ‘.pdf’, ‘.csv’, ‘.jpg’, ‘.txt’, dan banyak lagi
- GitHub = GitHub menawarkan ribuan kumpulan data kecil dan besar untuk kebutuhan analisis data
- World Bank Open Data = Kamu bisa menemukan sumber fakta statistik dan kumpulan data publik berdasarkan kategori seperti populasi, tingkat pendapatan, pendidikan, dan lain sebagainya
- data.world = Kamu bisa mengakses kumpulan data gratis, serta mengerjakan beberapa kumpulan data secara langsung di situs ini
Tools Untuk Mengerjakan Data Science Project
Ada banyak sumber dataset yang bisa kamu gunakan untuk jadi bahan data science project, berikut rekomendasi source dataset yang bisa kamu gunakan:
- Python = Bahasa pemrograman ini jadi salah satu bahasa pemrograman yang paling sering digunakan di dunia data science termasuk saat mengerjakan data science project karena memiliki banyak framework dan library seperti Pandas, NumPy, dan lain sebagainya
- R = Bahasa pemrograman ini juga biasanya banyak digunakan di berbagai data science project karena memiliki banyak library seperti ggplot2, dplyr, dan lainnya yang memudahkan analisis dan pengolahan data
- SQL = SQL juga sering digunakan untuk mengakses dan mengelola database, SQL utamanya digunakan untuk mengakses data yang disimpan di dalam database
- Jupyter Notebook = Tools ini banyak digunakan untuk membuat dan berbagi dokumen interaktif yang berisi visualisasi, kode, dan narasi
- Tableau = Kamu bisa menggunakan tools ini untuk membuat data science project yang berkaitan dengan pembuatan grafik, dashboard, laporan interaktif, dan lain sebagainya
Contoh Data Science Project Untuk Referensi Portfolio
Ada banyak sumber dataset yang bisa kamu gunakan untuk jadi bahan data science project, berikut rekomendasi source dataset yang bisa kamu gunakan:
- Claudia ten Hoope = Contoh portofolio dari freelance data scientist dan data analyst yang bisa dijadikan referensi untuk kamu yang tertarik berkarier sebagai freelancer juga
- Tim Hopper = Contoh portofolio data scientist yang berisi project terkait machine learning engineer, cybersecurity software, dan lain sebagainya
- Ger Inberg = Contoh portofolio data scientist yang berisi berbagai project terkait data visualization dan machine learning
- Harrison Jasma : Contoh portofolio dalam bentuk rangkuman teks dan hasilnya ditautkan langsung ke GitHub
- James Le = Contoh portofolio data scientist berisi project data analytics, machine learning, dan masih banyak lagi
Rekomendasi Praktik Membuat Data Science Project
Jika kamu kesulitan untuk membuat data science project secara otodidak, kamu bisa mengambil langkah untuk belajar dan praktik membuat data science project di Bootcamp Data Science Digital Skola. Di Bootcamp Data Science Digital Skola kamu akan mempelajari:
- Data Science Methodology
- SQL
- Programming with Python
- Analytics with Numpy
- Basic Statistics
- Data Visualization
- Dataframe
- Machine Learning
- Git & Version Control System
Cari tahu info lengkapnya dengan klik button di bawah ini!