DICE Tech Jobs Report 2020 telah mengumumkan profesi Data Engineer sebagai pekerjaan dengan pertumbuhan tercepat di tahun tersebut. Data engineering merupakan suatu subjek cabang dari big data yang menghadirkan tugas dan tanggung jawab cukup kompleks. Menyikapi hal tersebut, perjalanan menjadi tenaga kerja data engineering memang penuh tantangan serta upaya yang harus mampu dihadapi. Kamu membutuhkan pengalaman yang mampu menyempurnakan keterampilan serta kerja keras untuk mempelajari bidang profesi tersebut. Data engineering project dapat menjadi bentuk aktualisasi pengalaman sebelum melangkah ke jenjang karier secara mendalam di masa depan.
Selama beberapa tahun terakhir, terdapat berbagai ide proyek yang dapat kamu selesaikan seorang pejuang karier di bidang data engineering. Kamu harus ingat dan membiasakan diri untuk memahami beberapa pilihan topik serta teknologi sebelum mengerjakan proyek data engineering. Perusahaan akan selalu mencari kandidat terampil dalam mengembangkan produk-produk inovatif. Sebagai pemula, kamu dapat memperkaya kemampuan dan meningkatkan value di hadapan perekrut dengan giat mengerjakan proyek-proyek yang relevan secara mandiri.
Terkadang, kamu bisa kesulitan menentukan proyek yang cocok dikerjakan dan dipilih menjadi amunisi terbaik saat melamar kerja. Padahal, ada berbagai proyek yang dapat menjadi materi portofolio terampuh untuk menunjang kebutuhan karier. Selain itu, proyek-proyek tersebut mampu berperan sebagai media praktik untuk menguasai keterampilan yang telah dipelajari. Simak daftar selengkapnya melalui penjelasan di bawah ini.
Data Engineering Project: Portofolio Ampuh Bagi Pemula
Perform data modeling untuk streaming platform
Salah satu ide untuk bereksperimen melalui proyek data engineering adalah mempraktikkan data modeling. Pada proyek ini, kamu akan menganalisis preferensi pengguna untuk meningkatkan kinerja recommendation system pada berbagai streaming platform. Data modeling dapat mendukung penjelasan data kepada pengguna secara jelas dan spesifik. Kamu perlu membuat ETL pipeline dengan Python dan PostgreSQL. Data modeling mengacu pada pengembangan diagram secara komprehensif dan menampilkan hubungan antara titik data yang berbeda. Beberapa poin data modeling yang dapat kamu tangani, yaitu:
- Album dan lagu yang disukai pengguna
- Playlist yang masuk ke dalam user library
- Genre yang paling sering didengarkan
- Lama pengguna mendengarkan serangkaian lagu tertentu dan timestamp yang bersangkutan
Informasi di atas dapat membantu kamu dalam melaksanakan kinerja data modeling dengan benar. Selain itu, muncul berbagai solusi praktis dan efektif dalam memecahkan masalah pada masing-masing platform. Penyelesaian proyek dapat membantu memberikan pengalaman dalam menangani ETL pipeline dan PostgreSQL.
BACA JUGA: Interview Data Engineer: Pertanyaan Teknis dan Non-Teknis
Membuat data lake
Data engineering project ini direkomendasikan bagi para pemula. Data lake merupakan subjek yang penting dalam industri data engineering sehingga kamu dapat memanfaatkan potensinya dalam meningkatkan value portofolio milikmu. Data lake merupakan suatu repository untuk menyimpan data terstruktur maupun tidak terstruktur pada berbagai skala. Terjadi kemungkinan penyimpanan data secara apa adanya sehingga kamu tidak perlu menambahkan ke penyimpanan. Tanpa adanya modifikasi, prosesnya jadi jauh lebih cepat disertai penambahan data secara real-time. Ada banyak implementasi populer dan terbaru, seperti machine learning serta analytics yang dibutuhkan agar data lake dapat berfungsi dengan tepat.
Dengan mengimplementasikan proyek data lake, kamu dapat menambahkan beberapa jenis file di dalam repository. Tidak hanya itu, kamu juga berpeluang menginput beberapa jenis fungsi data secara cepat. Hal tersebut menjadi alasan untuk membangun proyek data lake kemudian mempelajarinya secara optimal. Kamu dapat mengerjakan proyek ini memakai Apache Spark pada AWS Cloud. Jalankan fungsi dari ETL agar dapat mentransfer data secara lebih baik dengan hasil data yang jauh lebih menarik.
Membangun data warehouse
Salah satu ide terbaik untuk bereksperimen dengan proyek data engineering secara langsung adalah membuat data warehouse. Keterampilan ini cenderung populer di kalangan Data Engineer. Sebuah data warehouse mengumpulkan data dari sumber-sumber yang bersifat heterogen kemudian mengubahnya menjadi format standar. Data warehousing menjadi komponen penting dalam bidang Business Intelligence (BI) dan membantu penggunaan data secara strategis. Kamu dapat merancang dan melaksanakan proyek ini dengan bantuan dari cloud AWS kemudian menambahkan ETL pipeline. Tujuannya untuk mentransfer kemudian mengubah data ketika masuk ke dalam warehouse.
Forecasting tingkat permintaan distribusi dan pengiriman
Ide proyek ini menggunakan historical demand data untuk memperkirakan permintaan pemasaran dalam aspek pelanggan, produk, serta tujuan di masa depan. Studi kasus diambil dari perusahaan logistik yang ingin memprediksi jumlah produk berbeda untuk dikirimkan menuju pelanggan di berbagai lokasi di masa mendatang. Perusahaan dapat memanfaatkan demand forecasts sebagai input bagi allocation tool. Allocation tool bertugas mengoptimalkan operasi rute kendaraan hingga kapasitas perencanaan secara jangka panjang. Beberapa big data stack yang digunakan untuk proyek data engineering ini, antara lain:
- Azure SQL Database untuk penyimpanan data dan forecasts secara persisten
- Machine Learning web sebagai hosting dari forecasting code
- Blob Storage yang berada di tingkat menengah untuk menghasilkan prediksi sesuai kebutuhan
- Data Factory untuk mengatur proses reguler dari Azure Machine Learning Model
- Power BI dashboard untuk menampilkan dan menelusuri prediksi
Smart IoT infrastructure
Melalui proyek IoT ini, kamu akan membahas pembangunan infrastruktur yang cerdas. Kemajuan tren IoT dalam aspek teknologi memungkinkan kamu dalam menangani sejumlah besar data dengan penyerapan serta kecepatan tinggi. Selain itu, proyek ini melibatkan pemanfaatan pipeline fiktif yang disebut Smart PipeNet, jaringan sensor yang menggunakan back-office control system. Tugasnya adalah memantau pipeline flows, memberikan feedback, hingga mengurangi kerugian secara ekstrem. Kamu akan menemukan bahwa simulated sensor data diterapkan diserap dari MQTT ke Kafka. Data di Kafka akan melewati proses analisis memakai Spark Streaming API. Daya tersimpan di dalam column store yang disebut HBase. Terakhir, data melewati proses publikasi dan visualisasi lewat menuju dashboard custom berbasis Java.
BACA JUGA: Data Warehouse adalah Sistem Penting Bagi Data Engineer
BitCoin mining
BitCoin mining merupakan komponen terpenting dalam memelihara dan mengembangkan blockchain ledger. Proses ini berperan besar bagi bitcoin baru yang baru saja dialokasikan dan masuk ke perputaran. Kamu akan membuat suatu solusi berdasarkan komputasi matematika yang cenderung kompleks. Data mining dalam dunia BitCoin dapat terjadi menggunakan data relatif yang tersedia secara bebas. Proyek langsung ini melibatkan ekstraksi data dari API menggunakan Python. Dilanjutkan dengan penguraian dan penyimpanan secara lokal menuju EC2 instance.
Setelah itu, kamu dapat mengunggah data ke HDFS. Pembacaan data dilakukan memakai Pyspark dari HDFS lalu terjadi proses analisis secara mendalam. Teknik yang dijelaskan pada proyek ini terdiri dari Kryo serialization dan optimasi Spark. Penyusunan tabel yang bersifat eksternal dapat dibantu dengan Hive atau Presto. Visualisasi data sebagai tahapan terakhir dapat terpenuhi dengan mengginakan AWS Quicksight.
Data ingestion dengan SQL menggunakan Google Cloud Dataflow
Proyek yang satu ini melibatkan data ingestion dan alur pemroresan yang terjadi lewat Google platform dengan real-time streaming dan batch loads. Yelp dataset yang umumnya berfungsi dalam dunia akademik serta penelitian juga diproses di sini. Pertama-tama, kamu perlu membuat service account di Google Cloud dengan mengunduh Google Cloud Software Developer Kit (SDK). Python dan software yang dibutuhkan lainnya dapat diunduh dan dihubungkan dengan akun Google Cloud Platform. Yelp dataset yang telah diunduh dengan format JSON terhubung dengan Google Cloud SDK dan Cloud Composer. Google Big Query akan menerima data secara terstruktur dari pekerjaan yang kamu lakukan. Tahapan ini dapat dilanjutkan dengan proses visualisasi sesegera mungkin oleh Google Data Studio.
Itulah berbagai data engineering project yang dapat kamu kerjakan untuk meningkatkan nilai portofolio. Sebagai sarana belajar, kamu dapat mempraktikkan segera keterampilan yang telah diterima supaya terbiasa dengan subjek-subjek data engineering tertentu. Dengan begitu, kamu dapat menjadi seorang Data Engineer profesional dan punya segudang pengalaman di bidang kerja pengelolaan big data yang potensial bagi masa mendatang.
Mau belajar data engineering bersama bimbingan para ahli di bidangnya menggunakan kurikulum berbasis proyek? Belajar sekarang di Bootcamp Data Engineer dan dapatkan pengalaman belajar menjadi calon tenaga kerja profesional dalam 4 bulan bersama Digital Skola.