Apa itu data engineering? Data engineering merupakan salah satu sub-bidang dari software engineering yang berfokus pada praktik membangun dan mendesain sistem guna mengumpulkan, menyimpan, dan menganalisis data dengan jumlah yang besar (Sumber: quanthub). Faktanya, kini big data menjadi komoditas menjanjikan, data bisa membantu perusahaan untuk menghindari ancaman bisnis, mengetahui peluang bisnis, hingga membantu mengambil keputusan strategis (Sumber: DATAVERSITY).
Kemunculan big data juga mendorong tingginya kebutuhan akan profesi data seperti data engineer. Bahkan, data engineer digadang-gadang menjadi pekerjaan hot yang memiliki prospek menjanjikan (Sumber: Linkedin). Jika kamu tertarik untuk mulai terjun ke data engineer ini tapi masih belum tau banyak mengenai data engineering dan profesinya, maka simak artikel ini sampai akhir!
Apa itu Data Engineering?
Untuk mempermudah memahaminya kamu bisa mempelajari apa itu data engineering melalui konsep Lego. Konsep ini bisa dipahami oleh siapapun termasuk kamu yang tidak memiliki latar belakang IT sama sekali:
Data Collection
Big data sama dengan Lego, kamu memiliki kotak mainan sangat besar yang berisi berbagai macam jenis Lego mulai dari orang-orangan kecil, kotak warna-warni, dan jenis Lego lainnya. Tugas data engineer yaitu mengidentifikasi dan mengumpulkan data dari “big data” atau “kotak mainan besar” tersebut.
Data Preparation
Setelah terkumpul, kamu harus mengelompokkan Lego tersebut berdasarkan ukuran, bentuk, warna, fungsi, dan lain sebagainya, dan setelah Lego rapi tersusun kamu bisa mulai memilih Lego mana yang kamu butuhkan. Serupa dengan data engineering, data yang sudah terkumpul kemudian harus melewati tahapan seleksi untuk dipilih sesuai dengan kebutuhan.
Data Visualization
Lego yang telah dipilih kemudian dirapikan menjadi suatu bentuk benda-benda yang dapat dilihat. Sama dengan data engineering, data yang sudah dipilih tersebut kemudian dibentuk menjadi berbagai format data yang mudah untuk dianalisis seperti membuat chart, dashboard, atau data visualisasi.
Data Analysis
Ketika menyusun Lego, biasanya kita akan mengikuti insting atau instruksi yang tertera di kotak Lego, oleh karena itu kamu tidak tahu betul bagian-bagian Lego mana yang ternyata tidak dibutuhkan atau mungkin ada kesalahan. Serupa dengan data engineering, ketika data engineer melakukan analisis data, ia akan menemukan data yang ternyata tidak dibutuhkan, atau mungkin ada banyak kekurangan data yang harus ditambahkan.
Data Storytelling
Rasanya tidak lengkap jika membangun Lego tapi tidak dilengkapi dengan cerita menarik yang bisa kamu jelaskan kepada orang-orang. Data storytelling adalah tahapan terakhir data engineering yang dilakukan dengan cara mengemas secara menarik narasi dari hasil kumpulan data dan data visualisasi yang bertujuan untuk memberikan informasi yang mampu menarik perhatian audiens.
Apa itu Data Engineer?
Profesi yang menerapkan ilmu data engineering adalah data engineer. Berbeda dengan data scientist dan data analyst yang pekerjaannya fokus pada pemerolehan insight dari suatu data, data engineering berfokus pada penyediaan infrastruktur agar data scientist bisa mengakses data yang dibutuhkan secara cepat dan akurat. Data engineer bekerja dengan berbagai tools dan teknologi untuk membangun sistem yang efisien dan scalable dalam menangani data.
Tugas Data Engineer
Jika kamu memilih profesi sebagai data engineer, ada beberapa tugas data engineer utama yang harus kamu kerjakan, seperti:
Mengumpulkan dan Mengolah Data
Tugas data engineer yang utama adalah mengumpulkan dan mengolah data dari berbagai macam sumber. Biasanya, data engineer akan mengumpulkan data dari berbagai database seperti:
- SQL Server
- MySQL
- CSV
- HTML
Selanjutnya, data yang sudah dikumpulkan akan dirapikan berdasarkan jenisnya seperti data terstruktur dan tidak terstruktur.
Data Cleaning
Terkadang di data mentah terdapat anomali data, tipe data yang tidak sesuai, data null, duplikasi data, penulisan yang belum seragam dan lain sebagainya yang akan mengganggu proses analisis data. Oleh karena itu, setelah data terkumpul dan dirapikan, tugas data engineer adalah membersihkan data yang masih mentah atau disebut raw data menjadi data yang rapi dan siap digunakan oleh data scientist dan data analyst.
Pengembangan Data Warehouse
Seorang data engineer bertugas untuk mengembangkan data warehouse dengan mengelola sekumpulan data menggunakan bantuan tools dan software seperti Ab Initio Software, Informatica PowerCenter, Pentaho, dan lain sebagainya yang bisa memudahkan akses menuju informasi, menambah wawasan dari big data, dan membantu mempercepat query-response times.
Memastikan Ketersediaan Machine Learning
Machine learning merupakan salah satu bagian dari data engineer. Oleh karena itu, tugas data engineer adalah memastikan ketersediaan model machine learning yang sudah dirancang oleh data scientist di storage atau berasal dari sumber secara langsung. Proses ini juga didukung dengan tugas data engineer lainnya yaitu pengelolaan sumber daya komputasi hingga persiapan alat pemantauan machine learning.
Mengelola Metadata
Data engineer akan mengumpulkan berbagai data terstruktur dan tidak terstruktur di dalam storage yang berisi laporan eksplorasi dari data yang biasa disebut metadata. Tugas data engineer adalah melakukan pengelolaan terhadap data yang sudah dikumpulkan untuk pengelolaan data yang sudah disimpan dan disusun melalui sistem manajemen basis data.
Menyiapkan Tools
Tugas data engineer satu ini biasanya hanya dilakukan dalam beberapa kondisi tertentu, karena biasanya data dapat diambil langsung dari storage. Namun, seringkali ada kondisi di mana beberapa pihak lain yang memerlukan business intelligence sebagai analis yang menyediakan tools untuk melihat data, menyusun laporan, memperlihatkan hasil data secara visual.
Memantau Pipeline
Terakhir, tugas data engineer yang tak kalah penting adalah memantau kepastian dan kinerja akan stabilitas sistem yang sedang berjalan. Data engineer juga bertanggung jawab untuk membersihkan storage secara berkala, memantau dan memodifikasi pipeline karena kondisi data, prasyarat, dan model cenderung mudah berubah.
Tools Data Engineer
Jika kamu saat ini sedang mengincar karier data engineer maka kamu setidaknya harus menguasai beberapa tools data engineer ini:
Python
Seorang data engineer akan menggunakan Python untuk:
- Membuat coding ETL (Extract, Transform, Load) framework
- Interaksi API (Application Programming Interface)
- Otomatisasi
- Tugas penyimpanan data
- Menggabungkan data dari berbagai sumber
Apache Spark
Apache Spark biasanya digunakan oleh data engineer untuk melakukan manajemen data dan stream dengan cepat serta digunakan untuk menangani data yang berukuran besar secara efisien. Fitur paling utama dari Apache Spark adalah mampu memproses data stream processing secara real-time.
Apache Kafka
Apache Kafka juga biasa digunakan oleh data engineer untuk:
- Sinkronisasi data
- Transformasi data
- Menerima data dari sistem sumber dan membuatnya tersedia secara real-time
- Melindungi cluster dari kegagalan node/mesin
Tableau
Tableau sangat berguna untuk membantu membuat visualisasi data untuk membuat data report. Ada beberapa fitur yang dimiliki oleh Tableau:
- Bisa mengolah big data dan membuat visualisasi dari jumlah data yang besar
- Bisa dikombinasikan dengan berbagai bahasa pemrograman
- Bisa mendukung berbagai bahasa skrip
Snowflake
Tool ini biasa digunakan untuk menghitung dan menyimpan data, namun selain itu Snowflake juga memiliki banyak fitur lain seperti:
- Pengelompokkan otomatis
- Bisa diintegrasikan dengan JDBC, ODBC, Python, dll
- Infrastruktur terkelola skalabilitas on-the-fly
PostgreSQL
PostgreSQL biasanya digunakan data engineer untuk:
- Mengelola transaksi data database
- Mengubah atau manipulasi isian data atau value data
- Membuat dan memanipulasi tabel
MongoDB
Ada beberapa fitur MongoDB yang bisa digunakan data engineer, diantaranya:
- Schema-less database
- Document-oriented
- Indexing
- Skalabilitas
Contoh Project Data Engineer
Ada beberapa contoh project yang dikerjakan oleh data engineer:
- Pembangunan Data Pipeline = Mengembangkan dan mengelola pipeline untuk mentransfer data dari sumber yang berbeda ke dalam sistem penyimpanan atau data warehouse
- ETL (Extract, Transform, Load) = Membuat proses ETL untuk mengumpulkan data dari berbagai sumber, mentransformasikannya sesuai kebutuhan bisnis, dan memuatnya ke dalam data warehouse atau database lain
- Big Data Processing = Membangun solusi untuk memproses data besar menggunakan teknologi big data
- Real-time Data Processing = Mengembangkan sistem untuk memproses data secara real–time untuk kebutuhan analisis atau monitoring
- Data Integration = Integrasi data dari berbagai sistem (misalnya CRM, ERP) ke dalam sistem analisis atau datalake
Bocoran Gaji Junior Data Engineer di Indonesia
Berikut informasi lengkap gaji data engineer:
Bocoran Gaji Junior Data Engineer
Untuk posisi junior data engineer dengan pengalaman satu sampai empat tahun mengutip dari berbagai sumber yang kredibel, rata-rata gajinya di Indonesia adalah:
- Berdasarkan report Glassdoor = 8-12 jt/bulan
- Berdasarkan report Indeed = 7-9 jt/bulan
- Berdasarkan report IDStar = 9 jt/bulan
Mengutip dari Glassdoor, berikut bocoran rata-rata gaji junior data engineer di berbagai perusahaan besar di Indonesia:
- Rata-rata gaji data engineer di Gojek = 10 jt/bulan
- Rata-rata gaji data engineer di OVO = 12 jt/bulan
- Rata-rata gaji data engineer di TaniHub = 14 jt/bulan
Bocoran Gaji Data Engineer Mid-Level
Untuk posisi mid-level data engineer dengan pengalaman empat sampai enam tahun mengutip dari berbagai sumber yang kredibel, rata-rata gajinya di Indonesia adalah:
Bocoran Gaji Data Engineer Senior
Untuk posisi senior data engineer dengan pengalaman enam sampai sembilan tahun mengutip dari berbagai sumber yang kredibel, rata-rata gajinya di Indonesia adalah:
Mengutip dari Glassdoor, berikut bocoran rata-rata gaji senior data engineer di berbagai perusahaan besar di Indonesia:
- Rata-rata gaji data engineer di Traveloka = 27 jt/bulan
- Rata-rata gaji data engineer di Dana = 17 jt/bulan
- Rata-rata gaji data engineer di Bukalapak = 14 jt/bulan
Perbedaan rata-rata gaji ini memang disesuaikan dengan kualifikasi hingga tanggung jawab yang diberikan perusahaan. Umumnya, semakin berat tanggung jawabnya maka semakin tinggi juga besaran gaji yang diberikan perusahaan kepada data engineer.
Bocoran Gaji Data Engineer di Perusahaan Global
Jika kamu tertarik untuk berkarier jadi data engineer di perusahaan global, maka kamu bisa pertimbangkan beberapa perusahaan ini yang memberikan gaji fantastis untuk data engineer:
- Meta – 163.111$/tahun atau sekitar Rp 2,3 miliar/tahun
- Cisco Systems – 178.407$/tahun atau sekitar Rp2,5 miliar/tahun
- Amazon – 123.602$/tahun atau sekitar Rp 1,7 miliar/tahun
- IBM – 97.094$/tahun atau sekitar Rp 1,4 miliar/tahun
- Apple – 164.152$/tahun atau sekitar Rp 2,3 miliar/tahun
- HP Inc. – 121.457$/tahun atau sekitar Rp 1,7 miliar/tahun
BACA JUGA: Data Engineer: Gaji di Perusahaan Dunia dan Indonesia
Cara Jadi Data Engineer Tanpa Background IT
Buat kamu yang memang sudah mantap berkarier di bidang data engineering, kamu bisa simak panduan singkat berikut ini mengenai cara jadi seorang data engineer tanpa latar belakang IT:
Mengikuti Kursus Bersertifikasi
Mengikuti kursus atau bootcamp bersertifikasi jauh lebih fokus dan tertarget, memakan waktu lebih singkat, dan cenderung jauh lebih hemat biaya. Salah satu alasan utamanya adalah karena kamu bisa belajar sekaligus “menabung” skillset relevan yang dibutuhkan profesi ini dalam waktu bersamaan. Soalnya, kursus atau bootcamp lebih fokus pada praktik sehingga kamu tidak akan menghabiskan waktu hanya untuk belajar teori.
Tambah Pengalaman Dunia Nyata
Saat memulai karier sebagai data engineer di entry level, kamu bahkan juga sudah diminta untuk memiliki pengalaman yang telah tercantum di dalam persyaratan. Akan tetapi, “pengalaman” yang dimaksud sebenarnya cukup luas maknanya dan tidak melulu berarti pengalaman kerja. Memiliki portofolio proyek pribadi terkait data engineering pun sudah bisa jadi awal yang baik untuk mendemonstrasikan pengalamanmu.
Pahami Database dan Update-Update Terkini
Pastikan pula bahwa kamu terus mengikuti update terbaru, baik itu terkait dengan pengetahuan mendasar mengenai database maupun tool yang kamu gunakan untuk mengelola database. Apalagi mengingat fakta bahwa database merupakan bagian penting dalam data engineering yang memegang peran sebagai batu pondasi untuk infrastruktur database yang lebih besar.
Kembangkan Toolset yang Lebih Luas Secara Terus-menerus
Mengembangkan pengetahuan dan skill dengan memanfaatkan beragam data engineering tool punya manfaat signifikan dalam meningkatkan peluang kerjamu. Contohnya data engineering tool berbasis web seperti Amazon Web Service, Apache Cloudstack, dan Microsoft SQL Server Management Studio.
Rekomendasi Kursus Data Engineer Terbaik
Indeed menyebut jumlah lowongan data engineer meningkat hingga lebih dari 400% di waktu lima terakhir. Menariknya, walaupun lowongan data engineer terus meningkat tapi hasil studi dari The New Stack menunjukkan bahwa posisi data engineer memiliki tingkat persaingan yang lebih rendah dibandingkan profesi lain yang berhubungan dengan data dan IT.
Untuk memanfaatkan kesempatan karier data engineer, kamu bisa mulai dengan ikut Bootcamp Data Engineer Digital Skola. Di kelas ini, kamu akan belajar dari tutor expert dari berbagai perusahaan ternama seperti Snowflake, Tokopedia, Jasa Marga, dan perusahaan ternama lainnya. Selain itu, kamu juga akan praktik menggunakan tools premium dan terupdate sesuai kebutuhan industri seperti:
- Kubernetes
- Kafka
- Airflow
Nantinya setelah menyelesaikan kelas, kamu tidak hanya menguasai skill, namun juga akan menghasilkan 7 personal project dan 1 portofolio end to end. Dengan semua materi dan fasilitas ini, langkahmu menjadi data engineer akan semakin mudah. Info lengkap terkait kelas, klik button di bawah ini!