Informasi adalah objek yang bisa kamu temukan di mana saja, namun keterampilan menentukan reliabilitasnya juga sangat penting untuk dikuasai. Bila sebagian informasi berbasis kualitatif, maka yang lainnya berakar pada nilai-nilai dalam data. Setiap data yang terlibat biasanya tersimpan secara khusus dalam digital storage dan mengandung beragam informasi sesuai kebutuhan. Tempat penyimpanan inilah yang biasa dikenal dengan data sources. Setiap pengolahan data yang hebat dimulai dengan data yang benar-benar bersih.
Sebagian besar orang menganggap bahwa proses pengumpulan big data adalah hal yang kompleks. Padahal nyatanya, hal itu tidak selalu benar. Terdapat ribuan sumber dan kumpulan data gratis yang dapat diakses secara online. Masing-masing siap digunakan untuk proses analisis dan visualisasi untuk memunculkan hasil yang kaya wawasan bagi perusahaan. Sumber-sumber gratis tersebut memiliki topik tidak terbatas mulai dari bidang kesehatan, pemerintahan, media sosial, marketing, real estate, directory, hingga keuangan dan ekonomi. Sejumlah besar data dapat menjadi semakin berharga seusai menerima prosedur-prosedur pengolahan tertentu.
Data source juga mendominasi dunia yang semakin didorong oleh pertumbuhan data. Pembatasan akses data hanya akan menghambat ide-ide bisnis potensial sehingga perkembangan pengelolaan data tidak bisa terwujud. Dengan keterbukaan akses, berbagai pemahaman dan isu universal dapat diketahui secara lebih praktis dan mudah. Apakah kamu sedang mencari sumber-sumber gratis bagi sarana data visualization maupun model pengolahan lainnya? Simak selengkapnya melalui daftar di bawah ini.
Mengenal Data Sources Lebih Jauh
Data sources merupakan sumber atau lokasi asal dari data yang akan kamu gunakan. Biasanya, sekumpulan data ini menunjukkan informasi tempat pertama kali didigitalkan. Meskipun demikian, data yang telah terbentuk sekalipun dapat berfungsi sebagai sources selama ada proses lain yang mengakses sekaligus menggunakannya. Contoh dari data sources dapat kamu temukan berasal dari kehidupan sehari-hari. Salah satunya berasal dari fashion brand yang menjual produknya secara online. Untuk menampilkan bahwa suatu item sedang kehabiskan stok, website akan mengambil informasi dari inventory database. Dalam hal ini, inventory tables adalah data sources yang dapat diakses untuk disajikan kepada customer.
Database tetap menjadi sumber data yang paling umum ditemui. Perannya signifikan sebagai lokasi penyimpanan primer di dalam Relational Database Management System (RDMS). Dalam konteks ini, konsep terpenting yang digunakan adalah Data Source Name (DSN). DSN didefinisikan menuju database tujuan atau aplikasi yang berperan sebagai pointer terhadap data aktual, baik server lokal maupun remote. DSN tidak harus mempunyai nama file atau database yang relevan, melainkan lewat alamat atau label yang menghubungkan data dengan sumbernya. Adanya nomenklatur dan definisi bisa jadi membingungkan karena cenderung variatif, terutama dalam dokumentasi teknis.
BACA JUGA: Kinerja Data Modeling dalam Data Science
Jenis-jenis Data yang Harus Diketahui Data Scientist
Sebelum bisa mengolah data menjadi insight yang bermanfaat, tentu kamu harus bisa memahami dulu jenis-jenis data. Di dunia data science, ada beberapa jenis-jenis data yang memegang peran penting untuk bisa menerapkan data science dengan benar dan agar kamu bisa menyimpulkan insight yang sesuai atau valid berdasarkan data. Berikut jenis data yang wajib dipahami oleh data scientist:
Data Kuantitatif
Pertama adalah data kuantitatif yaitu data yang menyatakan jumlah, jangkauan, atau besaran tertentu. Umumnya ada beberapa unit pengukuran yang terkait dengan data seperti meter untuk mengukur tinggi seseorang. Misalnya, data kuantitatif di rumah sakit atau perusahaan yang bergerak di bidang kesehatan akan mengukur berat badan seseorang, tinggi badan seseorang, atau suhu tubuh seseorang, jenis-jenis data ini merupakan data kuantitatif yang dibagi menjadi dua jenis, yaitu:
Data Diskrit, yaitu data yang hanya bisa mengambil nilai-nilai tertentu dan variabel data tidak dapat dibagi menjadi bagian-bagian yang lebih kecil. Contoh dari data diskrit adalah banyaknya jumlah pasien di dalam satu ruang rawat, jumlah karyawan di suatu perusahaan, atau jumlah siswa dalam satu kelas.
Data Kontinu, yaitu data yang informasinya bisa dibagi ke dalam tingkat yang lebih halus atau bisa diukur berdasarkan skala tertentu. Data kontinu juga nilainya biasanya bersifat numerik, contohnya tinggi badan pasien bisa diukur dalam satuan yang berbeda seperti centimeter, meter, millimeter, dan lain sebagainya. Bisa disimpulkan, perbedaan utama dari data kontinu dengan data diskrit adalah data kontinu bisa direkam pada banyak pengukuran yang berbeda.
Data Kualitatif
Kedua, data kualitatif yaitu data yang bisa diamati dan dicatat dan data ini bersifat non-numerik serta dikumpulkan melalui metode wawancara, focus group discussion, observasi, dan metode serupa lainnya. Jenis data kualitatif sangat penting untuk menentukan frekuensi sifat atau karakteristik tertentu yang memungkinkan data scientist untuk membentuk parameter di kumpulan data yang jumlah besar agar bisa diamati atau diteliti. Contohnya, data scientist di perusahaan marketing bisa mengumpulkan data kualitatif terkait:
- Masalah yang dihadapi pelanggan
- Aspek produk yang disukai pelanggann
- Alasan pelanggan membeli produk
Data-data ini nantinya akan diolah menjadi insight yang bermanfaat untuk perusahaan.
Data Interval
Data interval adalah tipe data yang diukur sepanjang skala yang titiknya ditempatkan pada jarak yang sama. Biasanya data interval muncul dalam bentuk nilai numerik atau angka dengan jarak antara dua titik distandarisasi dan sama. Berikut karakteristik utama dari data interval:
- Perhitungan = Nilai bisa ditambah atau dikurangi, tapi tidak bisa dikalikan atau dibagi
- Pengukuran = Bisa diukur menggunakan skala interval
- Titik nol = Variabel bisa diukur meskipun memiliki nilai negatif
- Selisih interval = Jarak antara setiap nilai pada data interval sama
Data Rasio
Data rasio adalah jenis data numerik yang bersifat kuantitatif. Umumnya data rasio dikumpulkan dalam skala yang memiliki jarak antara nilai-nilai yang berdekatan. Ciri-ciri dari data rasio adalah bisa diukur atau diurutkan, contohnya:
- Tinggi = Tinggi atau panjang diukur dalam inci, kaki, atau meter dan tidak boleh memiliki nilai negatif
- Kecepatan = Dua kecepatan pada satu skala akan memiliki rasio yang sama dengan kecepatan pada skala lain
Data Ordinal
Data ordinal yaitu data yang diklasifikasikan ke variabel yang memiliki urutan alami tetapi jarak antar kategorinya tidak diketahui, contohnya di perusahaan yang bergerak di bidang kesehatan ada data frekuensi pasien makan makanan sehat data tersebut bisa dikategorikan menjadi tidak pernah, jarang, kadang-kadang, sering, atau selalu.
Baca juga: Mulai Diincar Sektor Pemerintahan, Ini Bocoran Data Science Gaji!
Selanjutnya, sebagai data scientist juga kamu harus mengetahui ada 3 jenis data pada big data, yaitu:
Data Terstruktur
Data terstruktur adalah data yang memiliki format standar yang bisa disimpan, diproses, dan diambil dalam format tetap. Biasanya, data terstruktur berbentuk tabel dengan kolom dan baris yang dengan jelas mendefinisikan atribut data. Contohnya tabel data pelanggan terstruktur yang berisi kolom:
- Alamat pelanggan
- Nama pelanggan
- Nomor telepon
Data-data ini nantinya bisa memberikan insight kepada data scientist terkait pelanggan. Ada beberapa contoh lain dari data terstruktur, yaitu:
- Basis data SQL
- Data penjualan
- Hasil formulir dari website
- Direktori produk
- File Excel
- Sistem pemasaran
- Data sensor
Ada beberapa manfaat dari menggunakan data terstruktur:
- Kemudahan penggunaan = Semua bisa mengakses data dengan cepat
- Skalabilitas = Bisa menambahkan penyimpanan dan kekuatan pemrosesan
- Analitik = Bisa diidentifikasi dan dianalisis untuk machine learning
Data Semi-Terstruktur
Data semi-terstruktur adalah jenis data yang dimasukan ke dalam sebuah tabel tetapi skemanya tidak sama dengan tabel biasa yang terdiri dari kolom dan baris. Data semi-terstruktur mengandung format data tidak terstruktur dan terstruktur. Contohnya:
- JSON
- File website
- File zip
- XML
Data Tidak Terstruktur
Data tidak terstruktur adalah data dengan bentuk yang tidak dikenal dan harus disimpan dengan format khusus karena tidak memiliki struktur yang spesifik. Contoh jenis data tidak terstruktur adalah:
- File teks
- File video
- Data komentar media sosial
- Data likes media sosial
- Data followers media sosial
Rekomendasi Data Sources Gratis untuk Data Visualization: Global
WHO Open Data Repository
Mencari data-data penting terkait dunia kesehatan jadi lebih mudah melalui platform atau menu yang disediakan oleh World Health Organization (WHO). Sistem data yang digunakan dapat melacak sebaran statistik kesehatan khusus dari 194 negara anggotanya. Repository dapat mengorganisir data secara sistematis agar mudah diakses menurut kebutuhan yang berbeda-beda. Misalnya, saat kamu membutuhkan data terkait kematian atau penyebab penyakit.
Ada lebih dari 100 kategori yang dapat diatur untuk memunculkan klasifikasi data dari bidang-bidang kesehatan tertentu. Beberapa diantaranya mengenai gizi dan kesehatan anak, imunisasi, HIV/AIDS, malaria, sampai pembahasan mengenai air serta sanitasi. Kamu dapat melakukan penelusuran berdasarkan tema, kategori, indikator, dan negara yang dimaksud. Kemudahan lain yang akan kamu peroleh adalah kemungkinan mengunduh berbagai data ke dalam format Excel. Tersedia juga API yang digunakan sebagai kunci menuju konten data maupun statistik WHO. Portal data mampu dipantau dan dianalisis menggunakan portal data yang bersangkutan.
Google Public Data Explorer
Sejak diluncurkan pada 2010, Google Public Data Explorer telah membantu menyediakan datasets bagi kepentingan publik. Kamu dapat memvisualisasikan serta mengomunikasikan data bagi pemakaian yang luas. Data yang dapat diambil biasanya berasal dari berbagai lembaga dan sumber yang tersedia. Kamu bisa mengakses data dari World Bank, IMF, OECD, sampai Bureau of Labor Statistics. Biasanya, stakeholders yang berbeda akan menggunakan data sources ini untuk berbagai tujuan.
Tidak heran kalau pelajar dan akademisi memanfaatkannya untuk membuat data visualization. Bersama Data Explorer, data dapat direpresentasikan menjadi line graph, bar graph, maps, dan bubble charts. Visualisasi yang terjadi biasanya cukup dinamis dengan update berkala dari waktu ke waktu. Setelah bagan selesai disiapkan, kamu dapat melakukan attach menuju website atau blog kemudian membagikannya kepada teman-teman melalui link yang digunakan. Setiap user dapat mengubah fokus dan topik pada entry yang berbeda sembari mengubah skala sesuai kebutuhan.
Registry of Open Data at AWS (RODA)
Repository data publik gratis lainnya yang dapat kamu gunakan adalah RODA. Tidak hanya digunakan untuk kepentingan pribadi, user dapat membagikan data yang tersedia pada khalayak umum. Manfaatkan pemakaian tag dan keyword untuk jenis-jenis data yang bersifat publik, seperti transportasi umum, genomic, serta satellite imagery. Semua jadi mungkin dengan interface web yang sederhana dan mudah digunakan. Bagi setiap datasets, kamu akan menemukan halaman detail, contoh penggunaan, license information, dan tutorial yang dapat dilakukan memakai dari dari RODA. Dengan memakai macam-macam produk computing dan data analysis, kamu dapat mengolah open data kemudian layanan apa pun sesuai keinginan. Perlu diingat bahwa data tidak disediakan oleh AWS, melainkan lewat organisasi, lembaga, atau individu terkait.
Kaggle
Kaggle merupakan data sources yang menggunakan format publikasi datasets berbeda-beda. Datasets publishers memberikan kemudahan lewat pembagian data dalam format non-eksklusif agar bisa diakses siapa saja. Kaggle juga berupaya mendefinisikan format file yang direkomendasikan bagi kebutuhan pengolahan data. Setiap datasets mewakili komunitas yang memungkinkan terjadinya diskusi perihal data, menemukan public codes, dan membuat konsep proyek sendiri di Kernel. Platform ini juga mendukung jenis-jenis file berupa JSON, CSV, SQLite, Archive, sampai Big Query. Kaggle juga memungkinkan publikasi atau membagikan data secara publik maupun pribadi.
BACA JUGA: Kumpulan Proyek untuk Belajar Data Science bagi Pemula
UCI Machine Learning Repository
Repository databases komprehensif yang satu ini menggunakan domain theory dan data generator. Platform ini biasa dipakai oleh komunitas mahine learning untuk analisis empiris. Ada lebih dari 1000 datasets yang mudah kamu temukan melalui platform ini. UCI Repository dikelola serta dipelihara langsung oleh The Center for Machine Learning and Intelligent System, University of California. David Aha adalah sosok pencipta UCI, tepatnya ketika masih menjadi mahasiswa pascasarjana. Sejak saat itu, akademisi, pendidik, serta peneliti memanfaatkannya sebagai data sources bagi machine learning yang andal. Datasets dapat diunduh langsung menjadi file dengan format ASCII atau CSV.
Rekomendasi Data Sources Gratis untuk Data Visualization: Lokal
Ekosistem Data Jabar
Ekosistem Data Jabar adalah data source gratis yang terintegrasi untuk pengelolaan dan kemudahan akses data bagi warga Indonesia dan untuk pemerintah Jawa Barat. Di dalam Ekosistem Data Jabar terdapat tiga portal bernama:
- Open Data Jabar = 29.608 total dataset yang terdiri dari kumpulan data-data mentah berupa tabel yang bisa diolah, 69 total visualisasi atau gambaran informasi data tertentu dalam bentuk grafik, 86 total infografik, 40 total organisasi perangkat daerah yang publikasi datanya tampil di Open Data Jabar
- Satu Data Jabar = Data antar perangkat daerah di lingkungan pemerintah Provinsi Jawa Barat
- Satu Peta Jabar = 141 total dataset Geospasial, 20 organisasi perangkat daerah yang bergabung dan mempublikasikan datanya, 123 total metadata yang ditulis oleh Pemprov Jawa barat
Badan Pusat Statistik
Data sources dari lembaga pemerintahan non-kementerian yang juga menyediakan dataset yang bisa diakses oleh kamu secara gratis. Jika sebelumnya di Ekosistem Data Jabar kamu hanya bisa menggunakan dataset yang berhubungan dengan daerah Jawa Barat, di Badan Pusat Statistik kamu bisa menggunakan data yang lebih beragam dari masyarakat Indonesia dalam berbagai variabel. Ada 3 kategori utama, yaitu:
- Data Sosial dan Kependudukan
- Data Ekonomi dan Perdagangan
- Data Pertanian dan Pertambangan
Otoritas Jasa Keuangan
Lembaga pengawas yang bertugas dalam kegiatan keuangan di sektor Perbankan, Pasar modal, dan Industri Keuangan Non Bank ini juga rupanya menyediakan dataset gratis yang bisa kamu manfaatkan. Ada 8 kategori dataset yang berhubungan dengan keuangan:
- Statistika Perbankan Indonesia
- Statistika Perbankan Syariah
- Laporan Publikasi
- Laporan Profil Industri Perbankan
- Booklet Perbankan Indonesia
- Direktori Perbankan Indonesia
- Suku Bunga Dasar Kredit
- Survei Perbankan
Satu Data Indonesia
Satu Data Indonesia adalah program pemerintah yang bertujuan untuk menggapai mimpi bangsa Indonesia untuk berdaulat dalam data. Di sini ada beberapa kategori dataset yang bisa kamu akses seperti:
- Data Kendaraan Aktif
- Jumlah Penduduk Menurut Kelompok Umur
- Jumlah Penduduk Menurut Jenis Kelamin
- Sebaran dan Jumlah Koperasi Binaan Provinsi dan Kabupaten
Proses pengolahan data merupakan proses kompleks dan cukup panjang. Kamu dapat mengambil data-data terkait yang esensial hanya melalui data sources yang tersedia secara gratis di internet. Selain punya akses yang luas dan terjangkau ke mana saja, sebagai user kamu bisa membagikan sekaligus memanfaatkannya untuk memperoleh wawasan berharga. Tujuannya untuk mengembangkan big data perusahaan sebagai upaya kemajuannya di tengah-tengah dunia berbasis teknologi.
Ingin mempraktekkan proses pengambilan data sources secara langsung bersama ahli di bidangnya? Belajar sekarang di Bootcamp Data Science dan kuasai ilmu-ilmu serta keterampilan sebagai seorang profesional hanya dalam 3 bulan.