Rekayasa data merupakan bidang penting yang berfokus pada pembuatan dan pemeliharaan sistem untuk mengumpulkan, menyimpan, dan menganalisis data. Bidang ini sangat dihargai dalam industri TI karena perannya yang penting dan keahlian khusus. Insinyur data berkolaborasi dengan berbagai departemen untuk menangani kebutuhan data tertentu, memanfaatkan alat dan platform terbaru untuk membangun jalur data untuk tugas-tugas seperti Ekstraksi, Transformasi, Pemuatan (ETL).
1. Data Engineering ZoomCamp
ZoomCamp Data Engineer merupakan kursus komprehensif dan gratis yang ditawarkan oleh DataTalks.Club. Kursus ini berlangsung selama sembilan minggu dan membahas dasar-dasar Data Engineer sehingga ideal bagi individu dengan keterampilan pengodean yang ingin mengeksplorasi pembuatan sistem data. Di akhir kursus, Anda akan menerapkan apa yang telah Anda pelajari dengan menyelesaikan proyek rekayasa data menyeluruh. Proyek ini meliputi pembuatan alur kerja untuk memproses data, memindahkan data dari danau data ke gudang data, mengubah data, dan membangun dasbor untuk memvisualisasikan data.
2. Stream Events Generated from a Music Streaming Service
Dalam proyek ini, Anda akan membuat alur kerja data engineer menyeluruh menggunakan alat seperti Kafka, Spark Streaming, dbt, Docker, Airflow, Terraform, dan GCP. Streamify mensimulasikan layanan streaming musik, yang memungkinkan Anda bekerja dengan aliran data waktu nyata dan mempelajari cara memproses dan menganalisisnya secara efektif. Proyek ini sangat cocok untuk memahami kompleksitas data streaming dan teknologi yang digunakan untuk mengelolanya.
3. Reddit Data Pipeline Engineering
Proyek ini menyediakan solusi ekstraksi, transformasi, dan pemuatan (ETL) yang komprehensif untuk data Reddit. Proyek ini menggunakan Apache Airflow, Celery, PostgreSQL, Amazon S3, AWS Glue, Amazon Athena, dan Amazon Redshift untuk mengekstrak, mengubah, dan memuat data ke gudang data Redshift. Proyek ini sangat bagus untuk mempelajari cara membangun jalur data yang dapat diskalakan dan mengelola kumpulan data besar di lingkungan cloud.
4. GoodReads Data Pipeline
Proyek ini berfokus pada pembangunan jalur data menyeluruh untuk data GoodReads. Proyek ini melibatkan pembuatan danau data, gudang data, dan platform analitik. Data diambil secara real-time dari API Goodreads menggunakan pembungkus Python Goodreads. Kami mengambil data secara real-time dari API GoodReads, data awalnya disimpan di disk lokal sebelum segera ditransfer ke S3 Bucket di AWS. Pekerjaan ETL, yang ditulis dalam Spark, diatur menggunakan Airflow dan dijadwalkan untuk berjalan setiap sepuluh menit. Dengan mengerjakan proyek ini, Anda akan memperoleh pengalaman dalam menangani beragam sumber data dan mengubahnya menjadi wawasan berharga, yang merupakan keterampilan penting bagi setiap teknisi data.
5. End-to-end Uber Data engineering project with BigQuery
Dalam proyek ini, Anda akan mengerjakan solusi rekayasa data menyeluruh untuk data Uber menggunakan BigQuery. Proyek ini melibatkan perancangan dan penerapan alur data yang memproses dan menganalisis data dalam jumlah besar. Proyek ini ideal untuk mempelajari solusi pergudangan data berbasis cloud dan cara mengoptimalkan pemrosesan data untuk performa dan skalabilitas.