(Artikel ini muncul di Kompas KLASS, Desember 2015. Bagian kedua dapat ditemukan Di Sini)
Mengapa Google dapat membuat mobil tanpa pengemudi? Bagaimana rantai ritel Target dapat mendeteksi kehamilan pelanggan dan menawarkan berbagai produk kehamilan pada saat yang bersamaan?
Ini adalah fenomena data besar. Sejak penemuan platform untuk berbagi cerita, foto, dan video, jumlah data yang luar biasa telah meningkat secara eksponensial. Ketika digabungkan dengan semua data dari perangkat, kamera, dan sensor di jalan, bangunan, fasilitas umum, dan pabrik, ukuran data akan dikalikan berkali-kali. Hard disk Anda mungkin dalam kapasitas giga atau tera, tetapi jika Anda melihat data yang dikumpulkan oleh Facebook, Google, Youtube, Twitter, dan LinkedIn, mereka telah berada di level petabyte.
Untuk seorang ilmuwan data, jumlah data ini seperti harta karun yang, saat diproses, akan mengungkap banyak hal bahkan mengubah cara kita bekerja di berbagai bidang.
Begitu luar biasa kuatnya ilmu data sehingga Harvard Business Review menulis sebuah artikel “Ilmuwan Data: Pekerjaan Terseksi di Abad 21.” Itu bukan tanpa dasar. Tahun 2011, McKinsey Global Institute memperkirakan bahwa di Amerika Serikat saja akan terjadi kekurangan hampir 200 ribu ilmuwan data di 2018. Tidak heran perusahaan sering memikat para ilmuwan ini dengan gaji besar.
Jurusan Ilmu Data
Disiplin yang relatif baru ini merupakan persilangan antara komputer dan ilmu statistik. Tujuannya adalah untuk menemukan pemahaman baru dari data yang sangat banyak melalui analisis kuantitatif untuk mengambil keputusan di berbagai bidang. Ada data terstruktur seperti data keuangan atau demografi, tetapi ada juga data yang tidak teratur, seperti email, video, foto, media sosial, dan konten lainnya. Kedua jenis data tersebut dapat menciptakan manfaat.
Pada tahap awal, disebut datafikasi, berbagai data dari berbagai sumber harus “siap” agar dapat dibaca oleh program komputer. Fase ini membutuhkan keahlian di bidang ilmu komputer. Keterampilan yang diperlukan termasuk misalnya Database Tingkat Lanjut, Gudang Data, Algoritma dan pemrograman dengan Python, R, Hadoop, dan berbagai alatnya.
Setelah data siap, tahap selanjutnya melibatkan lebih banyak statistik, pengoptimalan, dan penalaran matematis. Tentu saja, siswa diminta untuk menguasai Statistik untuk Ilmu Data, Teori Keputusan Bayesian, Analisis Prediktif, serta probabilitas dan Data. Penguasaan berbagai keterampilan statistiklah yang akan mengungkapkannya “rahasia” di belakang beban data yang sangat besar.
Manfaat big data bisa sangat beragam. Sebagai contoh, di Amerika, ada kira-kira 25 juta penderita asma. Analisis Data Media Sosial mengungkapkan bahwa mereka yang asmanya kambuh umumnya mengabaikan status mereka bahkan sebelum meraih inhaler.
Seperti yang kita semua tahu, Twitter mencatat waktu dan lokasi apa pun “menciak”. Dengan memfilter puluhan juta tweet dengan tag hash, link, dan kata kunci, banyak pasien’ lokasi dapat dipetakan. Jadi, rumah sakit di daerah punya waktu untuk mempersiapkan dokter, obat asma, tempat tidur atau kamar, sebelum pasien tersebut tiba.
“Internet hal-hal”
Saat saya bertemu dengan ahli teknik nirkabel dari Macquarie University di Australia, Prof.Eryk Dutkiewics, Ia menyebutkan bahwa teknologi 5G akan segera dirilis. Dengan teknologi ini, tidak hanya data percakapan telepon yang akan meningkat, tetapi juga data dari jutaan sensor, kamera, dan perangkat elektronik lainnya. Di era 'internet of things', banyak perangkat yang terhubung ke Internet dan mengirim data. Analisis data yang dihasilkan mesin ini dapat mengungkap banyak wawasan baru.
Di bidang kesehatan, Misalnya, data ribuan pasien disajikan di komputer bersama dengan prediksi. Oleh karena itu, dokter dapat mengetahui mengapa obat tertentu efektif pada satu pasien tetapi tidak pada pasien lain. Berbagai alat yang dipasang di tubuh pasien memasok jutaan data penting yang tidak mungkin bisa dilihat tanpa ilmu data.
Meningkatkan Mesin
Dengan algoritma tertentu, set data tertentu berkorelasi dengan yang lain secara statistik. Ketika jumlah data meningkat, komputer menghasilkan lebih banyak korelasi. Pendeknya, komputer menjadi lebih pintar ketika diberikan lebih banyak data. Ini disebut pembelajaran mesin. Ada banyak aplikasi dari prinsip ini, dari yang sederhana hingga mobil tanpa pengemudi dan layanan Google Translate.
Dalam kasus Google Terjemahan, Google tidak menerjemahkan teks kata demi kata. Diambil dari berbagai konferensi internasional, publikasi ilmiah, dan koleksi perpustakaan, setiap teks diletakkan berdampingan dengan terjemahannya, kemudian disimpan dalam bentuk digital. Setiap frase dan kalimat terkait dengan terjemahannya, dan kemudian komputer mencari korelasinya.
Lembur, jutaan teks telah terakumulasi. Komputer semakin pintar dan mampu menghasilkan terjemahan yang lebih baik. Itulah alasan pembelajaran mesin adalah salah satu mata pelajaran utama dalam ilmu data. Satu hari, Google mungkin dapat menghasilkan terjemahan yang akurat, termasuk menerjemahkan percakapan, menggantikan profesi penerjemah, mirip dengan apa yang akan menimpa banyak profesi lain karena teknologi.
Ilmu data dapat menghasilkan optimasi, Misalnya, dalam merancang kampanye pemasaran yang paling efisien. Aplikasi ini juga menghasilkan analitik prediktif, seperti memprediksi kejadian atau mengantisipasi permintaan barang tertentu di masa depan.
Dengan ilmu data, kita dapat memahami perilaku pelanggan lebih dalam. Sebagai contoh, Amazon.com berhasil mengembangkan sistem yang merekomendasikan beberapa item lain untuk dibeli bagi pengunjung uniknya. Yang lebih menarik adalah kemampuan ilmu data untuk mendeteksi penipuan keuangan, dan bahkan mengotomatiskan mobil tanpa pengemudi seperti yang dilakukan Google.
Masalah Privasi
Satu perusahaan asuransi besar, Aviva, mengukur risiko asuransi pemohon berdasarkan gaya hidupnya. Data tersebut berasal dari hobinya, halaman website apa yang dia kunjungi, seberapa sering dia menonton TV, acara apa yang dia tonton, perkiraan pendapatan, dan banyak lagi. Cara ini, Aviva hanya menghabiskan 5 dolar. Dilain pihak, jika perusahaan menggunakan tes darah dan sampel urin, itu harus menanggung biaya $125 per pelanggan. Penghematan yang luar biasa!
Aviva bukan satu-satunya “menjalar” data pribadi. Amazon, INRIX, Netflix, Target, dan masih banyak lagi yang melakukan hal yang sama. Isu terbesar bagi mereka yang berkecimpung di bidang big data adalah pada aspek kerahasiaan dan privasi. Sejauh mana perusahaan atau organisasi memiliki hak untuk bermain-main dengan data pribadi kita?
Sebagai tanggapan, di Universitas Columbia, Amerika Serikat, ada kursus Capstone dan Etika Ilmu Data di Master of Science dalam Ilmu Data. Dalam mata kuliah ini mahasiswa akan mengaplikasikan seluruh ilmunya untuk memecahkan masalah di dunia industri, pemerintah, dan sektor nirlaba. Tujuan proyek satu semester ini adalah menyatukan statistik, komputasi, rekayasa, dan masalah sosial untuk menemukan solusi untuk masalah dunia nyata dengan cara yang etis.
Bagian kedua dari artikel ini dapat ditemukan Di Sini.
Tambahkan komentar