Lebih dekat dengan data science

·

3 min read

Lebih dekat dengan data science

Apa itu Data Science ?

Data science menurut DJ Patil salah satu data scientist obama pada waktu itu adalah suatu ilmu yang bisa menceritakan sesuatu dari sekumpulan data yang banyak, orang yang menggeluti di bidang data science disebut Data Scientist. Dengan data science kita dapat memproses pengolahan data yang meliputi pengumpulan data, manipulasi data, hingga analisis data untuk melakukan pemodelan pada data yang banyak untuk menghasilkan suatu insight guna mengambil keputusan.

Tak hanya data yang numerik saja yang diproses melainkan juga data seperti audio, video, atau gambar pun juga bisa untuk diproses. Caranya dengan mengkonversikan ke dalam bentuk digital jika gambar nanti akan dibaca setiap pixelnya lalu datanya dimasukan ke dalam kumpulan data yang nantinya dibutuhkan ketika diproses untuk pengambilan keputusan

Keilmuan tertentu untuk mendalami Data Science ?

Sebenarnya data science merupakan penggabungan antara ilmu matematika, statistika, dan komputer. Semua bidang keilmuan itu saling melengkapi. Di bidang matematika dan statistika digunakan untuk membuat pemodelan pada data dari menghitung hingga visualisasi ke dalam diagram diagram matematika. Dan ilmu komputer menjadi fundamental karena data sendiri tak bisa dipisahkan dengan komputer.

Skill yg dibutuhkan untuk menjadi seorang Data Scientist ?

Menurut Ardya Dipta, Senior Data Science GOJEK, Hard Skill yang harus dimiliki oleh seorang data scientist yang pertama ilmu matematika dan statistika. Ini sangat penting, mengingat seorang data scientist harus bisa memecahkan sebuah problem dari banyak data, jadi mereka harus bisa membuat algoritmanya. Yang kedua adalah fundamental pemrograman.

Dengan adanya fundamental pemrograman data scientist dapat membuat program machine learning nya menggunakan bahasa pemrograman python. Tak hanya hard skill, Soft Skill juga diperlukan yang namanya problem solving. Dengan kemampuan problem solving yang baik diharapkan data scientist dapat memecahkan masalah dengan tepat. Tak hanya itu menurut pak Ardya juga diperlukan keterampilan komunikasi yang bagus ketika membicarakan persoalan bidang IT dengan orang yang non it karena dalam suatu perusahaan ada unit lain yang di lain bidang pula.

Apa itu Data Cleaning ?

Data cleaning merupakan tahap pembersihan data yang masih berantakan, tak lengkap, atau format data yang berbeda. Menurut towarddatascience.com ciri ciri data yang baik adalah valid, akurat, lengkap, konsisten, dan seragam. Manfaat dari melakukan data cleaning tentu untuk menghasilkan hasil data yang lebih akurat, jika sumber data masih berantakan tanpa melalui proses data cleaning maka sulit untuk mendapatkan hasil yang maksimal.

Metode Statistika yang sangat bermanfaat dalam Data Science !

Menurut dqlab.id ada 4 metode statistika yang banyak dipakai di bidang data science yaitu regresi, standar deviasi, pengujian hipotesis, penentuan sampel. Regresi adalah pemodelan hubungan antara variabel dependen dan penjelasan, yang biasanya diterapkan pada data sebar. Dengan menggunakan garis regresi dapat terlihat biasanya dari grafik scatterplot. Standar deviasi adalah ukuran penyebaran data di sekitar nilai mean. Dimana standar deviasi yang tinggi menandakan bahwa data tersebar lebih luas dari nilai mean, sedangkan standar deviasi yang rendah menandakan bahwa data lebih banyak sejajar dengan nilai mean

Pengujian hipotesis adalah pengujian terhadap suatu pernyataan dengan menggunakan metode statistik sehingga hasil pengujian tersebut dapat dinyatakan signifikan secara statistik. Penentuan ukuran sampel adalah mengambil sekelumit data dari kumpulan data yang banyak untuk digunakan sebagai sampel.

Apa Itu Scatter Plot dan untuk apa ?

Scatter plot menurut prasetyawijaya.com adalah sebuah grafik yang biasa digunakan untuk melihat suatu pola antara 2 variabel. Skala yang bisa digunakan adalah interval dan rasio.

Apa perbedaan Supervised dan Unsupervised Learning!

Supervised Learning adalah pendekatan dimana sudah ada data yang dilatih dalam hal ini di kelompok dan terdapat variabel yang ditargetkan, tujuannya untuk mengklasifikasikan data kedalam data yang sudah ada. Sedangkan Unsupervised Learning berbeda, pendekatan ini tidak memiliki data yang sudah dilatih sebelumnya. Caranya harus mengklasifikasikan dari intrinsik data itu sendiri karena tidak ada label yang tertera (belum dilatih).