Jakarta, Jaring.id – Statistik dan data merupakan komposisi utama untuk mendapatkan cerita dari sekumpulan data. Sekumpulan data saja kurang berarti jika jurnalis tidak mampu mengolah, mendeskripsikan dan menginterpretasikan data. Tulisan ini mencoba menjelaskan bagaimana menggunakan statistik untuk tujuan jurnalistik.
Langkah yang harus dilewati untuk sampai pada sebuah cerita adalah dengan mendeskripsikan data. Dalam jurnalistik, kita menggunakan istilah deskripsi untuk menerangkan detail penting yang ditangkap panca indra.
Namun dalam statistik, mendeskripsikan data perlu instrumen lain di samping panca indra, yaitu menggunakan ukuran pemusatan data (mean, median, modus), ukuran persebaran data (varian, range, standar deviasi, quartil dan interquartil), dan ukuran visualisasi data (tabel frekuensi, tabel distribusi, dan visualisasi)
“Deskripsi data akan meringkas kita membaca data dengan menemukan pusat data, melihat persebaran data dan menangkap informasi dari data lewat visualisasi,” kata Kepala Program Data Science Indonesia (DSI) Wimi Sartika saat mengisi kelas Webinar JARING “Jurnalis Utak Atik Statistik” di Jakarta, Sabtu 20 Januari 2017.
Menurut Wimi, sebelum mendeskripsikan data, penting untuk mengetahui skala pengukuran dari data yang kita miliki. Ada empat jenis skala pengukuran untuk data numerik atau kuantitatif, yaitu nominal, ordinal, interval, dan rasio.
Data nominal adalah data yang hanya berisi klasifikasi dan tidak bisa diukur misalnya klasifikasi berdasarkan jenis kelamin, warna rambut, agama, dan lain-lain. Sementara untuk data yang berisi klasifikasi, diurutkan dan setiap urutan memiliki arti, maka data tersebut adalah ordinal. Contohnya data urutan peringkat kelas yang dibagi jenis kelamin dan sistem penilaian A,B,C,D,E dan F.
Data interval adalah data yang selain diurutkan, memiliki jarak yang sama dan setiap urutan mempunyai arti, serta tidak memiliki nilai mutlak (0). Misalnya data hasil test IQ, suhu ruangan dan jam. Terakhir data rasio merupakan data yang paling informatif karena hasil pengukuran yang bisa dibedakan, diurutkan, memiliki jarak tertentu, dan bisa dibandingkan. Contohnya jarak, tinggi badan dll.
Ukuran Pemusatan
Setelah mengetahui skala pengukuran dari data yang dimiliki, maka tentukan ukuran pemusatan dengan mean, median dan modus. Mean dikenal dengan rata-rata (average) dan ini paling sering digunakan. Namun rata-rata sebaiknya digunakan ketika tidak terdapat nilai terlalu besar atau terlalu kecil (outlier).
Dalam kondisi terdapat data outlier, sebaiknya menggunakan median atau nilai tengah. Cara menentukan nilai tengah dengan mengurutkan data terkecil ke data terbesar. Jika jumlah data ganjil maka ambil nilai paling tengah. Jika jumlah data genap maka jumlahkan dua data di tengah kemudian bagi dua. Sementara modus diartikan sebagai data yang sering muncul. Akan tetapi modus sangat jarang digunakan.
Ukuran Penyebaran dan Visualisasi
Setelah mendapat ukuran pemusatan, selanjutnya mencari ukuran penyebaran. Tujuan mencari ukuran penyebaran untuk mengetahui seberapa jauh sebaran data dari nilai-nilai hasil ukuran pemusatan tadi, sebesar apa variasi data dan penyimpangan data.
Ukuran penyebaran yang pertama adalah varian. Varian merupakan indikator melihat seberapa jauh data menyebar dari pusatnya. Contohnya dalam satu kelas, tinggi badannya sama maka variannya sama dengan nol. Kemudian range digunakan untuk menunjukkan jarak peyebaran skor nilai terendah sampai tertinggi.
Salah satu yang paling penting untuk dilihat dari ukuran penyebaran adalah standar deviasi. Standar deviasi akan menunjukkan sebaran data dari nilai rata-rata yang sudah didapat. Jika standar deviasi semakin kecil maka nilai rata-rata semakin mewakili data. Sebaliknya jika standar deviasi semakin besar maka nilai rata-rata kurang mewakili data.
Misalnya lima karyawan mempunyai upah berbeda. Saat kita mencari nilai rata-rata, ternyata nilai yang muncul di atas upah empat karyawan lainnya. Artinya nilai rata-rata yang kita peroleh tidak merepresentasikan data sebenarnya sehingga menggunakan rata-rata tidak tepat. Hal ini akan terlihat jelas jika kita cek standar deviasi.
Nilai penyebaran data penting untuk mengoreksi nilai pusat data dalam beberapa kondisi. Kegunaannya juga untuk perbandingan terhadap variabilitas data, misalnya saat mengukur curah hujan yang beragam. Kalau dari ukuran keragaman sudah besar maka baiknya gunakan persebaran data. Selain itu untuk membantu pengukuran statistik, membandingkan ukuran penyebaran sampel dan jumlah populasi.
“Jadi kesimpulannya apakah ukuran sampel yang kita ambil mewakili dari populasi yang kita punya,” kata Wimi.
Sementara ukuran visualisasi paling banyak dilakukan media jika datanya kecil dan sedikit. Biasanya ditampilkan dalam tabel frekuensi dan tabel tabulasi dengan persentase. Selain tabel, visualisasi juga dilakukan dengan menyajikan data dalam bentuk histogram (diagram batang), poligon (diagram garis) dan pie (diagram lingkaran).