Web Scraping, Jurnalistik, dan Kepentingan Publik

Catatan editor : The Markup, media investigasi berbasis di New York yang meliput industri teknologi, baru-baru ini beargumen mengenai web scraping dalam amicus curiae (istilah dalam pengadilan yang merujuk pemberian pendapat hukum oleh pihak yang merasa berkepentingan terhadap suatu perkara) untuk Mahkamah Agung Amerika Serikat yang berpotensi membuat scraping sebagai aktivitas ilegal. Inilah alasan mereka.

Muasal dari web scraping, menggunakan kode untuk mengumpulkan data dan informasi dari website, adalah berbagai hal yang muncul dalam keseharian kita.

Orang-orang membuat kode untuk menemukan semua Applebe di planet ini, mengumpulkan undang-undang dan suara yang diberikan oleh para pemilih, atau melacak jam tangan mahal untuk dijual di situs penyuka barang mewah. Pebisnis menggunakan scraper (kode atau perangkat lunak untuk mengumpulkan informasi dari Internet) untuk mengelola inventarisasi ritel secara daring sekaligus memantau harga jual kompetitor. Banyak situs terkenal juga menggunakan scrapers untuk melacak harga tiket pesawat dan daftar pekerjaan. Google, pada dasarnya, merupakan perangkat scrapers raksasa.

Scraper juga digunakan oleh pengawas kepentingan publik dan jurnalis. Oleh sebab itu, The Markup mengajukan amicus brief dalam kasus Van Buren v. Amerika Serikat sebelum Mahkamah Agung Amerika Serikat memutuskan scraping sebagai kegiatan ilegal. Kasus tersebut sebetulnya bukan perkara scraping, tetapi lebih pada pertanyaan legal mengenai tuntutan kepada petugas Kepolisian Georgia, Nathan Van Buren, yang disuap untuk mencari informasi rahasia di dalam database penegakan hukum. Van Buren dituntut berdasarkan aturan Fraud and Abuse Act (CFAA) yang melarang akses penggunaan jaringan komputer secara ilegal, seperti peretasan komputer untuk membobol sistem dengan tujuan mengambil informasi (seperti yang digambarkan dalam film klasik pada 1980 berjudul “WarGames” yang berpotensi memulai perang dunia III).

Pada kasus Van Buren, dia mendapat izin mengakses database lantaran pekerjaanya. Pertanyaan selanjutnya adalah apakah pengadilan akan mendefinisikan hal tersebut sebagai penyalahgunaan wewenang yang bisa membuatnya dikategorikan sebagai tindakan kriminal di bawah aturan CFAA?  Ketika penafsiran tersebut digunakan, maka hal tersebut dapat memengaruhi kerja-kerja jurnalis di kemudian hari.

Atau seperti yang dikatakan hakim Neil Gorsuch dalam pernyataan lisannya yang menyebut bahwa “,Mungkin hal itu membuat kita semua sebagai penjahat federal.”

Jurnalis investigasi dan pengawas kepentingan publik lainnya sering menggunakan scraper untuk menjelaskan beragam masalah. Mulai dari melacak pengaruh pelobi di Peru dengan mengambil jejak digital pengunjung gedung pemerintah hingga memantau serta mengumpulkan iklan politik di Facebook. Pada kedua contoh tersebut, halaman dan data yang diambil merupakan data publik yang tersedia di Internet dan tidak membutuhkan peretasan untuk mengumpulkannya. Namun, seringkali situs maupun penyedia situs dapat dengan mudah mengubah ketentuan layanan (terms of service) dengan melabeli agregasi informasi sebagai aktivitas “tidak sah”. Ketika hal tersebut terjadi, Mahkamah Agung—tergantung bagaimana perubahan ketentuan layanan dilakukan—bisa memutuskan bahwa pengumpulan data di situs tersebut telah melanggar peraturan layanan dan mengkategorikannya sebagai kejahatan di bawah aturan CFAA.

“Sebuah statuta  yang memungkinkan kekuatan besar seperti pemerintah dan aktor dari perusahaan kaya mengkriminalisasi kegiatan pengumpulan informasi dengan memblokir usaha pengumpulan informasi melalui pengaturan persyaratan layanan untuk situs mereka akan melanggar Amandemen Pertama,” tulis Markup dalam ringkasan amicus brief yang mereka sampaikan.

Lalu, bentuk pekerjaan apa saja yang berisiko jika hal tersebut terjadi? Berikut ringkasan beberapa praktik jurnalistik yang dilakukan dengan menggunakan web scraping:

  • Proyek COVID Tracking dari The Atlantic, mengumpulkan dan mengagregasi data dari berbagai daerah di Amerika Serikat setiap hari. Situs ini berfungsi sebagai alat pemantau di mana saja pengetesan Covid-19 terjadi, di mana pandemi berkembang, dan bagaimana perbedaan rasial mempengaruhi siapa saja yang terpapar dan meninggal akibat virus corona.
  • The Protect And Slur dari Reveal, melakukan scraping pada grup Facebook yang berisikan para ekstrimis dan membandingkannya dengan daftar keanggotaan Grup Facebook yang berisi para penegak hukum. Mereka menemukan banyak nama yang sama muncul di dua Grup Facebook tersebut.
  • Reveal juga menggunakan scraper untuk menemukan bahwa pajak properti senilai ratusan miliar dolar seharusnya tidak dibebankan kepada penduduk Detroit yang kehilangan rumah karena penyitaan.
  • The Markup melakukan investigasi terhadap mesin pencari Google dan menemukan bahwa mesin ini secara konsisten merekomendasikan produk mereka sendiri. Akibatnya, beberapa situs yang (juga) di-scraping oleh Google harus berjuang keras agar mendapatkan kunjungan dan tentunya iklan dari Google ads. Departemen Kehakiman Amerika Serikat mengutip pemberitaan tersebut dalam gugatan antitrust kepada perusahaan.
  • Dalam Copy, Paste, Legislate, USA Today menemukan pola pembuatan undang-undang yang didorong oleh kelompok kepentingan tertentu.
  • Reuters melakukan scraping di sosial media dan untuk menemukan perdagangan gelap untuk mengadopsi anak. Sepasang suami-istri lantas dihukum karena penculikan berdasarkan hasil investigasi yang dilakukan Reuters.
  • The Trace dan The Verger menggunakan scraping untuk menemukan orang-orang yang menggunakan pasar daring untuk menjual senjata api tanpa izin dan tanpa adanya pemeriksaan latarbelakang untuk kepemilikan senjata api tersebut. (penerjemah: Abdus Somad)

Artikel ini pertama kali dimuat oleh The Markup dan dipublikasikan ulang oleh Global Investigative Journalism Network (GIJN) dan Jaring.id di bawah Creative Commons Attribution-NonCommercial-NoDerivatives license.

Alih bahasa ini disponsori oleh dana hibah dari Google News Initiative. Untuk menerbitkan ulang tulisan ini, Anda bisa menghubungi [email protected].

Cara Menggalang Dana untuk Jurnalisme Investigasi

Mencari pendanaan bagi organisasi jurnalisme bisa jadi tanggung jawab yang meresahkan, terutama jika organisasi tersebut tidak memiliki orang yang berpengalaman dalam penggalangan dana. Bagaimana cara mengatasinya?

GIJN Meluncurkan Situs Web GIJC25

Konferensi Jurnalisme Investigasi Global ke-14 (GIJC25) akan diselenggarakan di Kuala Lumpur, Malaysia, mulai Jumat, 21 November hingga Senin, 24 November 2025.

meliput industri pertambangan

Meliput Industri Pertambangan

Industri pertambangan seperti pisau bermata dua. Selain meningkatkan pendapatan, ada berbagai risiko besar terkait sektor ini. Bagaimana jurnalis bisa meliputnya?

Berlangganan Kabar Terbaru dari Kami

GRATIS, cukup daftarkan emailmu disini.