Mengambil Data Dari Website

Banyak reporter tak menyadari fungsi web inspector. Dengan mengetahui dasar-dasar HTML, jurnalis bisa menggunakannnya untuk beberapa tujuan. Mulai dari mengunduh video dan foto, hingga mengambil data dari website.

Hal tersebut disampaikan Samantha Sunne dalam IRE21, konferensi tahunan yang dihelat Investigative Reporters & Editors. Jurnalis cum pengajar tersebut menyebut kalau perintah “inspect element” web inspector setidaknya bisa digunakan untuk lima tujuan yakni:

 

  1. Mengekstrak tautan, foto, dan konten

Setiap peramban punya versi Web Inspector-nya masing-masing. “Peramban membaca ‘source code’ — kode yang digunakan untuk membangun situs web — dan menampilkannya pada pengguna,” terang Sunne.

Dalam panduan yang ia sampaikan, Sunne mendetilkan penggunaan Web Inspector. Pada peramban Chrome dan Safari, kamu bisa meletakkan kursor di bagian yang hendak diperiksa dan mengeklik kanan tetikus. Selanjutnya, pilih “Inspect Element” yang ada di bagian bawah kotak pop-up.

Dengan melakukan ini, kamu bisa menemukan hyperlink dan berbagai sumber dari konten yang ada di situs web. Alt text yang digunakan untuk mendeskripsikan konten sebuah gambar atau elemen juga bisa diketahui. Adakalanya, hal tersebut mendetilkan nama orang yang muncul dalam foto, lokasi pengambilan gambar, dan lain sebagainya.

Kode yang dipakai mengidentifikasi foto adalah (<img src=”url”>) dan tautan (<a href=”url”>). Untuk mengetahui kode lainnya, kamu bisa membaca panduan referensi HTML.

 

2. Menyimpan foto

“Mendapatkan file yang sulit didapat adalah salah satu hal yang bisa dilakukan Web Inspector,” ujar Sunne.

Kamu bisa mengambil file asli, bahkan dari situs web seperti Instagram. Untuk melakukannya, hanya butuh tiga langkah sederhana:

  • Klik video yang mau diunduh, lalu tekan kanan dan pilih “Inspect”.
  • Buka kotak pencarian dengan memencet Ctrl + F lalu ketik tag <video>.
  • Dalam kode temukan ditandai warna tertentu, temukan kode berawalan “src=”
  • Klik tautan dalam kode tersebut (atau salin dan tempel tautan) hingga membuka tab baru dan kamu bisa mengeklik tiga di bagian kanan bawah dan mengunduhnya.

 

3. Mengambil data dari website secara otomatis

Mengambil data berbentuk tabel di sebuah situs web bisa dilakukan dengan salin dan tempel. Namun, langkah tersebut hanya menghasilkan tabel pada saat itu saja padahal beberapa situs web kerap memperbarui data mereka. Data kasus Covid-19 per negara di situs European Centre for Disease Prevention and Control (ECDC) adalah salah satu contohnya.

Untuk jenis tabel yang terus diperbarui, kamu bisa memanfaatkan Google Sheet untuk mengambil data dari website. Beberapa langkahnya adalah:

  • Klik kanan pada data yang mau kamu ambil dan pilih “Inspect”. Langkah ini dijalankan untuk mengetahui apakah data tersebut berbentuk tabel (“table”), list (“ul”), atau tautan (“a”).
  • Kode sumber dari data yang mau diambil bakal ditandai warna tertentu. Dari situ, jenis data bisa diketahui. Dalam contoh ini, data dari ECDC merupakan “table”.
  • Buka Google Sheet dan isikan formula =importHTML (. Google Sheet secara otomatis memberi tahu apa saja yang perlu diisikan dalam formula tersebut. Dalam contoh ini, beberapa hal yang perlu diisi dalam formula adalah alamat website (url), jenis elemen yang mau diambil (query), urutan elemen, (indeks), dan versi website (locale) yang biasanya merujuk pada bahasa yang digunakan.
    • Karena tabel beralamat di https://www.ecdc.europa.eu/en/geographical-distribution-2019-ncov-cases , maka url diganti dengan alamat tersebut. Jangan lupa menggunakan tanda kutip. 
    • Query diganti dengan table karena jenis elemen yang mau diambil adalah tabel.
    • Indeks diganti dengan 0 karena data berada dalam tabel yang ada di posisi awal. Penomoran atau pengindeksan di situs web dimulai dengan angka 0. Apabila dalam sebuah laman, kamu mau mengambil tabel kedua, maka indeks diganti dengan 1. Begitu seterusnya.
    • Locale diganti dengan en. Perhatikan bahwa setelah alamat ecdc.europa.ue ada en yang menunjukkan kalau situs web ini berbahasa inggris.
    • Dengan mengikuti langkah tersebut, maka formula yang dipakai adalah: =importHTML(“https://www.ecdc.europa.eu/en/geographical-distribution-2019-ncov-cases”,”table”,0,”en“).
    • Apabila data dalam situs web tersebut diperbarui, maka spreadsheet-mu otomatis akan terisi dengan data teranyar.

Untuk mengetahui teknik mengambil data dari website lainnya, panduan Scraping Without Pogramming yang dibuat Sunne bisa jadi panduan.

 

4. Mengekstrak data tertentu

Mengambil data dari tabel atau list mungkin berguna untuk investigasimu. Namun, bagaimana bila kamu ingin mengambil elemen tertentu dalam situs web. Judul artikel, misalnya. Dengan menggunakan fungsi ImportXML hal tersebut bisa dilakukan melalui Google Sheet.

Formula yang muncul ketika menjalankan perintah tersebut adalah 

=ImportXML(“url”,”xpath_query”).

“Pada dasarnya XPATH adalah alamat dari elemen tertentu dalam laman,” terang Sunne. Untuk mengetahuinya, kamu lagi-lagi bisa menggunakan fitur “Inspect Element”

Sebagai contoh, untuk mengambil semua judul berita yang ada di laman internasional The New York Times, digunakan formula 

=IMPORTXML(“https://www.nytimes.com/section/world”,”//h2“)

 

5. Aplikasi

Apabila semua hal di atas tak cukup meyakinkanmu untuk memelajari HTML, kamu tetap bisa mengambil data website dengan menggunakan perangkat gratis. Tak perlu menulis formula untuk menggunakannya. Sunne merekomendasikan beberapa perangkat berikut:

  • Parsehub. Bisa digunakan untuk mengambil data website yang menggunakan bahasa JavaScript atau AJAX. Perangkat ini punya tampilan muka yang mudah digunakan. Selain itu, kamu bisa mengimpor data yang diambil ke Google Sheet dan Tableau.
  • Outwit. Sebagai pelengkap layanan mengambil data dari website yang mereka miliki, Outwit menawarkan layanan untuk membuat kustomisasi dan otomatisasi scraper (pengambil data), hingga pengambilan data secara langsung.
  • Webscraper. Perangkat ini mampu membuat “peta situs” berdasarkan struktur situs web dan data yang ingin kamu ambil.

 

Tulisan lainnya:


Smaranda Tolosano melakukan penerjemahan dan kemitraan di GIJN. Ia sebelumnya meliput untuk Thomson Reuters Foundation di Maroko untuk topik penggunaan teknologi mata-mata oleh negara dan kemunculan gerakan feminis di media sosial.

Tulisan ini merupakan saduran dari Digging Up Hidden Data with the Web Inspector yang dipublikasikan Global Investigative Journalism Network (GIJN). Alih bahasa ini disponsori oleh dana hibah dari Google News Initiative. Untuk menerbitkan ulang tulisan ini, Anda bisa menghubungi [email protected].

Manajemen Proyek: Jurnalisme Kolaboratif

Semua dimulai oleh Associated Press, sebuah agensi berita nirlaba yang didirikan oleh enam surat kabar Amerika pada pertengahan abad 19. Kolaborasi ini memungkinkan para anggotanya

Berlangganan Kabar Terbaru dari Kami

GRATIS, cukup daftarkan emailmu disini.