Panduan Teknik Web Scraping Menggunakan Google Sheet Functions


.

Panduan Teknik Web Scraping Menggunakan Google Sheet Functions


Apa itu Web Scraping?

1. Web Scraping adalah satu cara untuk mengekstrak data di atas talian. Berbillion data wujud di dalam Dunia Web yang boleh diakses melalui Rangkaian Internet. Manakala berjuta cebisan maklumat dimuat naik dan ditambah pada setiap hari.

Baca di sini tentang: Pengenalan Asas Dunia Web Yang Mesti Difahami Oleh Web Researcher [https://tinyurl.com/yc388de6]

2. Data sangat diperlukan untuk membuat keputusan dalam sesuatu skop kerja. Mencari dan melayari kesemua data ini adalah mudah. Walaubagaimanapun menyalin dan memuat turun data tidak semudah yang disangka. Hampir mustahil untuk kita memuat turun data secara manual bagi setiap masa. Maka kita perlukan satu teknik yang dipanggil Web Scraping.

3. Dari segi bahasa Scraping bermaksud Mengikis. Dari segi teknikal pula, Scraping atau Mengikis itu boleh ditafsir sebagai mengikis data yang terdapat pada sesuatu laman dan memindahkannya ke tempat simpanan kita.

Baca selanjutnya tentang Web Scraping di sini: https://en.wikipedia.org/wiki/Web_scraping

4. Web Scraping bukan sahaja dapat membantu kita mengekstrak data, malah ia juga mampu menyusun data secara automatik. Dengan bantuan Web Scraping, kita dapat memuat turun data dan menyimpannya untuk tujuan dan kaedah kita yang lebih khusus dan terperinci.

Sebagai contoh, kita boleh menyimpan data tentang kajian pemasaran, pemantauan harga dan analisa. Kita juga boleh menyimpan data di dalam format pilihan seperti CSV, JSON dan lain-lain.

5. Di samping itu Web Scraping juga mampu mengekstrak pelbagai bahan digital seperti text, gambar, URLs, emel, nombor telefon dan lain-lain lagi.

Web Scraping menggunakan Google Sheets

6. Google Sheet adalah aplikasi lembaran kerja atas talian dan saingan kepada Microsoft Excel. Pemilik akaun Gmail boleh mengakses aplikasi ini dengan cara melayari https://drive.google.com



7. Dengan adanya Google Sheet, kita tidak memerlukan kemahiran canggih seperti pengaturcaraan. Kita hanya perlu memahami sedikit formula yang terdapat pada Google Sheet dan Web Scraping boleh dimulakan. 

8. Berikut adalah fungsi yang dapat kita gunakan untuk web scraping menggunakan Google Sheet:

8.1. ImportFEED → untuk scraping data daripada RSS feed.
8.2. ImportHTML → untuk scraping data daripada table dan list.
8.3. ImportXML → untuk scraping data daripada data jenis struktur.
8.4. ImportDATA → untuk scraping data daripada data jenis teks.
9. ImportFEED
Feed adalah sejenis perkhidmatan yang selalunya disediakan oleh agensi berita atau laman Content Management System (CMS) bagi memudahkan pengguna mendapatkan tajuk artikel terbaru bagi sesebuah laman.

Dalam contoh berikut, dua sel yang perlu diisi adalah URL dan Function.
Sel A2 = https://news.google.com/rss
Sel B2 = IMPORTFEED(A2)



Hasilnya, Google Sheet akan memaparkan senarai tajuk berita dari laman Google News.

10. ImportHTML

Dokumen HTML adakalanya mengandungi data yang dipapar dalam bentuk jadual menggunakan tag nama "table" atau "list"

Dalam contoh berikut, dua sel yang perlu diisi adalah URL dan Function.
Sel A2 = https://en.wikipedia.org/wiki/List_of_cities_in_Malaysia_by_population
Sel B2 = IMPORTHTML(A2,"table")




11. ImportXML

Sekiranya anda mahu mengambil data dari bahagian tertentu laman web, anda boleh menggunakan function ImportXML.  Function ini lebih fleksibel kerana anda boleh menentukan Tag HTML yang mana satu anda mahu sasarkan. Tetapi anda perlu mempunyai pengetahuan tentang konsep Document Object Model (DOM) bagi membolehkan anda mengetahui tag yang betul bagi data yang terdapat di dalam sesebuah laman web.

Dalam contoh berikut, dua sel yang perlu diisi adalah URL dan Function.
Sel A2 = asysyakirinklcc
Sel B2 = IMPORTXML(A2,"/html/body/div[1]/div[3]/div[1]/div/div/div[2]/div[2]/div/div[2]/div/div/div")



12. Lihat Document Contoh
Muat turun dokumen contoh: Scraping-Example [https://tinyurl.com/y7p2svkf]



.

Post a Comment

1 Comments

  1. Brand, highly thought to be one of the premier entertainment manufacturers in the country. In gaming, The Cordish Companies has developed among the most profitable casino resort resorts on the earth together with the Hard Rock Hotel & Casino Hollywood, Hard Rock Hotel & Casino Tampa and Live! Welcoming over fifty five million visitors per 12 months, these developments are among the highest profile dining, entertainment, gaming, resort and sports-anchored locations in the 1xbet country.

    ReplyDelete