Hướng dẫn 2023 về chức năng IMPORTHTML mạnh mẽ trên Google Trang tính

Các hàm IMPORT là một trong những hàm tốt nhất để tiết kiệm thời gian khi bạn làm việc với một lượng lớn dữ liệu từ các nguồn bên ngoài. Chức năng IMPORTHTML Google Sheets là một trong những chức năng hữu ích nhất vì nó chuyển dữ liệu từ các trang web một cách nhanh chóng và dễ dàng.

Hướng dẫn này sẽ trình bày cách sử dụng hàm IMPORTHTML với hướng dẫn từng bước đơn giản. Chúng tôi cũng sẽ đề cập ngắn gọn về một số chức năng NHẬP KHẨU khác trong Google Trang tính để bạn dễ dàng xử lý chúng hơn khi gặp chúng trong tương lai.

Hãy đọc tiếp để hiểu thấu đáo về IMPORTHTML và phần giới thiệu về các hàm IMPORT trong Google Trang tính.

HTML là gì?

HTML hoặc Hyper Text Markup Language được sử dụng để tạo các trang web. Ngôn ngữ mô tả cấu trúc của các trang web. Các nhà phát triển sử dụng ngôn ngữ HTML để thiết kế giao diện mà trình duyệt hiển thị các thành phần trang web như văn bản, phương tiện và siêu liên kết.

Người dùng có thể sử dụng HTML để điều hướng và chèn liên kết, vì HTML thường được sử dụng để thêm siêu liên kết. Ngôn ngữ này cũng cho phép định dạng và sắp xếp tài liệu theo cách tương tự như Google Tài liệu.

Chức năng nhập dữ liệu từ Google Sheets từ trang web là gì?

Chức năng IMPORTHTML của Google Trang tính có thể tìm kiếm và trích xuất dữ liệu từ bảng hoặc danh sách HTML. Chức năng này nhằm mục đích được sử dụng để lấy danh sách hoặc bảng từ một trang web bên ngoài. Trước khi chúng ta xem cách bạn có thể sử dụng công thức nhập dữ liệu web của Google Trang tính, chúng ta hãy xem định dạng của nó. Đây là công thức:

=IMPORTHTML(URL, query, index)

Công thức yêu cầu bạn nhập ba tham số. Đó là:

  1. URL: Tham số này xác định URL của trang web hoặc tham chiếu đến ô chứa URL. Địa chỉ này phải bao gồm giao thức, chẳng hạn như http://. Nếu bạn muốn nhập trực tiếp giá trị cho URL vào công thức, hãy đảm bảo giá trị đó được đặt trong dấu ngoặc kép.
  2. truy vấn: tham số này xác định xem dữ liệu ở định dạng danh sách hay bảng, tùy thuộc vào loại dữ liệu bạn muốn nhập vào bảng tính của mình.
  3. mục lục: tham số chỉ mục xác định bảng hoặc danh sách bạn muốn nhập vào bảng tính của mình. Các bảng và danh sách được duy trì trong các chỉ mục riêng biệt, có nghĩa là một danh sách và bảng có thể có chỉ mục là 1 nếu cả hai đều tồn tại trên trang.

Cách sử dụng IMPORTHTML trong Google Trang tính

Bảng nhập Google Trang tính từ trang web

Trong ví dụ này, chúng tôi muốn lấy bảng danh sách diễn viên điện ảnh được trả lương cao nhất từ ​​trang Wikipedia. Thực hiện việc này theo cách thủ công có thể mất nhiều thời gian và công sức, đó là lý do tại sao chúng tôi sẽ sử dụng chức năng nhập HTML của Google Trang tính.

Đây là cách sử dụng IMPORTHTML trong Google Trang tính để lấy bảng:

Hàm IMPORTHTML Google Sheets cho bảng
  1. Bấm vào ô mà bạn muốn nhập dữ liệu. Phần tử trên cùng bên trái của bảng sẽ được nhập vào ô nơi công thức được nhập vào. Đảm bảo rằng có khoảng trống để nhập bảng đúng cách.
  2. Nhập phần đầu của hàm IMPORTHTML trong Google Trang tính, đó là =NHẬPHTML(.
  3. Nhập tham số đầu tiên, xác định URL chứa bảng bạn muốn nhập. Trong trường hợp này, chúng tôi gõ nó là https://en.wikipedia.org/wiki/List_of_highest-paid_film_actors. Bao gồm dấu ngoặc kép nếu bạn thêm trực tiếp URL vào công thức.
  4. Thêm dấu phẩy để phân tách các tham số.
  5. Bây giờ, thêm tham số thứ hai, đó là truy vấn. Trong ví dụ này, chúng tôi muốn nhập một bảng, đó là lý do tại sao chúng tôi viết tham số là “bàn” kể cả dấu ngoặc kép. Thêm một dấu phẩy khác để phân tách các tham số.
  6. Bây giờ, hãy thêm tham số chỉ mục cuối cùng, tham số này sẽ xác định số bảng bạn muốn nhập vào bảng tính của mình. Trong trường hợp này, chúng tôi viết nó là 1 vì đây là bảng đầu tiên trên trang web.
  7. Thêm một dấu ngoặc đóng để kết thúc công thức và nhấn nút Đi vào chìa khóa để thực hiện nó.

Nhập danh sách từ trang web vào Google Sheets

Nếu trang web có một danh sách, bạn có thể nhập danh sách đó vào Google Trang tính bằng các bước giống như cách bạn sử dụng để nhập bảng. Đây là cách lấy danh sách từ một trang web và nhập html vào Google Trang tính:

Hàm importhtml trong Google Trang tính cho danh sách
  1. Nhấp vào ô mà bạn muốn nhập dữ liệu và nhập phần đầu tiên của hàm IMPORTHTML của Google Trang tính, đó là =NHẬPHTML(.
  2. Nhập tham số URL, trong trường hợp này là “https://www.w3schools.com/html/html_lists.asp”. Đảm bảo thêm dấu ngoặc kép. Thêm dấu phẩy để ngăn cách các tham số.
  3. Bây giờ, thêm truy vấn tham số. Trong ví dụ này, chúng tôi muốn nhập một danh sách, đó là lý do tại sao chúng tôi viết tham số là “danh sách” kể cả dấu ngoặc kép. Thêm một dấu phẩy khác để phân tách các tham số.
  4. Nhập tham số chỉ mục ngay bây giờ, đó là 2 trong trường hợp này.
  5. Cuối cùng, thêm một dấu ngoặc đóng để kết thúc công thức và nhấn nút Đi vào chìa khóa để thực hiện nó.

Sử dụng tham chiếu ô với IMPORTHTML

Bạn cũng có thể sử dụng tham chiếu ô làm tham số cho hàm IMPORTHTML. Trong ví dụ dưới đây, chúng tôi đã sử dụng công thức:

=IMPORTHTML(C1,C2,C3)

Thay vì nhập URL, truy vấn và chỉ mục vào công thức.

Sử dụng tham chiếu ô

Nhập các hàng và cột cụ thể

To import only a specific row and column with IMPORTHTML, you simply have to next it inside the INDEX function. In the example below, we used the formula:

=INDEX(IMPORTHTML("https://en.wikipedia.org/wiki/List_of_highest-paid_film_actors","table",2),3,2)
Tìm các hàng và cột cụ thể từ một bảng2023-02-13 122349

Bạn sẽ nhận thấy rằng có một ,3,2) bên ngoài dấu ngoặc đóng đầu tiên, điều này cho biết hàm INDEX mà bạn muốn lấy dữ liệu từ Hàng 3 và Cột 2.

Lý do tại sao chức năng IMPORTHTML không hoạt động

Danh sách hoặc bảng sẽ được hiển thị trong vòng vài giây nếu công thức được thực hiện đúng cách. Tuy nhiên, nếu không có dữ liệu nào được hiển thị hoặc bạn nhận được thông báo lỗi, có thể do những lý do sau:

  • Các thay đổi trong URL: Kiểm tra kỹ URL trong trường hợp URL bị thay đổi của bảng hoặc danh sách bạn muốn nhập đã được chuyển sang URL khác.
  • Những thay đổi trong giao thức: Chuyển hướng đến trang web thường có thể gây ra sự cố với công thức IMPORTHTML. Đảm bảo giao thức là http hoặc https để đảm bảo công thức hoạt động bình thường.
  • Chỉ số đã được thay đổi: Bạn có thể lưu ý rằng Google Trang tính đã nhập sai bảng hoặc danh sách. Lý do cho điều này có thể là chỉ mục của danh sách hoặc bảng đã bị thay đổi. Chỉ cần thử đi lên hoặc xuống cho đến khi bảng được tải đúng cách để khắc phục điều này.
  • Scrapping đã bị chặn: Chủ sở hữu trang web có thể đã chặn việc sử dụng bot hoặc trình thu thập thông tin để ngăn chúng thu thập bất kỳ nội dung trang web nào.

Có liên quan: Google Sheets Web Scraping: Hướng dẫn đơn giản cho năm 2023

Cách lấy chỉ mục của bảng/danh sách để kéo dữ liệu từ trang web sang Google Sheets bằng IMPORTHTML

  1. Trong trình duyệt của bạn, điều hướng đến Thêm công cụ > Nhà phát triển công cụ trong cài đặt.
  2. Nhấn vào Bảng điều khiển chuyển hướng
  3. Sao chép đoạn mã sau vào hộp văn bản:
var index = 1; [].forEach.call(document.getElementsByTagName("table"), function(elements) { console.log("Index: " + index++, elements); });
Cách tìm các phần html nhất định để nhập
  1. Nhấn Đi vào
  2. Di chuột qua các tùy chọn cho đến khi bảng bạn muốn nhập được tô sáng.
    Tìm đúng bàn bạn đang tìm kiếm

Thay vào đó, nếu bạn muốn nhập danh sách, bạn nên sử dụng “ô,ô” như một đối số thay vì “bàn” như vậy:

var index = 1; [].forEach.call(document.getElementsByTagName("ul,ol"), function(elements) { console.log("Index: " + index++, elements); });

Cách đặt khoảng thời gian tùy chỉnh để làm mới dữ liệu đã nhập của bạn

Bạn có thể sử dụng kết hợp việc thêm truy vấn và Google Apps Script để thay đổi tần suất cập nhật quá trình nhập.

  1. Thêm vào Làm cho khỏe lại đến ô A1 và số 1 đến ô B1
    Thêm một đối số làm mới
  2. Sử dụng cùng một công thức mà bạn thường làm, nhưng đối với đối số URL, hãy nối tham số truy vấn và ô làm mới. Ví dụ: đối với trang web chúng tôi đã sử dụng ở trên, nó sẽ là:
=(IMPORTHTML("https://en.wikipedia.org/wiki/List_of_highest-paid_film_actors" & "?refresh=" & B1,"table",1)
  1. Hướng đến Tiện ích mở rộng > Tập lệnh ứng dụng
  2. Sao chép và dán đoạn mã sau vào hộp văn bản:
function myFunction() {

 var sheet = SpreadsheetApp.getActiveSheet();

 var cell = sheet.getRange("B1");

 var refresh = parseInt(cell.getValue().toString());

 var increment = refresh + 1;

 cell.setValue(increment);

}
  1. Nhấp vào biểu tượng đĩa mềm để lưu tập lệnh.
    Nhấp vào biểu tượng lưu
  2. Trong menu bên trái, hãy mở Gây nên và đi đến Thêm trình kích hoạt
  3. Dưới Chọn nguồn sự kiệnlựa chọn định hướng thời gian
    Chọn nguồn sự kiện và khoảng thời gian
  4. Chọn các tùy chọn thích hợp từ hai danh sách thả xuống sau đây và nhấp vào Cứu.
  5. Quay trở lại biên tập viên cửa sổ và bấm vào Chạy
    Chạy chức năng
  6. Dữ liệu bây giờ sẽ được làm mới theo các khoảng thời gian đã chỉ định.

Các tùy chọn tương tự để thu thập dữ liệu vào Google Sheets

Bạn có thể sử dụng một số chức năng khác để trích xuất nội dung vào Google Trang tính. Chúng ta hãy nhìn vào một số trong số họ.

NHẬPXML

XML là một ngôn ngữ đánh dấu tương tự như HTML. Tuy nhiên, có một điểm khác biệt chính: XML không có các thẻ được xác định trước. Thay vào đó, bạn có thể xác định các thẻ của riêng mình để đáp ứng nhu cầu của mình. Hàm IMPORTXML trong Google Trang tính có thể được sử dụng để chuyển XML sang Trang tính.

Đây là cú pháp cho công thức:

=IMPORTXML(link, xpath_query)

Công thức sử dụng hai tham số đó là liên kết xpath_query. Các liên kết tham số xác định liên kết trang web bạn muốn kiểm tra. Các xpath_query tham số là truy vấn bạn muốn chạy trên dữ liệu. Đặt giá trị cho tham số này trong dấu ngoặc kép.

Bạn có thể tìm hiểu thêm về công thức trong hướng dẫn hàm IMPORTXML Google Trang tính của chúng tôi.

QUAN TRỌNG

Công thức QUAN TRỌNG trong Google Trang tính cho phép bạn truy cập dữ liệu từ một trang tính khác, miễn là bạn có quyền truy cập vào trang tính đó. Chức năng này cho phép truyền dữ liệu theo thời gian thực và bạn có thể nhập các phạm vi chính xác từ một trang tính khác.

Đây là cú pháp cho công thức:

=IMPORTRANGE(spreadsheet_url, range_string)

Công thức sử dụng hai tham số đó là bảng tính_url dãy_chuỗi. Các bảng tính_url xác định URL của bảng tính nguồn. Đặt URL trong dấu ngoặc kép. Các dãy_chuỗi tham số chứa thông tin về phạm vi ô bạn muốn nhập vào bảng tính hiện tại.

NHẬP KHẨU

Công thức IMPORTFEED trong Trang tính cho phép bạn lấy dữ liệu từ nguồn cấp dữ liệu Atom và RSS. Điều này giúp bạn theo dõi bất kỳ mục tin tức hoặc bài đăng blog nào trên một trang web.

Đây là cú pháp cho công thức:

=IMPORTFEED(URL, query, headers, num_items)

Công thức sử dụng bốn tham số: URL, truy vấn, tiêu đề, num_items. Các URL tham số xác định liên kết đến nguồn cấp dữ liệu Atom hoặc RSS từ trang web. Các truy vấn tham số là tham số tùy chọn xác định các yếu tố bạn muốn lấy từ nguồn cấp dữ liệu. Các tiêu đề tham số chỉ định xem bạn có muốn có tiêu đề hay không. Các num_items tham số có thể chỉ định số lượng mục trong nguồn cấp dữ liệu.

NHẬP KHẨU

Hàm IMPORTDATA trong Trang tính cho phép bạn nhanh chóng lấy dữ liệu từ một URL chứa tệp .tsv hoặc .csv. Nó có thể hữu ích nếu bạn đang làm việc với dữ liệu chỉ có ở định dạng CSV hoặc TSV. Google Trang tính sẽ nhập dữ liệu và định dạng dữ liệu phù hợp.

Đây là cú pháp cho công thức:

=IMPORTDATA(URL)

Công thức chỉ yêu cầu một công thức để hoạt động. Công thức URL xác định URL của vị trí tệp. Đảm bảo tham số nằm trong dấu ngoặc kép.

Có liên quan: Hướng dẫn nhập JSON vào Google Trang tính dễ dàng nhất

Các câu hỏi thường gặp

Làm cách nào để làm mới chức năng IMPORTHTML trên Google Trang tính?

Bạn có thể làm mới chức năng IMPORTHTML trong Google Trang tính theo nhiều cách. Hàm có thể được cập nhật tự động mỗi giờ cho dù người dùng có làm mới công thức hay không. Bạn cũng có thể sử dụng hàm NOW để kích hoạt tham chiếu của hàm IMPORTHTML mỗi phút hoặc ba mươi giây.

Bao lâu thì IMPORTHTML làm mới?

Google Trang tính tự động kiểm tra các bản cập nhật mỗi giờ khi tài liệu được mở để tiếp tục nhận dữ liệu mới, ngay cả khi người dùng không thay đổi công thức hoặc trang tính. Công thức được tính toán lại nếu người dùng thay đổi công thức hoặc nếu bất kỳ ô nào chứa tham chiếu đến hàm được cập nhật. Tuy nhiên, nếu bạn đóng và mở lại tài liệu, thao tác này sẽ không làm mới bất kỳ chức năng NHẬP nào.

kết thúc

Có liên quan:

Leave a Reply