(+84) 236.3827111 ex. 402

Cách thức hoạt động của Tìm kiếm của hệ thống Google


Hướng dẫn nâng cao: Cách thức hoạt động của Tìm kiếm

Việc hiểu cách thức Google Tìm kiếm thu thập dữ liệu, lập chỉ mục và phân phát nội dung đóng vai trò rất quan trọng khi bạn muốn khắc phục các vấn đề và lường trước hành vi của Tìm kiếm trên trang web của mình.

Thu thập dữ liệu là quá trình Googlebot truy cập những trang mới tạo và mới cập nhật để thêm vào chỉ mục của Google.

Chúng tôi sử dụng một số lượng lớn máy tính để tìm nạp (hay "thu thập dữ liệu") hàng tỷ trang trên web. Chương trình thực hiện việc tìm nạp được gọi là Googlebot (còn gọi là robot, bot hay trình thu thập dữ liệu). Googlebot sử dụng một quy trình dựa trên thuật toán để xác định những trang web cần thu thập dữ liệu, tần suất thu thập và số trang cần tìm nạp trên từng trang web.

Google bắt đầu quá trình thu thập dữ liệu bằng cách xem danh sách các URL trang web được tạo trong các lần thu thập dữ liệu trước đó và bổ sung bằng dữ liệu trong Sơ đồ trang web do chủ sở hữu trang web cung cấp. Khi truy cập một trang, Googlebot sẽ tìm các đường liên kết trên trang và thêm những đường liên kết đó vào danh sách các trang cần thu thập dữ liệu. Googlebot sẽ lưu ý và sử dụng các trang web mới, các thay đổi đối với các trang web hiện tại và các đường liên kết bị hỏng để cập nhật chỉ mục của Google.

Trong quá trình thu thập dữ liệu, Google hiển thị trang bằng cách sử dụng một phiên bản gần đây của Chrome. Trong quá trình hiển thị, Googlebot chạy mọi tập lệnh tìm thấy trên trang. Nếu trang web của bạn sử dụng nội dung được tạo động, hãy chắc chắn rằng bạn tuân theo các quy tắc cơ bản về SEO cho JavaScript.

  • Chúng tôi sẽ không thu thập dữ liệu các trang bị chặn trong tệp robots.txt, nhưng vẫn có thể lập chỉ mục những trang đó nếu những trang đó được liên kết với một trang khác. Google có thể phỏng đoán nội dung của trang thông qua một đường liên kết trỏ đến trang đó và lập chỉ mục trang mà không cần phân tích cú pháp nội dung trên trang.
  • Google không thể thu thập dữ liệu những trang không cho phép người dùng ẩn danh truy cập. Do đó, mọi biện pháp bảo vệ bằng cách yêu cầu đăng nhập hoặc bằng phương thức ủy quyền khác sẽ ngăn Google thu thập dữ liệu một trang.
  • Đối với các trang đã thu thập dữ liệu và được coi là trang trùng lặp của một trang khác, Google sẽ thu thập dữ liệu các trang này với tần suất thấp hơn.

Hãy sử dụng các kỹ thuật này để giúp Google tìm thấy các trang phù hợp trên trang web của bạn:

Googlebot xử lý từng trang mà công cụ này thu thập dữ liệu để hiểu nội dung của trang. Cụ thể là Googlebot sẽ xử lý nội dung văn bản, các thẻ nội dung chính và các thuộc tính, chẳng hạn như thẻ