Việc hiểu cách thức Google Tìm kiếm thu thập dữ liệu, lập chỉ mục và phân phát nội dung đóng vai trò rất quan trọng khi bạn muốn khắc phục các vấn đề và lường trước hành vi của Tìm kiếm trên trang web của mình.
Thu thập dữ liệu
Thu thập dữ liệu là quá trình Googlebot truy cập những trang mới tạo và mới cập nhật để thêm vào chỉ mục của Google.
Chúng tôi sử dụng một số lượng lớn máy tính để tìm nạp (hay "thu thập dữ liệu") hàng tỷ trang trên web. Chương trình thực hiện việc tìm nạp được gọi là Googlebot (còn gọi là robot, bot hay trình thu thập dữ liệu). Googlebot sử dụng một quy trình dựa trên thuật toán để xác định những trang web cần thu thập dữ liệu, tần suất thu thập và số trang cần tìm nạp trên từng trang web.
Google bắt đầu quá trình thu thập dữ liệu bằng cách xem danh sách các URL trang web được tạo trong các lần thu thập dữ liệu trước đó và bổ sung bằng dữ liệu trong Sơ đồ trang web do chủ sở hữu trang web cung cấp. Khi truy cập một trang, Googlebot sẽ tìm các đường liên kết trên trang và thêm những đường liên kết đó vào danh sách các trang cần thu thập dữ liệu. Googlebot sẽ lưu ý và sử dụng các trang web mới, các thay đổi đối với các trang web hiện tại và các đường liên kết bị hỏng để cập nhật chỉ mục của Google.
Trong quá trình thu thập dữ liệu, Google hiển thị trang bằng cách sử dụng một phiên bản gần đây của Chrome. Trong quá trình hiển thị, Googlebot chạy mọi tập lệnh tìm thấy trên trang. Nếu trang web của bạn sử dụng nội dung được tạo động, hãy chắc chắn rằng bạn tuân theo các quy tắc cơ bản về SEO cho JavaScript.
Làm thế nào để Google biết không nên thu thập dữ liệu trang nào?
- Chúng tôi sẽ không thu thập dữ liệu các trang bị chặn trong tệp robots.txt, nhưng vẫn có thể lập chỉ mục những trang đó nếu những trang đó được liên kết với một trang khác. Google có thể phỏng đoán nội dung của trang thông qua một đường liên kết trỏ đến trang đó và lập chỉ mục trang mà không cần phân tích cú pháp nội dung trên trang.
- Google không thể thu thập dữ liệu những trang không cho phép người dùng ẩn danh truy cập. Do đó, mọi biện pháp bảo vệ bằng cách yêu cầu đăng nhập hoặc bằng phương thức ủy quyền khác sẽ ngăn Google thu thập dữ liệu một trang.
- Đối với các trang đã thu thập dữ liệu và được coi là trang trùng lặp của một trang khác, Google sẽ thu thập dữ liệu các trang này với tần suất thấp hơn.
Cải thiện kết quả thu thập dữ liệu
Hãy sử dụng các kỹ thuật này để giúp Google tìm thấy các trang phù hợp trên trang web của bạn:
- Gửi sơ đồ trang web.
- Gửi yêu cầu thu thập dữ liệu cho các trang riêng lẻ.
- Sử dụng đường dẫn URL đơn giản, dễ đọc và hợp lý cho các trang của bạn cũng như cung cấp các đường liên kết nội bộ rõ ràng và trực tiếp trong trang web.
- Nếu bạn sử dụng tham số URL trên trang web cho mục đích chuyển hướng (chẳng hạn như bạn chỉ báo quốc gia của người dùng trong một trang web mua sắm toàn cầu), hãy sử dụng công cụ Tham số URL để cho Google biết những tham số quan trọng.
- Sử dụng tệp robots.txt một cách khôn ngoan: Hãy sử dụng tệp robots.txt để cho Google biết những trang bạn muốn Google biết hoặc thu thập dữ liệu đầu tiên nhằm bảo vệ tải máy chủ của bạn, chứ không phải để chặn nội dung xuất hiện trong chỉ mục của Google.
- Sử dụng hreflang để trỏ đến các phiên bản khác của trang bằng các ngôn ngữ khác.
- Xác định rõ ràng trang chính tắc và các trang thay thế.
- Xem trạng thái thu thập dữ liệu và phạm vi lập chỉ mục của trang web trong báo cáo Phạm vi lập chỉ mục
- Đảm bảo rằng Google có thể truy cập các trang chính và cả những tài nguyên quan trọng (hình ảnh, tệp CSS, tập lệnh) mà Google cần sử dụng để hiển thị trang đúng cách.
- Xác nhận rằng Google có thể truy cập và hiển thị trang của bạn đúng cách bằng cách chạy Công cụ kiểm tra URL trên trang đang hoạt động.
Lập chỉ mục
Googlebot xử lý từng trang mà công cụ này thu thập dữ liệu để hiểu nội dung của trang. Cụ thể là Googlebot sẽ xử lý nội dung văn bản, các thẻ nội dung chính và các thuộc tính, chẳng hạn như thẻ