Việc hiểu cách thức Google Tìm kiếm thu thập dữ liệu, lập chỉ mục và phân phát nội dung đóng vai trò rất quan trọng khi bạn muốn khắc phục các vấn đề và lường trước hành vi của Tìm kiếm trên trang web của mình.
Thu thập dữ liệu
Thu thập dữ liệu là quá trình Googlebot truy cập những trang mới tạo và mới cập nhật để thêm vào chỉ mục của Google.
Chúng tôi sử dụng một số lượng lớn máy tính để tìm nạp (hay "thu thập dữ liệu") hàng tỷ trang trên web. Chương trình thực hiện việc tìm nạp được gọi là Googlebot (còn gọi là robot, bot hay trình thu thập dữ liệu). Googlebot sử dụng một quy trình dựa trên thuật toán để xác định những trang web cần thu thập dữ liệu, tần suất thu thập và số trang cần tìm nạp trên từng trang web.
Google bắt đầu quá trình thu thập dữ liệu bằng cách xem danh sách các URL trang web được tạo trong các lần thu thập dữ liệu trước đó và bổ sung bằng dữ liệu trong Sơ đồ trang web do chủ sở hữu trang web cung cấp. Khi truy cập một trang, Googlebot sẽ tìm các đường liên kết trên trang và thêm những đường liên kết đó vào danh sách các trang cần thu thập dữ liệu. Googlebot sẽ lưu ý và sử dụng các trang web mới, các thay đổi đối với các trang web hiện tại và các đường liên kết bị hỏng để cập nhật chỉ mục của Google.
Trong quá trình thu thập dữ liệu, Google hiển thị trang bằng cách sử dụng một phiên bản gần đây của Chrome. Trong quá trình hiển thị, Googlebot chạy mọi tập lệnh tìm thấy trên trang. Nếu trang web của bạn sử dụng nội dung được tạo động, hãy chắc chắn rằng bạn tuân theo các quy tắc cơ bản về SEO cho JavaScript.
Làm thế nào để Google biết không nên thu thập dữ liệu trang nào?
- Chúng tôi sẽ không thu thập dữ liệu các trang bị chặn trong tệp robots.txt, nhưng vẫn có thể lập chỉ mục những trang đó nếu những trang đó được liên kết với một trang khác. Google có thể phỏng đoán nội dung của trang thông qua một đường liên kết trỏ đến trang đó và lập chỉ mục trang mà không cần phân tích cú pháp nội dung trên trang.
- Google không thể thu thập dữ liệu những trang không cho phép người dùng ẩn danh truy cập. Do đó, mọi biện pháp bảo vệ bằng cách yêu cầu đăng nhập hoặc bằng phương thức ủy quyền khác sẽ ngăn Google thu thập dữ liệu một trang.
- Đối với các trang đã thu thập dữ liệu và được coi là trang trùng lặp của một trang khác, Google sẽ thu thập dữ liệu các trang này với tần suất thấp hơn.
Cải thiện kết quả thu thập dữ liệu
Hãy sử dụng các kỹ thuật này để giúp Google tìm thấy các trang phù hợp trên trang web của bạn:
- Gửi sơ đồ trang web.
- Gửi yêu cầu thu thập dữ liệu cho các trang riêng lẻ.
- Sử dụng đường dẫn URL đơn giản, dễ đọc và hợp lý cho các trang của bạn cũng như cung cấp các đường liên kết nội bộ rõ ràng và trực tiếp trong trang web.
- Nếu bạn sử dụng tham số URL trên trang web cho mục đích chuyển hướng (chẳng hạn như bạn chỉ báo quốc gia của người dùng trong một trang web mua sắm toàn cầu), hãy sử dụng công cụ Tham số URL để cho Google biết những tham số quan trọng.
- Sử dụng tệp robots.txt một cách khôn ngoan: Hãy sử dụng tệp robots.txt để cho Google biết những trang bạn muốn Google biết hoặc thu thập dữ liệu đầu tiên nhằm bảo vệ tải máy chủ của bạn, chứ không phải để chặn nội dung xuất hiện trong chỉ mục của Google.
- Sử dụng hreflang để trỏ đến các phiên bản khác của trang bằng các ngôn ngữ khác.
- Xác định rõ ràng trang chính tắc và các trang thay thế.
- Xem trạng thái thu thập dữ liệu và phạm vi lập chỉ mục của trang web trong báo cáo Phạm vi lập chỉ mục
- Đảm bảo rằng Google có thể truy cập các trang chính và cả những tài nguyên quan trọng (hình ảnh, tệp CSS, tập lệnh) mà Google cần sử dụng để hiển thị trang đúng cách.
- Xác nhận rằng Google có thể truy cập và hiển thị trang của bạn đúng cách bằng cách chạy Công cụ kiểm tra URL trên trang đang hoạt động.
Lập chỉ mục
Googlebot xử lý từng trang mà công cụ này thu thập dữ liệu để hiểu nội dung của trang. Cụ thể là Googlebot sẽ xử lý nội dung văn bản, các thẻ nội dung chính và các thuộc tính, chẳng hạn như thẻ
và thuộc tính alt, hình ảnh, video và các nội dung khác. Googlebot có thể xử lý nhiều loại nội dung (nhưng không phải tất cả). Ví dụ: chúng tôi không thể xử lý nội dung của một số tệp nội dung đa phương tiện.
Trong quá trình thu thập dữ liệu và lập chỉ mục, Google sẽ xác định xem một trang có phải là trang trùng lặp hay trang chính tắc của trang khác hay không. Nếu trang đó bị coi là trùng lặp, Google sẽ thu thập dữ liệu trang đó với tần suất thấp hơn. Các trang tương tự được nhóm lại với nhau thành một tài liệu – một nhóm gồm một hoặc nhiều trang bao gồm trang chính tắc (trang thích hợp nhất để đại diện cho nhóm) và mọi trang trùng lặp mà Google tìm thấy (có thể chỉ đơn giản là các URL thay thế dẫn đến cùng một trang, hay phiên bản dành cho thiết bị di động hoặc máy tính của cùng một trang).
Lưu ý rằng Google không lập chỉ mục các trang có lệnh noindex
(trong tiêu đề hoặc thẻ). Tuy nhiên, Google phải thấy được lệnh này; nếu bạn dùng tệp robots.txt, trang đăng nhập hoặc thiết bị khác để chặn trang, thì có thể trang đó sẽ được lập chỉ mục ngay cả khi Google không truy cập vào trang.
Cải thiện kết quả lập chỉ mục
Có nhiều kỹ thuật giúp Google hiểu rõ hơn nội dung trên trang của bạn:
-
Dùng thẻ
noindex
để ngăn Google thu thập dữ liệu hoặc tìm thấy những trang mà bạn muốn ẩn. Đừng dùng thẻnoindex
với một trang bị chặn bằng tệp robots.txt. Nếu bạn làm như vậy, Google sẽ không thấy thẻnoindex
và vẫn có thể lập chỉ mục trang đó. - Sử dụng dữ liệu có cấu trúc.
- Tuân theo Nguyên tắc quản trị trang web của Google.
- Đọc Cẩm nang SEO và hướng dẫn sử dụng nâng cao để nắm được các mẹo khác.
"Tài liệu" là gì?
Trong nội bộ, Google sử dụng một tập hợp tài liệu rất lớn để đại diện cho các trang web. Mỗi tài liệu đại diện cho một hoặc nhiều trang web. Những trang này có thể giống hệt nhau hoặc tương tự nhau, nhưng về cơ bản chứa nội dung giống nhau và có thể truy cập qua các URL khác nhau. Các URL khác nhau trong một tài liệu có thể dẫn đến đúng một trang (ví dụ: example.com/dresses/summer/1234 và example.com?product=1234 có thể hiển thị cùng một trang). Những trang này cũng có thể là các phiên bản khác nhau đôi chút của một trang dành cho người dùng sử dụng các thiết bị khác nhau (ví dụ: example.com/mypage cho người dùng máy tính và m.example.com/mypage cho người dùng thiết bị di động).
Google chọn một trong các URL trong một tài liệu và xác định URL đó là URL chính tắc của tài liệu. URL chính tắc của tài liệu là URL mà Google thu thập dữ liệu và lập chỉ mục thường xuyên nhất. Các URL khác được xem là trang trùng lặp hoặc trang thay thế, và có thể thỉnh thoảng được thu thập dữ liệu hoặc phân phát theo yêu cầu của người dùng. Ví dụ: nếu URL chính tắc của tài liệu là URL dành cho thiết bị di động, thì Google có thể vẫn sẽ phân phát URL dành cho máy tính (phiên bản thay thế) cho những người dùng tìm kiếm trên máy tính.
Hầu hết báo cáo trong Search Console đều gán dữ liệu cho URL chính tắc của tài liệu. Một số công cụ (chẳng hạn như Công cụ kiểm tra URL) hỗ trợ việc kiểm tra các URL thay thế. Tuy vậy, bạn cũng sẽ xem được thông tin về các URL thay thế khi kiểm tra URL chính tắc.
Bạn có thể cho Google biết URL mà bạn muốn đặt làm URL chính tắc nhưng Google có thể chọn một URL chính tắc khác vì nhiều lý do.
Sau đây là bản tóm tắt các thuật ngữ và cách dùng những thuật ngữ này trong Search Console:
-
Tài liệu: Tập hợp các trang tương tự nhau. Tài liệu có một URL chính tắc và có thể có cả các URL thay thế, nếu trang web của bạn có các trang trùng lặp. Các URL trong tài liệu có thể bắt nguồn từ một hoặc nhiều tổ chức (miền gốc, ví dụ: "google" trong www.google.com). Google chọn URL thích hợp nhất để hiển thị trong các kết quả của Tìm kiếm, tùy theo nền tảng (thiết bị di động/máy tính), ngôn ngữ người dùng hoặc vị trí và nhiều yếu tố khác. Google khám phá các trang có liên quan với nhau trên trang web của bạn bằng phương thức thu thập dữ liệu không phải trả tiền, hoặc thông qua các tính năng do trang web triển khai, chẳng hạn như lệnh chuyển hướng hoặc thẻ
. Google chỉ có thể đánh dấu các trang liên quan trên tổ chức khác là trang thay thế nếu những trang đó được chỉ định rõ ràng là trang thay thế (thông qua lệnh chuyển hướng hoặc thẻ liên kết) trên trang web của bạn.
- URL: URL dùng để truy cập một phần nội dung cụ thể trên trang web.
- Trang: Một trang web cụ thể, có thể truy cập được qua một hoặc nhiều URL. Mỗi trang có thể có nhiều phiên bản tùy thuộc vào nền tảng của người dùng (thiết bị di động, máy tính, v.v.).
- Phiên bản: Một phiên bản của trang, thường được phân loại là "thiết bị di động", "máy tính" và "AMP" (mặc dù bản thân trang AMP có thể có phiên bản dành cho thiết bị di động và máy tính). Mỗi phiên bản có thể có URL riêng (example.com và m.example.com) hoặc URL chung (nếu trang web của bạn sử dụng tính năng phân phát động hoặc thiết kế web thích ứng, thì một URL có thể dẫn đến các phiên bản khác nhau của cùng một trang), tùy thuộc vào cấu hình của trang web. Các phiên bản sử dụng ngôn ngữ khác nhau không được coi là các phiên bản khác nhau, mà là các tài liệu khác nhau.
- Trang hoặc URL chính tắc: URL mà Google coi là trang thích hợp nhất để đại diện cho tài liệu. Google luôn thu thập dữ liệu trên URL này; và đôi khi cũng thu thập dữ liệu trên các URL trùng lặp trong tài liệu.
- URL hoặc trang thay thế/trùng lặp: URL của tài liệu mà đôi khi Google thu có thể thập dữ liệu trên đó. Google cũng phân phát những URL như vậy nếu chúng phù hợp với người dùng và yêu cầu (ví dụ: URL thay thế cho người dùng máy tính sẽ được phân phát cho các yêu cầu trên máy tính thay vì URL chính tắc dành cho thiết bị di động).
- Trang web: Thường chỉ một trang web (tập hợp các trang có liên quan đến nhau về mặt khái niệm), nhưng đôi khi cũng được dùng để chỉ một tài sản trên Search Console, mặc dù một tài sản có thể chỉ là một phần của một trang web. Một trang web có thể chứa các miền con (và thậm chí cả các miền cho các trang AMP được liên kết đúng cách).
Kết quả phân phát
Khi người dùng nhập một cụm từ tìm kiếm, công cụ tìm kiếm của chúng tôi sẽ tìm kiếm các trang thích hợp trong chỉ mục và trả lại kết quả mà chúng tôi cho là phù hợp nhất cho người dùng. Mức độ phù hợp được xác định dựa trên hàng trăm yếu tố, và chúng tôi luôn nỗ lực cải thiện thuật toán của mình. Google chú trọng đến trải nghiệm người dùng khi chọn và xếp hạng kết quả, vì vậy hãy đảm bảo rằng trang của bạn tải nhanh và thân thiện với thiết bị di động.
Cải thiện hoạt động phân phát cho nội dung của bạn
Có nhiều cách để cải thiện cách thức Google phân phát nội dung trên trang của bạn:
- Nếu kết quả của bạn nhắm đến người dùng ở một vị trí hoặc nói một số ngôn ngữ cụ thể, thì bạn có thể cho Google biết lựa chọn ưu tiên của mình.
- Đảm bảo rằng trang của bạn tải nhanh và thân thiện với thiết bị di động.
- Tuân theo Nguyên tắc quản trị trang web để tránh những lỗi phổ biến và cải thiện thứ hạng cho trang web.
- Cân nhắc việc triển khai các tính năng trong kết quả tìm kiếm cho trang web, chẳng hạn như dùng thẻ công thức hoặc thẻ bài viết.
- Triển khai AMP để trang tải nhanh hơn trên thiết bị di động. Một số trang AMP cũng đủ điều kiện áp dụng các tính năng tìm kiếm bổ sung, chẳng hạn như băng chuyền tin bài hàng đầu.
- Chúng tôi liên tục cải thiện thuật toán của Google. Thay vì cố gắng đoán thuật toán và điều chỉnh thiết kế của trang theo thuật toán, hãy tạo ra nội dung hữu ích và mới mẻ mà người dùng mong đợi, đồng thời, tuân thủ các nguyên tắc của chúng tôi.