1. Thu thập dữ liệu

Mở SEO Spider, nhập hoặc sao chép URL trang web bạn muốn thu thập dữ liệu vào ô “Enter URL to spider” và nhấn “Start”.

Crawl the website

2. Tạo Sitemap

Khi quá trình thu thập dữ liệu đã hoàn thành, hiển thị 100%, nhấp chuột vào “XML Sitemap” bên trong lựa chọn “Sitemaps” nằm ở thanh menu trên cùng.

Create XML Sitemap

Một cửa sổ sẽ hiện lên để bạn có thể cấu hình cho việc tạo Sitemap.

3. Chọn “Pages” cần thêm

Trong quá trình thu thập dữ liệu, những trang HTML có trong tab “Internal” có phản hồi OK “200” sẽ được đưa vào làm XML Sitemap mặc định. Do đó, bạn không cần thiết phải lo lắng về các trang gặp vẫn đề như “3XX”, “4XX” và “5XX” cũng được đưa vào XML Sitemap. Tuy nhiên, bạn vẫn có thể đưa các trang này vào XML Sitemap nếu bạn muốn, vì trong một vài trường hợp có thể sẽ cần đến.

Những trang bị chặn bởi robots.txt, được đặt ở trạng thái “noindex”, đã được “canonicalized” (canonical URL được đặt khác với URL của trang), được phân trang (URL với thẻ rel=”prev”) hoặc tệp PDFs cũng sẽ không được thêm vào XML Sitemap. Nhưng tất cả đều có thể điều chỉnh được bằng cách cấu hình XML Sitemap, tùy chọn rất đơn giản.

XML Sitemap include pages config

Bạn có thể thấy những URLs nào không phản hồi, bị chặn, bị chuyển hướng hoặc gặp các lỗi có trong tab “Responses”  bằng cách sử dụng bộ lọc tương ứng. Bạn cũng có thể thấy những URLs “noindex”, “canonicalized” hoặc có thẻ rel=”prev” có trong tab “Directives” và sử dụng bộ lọc tương tứng.

XML Sitemap directives

4. Loại trừ trang khỏi XML Sitemap

Ngoài những trường hợp như đã kể trên, cũng có một vài trường hợp mặc dù là “internal” có trạng thái HTML 200 nhưng đơn giản là bạn không muốn chúng xuất hiện trong XML Sitemap.

Remove URLs from XML Sitemap

Ví dụ, bạn không nên đưa những trang bị trùng lặp vào Sitemap. Nếu một trang có thể được tiếp cận bởi 2 URLs khác nhau, chẳng hạn như http://example.com và http://www.example.com (cả 2 đều được xác định phản hồi “200”), chỉ URL có canonical thích hợp hơn mới được đưa vào Sitemap.

Có một số cách để loại trừ để trang không bị đưa vào XML Sitemap:

– Nếu có phần nào đó của trang web hoặc URL mà bạn không muốn đưa vào XML Sitemap, bạn chỉ cần loại trừ chúng bằng cách cấu hình việc thu thập dữ liệu ngay từ ban đầu.  Khi dữ liệu của chúng không được thu thập, đồng nghĩa với việc chúng cũng sẽ không được đưa vào tab “Internal” hoặc XML Sitemap.

– Nếu bạn đã thu thập dữ liệu của cả những URLs mà bạn không muốn đưa vào Sitemap, hãy đánh dấu chúng trong tab “Internal” nằm trong cửa sổ điều khiển ở trên cùng, nhấp chuột phải và chọn “Remove” chúng trước khi bạn tạo XML Sitemap.

– Ngoài ra, bạn có thể xuất dữ liệu tab “Internal” dưới dạng Excel, lọc và xóa những URLs không cần thiết và tải lại tệp này lên ở chế độ danh sách, trước khi tạo XML Sitemap.

5. Chọn ngày chỉnh sửa cuối cùng

XML Sitemap last mod config

Nếu muốn đưa “lastmod” vào, bạn chỉ cần sử dụng phản hồi “last modified” trực tiếp từ máy chủ (cột “Last Modified có thể được tìm thấy trong tab “Internal”) và đặt ngày theo ý muốn.

Chọn “Priority” của URLs

“Priority” là một thuộc tính có thể tùy chọn để được đưa vào XML Sitemap. Có thể bỏ chọn ô “Include priority tag” nếu như bạn không muốn đặt mức độ ưu tiên cho URLs. Mức độ ưu tiên cung cấp cho các công cụ tìm kiếm một gợi ý về sự quan trọng của một URL và sự liên quan của URL đó đến trang web của bạn. Giá trị hợp lệ nằm trong khoảng từ 0.0 đến 1.0 cho mức độ ưu tiên cao nhất và mặc định là 0.5.

XML Sitemap priority config

SEO Spider cho phép bạn cấu hình việc này dựa trên “level” (độ sâu) của URLs. Bạn có thể xem “level” của URLs tại cột “Level” trong tab “Internal”.

Như có thể thấy trong ảnh chụp màn hình bên trên, theo như mặc định, trang chủ (hoặc trang đầu tiên của quá trình thu thập dữ liệu) sẽ được đặt mức độ ưu tiên cao nhất là “1”, giảm dần 0.1 theo từng cấp độ và tối đa là 0.5 cho cấp độ 5+.