站內搜索數據提交流程和格式說明
一、站內搜索數據提交流程
1、按照“百度站內搜索數據提交模板_0”格式要求組織好XML格式的數據文件,每個文件最多可包含 50,000 個網址,並且應該小於 10MB(10,485,759字節);或者,創建包含上述數據文件地址的sitemap索引文件,每個索引文件包含的XML格式數據文件個數不限,但是單個索引文件應該小於10MB(10,485,759字節)。
2、將數據文件或sitemap索引文件放到網站服務器上(建議放置在根目錄下)。
3、進入站內搜索工具的“提交數據”頁麵,點擊“添加新數據”按鈕;在新頁麵內依次選擇文件類型(當前隻有一個文件類型且已經默認選中),填寫數據文件更新周期,填寫數據文件(或sitemap索引文件)地址,輸入驗證碼後,點擊“提交”,則返回結果列表頁;此時列表中新增1條或多條數據文件(或sitemap索引文件)地址。
若點擊“取消”將不保存設置並直接返回列表頁。
4、在百度開始處理您的數據之前(通常提交後1小時內開始處理),列表第3列將顯示“等待”狀態;如果數據不符合格式規範,狀態將顯示為“錯誤”,您可以根據提示修正數據後重新提交;如果所有數據通過格式校驗,則狀態為“正常”,但並不表示所有數據已經被抓取,抓取的快慢和您提交的數據量有關。
5、數據文件提交後,百度spider會參考站長設定的更新周期自動抓取url,默認速度是10url/秒(一天86萬)。初次提交時,一般第二天下午14:00後進行查詢,就可以搜到比較多的結果;在此之前搜到的結果可能會比較少。
6、更多有關數據提交的問題可查看Sitemap協議常見問題解答和操作常見問題解答。
二、站內搜索數據格式說明
數據格式基本信息
數據格式中文名: | 百度站內搜索數據提交模板_0 |
數據協議類型: | sitemap協議 |
標簽順序: | 站長不可亂序提供標簽 |
字符編碼: | 僅支持UTF-8 |
其他限製: | 標簽/屬性大小寫敏感,且url類型不支持中文字符 |
百度站內搜索數據格式遵守“百度sitemap協議”,是基於XML格式的擴展版本,在<urlset>、<url>、<loc>、<lastmod>、<changefreq>、<priority>6個固定標簽基礎上,新增2個固定標簽和16個擴展標簽,便於站長組織並提交各個維度的有價值信息,用於搜索結果的摘要展現或篩選、排序。
注意:
1、擴展標簽中的<title>和<pubTime>雖然不是“必填”,但是建議填寫。
<title>將被站內搜索結果優先用作標題,可以避免展現站點名這類冗餘信息。不會影響百度大搜索中的標題展現。
<pubTime>即內容發布時間,是按照時間篩選或排序的主要依據。
2、建議有條件的站點將正文內容通過<content>提交過來,這對於減輕百度對站點服務器的訪問壓力、提升收錄效率都有較大幫助。<content>內容將被用來生成摘要,計算相關性,因此務請保證<content>內容的完整性。同樣,隻影響站內搜索,不會影響百度大搜索。
3、其他擴展標簽及其屬性,可以根據需要選填。
數據格式具體說明
(1)xml固定標簽
標簽名稱 | 標簽用途 | 標簽類型 | 標簽限製 | 可選/必選 |
urlset | 標記整個文檔的開始和結束 | / | / | 必選 |
url | 標記每條信息的開始和結束 | / | 1個urlset可以包含很多url | 必選 |
loc | 該條數據的存放地址 | url | 以"https://"開頭 最大長度256個字符 | 必選 |
lastmod | 該條數據的最新一次更新時間 | 日期 | 時間格式為yyyy-mm-dd | 可選 |
changefreq | 該條數據的更新頻率 | 字符串 | 有效值為:< 最後更新:2013-07-22 13:28:00 |