閱讀553 返回首頁    go 百度 go 站長平台


站內搜索數據提交流程和格式說明

一、站內搜索數據提交流程

1按照“百度站內搜索數據提交模板_0格式要求組織好XML格式的數據文件,每個文件最多可包含 50,000 個網址,並且應該小於 10MB10,485,759字節);或者,創建包含上述數據文件地址的sitemap索引文件,每個索引文件包含的XML格式數據文件個數不限,但是單個索引文件應該小於10MB10,485,759字節)。

    2、將數據文件或sitemap索引文件放到網站服務器上(建議放置在根目錄下)。

    3、進入站內搜索工具的“提交數據”頁麵,點擊“添加新數據”按鈕;在新頁麵內依次選擇文件類型(當前隻有一個文件類型且已經默認選中),填寫數據文件更新周期,填寫數據文件(或sitemap索引文件)地址,輸入驗證碼後,點擊“提交”,則返回結果列表頁;此時列表中新增1條或多條數據文件(或sitemap索引文件)地址。

    若點擊“取消”將不保存設置並直接返回列表頁。

    4、在百度開始處理您的數據之前(通常提交後1小時內開始處理),列表第3列將顯示“等待”狀態;如果數據不符合格式規範,狀態將顯示為“錯誤”,您可以根據提示修正數據後重新提交;如果所有數據通過格式校驗,則狀態為“正常”,但並不表示所有數據已經被抓取,抓取的快慢和您提交的數據量有關。

    5、數據文件提交後,百度spider會參考站長設定的更新周期自動抓取url,默認速度是10url/秒(一天86萬)。初次提交時,一般第二天下午14:00後進行查詢,就可以搜到比較多的結果;在此之前搜到的結果可能會比較少

    6、更多有關數據提交的問題可查看Sitemap協議常見問題解答操作常見問題解答

二、站內搜索數據格式說明

數據格式基本信息

數據格式中文名:

百度站內搜索數據提交模板_0

數據協議類型:

sitemap協議

標簽順序:

站長不可亂序提供標簽

字符編碼:

僅支持UTF-8

其他限製:

標簽/屬性大小寫敏感,且url類型不支持中文字符

    百度站內搜索數據格式遵守“百度sitemap協議”,是基於XML格式的擴展版本,在<urlset><url><loc><lastmod><changefreq><priority>6個固定標簽基礎上,新增2個固定標簽和16個擴展標簽,便於站長組織並提交各個維度的有價值信息,用於搜索結果的摘要展現或篩選、排序。

注意:

    1、擴展標簽中的<title><pubTime>雖然不是“必填”,但是建議填寫。

       <title>將被站內搜索結果優先用作標題,可以避免展現站點名這類冗餘信息。不會影響百度大搜索中的標題展現。

       <pubTime>即內容發布時間,是按照時間篩選或排序的主要依據。

    2、建議有條件的站點將正文內容通過<content>提交過來,這對於減輕百度對站點服務器的訪問壓力、提升收錄效率都有較大幫助。<content>內容將被用來生成摘要,計算相關性,因此務請保證<content>內容的完整性。同樣,隻影響站內搜索,不會影響百度大搜索。

    3、其他擴展標簽及其屬性,可以根據需要選填。

數據格式具體說明

1xml固定標簽

標簽名稱 

標簽用途 

標簽類型 

標簽限製 

可選/必選 

urlset 

標記整個文檔的開始和結束

/

必選 

url 

標記每條信息的開始和結束 

1urlset可以包含很多url

必選 

loc 

該條數據的存放地址 

url 

"https://"開頭

最大長度256個字符

必選 

lastmod 

該條數據的最新一次更新時間 

日期 

時間格式為yyyy-mm-dd

可選 

changefreq 

該條數據的更新頻率 

字符串 

有效值為:<

最後更新:2013-07-22 13:28:00

  上一篇:go 網站驗證幫助
  下一篇:go 百度站內搜索服務協議