站内搜索数据提交流程和格式说明
一、站内搜索数据提交流程
1、按照“百度站内搜索数据提交模板_0”格式要求组织好XML格式的数据文件,每个文件最多可包含 50,000 个网址,并且应该小于 10MB(10,485,759字节);或者,创建包含上述数据文件地址的sitemap索引文件,每个索引文件包含的XML格式数据文件个数不限,但是单个索引文件应该小于10MB(10,485,759字节)。
2、将数据文件或sitemap索引文件放到网站服务器上(建议放置在根目录下)。
3、进入站内搜索工具的“提交数据”页面,点击“添加新数据”按钮;在新页面内依次选择文件类型(当前只有一个文件类型且已经默认选中),填写数据文件更新周期,填写数据文件(或sitemap索引文件)地址,输入验证码后,点击“提交”,则返回结果列表页;此时列表中新增1条或多条数据文件(或sitemap索引文件)地址。
若点击“取消”将不保存设置并直接返回列表页。
4、在百度开始处理您的数据之前(通常提交后1小时内开始处理),列表第3列将显示“等待”状态;如果数据不符合格式规范,状态将显示为“错误”,您可以根据提示修正数据后重新提交;如果所有数据通过格式校验,则状态为“正常”,但并不表示所有数据已经被抓取,抓取的快慢和您提交的数据量有关。
5、数据文件提交后,百度spider会参考站长设定的更新周期自动抓取url,默认速度是10url/秒(一天86万)。初次提交时,一般第二天下午14:00后进行查询,就可以搜到比较多的结果;在此之前搜到的结果可能会比较少。
6、更多有关数据提交的问题可查看Sitemap协议常见问题解答和操作常见问题解答。
二、站内搜索数据格式说明
数据格式基本信息
数据格式中文名: | 百度站内搜索数据提交模板_0 |
数据协议类型: | sitemap协议 |
标签顺序: | 站长不可乱序提供标签 |
字符编码: | 仅支持UTF-8 |
其他限制: | 标签/属性大小写敏感,且url类型不支持中文字符 |
百度站内搜索数据格式遵守“百度sitemap协议”,是基于XML格式的扩展版本,在<urlset>、<url>、<loc>、<lastmod>、<changefreq>、<priority>6个固定标签基础上,新增2个固定标签和16个扩展标签,便于站长组织并提交各个维度的有价值信息,用于搜索结果的摘要展现或筛选、排序。
注意:
1、扩展标签中的<title>和<pubTime>虽然不是“必填”,但是建议填写。
<title>将被站内搜索结果优先用作标题,可以避免展现站点名这类冗余信息。不会影响百度大搜索中的标题展现。
<pubTime>即内容发布时间,是按照时间筛选或排序的主要依据。
2、建议有条件的站点将正文内容通过<content>提交过来,这对于减轻百度对站点服务器的访问压力、提升收录效率都有较大帮助。<content>内容将被用来生成摘要,计算相关性,因此务请保证<content>内容的完整性。同样,只影响站内搜索,不会影响百度大搜索。
3、其他扩展标签及其属性,可以根据需要选填。
数据格式具体说明
(1)xml固定标签
标签名称 | 标签用途 | 标签类型 | 标签限制 | 可选/必选 |
urlset | 标记整个文档的开始和结束 | / | / | 必选 |
url | 标记每条信息的开始和结束 | / | 1个urlset可以包含很多url | 必选 |
loc | 该条数据的存放地址 | url | 以"https://"开头 最大长度256个字符 | 必选 |
lastmod | 该条数据的最新一次更新时间 | 日期 | 时间格式为yyyy-mm-dd | 可选 |
changefreq | 该条数据的更新频率 | 字符串 | 有效值为:< 最后更新:2013-07-22 13:28:00 |