穀歌新聞資訊站點地圖: 新聞特有的抓取錯誤
要查看 Google 新聞的專用錯誤報告,新聞發布商需要將其網站收錄到 Google 新聞中,還需要創建一個網站站長工具帳戶,並將其網站添加到該帳戶中。要請求 Google 新聞收錄您的網站,請與我們聯係。完成上述操作後,請執行以下步驟:- 在主頁上,點擊網站的網址。
- 在信息中心中,依次點擊診斷 > 抓取錯誤。
- 點擊新聞標簽。
- 點擊新聞特定的錯誤鏈接。
- 新聞特定的錯誤包括:
報道超短
說明
與網頁上沒有鏈接的其它文字集相比,我們從 HTML 網頁中摘錄的報道正文過短。這適用於包含新聞摘要或多媒體內容的大多數網頁,而非完整的新聞報道。我們生成該錯誤是為了避免收錄可能不正確的文本片段。
推薦解決方法
該問題通常是由以下幾種原因導致的:
- 相關報道的摘要過多 - 為便於我們的提取器工作,請考慮將這些摘要設置成可點擊的。
“將該報道發送給朋友”等功能的說明過長 - 您可以考慮設置“display:none”或“visibility:hidden”樣式,以便隱藏文本,也可以使用 JavasScript 動態地編寫 HTML 代碼段。
- 用戶評論 - 您可以考慮將評論放入內插框架中、使用 AJAX 動態抓取或者移動到相鄰網頁中。
- 如果以上方法均無法解決問題,請告知我們。
報道支離破碎
說明
從 HTML 網頁摘錄的報道正文包含無法組成段落的孤立的句子。我們生成該錯誤是為了避免收錄可能不正確的文本片段。
推薦解決方法
- 嚐試對您的報道進行格式調整,將其拆分為多個由幾句話組成的文本段落。
- 確保句中的標點正確。
- 請勿在段落中頻繁使用 <br> 和 <p> 標記,並且盡量避免在總體上拆分報道的正文。
- 考慮刪除報道頁麵上的一些非報道文字。
- 如果以上方法均無法解決問題,請告知我們。
報道過長
說明
從 HTML 網頁摘錄的報道正文太長,不能作為一篇新聞報道。我們生成該錯誤是為了避免收錄可能不正確的文本片段。常見原因包括:新聞報道的下方有用戶發表的評論,或者在 HTML 版麵中包含除新聞報道之外的其他資料。
推薦解決方法
考慮刪除報道頁麵上的一些非報道文字。如果報道頁麵中包含用戶評論,可以考慮以下某條建議:
- 將評論放入內插框架中。
- 使用 AJAX 動態抓取評論。
- 將部分評論移動至相鄰網頁中。
- 如果以上方法均無法解決問題,請告知我們。
報道過短
說明
從 HTML 網頁摘錄的報道正文包含的字數太少,不能作為一篇新聞報道。這適用於包含新聞摘要或多媒體內容的大多數網頁,而非完整的新聞報道。我們生成該錯誤是為了避免收錄可能不正確的文本片段。
推薦解決方法
- 嚐試對您的報道進行格式調整,將其拆分為多個由幾句話組成的文本段落。如果報道內容由於包含的字數過少而不能用作新聞報道,那麼我們就無法收錄它。
- 請確保您報道的字數超過 80。
- 如果以上方法均無法解決問題,請告知我們。
日期未找到
說明
我們無法確定報道的發布日期。
推薦解決方法
采用以下推薦的日期格式設置:
- 在每篇報道的標題和文本之間,用一行獨立的 HTML 代碼清楚地表示日期和時間。指定的應該是報道的首次發布日期。
- 刪除報道頁麵 HTML 中的其他任何日期,以免抓取工具將這些日期誤認為正確的發布時間。
- 如果您要使用日期元標記,請先與我們聯係。日期元標記應采用以下格式:<meta name="DC.date.issued" content="YYYY-MM-DD">,其中日期采用 W3C 格式,即使用“完整日期”(YYYY-MM-DD) 或“完整日期加時、分、秒”(YYYY-MM-DDThh:mm:ss) 格式,並帶有可選分數和時區後綴。
- 創建 Google 新聞站點地圖。<publication_date> 標記可確保您能夠為報道選擇正確的日期。
日期過早
說明
我們所確定的此報道的日期(無論是從站點地圖的 <publication_date> 標記中獲得,還是從 HTML 網頁本身的日期中獲得)過早。
推薦解決方法
- 確保您報道的發布日期不早於 2 天以前。目前我們隻收集 2 天或 2 天以內的報道。
- 采用上述推薦的日期格式設置。
報道無內容
說明
從 HTML 網頁摘錄的報道正文顯示為空。
推薦解決方法
- 確保報道頁麵的源代碼中提供了每篇報道的全文(例如,不嵌入在 JavaScript 文件或內插框架中)。
- 確保沒有在報道的源代碼中使用諸如“display:none”或“visibility:hidden”的樣式。
- 確保您報道的鏈接直接指向相應報道的網頁,而不是指向使用 Javascript 重定向的中間網頁。
摘錄失敗
說明
我們無法從該網頁摘錄報道。如果我們無法識別報道的有效標題、正文和時間戳,則摘錄會失敗。我們會列出存在此錯誤的網址,以便讓您了解為什麼某些報道不顯示在 Google 新聞中。
推薦解決方法
- 確保標題、正文和時間戳均易於抓取(例如,采用文字形式而不是圖片形式提供),但目前該錯誤主要用於參考。我們正積極地努力改進摘錄方法,以減少該錯誤出現的次數。
- 提交 Google 新聞站點地圖。
日期元標記無效
說明
HTML 網頁中包含我們無法解析的日期 <meta> 標記。
推薦解決方法
- 日期 <meta> 標記應采用以下格式:<meta name="DC.date.issued" content="YYYY-MM-DD">,其中日期采用 W3C 格式(https://www.w3.org/TR/NOTE-datetime),即使用“完整日期”(YYYY-MM-DD) 或“完整日期加時、分、秒”(YYYY-MM-DDThh:mm:ss) 格式,並帶有可選分數和時區後綴。首次發布報道時就應該指定日期。
找不到鏈接
說明
Googlebot-News 沒有在網頁上找到任何有效新聞報道的鏈接。隻有新聞欄目頁麵才會出現這種錯誤。
推薦解決方法
- 按照以下指南中的規定,確保您的報道網址至少包含一個 3 位數的編號。或者,您也可以考慮通過 Google 新聞站點地圖提交報道。
- 確保您的報道位於 Google 新聞所收錄的網站的域內。
- 檢查生成錯誤的網頁,並確保該網頁包含指向新聞報道的可抓取鏈接。Googlebot-News 最適合抓取 HTML 鏈接,但無法抓取圖片鏈接或 JavaScript 中內嵌的鏈接。有關如何確保鏈接獲得抓取的信息,請參閱我們的網站站長指南,以及有關創建方便 Google 處理的網站的提示。
找不到句子
說明
從 HTML 網頁摘錄的報道正文不包含由連續的字詞組成的有標點的句子。我們生成該錯誤是為了避免收錄可能不正確的文本片段。
推薦解決方法
- 如果報道內容都是連續的的詞,且沒有用標點按順序隔開,那麼我們不能將其收錄在 Google 新聞中。確保報道的文本是由句子組成的,並且不在段落內頻繁使用的 <br> 或 <p> 標簽。
- 確保報道頁麵的源代碼中提供了每篇報道的全文(例如,不嵌入在 JavaScript 文件中)。
- 確保您報道的鏈接直接指向相應報道的網頁,而不是指向使用 Javascript 重定向的中間網頁。
發現 noindex 標記
說明
報道的 HTML 網頁包含“noindex”<meta> 標記,阻止了 Google 將該網頁編入索引。
推薦解決方法
- 刪除報道頁麵中的“noindex”<meta> 標記。
重定向至外部網站
說明
欄目或報道頁麵會重定向至其他域上的網址。
推薦解決方法
- 所有欄目頁麵和報道都必須位於 Google 新聞中所收錄的網站的域內。
- 如果您不打算重定向至外部網站,請確保沒有任何第三方修改過您的網站。了解有關被黑網站的詳情。
頁麵過大
說明
欄目或報道頁麵的長度超出了允許的上限。
推薦解決方法
- HTML 網頁的大小不得超過 256KB。
不允許使用的標題
說明
從 HTML 網頁摘錄的標題表明它不是新聞報道。
推薦解決方法
- 通常可以通過以下方法解決該問題:將 HTML 網頁上的 <title> 標記設置為報道的標題,並在 HTML 網頁上的顯著位置(例如,在 <h1> 標記中)反複顯示該標題。了解有關標題的詳情。
找不到標題
說明
我們無法從 HTML 網頁摘錄報道的標題。
推薦解決方法
- 遵循我們的標題格式設置建議。
- 要確保報道在移動設備上正確顯示,請勿在標題的定位文本中包含前導號碼(有時對應訪問關鍵字)。
解壓縮失敗
說明
Googlebot-News 檢測到頁麵經過壓縮,但無法將其解壓縮。這可能是因為網絡狀況不佳或者網絡服務器的編程或配置不當而引起的。
推薦解決方法
- 檢查網絡或網絡服務器。
內容類型不受支持
說明
頁麵中包含 Google 新聞不支持的 HTTP 內容類型。
推薦解決方法
- 報道所包含的內容類型必須為 text/html、text/plain 或 application/xhtml+xml。
最後更新:2011-05-20 10:16:20