語義搜索及框計算:從百度查生僻字談起
三個雷怎麼讀?男女男念什麼?開火是什麼字?……相信有不少人都曾經被這樣的問題所困惑過。要知道,中國的漢字常用的有4千左右,總數卻超過8萬,生僻字遠遠超過常用字,遇到一些不會讀、不會輸入的生僻字不足為奇。
最近,百度新上線了一項查生僻字的框計算應用,麵對不認識的生僻字,網民不用輸入這個字本身,而是隻需要向搜索框提交對字形和結構的描述,例如上文中的“三個雷”、“ 男女男”,就可以直接檢索到這個字的準確讀音及注釋。
這項應用看似簡單,實際上,卻標誌著百度的框計算已經突破了針對完整文字進行匹配的傳統檢索時期,進入了更加精準、智能和人性化的語義搜索時代。
什麼是語義搜索?
顧名思義,所謂語義搜索,是指搜索引擎的工作不再拘泥於用戶所輸入請求語句的字麵本身,而是透過現象看本質,準確地捕捉到用戶所輸入語句後麵的真正意圖,並以此來進行搜索,從而更準確地向用戶返回最符合其需求的搜索結果。
舉例來說吧,當一個用戶在搜索框中輸入“孟字去掉子”時,深諳語義搜索的搜索引擎就能夠判斷出,用戶想要找的並不是含有“孟”、“去掉子”等字眼的內容,而是想要查找與“皿”這個字相關的內容;同樣,當用戶搜索“表現春天的圖片”時,搜索引擎會向其呈現出各種與春天相關的圖片,而不僅僅局限於該圖片的標題是否包含“春天”字樣。
語義搜索的實質是自然語言處理技術,這正是百度自推出框計算概念以來一直重點投入的研發領域——早在去年,百度就曾與在該領域非常權威的哈爾濱大學建立聯合實驗室,著手自然語言相關技術的研發。
我們有理由相信,對於百度和框計算來說,此次的生僻字查詢功能,隻是其語義搜索相關研發進程的一個小小成果。或許用不了多久,網民們所提出的諸如“聽起來很溫暖的歌”、“帶有海豚音的音樂”、“家鄉的新聞”、“適合我的女朋友”等形形色色、千奇百怪的問題和請求,都將能從百度的框計算服務中獲得最好的解答
最後更新:2017-04-02 16:48:10