[推薦係統]信息過載與推薦係統
我小的時候,電視隻能收到三四個台,很多那個時候的電視節目,例如《動物世界》、《射雕英雄傳》、《渴望》等等,都成了經典——可選擇的少了,能記住的反倒多了。現在的電視,動輒能收到上百個台,往好裏說是百花齊放,異彩紛呈;往差裏說是五色雜陳,泥沙俱下。可看的多了,反而不知道看什麼好,往往是“亂花漸欲迷人眼”,轉了一圈都找不到中意的節目。幾百個電視頻道就夠讓人心煩意亂了,網絡世界則更加恐怖:Netflix.com上麵有數萬部電影,Amazon.com上麵有數百萬本書,Del.icio.us上麵有超過10億的網頁收藏……不要說仔細選擇,把題目全看一遍,也是絕不可能的事情。可以獲取的信息多了,在表麵豐富的背後,意味著從汪洋大海中找到你所需要的信息,其難度和成本都上升了。這些讓人頭痛的問題,就是所謂的信息超載(information
overload)。簡單地說,信息超載就是指過量信息的同時呈現,遠遠超出了一般用戶的分辨和處理能力——可以選擇的多了,卻不知道如何選擇。其表現為可獲取的信息多了,用戶體驗卻不見好,甚至變得更差。
很多工具被開發出來指導用戶如何更好地利用信息,例如閱讀《廣播電視報》可以幫助你更好地找到自己喜歡的電視節目。因為信息超載主要還是與互聯網有關的問題,下麵我們把注意力集中在互聯網上麵。為了幫助用戶通過互聯網找到自己喜歡或者有用的東西,信息集成和信息過濾的工具是必要的,大致而言,這方麵的發展經曆了四個階段(不是嚴格的時間先後關係)。
首先是信息索引工具。簡而言之,信息索引就像電話黃頁一樣,把可能有用的信息按照某種分類或者順序組織起來,便於用戶查找。這裏給出了一個名為“化學信息導航站”的信息索引網站的例子(https://home.ustc.edu.cn/~wjbai/chem/chem.html)。該網站將從事化學學習和研究中可能用到的一些資源,按照一定的方式,例如學科方向或者研究機構,進行分類和組織。這類網站所引用的地址和信息,往往都是相當穩定的,例如美國化學學會的網址,沒有重大原因肯定不會更換。這種信息索引在專業研究領域廣泛使用,例如針對蛋白質結構和基因組問題,每年都會有一本新的手冊,公布相關研究機構的網址,和在網絡上可以公開使用的數據資源地址。信息索引網站盡管簡單,但現在仍然廣泛使用,大家熟知的網站www.hao123.com (hao123網址之家)僅僅是羅列了一些較知名的網站,但是其網站訪問流量在我國非常靠前。總的來說,信息索引工具的優點是簡單易用,缺點是更新慢,適應能力差,缺乏用戶的個性化特征。
第二就是所謂的門戶網站,例如我們熟悉的雅虎、新浪、搜狐等等。門戶網站使用也很方便,並且集中了主流的興趣,一般的用戶總是能夠從中找到部分自己感興趣的內容。相比信息索引,門戶網站的更新也很快。但是,門戶網站有一個同樣的弊端,就是缺少個性化設計,無法滿足用戶與主流興趣不符合的需求。
過濾海量信息方麵裏程碑的進展來自於搜索引擎的出現。通過主題定位(輸入關鍵詞),用戶能夠比較準確地找到自己感興趣的網頁。搜索引擎是使用最頻繁的網絡信息過濾工具,對於我們的生活有巨大影響,事實上,Google和百度已經不僅僅是網站的名稱,而是常用的動詞。但是,搜索引擎仍然存在兩個比較嚴重的問題。首先,盡管選擇關鍵詞是完全個性化的,但是針對同一個關鍵詞,返回的信息對於每一個用戶仍然是相同的,事實上也是表達了主流的興趣,倘若對某關鍵詞或者關鍵詞組,用戶的興趣和主流興趣不一致,那麼他很難從返回的搜索結果中找到自己感興趣的內容。另外,有一些對信息內容的需求,是沒有辦法通過簡單的關鍵詞匹配表示出來的。例如,一個用戶可能對於某種類型的小說或者詩歌非常喜歡,但這是一種整體的感覺,並不僅僅取決於某個作者或者某個主題——這種感覺難以言表,因此也就無法進行搜索。
如果把關鍵詞和搜索引擎作為探索信息世界的武器,如同宇宙中有很多我們探索不到的暗物質,萬維網中也有很多“暗信息”,這些信息是我們(普通用戶)探尋不到的。推薦係統的基本原理,就是對用戶的曆史活動記錄進行統計分析,挖掘用戶的喜好,然後根據這些喜好,自動地從海量信息中找到與之匹配的內容,並進行推薦。推薦係統是網絡信息過濾工具的第四個階段,也是目前解決信息超載問題最有潛力的辦法。因為每個用戶的曆史信息都不相同,所以推薦結果也是個性化的。
推薦係統這個概念,在上世紀九十年代就比較成熟了[1]。最近的火熱發展,來源於Web2.0技術的成熟。因為有了這個技術,用戶不再是被動的網頁瀏覽者,而成為主動參與者[2]。通過對網站提供的項目(包括用戶主動提交到網站上的項目)進行評分或粘貼標簽,用戶的喜好潛在地表現在這些活動中,網站可以設計相應的推薦算法,把這些喜好挖掘出來,從而向用戶推薦他們可能感興趣的項目。推薦係統的興起,還得益於它重大的商業化前景。以我國為例,現在一年網絡購物的交易量約為500億美元,而且這個數字還在激增。在基於Web2.0的購物網站上,用戶除了購物以外,還可以對所購物品進行評價——這些評價可以被其他用戶看到並參考。那麼,一個自然的問題就是,能不能利用這些評價記錄,最大可能地挖掘用戶喜好,向用戶推薦他可能喜歡的商品。這不僅僅是一種商品營銷手段,而且可以增加用戶對該網站的黏著性(誰會拒絕一個了解自己喜好的網站呢)。現在推薦係統的商務化應用已經比較廣泛,例如Amazon.com推薦書,Netflix.com推薦電影,Music.Yahoo.com推薦音樂,Sesamr.com推薦網址,AdaptiveInfo.com
推薦新聞。此外還有推薦朋友,推薦食品等等,不一而足。
除了計算機互聯網,手機現在也成為了推薦係統的新媒介。例如可以通過手機信號發送的購物推薦信息,用戶可以對推薦的產品和陳列的產品進行評價,這些評價信息將成為推薦的數據基礎。因為手機號碼具有唯一性,所以每個手機的擁有者都可以被視作一個獨立用戶。隨著電子貨幣的發展,用戶利用信用卡在超市刷卡購物的信息也可以被記錄,這些信息也可以被用於推薦。
本文引用地址:https://blog.sciencenet.cn/blog-3075-25413.html
最後更新:2017-04-03 08:26:22
上一篇:
iOS獲取OpenUUID
下一篇:
【端午小練】HDU1701-ACMer
Couldn't get connection because we are at maximum connection count (150/150) and there are none 異常解決
J2EE中EL和JSTL結合運用
WiFi網絡WPA2 KRACK漏洞分析報告
商城網站怎麼優化比較好
[轉自MSDN]可靠會話(Reliable Session)的最佳實踐
數據庫默認端口和驅動總結
阿裏雲大學認證體係發布
iBatis和Hibernate的對比
Android開發13——內容提供者ContentProvider的基本使用
Core Data淺談係列之十 : 關於數據模型中實體的屬性