閱讀480 返回首頁    go 阿裏雲 go 技術社區[雲棲]


快播CEO認罪,成人網站對技術的要求有多高?


0?wx_fmt=jpeg

快播涉傳播淫穢物品案昨日在海澱法院開庭審理。快播公司、王欣、張克東、牛文舉均表示認罪悔罪。吳銘表示快播公司犯罪成立。


庭前法院委托鑒定機關,對涉案的四台緩存服務器的硬盤數據是否受到改寫汙染問題進行了鑒定。鑒定結論是:未發現硬盤中的視頻文件在2013年11月18日被行政機關扣押後,有從外部拷入和修改的痕跡。


再次開庭,王欣的態度和半年前截然不同。在2016年1月的庭審中,王欣則是否認快播傳播淫穢視頻,王欣稱,涉案四台服務器是加速服務器。服務器留存的文件是緩存文件,快播無法輕易辨別。


在整場快播案庭審的劇目中,王欣那句“技術無罪”,博得了無數網友的同情和支持。大數據文摘今日也隻從技術角度探討,從數據規模、基礎設施等方麵說明,成人網站對技術的要求到底有多高。



 ◆ 

成人網站對技術的要求到底有多高


上網之人,多少都會接觸過成人網站。這是一個舉世公認的事實。


不過這是一個難以洞察的領域,因為相關數據少之又少。我們知道成人網站都是那些在互聯網上有著超高流量的網站。根據 Google DoubleClick 的 Ad Planner 服務(通過cookie跟蹤網民)顯示,全球 Top 500 網站中,就有數十個成人網站。全球最大的色情網站 Xvideos 每月網頁瀏覽量(Page Views,PV)高達 44 億,是 CNN 或 ESPN 新聞網站的 3 倍,是 Reddit 的 2 倍。LiveJasmin 也不小。除了 Google 和 Facebook 等大站,其他網站在YouPorn、Tube8 和 PornHub 麵前都是小巫見大巫。


雖然網頁瀏覽量是一個很好的起始點,但它們僅告訴我們某些色情網站比某些非色情網站要受歡迎。40億的PV,聽起來很多,但當我們把那些X站用戶實際在做的事考慮進來,成人網站的大小和規模就有點明朗了。


 ◆ 

規模


640?

色情網站和非色情網站的主頁區別是訪客的平均停留時間。諸如 Engadget 等新聞網站的平均停留時間是 3 – 6 分鍾,大約是是閱讀 1 – 2 篇文章。然而色情網站的停留時間,大約是在 15 – 20 分鍾。


大部分網站的內容主要是文本和圖像,而成人大站則是視頻。EXT首頁完全加載大約是幾兆數據,打開一篇文章,大約是500kb數據。訪問色情網站,假設是打開一個 480×200 低分辨率的視頻,每秒傳輸 100 kb 數據。15 分鍾的話,那就大約是 90 MB 數據了。


XVDO 每月有 3.5 億訪問次數,乘以 90 MB,那就每月傳輸大約 29 PB 數據,也就是每秒傳送數據約 50 GB。做個對比,你家網絡連接可能每秒傳送兩兆(2 MB),XVDO是你家的 25,000 倍。


簡而言之,色情網站是在處理天文數字級別的數據。在原始帶寬(Raw Bandwidth)方麵,能與之匹敵的網站,也就隻有 YouTube 或 Hulu,而 YouPorn 卻又是 Hulu 的 6 倍。


 ◆ 

基礎設施


就支持視頻所需的資源,數據存儲器、CPU 周期、I/O 和帶寬,遠超過文本和圖像所需要的資源。


當然了,雖然每個網站的情況又不一樣了,但大部分成人站點都有 50 至 200 TB 的成人資料。對一個網站來說,這是個大數目(Google、Facebook、Blogger 和 Youtube 之流存儲的數據比這還要多),好在現在 2 TB 的硬盤便宜。


CPU 周期和 I/O 會影響視頻流和 PV 數量。首先,色情網站要提供動態、可搜索的海量視頻數據庫,然後點播視頻時,從硬盤讀取文件,再網絡上傳輸。如果你有過在局域網傳送大量大文件的經曆,你就會知道網絡係統的壓力有多大了。


硬件設備情況,實際上我們幾乎無法知曉,因為色情網站也沒公布過。雖然如此,但我們討論的大型色情網站會有四核服務器、千兆交換機、負載均衡器。在軟件方麵,大部分大型色情網站都會使用超高吞吐量的數據庫(比如 Redis )來存儲和提供視頻,還有輕量級的 HTTP 服務器(比如 Nginx )。


最後說帶寬。還是以 Xvideos 為例(基於 Ad Planner 的數據估測),大型色情網站必須有足夠的連通性(connectivity)來支撐每秒 50 GB(400Gbps )。這還隻是平均傳輸速率。在高峰期間,Xvideos 或許要 1,000Gbps  (1Tbps) ,或更高 。在倫敦和紐約直接的連通性也才 15Tbps。

有很多方法來處理高流量:自己搞個數據中心,或者去大數據中心租賃幾排架的服務器,或者使用諸如 Amazon AWS 和 Microsoft Azure 之類的雲服務。


 ◆ 

真實案例


YPN是全球第二大的色情網站,足夠提供研究數據。另外要說一下,DoubleClick  的 Ad Planner 中的估測數據比實際數據要低很多的。


YPN有“超過 100 TB 的幹貨”,每天網頁瀏覽量超過 1 億。總而言,這相當於每天傳送 950 TB 數據(大部分都是視頻流),每月大約傳送 29 PB。Xvideos 肯定不止 28 PB 這個估測值了,它可能是每月 35 – 40 TB。

640?

在高峰期,YPN每秒得響應 4000 個網頁,相當於有每秒 100 GB 或(800 Gbps )的突發流量。這相當月每秒傳送 10+ 張雙層 DVD。


在軟件方麵,YPN的主數據庫是 Redis,用 MySQL 作為管理工具,用於管理和向 Redis 簇中添加數據。後端是 Perl 和 MySQL,不過在 2011 年改成了 PHP + Redis。HTTP 服務器是 Nginx,同時用 HAProxy  和 Varnish  做負載均衡。Redis 服務器可以每秒處理 30 萬請求,每小時記錄下 8 – 15 GB數據,包括訪客日誌、行為數據等。據說 Redis 可以抗住 2 億的日 PV。


(譯注:2012年2月份,YPN的技術人員 Eric Pickup 在 Google 群組宣告他們網站改用 Redis DB 後。扛住了每天1億PV瀏覽量,每秒30萬請求,已經堅持 2 周。Eric 還將去加拿大一個技術大會分享經驗。)


令人悲傷的是,YPN拒絕透露硬件設備信息。從 YPN的 CDN 的 IP 地址來看,它應該沒有使用雲服務,應該托管在某地的大型數據中心。


互聯網每天大約處理 1/2 EB 數據,相當於每秒處理 50Tb, YPN的 800Gbps 這個數字,幾乎就占了互聯網中每秒流量的 2%。而全球有幾十個和 YouPorn 規模相當的色情網站。互聯網流量中色情內容占據了 30%,這個說法也就不是不現實的哦。

 原文發布時間為:2016-09-10

本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“BigDataDigest”微信公眾號

最後更新:2017-06-06 16:32:36

  上一篇:go  對話希拉裏創新事務顧問亞力克·羅斯:中美科技公司正激烈競爭
  下一篇:go  在 WordPress 下如何通過 Markdown 來提高工作效率