閱讀542 返回首頁    go 騰訊 go 騰訊qq軟件


騰訊QQ空間超分辨率技術TSR:為用戶節省3/4流量,處理效果和速度超穀歌RAISR

雷鋒網AI科技評論:隨著移動端屏幕分辨率越來越高,甚至像iPhone更有所謂的“視網膜屏”,人們對高清圖片的訴求也隨之越來越大。在QQ 、QQ空間、微博、微信等社交平台,人們常樂於發送和瀏覽數兆的高清圖片,以獲得更佳的視覺體驗。但這也給用戶造成了一定的困擾——要看高清大圖也就意味著要占用大量帶寬,一來是數據成本增加,二來加載速度會變慢,導致用戶體驗不佳。在時間就是金錢的時代,怎麼能把這麼寶貴的時間用在等待loading上呢?

所以如何能夠在不影響用戶體驗的情況下,通過傳輸小圖來達到高清效果是一個很值得研究的問題。在去年10月,穀歌發表了一篇論文講述了他們推出的一項新技術RAISR(Rapid and Accurate Image Super-Resolution),利用機器學習將低分辨率圖像轉化為高分辨率圖像。這項技術能夠在節省帶寬75%的情況下分辨率效果達到甚至超過原圖,同時速度能夠提升大約10到100倍。於是很快RAISR成為該領域的行業標杆。

而近日騰訊QQ空間聯合優圖實驗室也推出的他們在此領域的最新技術TSR(Tencent Super Resolution)。據雷鋒網了解,TSR技術在同樣的標準下,處理速度在RAISR的基礎上提升了40%,處理效果也有明顯提升。此外,TSR也是業界首次實現移動端使用深度神經網絡進行超分辨率,並保證圖片能夠實時進行處理。即使在用戶的普通Andriod手機,也可以使用這項技術。

一、超分辨率模型

超分模型結構圖如下:

1、神經網絡

首先,在深度卷積神經網絡這一塊,他們構建了一個10層的網絡。對比目前學術界研究的神經網絡,這個網絡能夠很好的解決Checker Board Artifacts和對於部分圖片處理紋理不清晰的問題。通過神經網絡抽象出圖片的整體特殊,識別圖片的紋理和內容,隨後再根據圖片的紋理和內容進行圖片的高清細節重建,從而達到遠超過原圖的視覺效果。

深度卷積神經網絡

通過控製卷積神經網絡的層數與每層的CHANEL數,在簡化整體計算量的情況下,這個網絡能很好的解決圖片過於平滑,紋理不清晰的問題。通過精簡化的設計,TSR能夠保證模型在隻有4.6KB的基礎上有不錯的處理效果。

2、CbCr與Y通道分離

在圖片預處理方麵,TSR采用了二次插值方法對圖片進行預處理。這樣做可以對比較模煳的UGC(用戶原創內容)圖片也能取得較好的效果。針對人眼對於顏色與亮度的敏感程度,他們對圖片采用CbCr與Y通道分離,隻對Y通道數據進行超分處理的方法提高處理速度。

(注:YCbCr 是色彩空間的一種,通常會用於影片中的影像連續處理,或是數字攝影係統中。 Cb和Cr為藍色和紅色的濃度偏移量成份,Y是所謂的流明(luminance),表示光的強度。)

3、PRelu激活函數

此外,在模型中他們采用PRelu(Parametric Rectified Linear Unit)作為激活函數,這樣可以得到更快的收斂速度與更好的網絡表達能力。

顧名思義為帶參數的ReLU,二者的定義和區別如圖

此外,他們采用了基於Adam(Adaptive Moment Estimation,自適應矩估計)的梯度下降法,來求解神經網絡模型的具體參數。

4、圖片預處理

具體的模型訓練上,他們先采用1W張用戶真實圖片,然後通過調整圖片顏色、高度、對比度、施轉、左右反轉等數據增強操作,構造百萬級的訓練樣本集。然後采用壓縮的方法將訓練樣本圖片寬高各壓縮到原來的1/2,此時圖片的整體帶寬就隻有原來的1/4了。

5、對比調參

處理後的圖片經過前麵介紹的超分模型處理後,再與原來的圖片的效果進行比較,根據對比效果進行調整模型參數。

與業界的訓練該方法不同,除了對比圖片的損失(PSNR)外,他們還同時引入了可視化評測係統,使用用戶的真實圖片進行可視化評測,用於優化參數。

6、評測結果

TSR與學術界前沿超分辨率技術對比如下圖(NTIRE2017數據,400* 300 放大到 800 * 600,硬件環境:Titan XP workstation)。 可以看到在處理速度與圖片效果上,TSR相比別家(包括穀歌的RAISR)都要更佳。

二、將超分辨率技術應用到移動端

目前主流的深度神經網絡模型一般在後台的高性能GPU機器上運行,這對機器性能要求比較高。TSR則為基於手機端的深度學習架構。

TSR將深度學習從後台遷移到移動端, 主要包括如下較為關鍵的技術:

1、分塊加速技術 把圖片分成很多小塊通過神經網絡進行處理。分塊加速技術的優點在於能夠充分使用CPU的多核特性進行多核並行計算。

在分塊的過程中,同時還使用算法對圖片的紋理複雜度進行識別和智能處理來提高圖片的處理速率。如下圖示,通過智能識別可以加速藍框中圖塊的處理過程。

2、異構多核CPU/GPU加速技術 能夠根據用戶手機的GPU與CPU能力進行任務的智能劃分,聯合GPU/CPU進行處理以達到較好的處理效果。這樣的技術也許應該算是業界首創了。

3、統一移動端並行加速框架RapidNet   RapidNet深度融合了基於AND平台的opencl GPU並行計算加速技術和基於IOS平台的METAL 加速技術。對基於ARM結構的CPU,則能夠充分利用neon SIMD技術和純程池技術。

TSR/RapidNet架構如圖

據了解,相比於業界主流的機器學習平台,速度提高10倍以上,內存消耗則降低95%。

TSR對比業界的處理效果

4、動態探測與模型動態加載技術 保證了手機端的全覆蓋。TSR會動態探測手機的處理能力,針對不同手機實時加載不同的模型,從而能夠保證所有性能的手機客戶端都可以使用這種技術,保證了手機端的全覆蓋。

三、TSR圖片處理效果

我們來看看TSR對圖片處理的效果如何。(注:左邊是原圖,右邊是超分辨率處理的圖片)

TSR處理後效果對比:

細節對比:

細節對比:

細節對比:

細節對比:

用戶普通圖片壓縮75%再進行TSR處理後跟原圖進行對比效果:

四、與RAISR及其他技術對比

在同樣處理標準下,TSR與RAISR的效果性能對比:

可以看出不管是在處理速度,還是處理效果上,TSR都要超過之前行業的標杆PARSR:處理速度在PARSR的基礎上提升40%,處理效果也有明顯提升。讓我們用圖來看。

從上麵對比圖可以看出,對於圖片細節與紋理的處理,TSR相比RAISR在細節還原上表現更好。

其次,據介紹,TSR是目前業界唯一能夠將基於深度學習的超分分辨率技術落地並應用到移動端的技術,即使在用戶的普通的手機上,也可以很好的運行TSR並取得不錯的效果。

另外,基於TSR衍生出來的深度學習框架RapidNet,對比CAFFE2與TENSORFLOW框架,性能提升平均達到20倍,且能夠把深度學習落地到普通手機。

五、技術應用場景

這項技術的應用,如文章開頭所說,可以應用到業界中所有的圖片處理上,能夠給用戶節省75%的流量,從而大大降低圖片傳輸的帶寬。對於騰訊來說,TSR目前已經在QQ空間進行落地應用,此外QQ、微信、天天P圖、動漫等應該也都是TSR技術的目標使用場景。

另外,據雷鋒網了解,這項技術還能夠用來智能修複用戶的老照片、模煳的圖片等,能夠把普通圖片變成高清圖片。

當然或許最重要的是,TSR這項技術其實是打開了移動端進行AI相關的深度機器學習模型的大門。因為之前要想運行深度神經網絡就必須采購昂貴的GPU,而現在即使是普通用戶也能夠在自己的普通的手機上運行這項技術。如果延伸的話,也許TSR技術將來能夠對人臉識別、OCR識別、背景識別、人物美妝等技術的發展有一定的幫助。

據介紹,隨著AI技術的興起,騰訊QQ空間也加大了在AI這一塊的投入,他們的聯合優圖實驗室在圖片的智能化處理(包括視頻內容識別、人臉識別)以及語音識別、對話機器人這些領域進行較為深入研究。

最後更新:2017-10-31 18:42:10

  上一篇:go 騰訊QQ推厘米遊戲開放平台 開啟社交遊戲新探索
  下一篇:go 爭奪00後的時間,騰訊QQ推出厘米遊戲開放平台