閱讀724 返回首頁    go 阿裏雲 go 技術社區[雲棲]


老司機談鑒黃,新一代“鑒黃師”是如何養成的?

在互聯網高速發展的今天,直播平台,內容社區,視頻網站等UGC/PGC平台蓬勃發展,如雨後春筍般出現。但巨大的安全隱患也接踵而至,內容審核成為企業最關鍵的一道防火牆。企業招聘大量的內容審核專員來應對包括色情、暴力、犯罪等多個方麵的不良內容。其中鑒黃師可能是最神秘也最令人遐想的崗位了。


說起鑒黃師,大家會心一笑,看看黃圖還有高收入,簡直沒天理。但是在從業人員看來,它真的那麼令人向往嗎?阿裏聚安全小編專訪了負責阿裏內容安全(阿裏綠網)的資深賽車手——來自阿裏安全多媒體算法團隊的唐秋。常年戰鬥在一線的他,是如何學習高超的駕駛技巧?



從鑒黃師到“鑒黃師” 

唐秋告訴小編,鑒黃師發展到今天,它的身份已然有著不同的變化。 

第一代鑒黃師正如大家所想的那樣,通過一雙肉眼鑒別淫穢圖片和視頻。但這份工作並不輕鬆,他們每天需要完成海量的圖片視頻鑒別。因此長時間從事這份工作,不僅對身體是一種摧殘。觀看太多的色情作品,甚至扭曲的色情作品,還會對心理造成極大的創傷,影響正常的性生活和婚姻關係。


圖片來源於網絡


在人工鑒黃成本上升和互聯網日益猖獗的色情信息的環境下,第二代“鑒黃師”應運而生。

第二代“鑒黃師”從人工鑒黃演變到機器智能鑒黃,通過人工智能、深度學習和大數據樣本等技術,千萬張正常圖片與色情圖片的訓練模型,最終生成一個智能鑒黃模型。




智能鑒黃模型生成步驟


上麵這張圖的步驟裏,製定標準與標注數據的難度比訓練模型更大一些。因為現實世界是複雜的,不同的人對同一張圖片的認識往往不一樣。


打個比方,女性泳裝圖片,如果以沙灘為背景如何判定,換成室內環境呢?兒童的寫真該如何判斷?


為了製定標準,他們了承受很大的壓力,一旦沒處理好,會引起輿論的壓力和監管部門的處罰。阿裏內容安全團隊的運營與算法同學一起討論修訂了數次才有了初版,並且在後續打標過程中根據遇到的問題進行了幾次增補,標準才穩定下來。


阿裏內容安全的智能鑒黃技術使用非常簡單,輸入一張圖片或視頻,算法模型返回一個0-100之間的分值。這個分值非線性地標示圖片含色情內容的概率:得分99及以上的圖片幾乎可以肯定是色情圖,可以機器自動處理;得分50-99的需要人工審核;得分50以下的認為是正常圖,因為50分及以上包含了99%以上的色情圖片。




阿裏內容安全的圖片識別結果



在獲取最初的樣本過程中,唐秋告訴小編一個數據:近2000網站,6000+萬疑似色情圖片,1300+萬的高質量標注。他說這是智能鑒黃最重要的一塊基石。


“老司機”帶著“新司機” 

在這個階段,傳統鑒黃師從完成鑒別工作轉變到教會機器如何識別的更準確。他們給得分在50-99的圖片視頻標注“正常”、“性感”、“色情”的分類,機器根據標注去學習,讓它們變的越來越聰明。


那麼有一個問題:會出現教會徒弟,餓死師傅的情況嗎? 

“教會徒弟後,是讓師傅更加輕鬆。而且,師傅和徒弟可以互相學習,共同進步”。唐秋告訴阿裏聚安全小編,智能審核+人工審核是目前國內互聯網公司主流的內容審核方法。




智能審核為主

智能識別每天可以處理幾億張圖片,不僅可以節省企業大量的人力成本,並且大大提高識別的準確率。還能提供音視頻、文字、直播等形式的內容檢測,覆蓋鑒黃、暴恐、涉政、廣告等多種內容風險。每一條視頻/信息的發布,都將經過機器和人工等多道審核。


以上智能審核的功能可以訪問阿裏聚安全提供的內容安全服務免費測試體驗(https://jaq.alibaba.com/green)企業可使用戶通過低成本的一次接入,與OSS、ECS等雲產品無縫對接。它支撐著阿裏係淘寶、支付寶等核心業務的內容安全。目前微博、熊貓TV、支付寶都在使用阿裏內容安全功能,覆蓋社交、直播、金融等多個行業。


人工審核為輔

雖然在後期機器識別越來越精準,可以勝任絕大部分的審核工作,但是相比人工審核還是有一定的局限性。因為機器還很難模擬出正常的用戶體驗,很難理解內容背後的深意,很難作出準確的“人的判斷”。並且直播和視頻行業盛行的今天,機器檢測其內容的難度較大,還是需要人工來輔助審核完成。


但隨著智能技術的更新,識別效率的提高,人工審核的占比將越來越低,人工智能或許可以徹底將傳統鑒黃師以及內容審核專員解放出來,最終傳統鑒黃師將會往第三代發展。

最後更新:2017-08-13 22:48:21

  上一篇:go  遠程工作時,員工該如何協調與領導之間關係?
  下一篇:go  嵌入式硬件工程師必備 21個計算機體係架構麵試題