構想:中文文本標注工具(內附多個開源文本標注工具)
自然語言處理的大部分任務是監督學習問題。序列標注問題如中文分詞、命名實體識別,分類問題如關係識別、情感分析、意圖分析等,均需要標注數據進行模型訓練。深度學習大行其道的今天,基於深度學習的 NLP 模型更是數據饑渴。
最前沿的 NLP 技術往往首先針對英文語料。英文 NLP 的生態很好,針對不同有意思的問題都有不少大規模語料公開供大家研究,如斯坦福的 SQuAD 閱讀理解語料。中文方麵開源語料就少得多,各種英文 NLP 上的犀利模型和前沿技術都因為中文語料的匱乏很難遷移過來。
另一方麵,對於一些垂直領域,如醫療、金融、法律、公安等等,專有名詞和特有需求甚多,很難將比較 general 的比如在 wikipedia dump 上麵訓練的模型直接拿過來用。
傳統人工標注數據的過程往往是繁瑣和低效率的。剛標了一個“聯想”是公司名,又來一個“聯想集團”,再標一次又來一個“聯想集團有限公司”,如此的例子令標注過程含有大量的重複勞動。另一方麵也沒有一個易上手的標注 UI,標注工作者往往需要直接按預先定好的格式直接在寫字板之類的軟件中修改原始數據,格式錯誤率也較高。
能不能構建一個中文文本的標注工具,可以達到以下兩個特點:
- 標注過程背後含有智能算法,將人工重複勞動降到最低;
- 標注界麵顯而易見地友好,讓標注操作盡可能簡便和符合直覺。
答案是可以的。事實上很多標注工具已經做到了這一點,最先進的如 Explosion.ai 的 Prodigy;然而開發了著名的 NLP 開源包 Spacy 的 explosion.ai 選擇了將 Prodigy 閉源,而 Spacy 支持中文也仍然遙遙無期。我們希望構建一個開源的中文文本標注工具,而本文很多的技術靈感正是來自 Prodigy 文檔[1]。
主動學習的智能標注算法
流程:
- 用戶標一個label;
- 主動學習的後台算法分為 online 和 offline 部分。online 部分即時更新模型,可使用諸如 SVM、bag of words 等盡可能快的傳統方法;offline 部分當標注數據積累到一定數量時更新模型,可使用準確度較高的深度學習模型;
- 模型更新後,對盡可能多的 example 做預測,將確信度排序,取確信度最低的一個 example 作為待標注例子。重複 1 的過程。
可以想象如果模型訓練得好的話,這個過程將直接忽略掉確信度最大的那些例子,而把所有重點放在分類邊界上的那些確信度小的例子。這樣可以盡算法所能減少用戶端的人工工作量。
online 與 offline 模型互相協作,與用戶手動標注的過程一起不斷迭代;在最終標注任務完成之後,offline 模型可以重新在所有標注數據上重新訓練,以達到最好的模型效果。
顯而易見的友好標注前端
用戶標注的界麵應該盡可能符合直覺,讓用戶完全聚焦在當前的標注任務上。 Prodigy 給了一個非常好的 demo[2],每一次的標注隻需要用戶解決一個 case 的問題。以文本分類為例,對於算法給出的分類結果,隻需要點擊“正確”提供正樣本,“錯誤”提供負樣本,“略過”將不相關的信息濾除,“Redo”讓用戶撤回操作,四個功能鍵以最簡模式讓用戶進行標注操作。
真正應用中,應該還要加入一個用戶自己加入標注的交互方式,比如用戶可以高亮一個詞然後選擇是“公司”,或者鏈接兩個實體選擇他們的關係等等。

以上是個人覺得的一個智能中文文本標注工具的最大亮點。算法本身還有很多細節需要思考,比如 online 機器學習算法與 offline 深度學習算法的協作、中文 NLP 的特征提取與模型構建、正則規則的引入、word embedding 的訓練和使用等等。
係統本身還要考慮後台存儲(SQLite?)和數據導入導出,前端框架選型和開發,前後端交互(django? flask? RestAPI?)等等的問題。下麵是 Prodigy 的簡單架構圖。

我們希望專注於中文文本標注的功能。前期我們想實現三種中文 NLP 任務的標注工具:中文命名實體識別,中文關係識別,中文文本分類。未來如果有更多如中文圖片問答、中文圖片描述之類的任務,我們可以再研究加入圖片標注這一塊。
希望這個工具的開發會是以中文社區的開源協作方式,為整個中文 NLP 的開源生態做出一點貢獻。
FAQ
1. 待標注數據集如何分割?
應該分為按句子、按段落、按文章三種,寫入配置文件由用戶選擇。 原因是命名實體識別與關係抽取可能按句子或者段落為單位給用戶標注比較合適;同時可能用戶會有全文章分類的需求,需要給出全文。
2. 為什麼要使用 online?
用戶標注數據 + offline 標注數據,為什麼還要使用 online model 更新數據呢?原因是 offline 的模型往往在全量數據上重新學習,也很可能需要使用深度學習模型,訓練的速度會很慢。而 active learning 的人機迭代過程要求模型給出幾乎實時的 stream 級別的訓練和推斷速度,這時候就需要 online model 來先行更新數據。
3. 使用什麼機製觸發 offline model?
這也可以是寫入配置文件的參數。一種是用戶標夠了 100 個或提前設置好的足夠多的新的數據,就可以啟用 offline model 進行訓練;另一種是給用戶一個按鈕,用戶可以點擊啟動後台的 offline 模型訓練並給出進度條。
4. 係統使用什麼格式的配置文件?
推薦 json 格式的配置文件。請參考一個例子在這裏[3]。
5. AIgo Factory 是什麼?和 User Instance 裏麵的部分是不是有點重合?
Algo factory 是算法的代碼模塊,你可以想象一堆 tensorflow 或者 sklearn 的代碼;而 user instance 是 config 文件與模型參數,是一堆用戶生成的 json 文件和模型文件。algo factory 是可以不同 user instance 傳入參數複用的,而每一個 user instance 代表了一個用戶任務的實例。
這樣設計的目的,是盡可能使係統可複用部分模塊化,而抽出用戶具體任務的配置與數據單獨存儲管理。
附錄:幾個開源文本標注工具
• IEPY

整個工程比較完整,有用戶管理係統。前端略重,對用戶不是非常友好。
代碼:https://github.com/machinalis/iepy
說明:https://iepy.readthedocs.io/en/latest/index.html
• DeepDive (Mindtagger)
△ Screenshot of Mindtagger precision task in progress
前端比較簡單,用戶界麵友好。
介紹:https://deepdive.stanford.edu/labeling
前端代碼:https://github.com/HazyResearch/mindbender
將 DeepDive 的 corenlp 部分轉為支持中文的代碼嚐試:
https://github.com/SongRb/DeepDiveChineseApps
https://github.com/qiangsiwei/DeepDive_Chinese
https://github.com/mcavdar/deepdive/commit/6882178cbd38a5bbbf4eee8b76b1e215537425b2
• BRAT
介紹:https://brat.nlplab.org/index.html
在線試用:https://weaver.nlplab.org/~brat/demo/latest/#/
代碼:https://github.com/nlplab/brat
• SUTDAnnotator

用的不是網頁前端而是 pythonGUI,但比較輕量。
代碼:https://github.com/jiesutd/SUTDAnnotator
Paper:https://github.com/jiesutd/SUTDAnnotator/blob/master/lrec2018.pdf
• Snorkel
Page: https://hazyresearch.github.io/snorkel/
Github: https://github.com/HazyResearch/snorkel
Demo Paper: https://hazyresearch.github.io/snorkel/pdfs/snorkel_demo.pdf
• Slate


Code: https://bitbucket.org/dainkaplan/slate/
Paper: https://www.jlcl.org/2011_Heft2/11.pdf
• Prodigy

和著名的 spacy 是一家做的。
Website: https://prodi.gy/docs/
Blog: https://explosion.ai/blog/prodigy-annotation-tool-active-learning
本文作者:crownpku
本文來自雲棲社區合作夥伴“PaperWeekly”,了解相關信息可以關注“PaperWeekly”微信公眾號
最後更新:2017-11-17 14:34:14