0%

transformer架構的模型最近在大放異彩,我們都想將不同的資料集和任務都換到transformer來試看看有什麼突破。麻煩在,嘗試不同的資料集和任務免不得有不少重複的操作,現在huggingface project過於臃腫,難以靈活地換到不同的資料集上。
我們換個想法,將其中的部件拆分,變成幾個主要的部件各司其職。主要是希望降低耦合性,讓我們可以專注解決每一個階段的問題,同時也更好維護。這也是打造這樣一套nlp訓練工具的原因。
一個完整的機器學習project,基本上都是 預處理 - 訓練 -預測 這樣的步驟。
按照這樣的想法,這一套nlp工具包也會如此:

最近有一篇論文,探討現在中文NLP還需不需要斷詞
《Is Word Segmentation Necessary for Deep Learning of Chinese Representations? 》
發現在深度學習中 以字建立的模型 比 以詞建立的模型 結果要好。但詞模型的表現不好,有原因是因爲沒有解決Out of vocabulary word(OOV,新詞)的問題。加上現在還有應用是基於詞來分析的 - 比如說討論區熱點,詞雲等……
可見,斷詞裏面新詞的問題依然存在。有沒有一個簡單有效的方法找到新詞呢?成爲本文想要探討的問題,提出一個新的方法,有以下改善:

  • 資源占用低
  • 不需大規模語料就能得到理想效果
  • 不需考慮閥值的設置

文末也會有code,希望可以一起改善。

Read more »