0%

最近有一篇論文,探討現在中文NLP還需不需要斷詞
《Is Word Segmentation Necessary for Deep Learning of Chinese Representations? 》
發現在深度學習中 以字建立的模型 比 以詞建立的模型 結果要好。但詞模型的表現不好,有原因是因爲沒有解決Out of vocabulary word(OOV,新詞)的問題。加上現在還有應用是基於詞來分析的 - 比如說討論區熱點,詞雲等……
可見,斷詞裏面新詞的問題依然存在。有沒有一個簡單有效的方法找到新詞呢?成爲本文想要探討的問題,提出一個新的方法,有以下改善:

  • 資源占用低
  • 不需大規模語料就能得到理想效果
  • 不需考慮閥值的設置

文末也會有code,希望可以一起改善。

Read more »

最近這段時間,新出了不少很強大的NLP模型,比如elmo bert gpt xlnet什麼的
這些模型刷著各種榜單,萬用又強大
但當你跑去實作,就會悲慘地將batch size越調越小。也感慨自己3GB的1060實在是雞肋,硬件資源不足之下,可以說是與這些酷炫模型緣分不足。
其實在資源的限制下,我們還有不少的方法也可以達到不錯的效果,比如之前很熱門的Word2Vec

Read more »

Bert出來好一段時間,使用過程中或多或少會有一些疑問:

  • 如果不做finetune而是傳統的方法會怎麼樣?
  • 只拿最後一層真的是最好的選擇嗎?
  • bert在中文上怎麼樣可以做到更好?
  • 超過512個字應該怎麼樣處理?
  • bert可以做文本生成嗎?
  • Bert做多任務?
  • Bert可以用在什麽Task上面呢?
  • MaskLM和NextSentencePrediction兩種訓練方式應該怎麼關聯到我們的任務上?

在此希望對這些問題探討看看~

Read more »