bert時代下的nlp領域,以傳統詞向量 glove等 為基礎的baseline是否還有意義?

時間 2021-05-30 12:31:00

1樓:採菇涼滴小蘑菇呀

你應該說的是投稿吧。我說一下工作中遇到的,有次組裡面分配的資源不夠支援bert線上部署,qps上不去。然後我們直接用線下訓練出的bert去生成標註樣本訓練lstm,最後僅僅犧牲微不足道的準確率將模型部署上線了。

2樓:大姑父

能用得起bert的公司沒幾家,都不考慮線上部署效能的麼?

幾百兆的引數,即使通過gpu加速做inferences 的時候單條請求隨便超過500ms,如果想達到1000併發,3000tips成本會很高。而且現在nlp領域的落地專案有限,並且營收能力很弱,比cv差遠了。沒有動力去推算力使用Bert,所以詞向量還是用的比Bert多。

3樓:士奇

詞彙本身還是特別複雜的,詞向量還不是詞彙表示方法的終點。除了語義之外還有其他資訊可以提取,比如主題(詞向量跟主題模型結合)、同義、實體等。這方面還有新工作出現,走的都是精緻路線,基本都是用word2vec當baseline。

或者說,開下腦洞,提一種新型的詞向量,還是向量的形式,但每個維度的意義跟現在的不同。感覺這種情況也可以跟word2vec比較,沒必要用大規模預料。

但如果做的東西還是在bert的框架裡,那就意義不大了。在有些審稿人眼裡,現在word2vec的地位類似於深度學習出現之後的支援向量機。

4樓:ZH.Li

傳統word2vector的方法本身也能看成一種簡單的預訓練吧,nlp任務在深度學習時代沒有cv領域那麼成功的原因之一就是缺乏大規模的訓練語料,而Bert就是通過融入大規模高質量的資料使得各個任務的baseline得到了提公升。現在的問題就是預訓練更大的模型成了大廠間的裝備競賽,但是不是一味的增加資料就能解決類似語義鴻溝的問題呢?個人感覺還是必須更好的融入先驗知識

5樓:sqrt3

個人覺得傳統詞向量被BERT/GPT等等淘汰是符合歷史程序的, 不然你還記得Glove/Word2Vec之前大家用的什麼嗎

6樓:悅涯

傳統詞向量和bert並沒有矛盾吧。bert是句子層次的語言建模,理論上任何詞向量都可以用bert來增強。所以只要加一組實驗,比如glove+bert和your work+bert的對比來說明你的詞向量方法work就好了,當然你得訓練得動bert。

還有就是很可能你的方法帶來的提公升會被bert」吃掉「,也就是加完bert不同的詞向量方法都差不多了。感覺再繼續做詞向量好難hh。

7樓:nlp小菜雞

如果是在學術界,我想沒啥用了,這是大力出奇蹟的時代。如果在工業屆還是有用的,畢竟bert太複雜了,latency無法容忍

如何理解CNN在CV與NLP領域運用的聯絡與區別?

約翰曰不約 CNN在CV領域已經發展的比較成熟,NLP相對來說最近一兩年才開始廣泛使用CNN,並且取得了不錯的效果。為什麼CNN用在CV上更得心應手,卻不一定適合NLP?要看清這點就要理解CNN的原理。CNN有兩個主要特點,區域不變性 location invariance 和組合性 Composi...

Hownet在NLP領域內是什麼樣的地位?

王泓硯 hownet是建立實詞概念語義關係的網路,通過義元等級體系反映實詞概念之間的聯絡,可以說,hownet是一部資訊特別豐富的詞典。但是hownet面對nlp任務,心有餘而力不足。原因在於 2.句子中詞義的理解是個動態過程,個別詞義會超越詞典的定義。語言表達不是乙個靜態生成過程,往往會實現一些主...

LCK賽區在LOL領域的統治時代是否正在走向結束?

已登出 其實我覺得首先得看拳頭進幾個版本的改動,個人感覺拳頭一直想讓整體遊戲節奏更加快速,對戰更加頻繁,這無疑讓運營見長的南韓賽區也在逐步放棄運營的打法。之前的南韓隊伍打法極其窒息,往往互相刷了一輩子兵線,團戰失敗,結束遊戲。甚至到上個週期的世界賽,三星白又是靠著視野的絕對壓制,極其精妙的節奏把握,...