word embedding 詞向量能否用於判別中文詞彙難易度?

時間 2021-05-05 19:29:50

1樓:

很討厭裝X的回答,搞一大堆圖,結果沒卵用。

我試舉例如下。

1  訏謨遠大巨集偉的謀劃

2  涯涘水邊;岸。邊際;界限。

3  惠允得到對方獲准的敬稱

5  窈然深遠貌;幽深貌。

5  乖蹇不好;不順遂

10 臆度憑主觀猜測

20 犟嘴頂嘴,強辯。

30 繁鬧繁榮熱鬧

40 落枕又名失枕。因睡覺時受寒或枕枕頭的姿勢不合適,以致脖子疼痛,轉動不便

50 撫掌拍手。多表示高興、得意。

200桀驁兇暴倔強

500徽章戴在身上表示身分、職業的標誌

800獵物為敵人、獵人或野獸所捕獲的犧牲者你會發現,隨著左則的數字越來越大,詞義越來越浮出來,直到完全的浮出來為止。反過來,如果我不給出詞義,大部分人無法猜出頭4個詞彙的真正詞義,那更不用說使用了。給了第6個詞彙,臆度,卻接近能夠猜測出詞意的。

到第7個犟嘴,則比較接近日常用語了。那麼我來告訴你,左邊的數字就代表難度。他的真實意思卻是詞頻。

2樓:李丕績

詞彙難易度的定義是什麼?度量標準是什麼?判別難以的本質特徵有哪些?

w2v等方法或者結果能否蘊含判別難易度的特徵?

先分析問題,找到本質,再尋找已有方法應用,或者創造新方法。

3樓:

前面 @李嫣然 的解答角度已經非常全面。這裡我想表達乙個想法,就是研究的驅動是什麼。如果僅因為word embeddings比較火,就要考慮用它來解決中文詞彙難度判定問題,感覺有些捨本逐末。

在我看來,中文詞彙難度判定似乎不一定非要用上word embeddings。該任務的關鍵在於如何定義詞彙難易度,感覺這是乙個多維度的問題。乙個詞難或易,到底是指筆畫多難記,詞義多難用,引申複雜難以掌握,還是出現次數少不熟悉?

感覺可能因素很多,不如從問題出發仔細分析,一旦定義清楚詞彙難度本身,解決方案似乎也會迎刃而解。

word embedding的所謂word analogy特性是有一定的應用性還是只是個玩具?

李韶華 個人認為這種特性儘管似乎在實踐中沒什麼卵用,但它間接支援了使用word embedding作為 NLP 任務的 feature。我無法給出嚴格的證明,只能在直覺上解釋一下。feature 的線性模型是機器學習裡乙個基本元件,在文字分類 情感分析 NER 等 NLP 任務裡也是如此。即使非線性...

Word Embedding 如何處理未登入詞?

張小白 1.直接當做unk處理 2.使用預訓練詞向量 3.使用ELMo等預訓練語言模型 4.考慮更細粒度,比如subwords技術,可能需要重頭開始訓練詞向量 暫時想到這麼多! 摸魚專家 BPEmb Tokenization free Pre trained Subword Embeddings i...

如何評價矢吹奈子?

為我推奈子寫下回答 PD48認識的老婆 長相清新可愛 PD48從F到A 是個努力家 PD48兩組對決投票的時候奈子很淡定從容 PD48最後一期公布結果反應沒有哭是開心的笑這幾點就把我圈的死死的 長相甜美,笑容滿分,元氣十足,歌舞優秀,綜藝感強。我眼裡她是非常美好的那種女生的型別,放在身邊的話應該是那...