如何為中文文字做中文標籤推薦?

時間 2021-05-09 15:00:19

1樓:陳義

首先,如果有比文字更可靠的資料來源,一定要把它們充分利用起來。這是廢話。

其次,如果能把這個問題轉化成有監督的問題,要盡可能地把它轉化成有監督的問題。無監督的問題終歸更難處理點,除非你天才地發現了一些簡單易操作的先驗規律,否則無監督方法就是拼時間的體力活。

第三,大眾讀物大體可以分為兩類,實體密集型的和實體稀疏型的,實體密集型的比如知識類讀物、和名人相關的新聞、故事一類的,這類內容相對好處理一點。實體稀疏型的,比如情感類、幽默類、社會新聞類內容,還是演算法加人肉處理更快速一點。常規的辦法還是逐層分而治之吧。

第四,LDA、W2V等方法可以使用,但這些方法對文字理解的假設太簡單了,不覺得他們能解決大問題,是各類備用工具中的一類吧。

最後,人閱讀文章的時候,是怎麼在大腦中給每個文章安排乙個合適的歸類位置的呢?我想肯定會綜合使用詞法、語法、語義等各方面的資訊,我們對這個問題的解決也有過各種天馬行空的設想,但並沒有時間去驗證或嘗試,暫時只能把這個問題留給沒有生存壓力的同學們去解決了。

unity如何在中文文字換行時實現排版換行,避免標點符號出現在行首等比較醜的情況?

忠國 新建自己的指令碼 引入這些 using UnityEngine using System.Collections using UnityEngine.UI using System.Collections.Generic using System.Text.RegularExpressions...

如果需要將中文文字翻譯成英文,是請中文為母語的精通英語者還是請英文為母語的中文精通者

黑水河的波隆爵士 作為從事遊戲本地化的譯員,我只能從個人角度來回答這個問題。您作為遊戲開發者必然了解,其實在遊戲本地化領域,很多時候制約因素在於預算 以英文為母語 精通中文 專案經驗豐富的遊戲本地化譯員的費率肯定是不便宜的。但是在譯文質量方面,我一直相信一分錢一分貨,如何取捨取決於您對最終產品的期望...

r如何匯入中文檔案?

Chunr 在 read.table 和 read.csv 中使用 fileEncoding UTF 8 而非 encoding 選項。 Tia guo 剛剛解決了這個問題的人簡答一記。首先要把你的檔案改成UTF 8。我的情況是mac,需要匯入的是txt,那麼開啟mac自帶的txt編輯器 對就是那個...