無任何保護!俄羅斯小哥在百公尺高空翻滾倒掛

時間 2021-06-06 07:57:00

1樓:月光寶盒娛樂頻道

題外話,語言糾錯是語言建模的乙個應用場景。任何乙個語言模型都可以 adapt 來做糾錯,其效果好壞決定於語言模型有多強。在沒有足夠好的語言模型的時候,做糾錯其實是空中樓閣。

基於某乙個語言模型做糾錯的科研角度意義不大。更有意義的角度可能是把語言模型當作黑箱,研究一下這個黑箱內部的何種結構會在演算法意義上更有利於糾錯的實現。然後再考慮構建黑箱。

=== 俺之前做過通訊裡的糾錯編碼,跟這個問題很接近,所以再扯幾句哈 ==

語言糾錯問題的formulation 大致應該是這樣的。假設你有個已經訓練好的語言模型A, 用來描述正確句子X。但是正確的句子 X 並沒有被觀測到;所觀測到的是這個正確句子被雜訊汙染後的結果,Y (這裡的雜訊可以有各種模型,比如替詞的替換,缺失,插入等)。

那麼糾錯問題可以如下構造:給定模型A和觀測到的句子 Y,infer 正確的句子 X. (當然這裡的句子X 和Y 不一定需要是句子本身,可以是它們 embedding vector 的序列)。

那麼這樣就構造出乙個統計推斷問題。 這個formulation 的好處是它並沒有預先假設哪個詞是錯的(當然也沒有如你題中假設的是前n個詞是對的),相反它假設的是每個詞都有一定機率出錯。然後通過做inference 確定句子中的哪些詞錯了,並改正。

通訊裡糾錯編碼的解碼就是這樣的思想。 上述的formulation就是如法炮製,應該是最標準最自然的構造。(你問題裡提到的糾錯思路看起來是乙個greedy 的思路,即依此判斷每乙個詞。

這種greedy 的辦法一般都是比較弱的,它的致命弱點是error propagation。因為你一旦在某個詞上判斷錯了,之後的判斷就都錯了。)

2樓:張大帥

題主你可以看看word2vec了,你的思路類似於裡面的bow模型。

另外就是現在序列建模,一般都是雙向的,例如雙向RNN。這樣第乙個字其實就是最後乙個字。

若無任何牽掛,你還會依舊如此拼命嗎?

加菲貓 會!就比如我馬上要中考了,但是以我的成績根本考不上高中,因為害怕父母失望,害怕考砸之後被父母罵,但前不久我也跟父母談過這個問題,我媽跟我說 讓我好好去考,考不好了他們也不會罵我。沒了這個顧慮之後,我也希望自己更加拼命,努力考上高中。 青不茫 不清楚不懂什麼叫做牽掛,我感覺拼命的學習與我自身認...

為什麼火車晚點,無任何賠償,無法全額退票。?

大宇吃魚 為什麼無法全額退款?因為你不仔細聽廣播唄。確認晚點列車,開車前都可以去票面發站退票。沒有賠償,因為沒有規定要賠償,嘿嘿。 真理高中的庫拉拉 020.9.7修正 我下面一直在講為什麼 無任何賠償 沒有講 無法全額退票 今天又看見這個問題了,氣不打一處來 這是信口雌黃啊信口雌黃啊 我替國鐵喊冤...

GMAT無任何基礎2個月衝650 可能嗎?

乙隻努力的Jojo 可以噠,其實650 不算是很高的分數,但需要打敗近三年76 的考G人哦,有那麼一點點的難度,你可以做好二戰的準備,要是能一戰衝刺出分650,簡直妙哉!其實不要感覺自己沒有任何基礎,就感覺GMAT和自己很疏遠,說實話哦,我們大家第一次考GMAT的時候都算是零基礎,所以,零基礎並不可...