如何翻譯token

時間 2021-06-25 08:36:06

1樓:marshmallow

正好讀到《Python自然語言處理》這本書,該書在3.4節翻譯token為詞條,tokenization為詞條化。僅供參考

2樓:ze ran

詞節。類似音節,位元組,雖然由更小的單位組成,但已是表意的基本單位,不用再細分。

詞元,詞例都有一種特殊感,好像這個詞與一般詞地位不同。其實不然,都是平等的。

3樓:呂昱峰

不如就叫符號,叫字元的話,subword就不是,叫詞符,既不滿足subword的含義,也不適合中文單個漢字。

看看符號這個詞的定義:符號首先是一種象徵物,用來指稱和代表其他事物。其次符號是一種載體,它承載著交流雙方發出的資訊。

感覺抽象起來挺好。

Token: 符號

Tokenization: 符號化

Tokenizer: 符號器

4樓:yuzaiya

我覺得對於中英文來說,乙個token可以指乙個字,或者乙個片語。

但是,乙個token所具有的共性在於,這樣的乙個字,或乙個片語。只對應乙個語義向量(embedding)。

所以說每乙個語義向量(embedding),可能對應乙個詞或乙個片語。那麼這樣的乙個語義向量所對應的詞或片語被稱為token

5樓:

在NLP裡面,A token is a string of contiguous characters between two spaces, or between a space and punctuation marks. A token can also be an integer, real, or a number with a colon (time, for example: 2:

00). 也就是說token最直接的翻譯是乙個"連續字元片段",但是這個名字略顯拗口,簡化一下就叫「連串「。

從使用的場景來看,比如token最常用的場景是tokenization,約定俗成的翻譯是「分詞」,就是"把詞分開"。那麼我們也可以把token叫做"詞分" ,即"分開的詞",這樣子區別於漢語中「詞」的定義。

至於「令牌」之類的翻譯,大抵是計算機系統裡用一段加密的字串來代表使用者以實現身份識別,其實稱呼為「連續字元片段「也是可以的。

6樓:我愛志方小姐

我一般是把 token 翻譯成「標記」的。

今天看 Python 的官方文件(簡體中文),它把 token 翻譯成了「形符」。

2. 詞法分析 - Python 3.9.0 文件我瞬間就矇圈了!

趕緊查一下「形符」是啥……

然後,還真有……

而且還給了出處,《文字學概要》(裘錫圭)~

7樓:

要從文字中獲取特徵,需要先拆分文字。這裡的特徵是來自文字的詞條(token),乙個詞條是字元的任意組合。——機器學習實戰(Machine Learning in Action) 如此翻譯

區塊鏈Token是什麼意思?

楓清 Token 通常翻譯成通證。它是區塊鏈中的重要概念之一,它更廣為人知的名字是 代幣 代表的是區塊鏈上的一種權益證明,而非貨幣。Token的三個要素 一是數字權益證明,通證必須是以數字形式存在的權益憑證,代表一種權利 一種固有和內在的價值 二是加密,通證的真實性 防篡改性 保護隱私等能力由密碼學...

網路應用中session和token本質是一樣的嗎,有什麼區別?

rail gun session表示會話。比如你作為乙個使用者登入,你可能訪問量很多個網頁,但是這個時候你在同乙個會話裡面。會話表示乙個終端與伺服器通訊的過程。token表示令牌,令牌用於用於某些操作或者表明相應身份。在網路中比如會話令牌 session toke 作為會話的唯一識別符號。定義上是兩...

醫學翻譯前景如何?如何成為醫學翻譯?

胡大蝦 這個看個人性格吧,如果追求穩定 安靜的工作環境,醫藥翻譯挺適合的,寫字樓朝九晚五,基本上坐班處理醫藥稿件就行,沒有繁雜的人際關係,晉公升和薪資基本看實力,工作能力很大程度靠平時的經驗積累,翻譯能力強速度快自然薪資更高,或者可以跳到更好的平台。不過我屬於不太坐得住那種,雖然完成乙份稿件後有很多...