谷歌是如何判斷搜尋語言的?

時間 2021-05-06 18:40:28

1樓:

gongaike 在拼音中就是公開課英語或者拉丁語中這個字母組合不常見或者沒有就算我們掛VPN 也是固定的幾個國家的IP 當你搜尋內容後面加上中文那麼搜出的就沒有英文了

2樓:shuhari

雖然沒有證據,但猜想這與客戶端語言和IP位址應該沒什麼關係,而是谷歌的演算法包括了關鍵字之間的等效性、或者關聯性的判斷。簡單說就是它認為 「gongkaike」 和「公開課」之間有著很強的相關性,而相關性越強,在結果中出現的權重就越高。

再舉個例子,你去搜尋 Aoi Sora、蒼x空、蒼xそら,肯定找到的是同一位老師,儘管它們用的是完全不同的關鍵字和語言。

3樓:

我猜的幾種可能

根據http請求裡的"Accept-Language": "zh-CN,zh;q=0.9,zh-TW;q=0.8",

"2. 谷歌有你所登入的賬號的設定與當前文字所屬語言

3. ip位址根據ip輔助判斷

4. Query Rewrite 谷歌維護了詞表,觸發Query Rewrite

4樓:於人明

這裡還真不見得用到了啥非常神秘的演算法,請看看你的作業系統、瀏覽器,都設定為了啥語言?HTTP協議按照規矩會把這些都傳遞給伺服器的~~~~~~~

5樓:拉普拉斯妖

關於計算機如何判斷一段文字的所屬語言, 迴圈神經網路(RNN)很容易就能做到, 最簡單的可以看看 PyTorch 的這個入門.

這裡有一張混淆矩陣的圖很有趣:

來自上述頁面

可以看到中/韓, 中/越比較容易出錯, 葡萄牙/西班牙也很容易出錯, 日語由於其奇怪的拼寫則平均來講更少出錯, 這些都是很符合常識的.

關於Google 如何判斷搜尋語言, 則是你所登入的賬號的設定與當前文字所屬語言打分的按權混合的結果, 或許還有 IP, HTTP Header 和詞庫等等.

論證如下: 調語言到英文, 調地區到美國, 搜尋 gongkai 都是英文結果:

英文, 美國

但是加上 ke, 整個搜尋結果會變成中文:

英文, 美國

一旦調到簡中, 搜尋 gongkai 結果裡就有公開課:

簡中, 香港

06/17編輯, 新增圖例

C語言如何判斷是否輸出中文

omnipotent 有點感興趣,之前自己也想過,寫了個小程式 include include int main putchar n 這個樣例輸出 測試小程式 五個字。其中陣列a儲存5組的資料,每組有3個char,最後的乙個0為臨界 那麼 很明了,這5個字在UTF 8的編碼中分別用每組的3個byte...

C 語言如何判斷等差數列?

立強 由於 若個數和累加合相同,則等差數列的平方和最小。所以,空間複雜度是O 1 時間複雜度是O n 好吧,再詳細點 遍歷過程需要產生5個值 最大值,最小值,個數,累加合,平方和。例如6個數 最大值6,最小值1,累加和21,平方和等於1 4 9 16 25 36,則是等差數列,否則不是 Milo Y...

語義搜尋的核心價值是什麼?是搜尋引擎的未來方向嗎?

wxs900 provenance system,persistent identification和file management system Grand Lee 1 自然語言處理和資訊提取技術將網際網路上非結構化資料轉化為結構化資料2 以實體和事件為中心進行跨文字的資訊聚合3 資訊網路建立和查...