搜尋引擎如何對抓取的內容進行分組?

時間 2021-05-31 03:19:19

1樓:夜息

感覺樓主有點概念的混亂

入索引和分類是兩碼事

入索引就是是分詞後的入庫。根據ABCD,啊哦額一等一系列term進行存放。

分類是把一大堆東西A,去歸類的另外幾樣東西B上。其實本質就是就求A們和某個B的相關性。

然後這個相似性又分成布林模型和潛在語義模型。

布林模型很簡單,就是包含(相關)和不包含(不相關)的問題

例如你上面的說的東西。各種2元匹配

然後布林模型是有侷限性的,太依賴匹配,容易找出太多或者太少的結果。

然後接下來就是向量模型

把文件中的term對映到向量空間中,然後每個term會有自己的權重,通過余弦求相似性。

當然,上面這兩個種比較好理解,然後技術實現難度也不大,搜尋引擎也不可能用。

接下來說說搜尋引擎可能會用的(為啥是可能?因為我也不在搜尋引擎工作)

例如PLSA,LDA等基於統計學語義演算法,可以用於分類,過濾,檢索等方面,說實話我也搞不太清楚,大概是把文章對映到向量空間中,然後通過奇異值分解後降維進行計算。通俗點來講,就是例如通過上說的布林模型模型,可以知道"iphone"和"iphone4s"是同一類東西。但是通過基於統計學的語義演算法,能夠知道賈伯斯和iphone之間是有關係的,具體資料google上查一查吧

開發測試人員對搜尋引擎的是如何測試的?

不同的測試方法有不同的測試用例設計方法。常用的測試方法 白盒法測試物件是源程式,依據的是程式內部的邏輯結構來發現軟體的程式設計錯誤 結構錯誤和資料錯誤。結構錯誤包括邏輯 資料流 初始化等錯誤。黑盒法用例設計的關鍵同樣也是以較少的用例覆蓋模組輸出和輸入介面。白盒法和黑盒法依據的是軟體的功能或軟體行為描...

程式設計師該如何使用搜尋引擎?

忘川觀鶴飲 高薪的IT作業是很多年輕人的作業願望,但是,一旦身入其間卻發覺沒有想像中那麼誇姣。被稱為IT藍領的程式設計員,作業強度大,像個編碼 機器 技能更新換代快,飯碗不穩定。跟著年齡的增加,IT程式設計員該何去何從。做IT的搞不好就被挨踢。你提這個問題就了解你是才搞程式沒多久。等你真正進入這個作...

如何正確高效地使用學術搜尋引擎?

如何正確高效地使用學術搜尋引擎肯定有很多上圖,上資料,上新鮮說法的。我只補充一句,雖然偏題。學術引擎再怎麼高效,也只是學術做好的第一節台階。萬事開頭難,其實,萬事第二步也難,第三步也難。走過來以後感覺,每一步都難。倘如此,學術搜尋做的再精妙,不能解決學術學習的核心問題。這是大思路,希望不要跑偏,當然...