如何在大資料集上構造 N 近鄰圖

1樓：Greg LI

能不能先做一下聚類。

＂如果物件相對地靠近簇的原型，則我們可以使用簇原型減少發現物件最近鄰所需要

計算的距離的數目。＂簇相距很遠，簇中物件不可能互為近鄰。

2樓：陳義

要注意到相似矩陣是乙個很稀疏的矩陣。乙個語句的長度少於的話，那包含的（無重複的）tri-gram數目不多於98個。因此，乙個句子裡共同出現的（無重複的）tri-gram pair不多於98 * 98 / 2 = 4802個。

20萬個句子中的共生（有重複的）tri-gram pair不多於4,802 * 200,000 = 960,400,000個。

最笨的辦法，先生成這960,400,000個tri-gram pair，然後排序，得到基礎統計量，然後依此計算相似度, 20萬個語句應該不會耗很多時間。

3樓：折閃電

1. 精確演算法：要算乙個上三角矩陣，用map-reduce, 並行吧，考慮採用hadoop平台

2.近似演算法：將每一句的trigram轉換成乙個實數值，這樣每個句子都可以表示成乙個實數，用實數之差近似句子的相似度(距離)，然後對實數排序，每個句子的5近鄰就在該句子排序所在位置的上下5句，比較一下就行。

O(n^logn+n)，關鍵是如何構造乙個轉換，使得轉換後的實數差盡可能接近原來的相似度函式（偏序盡可能保持住就行)。