如何在大資料集上構造 N 近鄰圖

時間 2021-05-09 10:03:25

1樓:Greg LI

能不能先做一下聚類。

"如果物件相對地靠近簇的原型,則我們可以使用簇原型減少發現物件最近鄰所需要

計算的距離的數目。"簇相距很遠,簇中物件不可能互為近鄰。

2樓:陳義

要注意到相似矩陣是乙個很稀疏的矩陣。乙個語句的長度少於的話,那包含的(無重複的)tri-gram數目不多於98個。因此,乙個句子裡共同出現的(無重複的)tri-gram pair不多於98 * 98 / 2 = 4802個。

20萬個句子中的共生(有重複的)tri-gram pair不多於4,802 * 200,000 = 960,400,000個。

最笨的辦法,先生成這960,400,000個tri-gram pair,然後排序,得到基礎統計量,然後依此計算相似度, 20萬個語句應該不會耗很多時間。

3樓:折閃電

1. 精確演算法:要算乙個上三角矩陣,用map-reduce, 並行吧,考慮採用hadoop平台

2.近似演算法:將每一句的trigram轉換成乙個實數值,這樣每個句子都可以表示成乙個實數,用實數之差近似句子的相似度(距離),然後對實數排序,每個句子的5近鄰就在該句子排序所在位置的上下5句,比較一下就行。

O(n^logn+n),關鍵是如何構造乙個轉換,使得轉換後的實數差盡可能接近原來的相似度函式(偏序盡可能保持住就行)。

sklearn 中的模型對於大資料集如何處理

只想要麵包和奶茶 樓上的答案都有提到partial fit,但是只有少量模型可以,svm.LinearSVC沒有該函式,無法實現增量式的訓練,但是可以用SGDClassifier代替該函式。sklearn中有SGDClassifier 通過更改損失函式loss可以對應到不同的分類回歸學習器,如下圖所...

如何在金融時間序列資料中構造iid的樣本?

長沙王太傅 自相關是任何時間序列資料都存在的問題。在金融資料中這個問題更為嚴峻,因為不光是yt 1會影響yt,過去的volatility也會顯著的影響yt。這就是所謂的ARCH或者GARCH effect。 伊格諾 有overlaping當然不能假設iid,所以金融時間序列很多時候都是考慮non o...

如何在 Excel 上做資料地圖?

戴草帽的呆萌靈貓 Python裡的pyecharts庫,是目前我遇上到的最滿意的畫資料地圖的方式。這個庫同時也能完美呈現Excel中所有的圖表,實現圖表的格式化 自動化生成。官方文件如下 https 05x docs.pyecharts.org zh cn charts configure改天再來講...