如何計算乙個大資料集中的子集的重複率？假如有乙個1000萬隨機數的資料集合，其中數字重複率是m 那麼隨機抽出100萬資料，則這個子集中資料的重複率n 應該是多少。另外，怎樣定義重複率才是最科

1樓：joegh

這類貌似抽樣的重複率n%與總體的重複率m%沒有必然相關性的。

首先，如果資料集符合伯努利分布（0-1分布），並且值1的概率p不是特別小的話，根據大數定律抽樣中1的概率應該近似於總體。

但是記錄的重複跟伯努利分布是不一樣的，記錄重複是記錄與記錄間的關係，不僅僅是0和1這兩個值，抽樣的時候0-1分布要不抽到0要不抽到1，只有兩種可能；而重覆記錄的抽樣，即使抽到了總體分布中存在重複值的記錄，但如果只是抽到了其中的1條，那麼這條記錄在樣本子集中就變成了非重覆記錄。所以抽樣子集中重複率n%往往要遠小於總體集合m%。

如果非要去解讀n%與m%的關係，那應該跟總體重複率m%和抽樣資料的佔比相關。比如1萬條記錄中有2000條記錄重覆記錄（重複是相互的，即非唯一值的個數為2000，或者統計每個數字的COUNT計數大於1的數字有2000個），從1萬條記錄抽樣1千條，抽樣佔比10%，那麼抽中有重覆記錄的數字的概率為20%，同時抽中該數字重複值的概率為20%*10%（重複值可能不一定存在乙個，當存在多個重複值時，這個概率會增高），所以抽樣抽到重複值的概率為20%*20%*10%，並且這個概率只是重複值的概率，需要加上原數字（被抽到重複值之後該數字也被為重複的數字了）的概率，這樣可以大致得到n%。

不知道有沒有大牛知道標準的演算法，或者數學、統計學上有沒有現成的理論。

如何計算乙個大資料集中的子集的重複率？假如有乙個1000萬隨機數的資料集合，其中數字重複率是m 那麼隨機抽出100萬資料，則這個子集中資料的重複率n 應該是多少。另外，怎樣定義重複率才是最科

如何向乙個不懂大資料的人解釋大資料

現在是乙個大資料的時代，在這個時代的我們該何去何從？

雲計算大資料人工智慧，誰將開啟下乙個時代？

其他用戶還看了：

如何計算乙個大資料集中的子集的重複率？ 假如有乙個1000萬隨機數的資料集合， 其中數字重複率是m 那麼隨機抽出100萬資料，則這個子集中資料的重複率n 應該是多少。 另外，怎樣定義重複率才是最科

如何向乙個不懂大資料的人解釋大資料

現在是乙個大資料的時代，在這個時代的我們該何去何從？

雲計算 大資料 人工智慧，誰將開啟下乙個時代？

其他用戶還看了：

如何計算乙個大資料集中的子集的重複率？假如有乙個1000萬隨機數的資料集合，其中數字重複率是m 那麼隨機抽出100萬資料，則這個子集中資料的重複率n 應該是多少。另外，怎樣定義重複率才是最科

雲計算大資料人工智慧，誰將開啟下乙個時代？