如何計算乙個大資料集中的子集的重複率? 假如有乙個1000萬隨機數的資料集合, 其中數字重複率是m 那麼隨機抽出100萬資料,則這個子集中資料的重複率n 應該是多少。 另外,怎樣定義重複率才是最科

時間 2021-06-03 02:37:52

1樓:joegh

這類貌似抽樣的重複率n%與總體的重複率m%沒有必然相關性的。

首先,如果資料集符合伯努利分布(0-1分布),並且值1的概率p不是特別小的話,根據大數定律抽樣中1的概率應該近似於總體。

但是記錄的重複跟伯努利分布是不一樣的,記錄重複是記錄與記錄間的關係,不僅僅是0和1這兩個值,抽樣的時候0-1分布要不抽到0要不抽到1,只有兩種可能;而重覆記錄的抽樣,即使抽到了總體分布中存在重複值的記錄,但如果只是抽到了其中的1條,那麼這條記錄在樣本子集中就變成了非重覆記錄。所以抽樣子集中重複率n%往往要遠小於總體集合m%。

如果非要去解讀n%與m%的關係,那應該跟總體重複率m%和抽樣資料的佔比相關。比如1萬條記錄中有2000條記錄重覆記錄(重複是相互的,即非唯一值的個數為2000,或者統計每個數字的COUNT計數大於1的數字有2000個),從1萬條記錄抽樣1千條,抽樣佔比10%,那麼抽中有重覆記錄的數字的概率為20%,同時抽中該數字重複值的概率為20%*10%(重複值可能不一定存在乙個,當存在多個重複值時,這個概率會增高),所以抽樣抽到重複值的概率為20%*20%*10%,並且這個概率只是重複值的概率,需要加上原數字(被抽到重複值之後該數字也被為重複的數字了)的概率,這樣可以大致得到n%。

不知道有沒有大牛知道標準的演算法,或者數學、統計學上有沒有現成的理論。

如何向乙個不懂大資料的人解釋大資料

IT人劉俊明 這是乙個非常有意思的問題,作為一名教育工作者,我來說說我的看法。首先,從技術體系結構上來說,當前大資料技術已經進入到了成熟期,隨著大資料技術不斷開始落地應用,目前大資料在諸多領域已經有了比較廣泛的應用,但是要想解釋清楚大資料卻並不容易。對於普通人來說,大資料似乎離自己很近,但是似乎又離...

現在是乙個大資料的時代,在這個時代的我們該何去何從?

玄悟言 不存在大資料時代,歷史就和人性一樣從來都沒有變過,那就是 這個世界的本質是能量,能量不會憑空產生和消失,只會往損耗最低的地方聚集。總之,無論什麼時代,保持自身核心競爭力 覺知力和洞察力 即可。 小觀 工作 生活 無論哪方面,大資料 都給我們帶來了便利,也帶來了更多挑戰。在這種情況下,我們要與...

雲計算 大資料 人工智慧,誰將開啟下乙個時代?

冰洋 共同開啟,三者你中有我,我中有你。曾經之前寫過乙個搭架子搬東西的故事 1,先有雲,相當於先有了架子.2,再有大資料,相當於在架子上放了東西.3,演算法 就是找到往架子上放不同東西的規律,好以後可以按著這個規律來放。4,深度學習,曾經是大資料裡的乙個分支,相當於每次在架子上放東西,知道了什麼時間...