如何判斷一組資料來自兩個樣本？

1樓：yyyy xxx

打擾。偶然搜尋到了這個一年多前的帖子，也正好有賬號就回一下。如果題主已經找到解決方法或不再關心這個問題的話請無視。

個人認為考慮聚類clustering比統計檢驗合適。即：如果「來自多個樣本」，那麼可以聚出多個「差異顯著的」類。

K-means或Gaussian Mixture Model或許是你需要的，但具體閾值如何選擇需要結合實際資料/資料背後的經驗，條件允許也可以找個對照組來估計這些引數（即：已知這些樣本出自乙個/K個總體）。

關於作圖的做法，如果你資料的特徵向量是三維以下，500個點畫圖可以說明問題，雖然不能當做指標；三維及以上的話還是建議聚類或其他方法，因無直觀作圖手法。

（edit:修正錯字）

2樓：

如果我理解沒有錯誤的話，題主可以這麼做：

H0: 抽樣來自於乙個正態分佈（mu,sigma）H1: 抽樣來自於兩個正態分佈的mixture(mu1,sigma1)和(mu2,sigma2)

對資料進行GLM regression, 然後用LRT 或者 wald test來看H0是接受還是拒絕

3樓：

思路我覺得不外乎是先取全部的資料用極大似然或者矩做乙個引數估計（sigma和a），然後用這個做出來的分布函式做乙個卡方檢驗；如果a不一致應該一下子就看出來了，如果a一致，卡方檢驗應該也能看出來。如果題主不放心，可以估計一下兩個樣本的比例，比如A樣本佔70%，那麼就從500個中隨機抽取幾組350個（抽個30，50），然後引數估計之後做取兩個引數中間的極大值或極小值（比如A樣本的a比B樣本的大，那麼這樣抽出極大值，就可以比總體的更接近A的），再取剩下的代進來做卡方檢驗；如果卡方檢驗的結果依然良好，我覺得就沒有什麼理由去拒絕他們來自同一樣本這一假設了，如果卡方檢驗結果發現有一定區分，還需要做進一步的精細的計算，畢竟接受這個事情在統計裡也是比較困難的。（其實檢驗第一類錯誤第二類錯誤什麼的早就忘光了（逃

4樓：王遠韜

資訊給的太少了，根本沒法做，統計也不是萬能的，得有一套規矩，然後在這個規矩裡面玩遊戲。舉個例子來說：我就是有乙個總體，它的分布完全匹配你500個資料的樣本分佈，那麼這500個資料當然來自於乙個總體。

倘若你提前知道了這500個資料是來自於正態分佈的，那麼畫出500個樣本資料的密度函式圖，大概看看也差不多了~

如何判斷一組資料來自兩個樣本？

scala 如何對一組資料進行大小排名？

家裡翻出來一組音箱，想配兩個環繞組5 1看電影用，但是功放壞了，買個什麼級別的二手功放合適？

如何編寫乙個函式判斷兩個函式是否相等？

其他用戶還看了：