回歸分析是否資料越多越好?

時間 2021-05-30 04:42:02

1樓:

資料無疑越多越好,但題主這個情況明顯量夠了。

代價(cost)和資料量(m)變化情況如下:

一般來說,在資料方差(vriance)較大的情況下,即資料離散程度較高,或者說存在一定過擬合(overfitting)時,增大受訓資料量作用會很大。從題圖來看,方差適中,沒必要進一步採集資料。

題主剩下要做的就是用測試集 error 來選擇乙個合適的模型了。

2樓:陳丹奕

兩萬多個點數量不算多,而且不知道題主你的資料是抽樣的還是一定時期/專案內的全量資料,如果是前者,只要抽樣規則科學,結果就沒問題;後者的話,建議分類別進行回歸,看不同類別的資料是否回歸結果不一樣,從而找到一些其他因素可能產生的影響。

順便多說一句,光看資料量的大小是沒意義的,重點是要看資料獲取的方式是否合理。舉例:隨機抽樣結果均勻分布,1%的抽樣量也能代表全體;隨機抽樣有偏差(比如某天的資料抽多了),不是均勻分布的,50%的抽樣量也代表不了全體。

3樓:

1. 回歸分析,資料量大比資料量小要好很多,2w個資料沒有什麼問題。

2. 既然有那麼多的資料,不妨分分類,可以有更好的收穫。發電廠我不知道,能否根據不同的廠或不同的時間點進行分類呢?供參考。

3. 不知道你用是什麼軟體,如果是R的話,可以將不同的分類用不同顏色的點表示,可以很直觀的發現規律。

Shopee店鋪越多越好嗎?

做Shopee的Helen 在精力夠的情況下,是的。新手小白剛開始從乙個店鋪起步,大概需要1 3個月的時間去熟悉平台規則和後台操作。當乙個店鋪單量平穩時 日出5單 一定要盡快開新店。不光是為了擴大銷售量,更是為了提前規避風險。新手小白蝦皮開店常見問題是沒有及時處理訂單,沒有完成發貨導致訂單取消而扣分...

花花卡越多越好嗎?

hibiki 理論上來說,花花卡越多,中獎的概率也就越高但是看看現在花花卡持有總數.7200多萬人,多拿幾張概率也不過如此而已 基本上乙個號能拿到一張,我總共3個支付寶號,來回沾福最後也就這麼3張花花卡的樣子 不用問加好友沾福,昨天一天我幾十個好友沒人能從中沾到一張,概率已經低到可以忽略的程度了 k...

孩子生得越多越好嗎?

黎花 1 祖母那個時候,主要缺乏避孕手段,導致多生,不想生也沒辦法 2 母親那個時候,大多生活好了,視孩子為自己的財富,認為孩子越多越好。以後有養老保障 後來國家實行一胎制之後,還有好多人家為了拼男孩,選擇多生的,哪怕交罰款也願意,中中國人的觀念嘛,不孝有三,無後為大。由不得女人做主想不想生。3 現...