如何理解R中因子 factor 的概念

時間 2021-05-31 01:52:41

1樓:

怎樣辨別乙個變數是因子還是類別型變數?

is.factor(x)

如果x是因子的話,返回值是TRUE,否者是 FALSE。

怎樣理解stringsAsFactors=FALSE這個引數,什麼情況該加什麼情況不該加?

如果不知道需不需要加的話,那就用預設的就行了。我習慣於用character而不是factor。不過從R4.0 開始,這個引數預設設定為FALSE,方便多了:

Rnow use a stringsAsFactors = FALSE default, and hence by default no longer converts strings to factors in calls todata.frame()andread.table().

(摘自 CRAN news)

什麼情況下需要用factor?

一遍情況下不需要我們自己把某個字元型別的變數轉變成factor,包括在排序、畫圖、統計模型中。只有我們需要把字元變數按照預設的字母數字排序以外的方式排列時,才有必要使用factor。比如預設排序是high、low、medium,而我們在統計模型中或者ggplot2畫圖時希望分組變數按照high、medium、low的順序排列,才需要將這個變數設定成factor,並在factor的level屬性中制定我們想要的順序。

簡單的說,不確定用不用factor的地方,基本用不著factor。

2樓:

統計學裡面定類變數,定序變數,定距變數和定比變數,這是是層層遞進的關係,關於這個有大神講的比我好多了。

這裡樓主糾結的在於前兩個,定類變數和定序變數,我的理解是factor可以將定類變數變成定序的,這樣就可以適用於定序的統計方法。

stringAsFactor 建議一直等於false,關於這點Hadley也有說明分別在開發 dplyr/tibble 和readr包時有說明 ,不信你仔細去閱讀這些包的vignettes。另外readr包預設讀入文字型別資料不自動轉factor,資料讀入還是建議使用這個包~

3樓:宇智波帶土

我覺的,R中的因子就是用來表示分類變數的。比如說性別就是分類變數。分類變數中又分為有序和無序,都可以通過R定義。

還有關於讀取的字串是否作為因子,這個就要看你的這列字串是不是分類變數了。

結構化(多因子)風險模型中,怎樣理解因子暴露度,在實踐中如何得到它?

Battle.Man 我憑自己理解說一下,說錯了請指教。因子值就是一組特徵 經常做歸一化處理 然後用回歸演算法擬合這組特徵,每個特徵都會得到乙個權重值,這個權重值就是因子暴露度。 PKUXuelin Nah.他問的不是 怎麼理解因子暴露度 嗎,你們回答的好像是 怎麼得到因子暴露度 首先你要搞清楚你的...

barra風險模型因子計算中的半衰期?

Barra中的 半衰期 概念僅僅是用來確定 權重 用的,因為Barra採用的權重計算方法是 exponential weighting 裡面有 半衰期 這個引數。給定了的半衰期,就確定了各個樣本的權重。至於 權重 怎麼用,Barra模型中有兩個場景需要權重,第乙個是在使用時間序列回歸計算descri...

如何理解few shot learning中的n way k shot?

以分類問題為例 few shot問題的定義是對於某乙個資料集,訓練集中每乙個類別的樣本數量都很少,比如一共有10個類,每個類別只有5個樣本。那麼如何訓練乙個神經網路來對這個資料集進行分類呢?乙個直接的做法就是,就像常規的分類模型一樣,用這50個樣本進行訓練 10個類別,每個類別5個樣本 那麼這麼做會...