如何理解R中因子 factor 的概念

1樓：

怎樣辨別乙個變數是因子還是類別型變數？

is.factor(x)

如果x是因子的話，返回值是TRUE，否者是 FALSE。

怎樣理解stringsAsFactors=FALSE這個引數，什麼情況該加什麼情況不該加？

如果不知道需不需要加的話，那就用預設的就行了。我習慣於用character而不是factor。不過從R4.0 開始，這個引數預設設定為FALSE，方便多了：

Rnow use a stringsAsFactors = FALSE default, and hence by default no longer converts strings to factors in calls todata.frame()andread.table().

(摘自 CRAN news)

什麼情況下需要用factor？

一遍情況下不需要我們自己把某個字元型別的變數轉變成factor，包括在排序、畫圖、統計模型中。只有我們需要把字元變數按照預設的字母數字排序以外的方式排列時，才有必要使用factor。比如預設排序是high、low、medium，而我們在統計模型中或者ggplot2畫圖時希望分組變數按照high、medium、low的順序排列，才需要將這個變數設定成factor，並在factor的level屬性中制定我們想要的順序。

簡單的說，不確定用不用factor的地方，基本用不著factor。

2樓：

統計學裡面定類變數，定序變數，定距變數和定比變數，這是是層層遞進的關係，關於這個有大神講的比我好多了。

這裡樓主糾結的在於前兩個，定類變數和定序變數，我的理解是factor可以將定類變數變成定序的，這樣就可以適用於定序的統計方法。

stringAsFactor 建議一直等於false，關於這點Hadley也有說明分別在開發 dplyr/tibble 和readr包時有說明，不信你仔細去閱讀這些包的vignettes。另外readr包預設讀入文字型別資料不自動轉factor，資料讀入還是建議使用這個包～

3樓：宇智波帶土

我覺的，R中的因子就是用來表示分類變數的。比如說性別就是分類變數。分類變數中又分為有序和無序，都可以通過R定義。

還有關於讀取的字串是否作為因子，這個就要看你的這列字串是不是分類變數了。

如何理解R中因子 factor 的概念

結構化（多因子）風險模型中，怎樣理解因子暴露度，在實踐中如何得到它？

barra風險模型因子計算中的半衰期？

如何理解few shot learning中的n way k shot？

其他用戶還看了：