現在看,在統計學或(理論 應用)計量經濟學領域,python 能完美地代替 R 和 stata 嗎?

時間 2021-05-08 02:11:01

1樓:Alex-thu

大家都撇開stata不談,看不起stata?(大霧

python還不能完美替代stata/sas。只說一點,stata/sas是要花錢的,換句話講,你是買了服務的(計算/維護/售後/甚至培訓)。官方提供的功能,官方是要負責的。

出了問題你可以究責。

免費社群維護的東西不能。

2樓:OwlMetrics

硬要做的話,理論上可以,但沒有必要。基本上和使用語言一樣,就是周圍人用什麼就跟著用,目的在於方便交流而已。大部分時間是哪個方便就用哪個,大家喜歡用哪個就跟著用。

3樓:AntonioJyu

太長不看版:都是工具,替代不如互補。

對於計量經濟學而言,時間序列不是 Stata 的強項,但截面和面板資料卻是 Stata 的天下。最核心的原因不在於 Stata 語言設計如何,而是 Stata 提供了非常豐富的工具。而這些工具在 R 中需要用 CRAN-R 中去找。

即使是常用方法,也無法避免用一次 library()。 R 語言再方便能方便地過 xtreg [varlist], vce(robust) ?至於 Python 在模型的處理上還不如 R。

如果把實證分析過程中需要軟體的部分分為資料清洗、資料探索、模型建立和結果輸出四個部分,那麼前兩個絕對是 Python/R 的優勢,而後兩個是 Stata 的優勢。清洗完了資料,ggplot2 畫好了圖之後,將資料集輸出成 .dta 檔案,隨後:

xtset panelvar timevar

xtreg Y X controls i.year i.industry, vce(cluster clustervar)

est store m1

reg2docx m1 using output.docx, replace

4樓:Ronnie

我自己是做計量的,感覺很難替代,Python裡面統計計量的包遠不如R的多跟全。如果做實證,肯定不想浪費時間自己程式設計了,做理論的,用一下現有的基礎包也能減少工作量。所以我是覺得近幾年代替不了。

5樓:朱恩偉

這個暑假嘗試用Python做mle,發現使用scipy的optimize做最優化的時候,很多情況下都無法收斂,嘗試自己實現bfgs等演算法,結果稍有改進但還是不穩健。

另外,也看了statsmodels的mle實現,基本上也用了scipy(當然額外實現了標準的newton演算法)。使用它的mle做,結果收斂性也很差。

而相應的資料用R和stata就沒問題……

不知道是否有人遇到過這個問題?

說白了我就是不清楚Python這邊有沒有靠譜的實現最優化的包,或者誰能告知演算法中一般的tricks好讓結果收斂?

開了個問題

Python怎麼做最優化(Scipy的optimize經測試不靠譜)?(目的是實現MLE) - 計量經濟學

6樓:

我是生態學專業的,沒接觸過Python,最近在做資料分析,有些分析得同時用幾個商業軟體才能實現(當然,都是盜版),有的軟體最新版在網上沒有破解資源。近幾年專業文獻中的資料分析工作越來越多的用R來完成,其它軟體的功能幾乎都有相關的R包可以實現,於是正在向R過渡,感覺R的功能確實很吸引人。不過,最重要的應該還是各個學科的思想,軟體只是工具。

7樓:鐵褥

cs確實不關心p-value,把bias variance trade-off做好了就夠了。但是統計學上卻很重要。所以我的體會是cs和統計的課都上一遍,python和r都學。

python對於處理大量複雜的資料更方便,r對於初學者更簡單。一些cutting edge的ML改進演算法經常會有python版本開源的在網上免費用吧,反觀r的一些包需要收費,當然相應的也有人做出了免費版本,但是可以看出來r社群的開源氛圍似乎略遜一籌。 btw, r裡面的neural network居然只能用單層hidden layer這個bug太大了。

8樓:babyquant

一般來說,計算機專業的畢業生會遠比統計系的畢業生多,但並不代表python比r的使用者多。其實除了計算機、數學、工程等少量專業,絕大多數專業的學生程式設計能力都不強,一般都用stata/spss/sas等更簡單實用的語言,要想讓他們從這些語言直接到python,其實是有點跳躍,或許過渡到r是更現實的選擇,因此很容易找到很多社會科學、經濟、政治、生物的人用R寫了各種各樣的package,而python還是那幾個pandas,numpy等基礎包。

我傾向於認為社會的發展方向是分工越來越細,而不是要求人的技術水平越來越全面。懂一些程式設計對日常工作有沒有幫助?肯定有!

但為了這點幫助需不需要學習python?99%是不需要,或許R,甚至excel vba就足夠了。社會不需要把所有人變成程式設計師。

至於在純資料分析領域的R vs python問題,python在大規模資料處理上會有優勢,直接點說就是「資料量大於記憶體」的時候會有優勢。現在的記憶體都是8G、16G的水平,說實話,除了網際網路有更大的資料量,很多領域都沒有。運算速度大家一樣的,Rcpp vs cython,半斤八兩;你能並行我也能並行,這些都是一樣的。

統計系的人在統計素養的訓練上會強一些,但這屬於soft skill,計算機專業的人一般認為自己coding這些hard skill強,也順便推理到自己soft skill也強,這是最大的誤區。計算機的人做資料分析,往往偏重於降低誤差,比如cross validation之類的,會用比較暴力的方法,對t-stat, p-value, r^2其實概念其實是不懂的,Andrew Ng也沒教...或許乙個純計算機背景的team,苦做1年,死勁把誤差降低,但乙個做統計的人路過一看,你這裡犯了個小錯誤哦,這個東西不是平穩的喔,這個樣本不能這麼切,等等。。。

或許一年的工作就是garbage in garbage out了。。。

9樓:張可韓

如果僅僅只想做資料處理,R不錯。

如果想將來資料處理之餘再自己爬爬網頁挖挖資料順便做個部落格,還是一開始學Python比較方便。

10樓:Yang Bai

再更新:

rstudio.github.io/reticulate/ 甜過初戀爽到飛起

更新:r大神Hadley Wickham和python大神Wes McKinney已經牽頭開始著手做基於apache arrow的兩個語言的融合project了:http://

原答:著重說一下統計/大資料/資料科學領域啊。stata沒有什麼可比性。

別說stata。。sas都逐漸沒有了可比性。python和r各有各的好。

簡單講,這倆工具是cs和統計兩個流派氣息很重的工具。相較之下python更能體現cs的思維,而r對於統計的人來說基本是承載著從理論到實現的乙個應用。當然這也跟這兩個語言的歷史有深遠關係。

python本身就是和c聯絡緊密,而r是基於s語言。雖然現在他們都有各自可以call其他底層語言的能力,但是這些歷史原因也造就了他們的特質。python更像是乙個全能型工具,拿來寫ui什麼的也是完全沒問題(這不是說r 不可以做ui只是難用)。

另外在大資料背景下,python的相容性明顯要強很多。python那些nlp的東西也是很大的優勢。而r的明顯優勢也是跟他的統計思維有關係。

就像有答案說的,這統計的人寫給自己使用的,因此關於分析的那一套東西,r的各種包太多了太豐富了,一旦統計上有一丁點的突破,就會有developer寫出乙個包把理論轉化為易操作的函式也就是做了理論的演算法實現。當然其他領域有一點能用的,r也會有人給寫個包。。。這一點如果不長期關注統計,不深入的使用python和r可能無法體會。

python其實也有這個特質但是跟r還不能比。這也跟python的傳統使用者多為cs背景而不是統計分析背景有關係。python跟底層語言的互動帶來的方便也是一大特點,所以你看很多做量化交易的不會選r而自然選python(當然底層語言的大牛在這個領域有著不可動搖的話語權)。

直接對比,個人覺得r比較適合用來做策略,模型開發。python比較適合拿來整體實現你的模型。總的來說這兩種語言是不斷的在相互學習。

未來的話,這兩種語言很有可能會長期存在,不斷吃掉其他分析語言比如sas, matlab的市場份額。曾經讓很多分析語言商業化進而得以大規模推廣的策略,已經逐漸的不適應這個新的大資料時代了。開源成為了很大的乙個優勢,知識共享成果共享很重要。

閉門造車的速度畢竟太慢。再乙個是老的語言,特別是像sas這種,誇張一點講,還存在的乙個很大的原因就是有一大幫傳統使用者,企業使用者。然而這些傳統使用者在今天已經很難創造大的價值了。

特別是以corporate america,500 強很多公司為代表的那些企業。不過說兩句題外話,1資料科學除了分析之外也會有很多底層開發的需求,所以能懂一兩種底層語言是很大的優勢。2另外未來也很看好scala。

11樓:januslian

查了一下,statsmodels的開發者曾經說過一段話:

「from twitter:

『I can see that. much of python stats strikes me as poor imitation of R. like matplotlib:

matlab, OO:MS Office』

referring to statsmodels

I'm not sure whether the implied criticism is on "poor" or "imitation"

I would like to "officially" correct this :)

statsmodels is not only a poor imitation of R, it is also a poor imitation of Stata. It is in some parts a poor imitation of SAS, and maybe even in some parts a poor imitation of Matlab or GAUSS or ...., and maybe in some parts it's even a good imitation.

But I think it is a good imitation of statsmodels,

although with still some very important gaps in coverage of statistics and econometrics.」

應用統計學與統計學有什麼差別,應用統計學是屬於經濟方向的還是數理方向的?

統計學考研 應用統計是屬於經濟學這個一級學科下面的6個專碩之一,是授予經濟學學位。統計學有兩個學科門類招生 理學和經濟學。最大的區別就是考研科目 招生人數 考研難度的區別。應用統計考試科目 大多數以政治 英 二 數三 自命題的專業課為主 經濟類的統計學考試科目 有些學校專業課考經濟學,比如西南財經大...

應用統計學專業?

萬老闆 現在統計專業應該算是比較火了,找工作看的還是本事,現在只要學理科專業的計算機程式設計能力的要求都很高,R Python軟體什麼的必須精通!這有點像計算機專業!還有行業背景知識也得懂一些!統計學優勢最大的還是把各種模型和統計學的理論方法學到位。學歷的話可以通過考研提公升,統計學的碩士就業率不會...

比較藥代動力學與生物統計學 應用統計學?

佔坑,回頭來答。Solution skeleton Biostatistics firstly.Statistics is the basics of data science.You can explain your model in a reasonable way.But there are ...