1樓:hannnn
Python資料分析:Python日期和時間處理及操作時間序列分類:
時間戳(timestamp) 特定的時刻
固定週期(period) 某月或某年
時間間隔(interval) 由起始時間戳和結束時間戳表示datetime, time及calendar模組:
datetime 以毫秒形式儲存時間和日期datetime.timedelta 表示兩個datetime物件的時間差
執行:datetime模組中包含的資料型別datetime 轉換成 str
str(datetime_obj)
執行:datetime.strftime()str 轉換成 datetime
datetime.strptime() 需要指定時間表示的形式執行:2.dateutil.parser.parse() 可以解析大部分時間表示形式
執行:3.pd.to_datetime() 可以處理缺失值和空字串datetime常用格式定義
2樓:大話資料分析
一張表中通常會包含很多字段,造成資料冗餘,在做資料分析時,我們僅需要提取資料分析所需要的字段,這裡就需要用到資料選取的知識點。
本文構建資料表做資料索引,然後對資料內容進行調整,包含修改資料型別、去除空格、資料替換、擷取字元等,最後做資料規整。
一、構建資料表
首先匯入常用的庫,設定一些資料字段,構建一張資料表。
import pandas as pd
import numpy as np
import datetime
df = pd.DataFrame(,
columns =['使用者ID','日期','城市','年齡','性別','成交量'])
df二、資料索引
1、索引修改
#修改索引,直接賦值給Index即可
df.index=list('abcdef')
df2、資料索引
索引某行,有三種方法,一種是loc按照名字索引,另一種是iloc按照下標索引,Ix是loc和iloc的混合,既能按索引標籤提取,也能按位置進行資料提取。
#索引兩列
df.loc[:,['城市','成交量']]
#索引前兩行,兩列
df.loc[['a','b'],['城市','成交量']]
#獲取第一列、第二列資料
df.iloc[:,0:2]
#獲取第二行、第三行,第
一、二、三列的資料
df.iloc[[1, 2],[0, 1, 2]]
# 僅取出第1行的資料
df.iloc[0]
#索引全部行資料
df.iloc[:,[0, 1, 2]]
#使用ix按索引標籤和位置混合提取資料
df.ix[:'2021-03-26',:3]
3、條件篩選
#篩選性別為F的資料
df[df['性別']=='F']
df[(df['城市']=='北京') & (df['年齡']>30)]
#布林索引加普通索引選擇指定的行和列
df[df['年齡']>30][['使用者ID','城市','成交量']]
#切片索引加普通索引選擇指定的行和列
df.iloc[0:3][['使用者ID','城市','成交量']]
三、資料內容調整
1、修改資料型別
#資料型別修改
df.dtypes
#將使用者ID數值型別轉化為字串型別
df['使用者ID'] = df['使用者ID'].astype(str)
df['使用者ID'].dtype
2、去除空格
#去除欄位中的空格
df = pd.DataFrame()
df['城市']
df['城市'].str.strip()
3、資料替換
df['城市'] = df['城市'].replace('北京','北京市')
df['城市']
4、擷取部分字元
#擷取部分字元到日期日
df['日期'] = df['日期'].astype(str)
df['日期'].str[8:10]
四、資料規整
1、資料排序
#排序,以成交量降序排列
df.sort_values(['成交量'],ascending=False)
2、資料分類
#使用where進行判斷,條件滿足為第乙個值,不滿足則返回第二個值
df['達成情況']=np.where(df['成交量']>3000,'達成量高','達成量低')df
3樓:天才爆裂魔法使
軟體的作用只有乙個。那就是提高效率。既然你自己是做資料分析工作的。
那你也應該知道你工作的哪些地方需要提高效率?至於python,那就是你提高效率的手段之一。你要vba寫的溜溜的。
用excel來搞還不是方便的一X。
Python在資料分析方面取代R語言和MATLAB會是大勢所趨嗎
阿道克 我是R使用者,用了十來年了吧。我覺得R和Python的問題不是誰取代誰,而是兩者何時融合產生新工具,畢竟兩者一直在取長補短相互借鑑。R不是通用程式語言,而是統計程式語言,這是缺點也是優點。R很難像Python那樣大流行,但是專業性強也不容易被通用工具取代。反而是Python,如果有了更好用的...
做資料分析用python還是R?
ISKP 選擇什麼語言不是關鍵,主要是分析的方法和理論需要紮實的基本功。R語言在統計分析方面可能更加靈活,但是在大規模的資料處理方面捉襟見肘。而Python本身是乙個程式語言,但是有豐富的資料分析包來支援常見的函式。但是還是在實踐過程中有一些想要的函式並不在常用的statmodel sklearn ...
python能做資料分析嗎?
舒拉 結論,可以的,而且是最好用的工具之一。資料分析,這條技術路線,最開始有下面這些,最後面兩個是偏統計和機器學習的模組 一 numpy 二 pandas 三 matplotlib 四 scipy 五 statsmodels 六 scikit learn 波妮說資料分析 可以。py是實現資料分析的工...