Python在資料分析中怎麼用?

時間 2022-01-06 19:32:38

1樓:hannnn

Python資料分析:Python日期和時間處理及操作時間序列分類:

時間戳(timestamp) 特定的時刻

固定週期(period) 某月或某年

時間間隔(interval) 由起始時間戳和結束時間戳表示datetime, time及calendar模組:

datetime 以毫秒形式儲存時間和日期datetime.timedelta 表示兩個datetime物件的時間差

執行:datetime模組中包含的資料型別datetime 轉換成 str

str(datetime_obj)

執行:datetime.strftime()str 轉換成 datetime

datetime.strptime() 需要指定時間表示的形式執行:2.dateutil.parser.parse() 可以解析大部分時間表示形式

執行:3.pd.to_datetime() 可以處理缺失值和空字串datetime常用格式定義

2樓:大話資料分析

一張表中通常會包含很多字段,造成資料冗餘,在做資料分析時,我們僅需要提取資料分析所需要的字段,這裡就需要用到資料選取的知識點。

本文構建資料表做資料索引,然後對資料內容進行調整,包含修改資料型別、去除空格、資料替換、擷取字元等,最後做資料規整。

一、構建資料表

首先匯入常用的庫,設定一些資料字段,構建一張資料表。

import pandas as pd

import numpy as np

import datetime

df = pd.DataFrame(,

columns =['使用者ID','日期','城市','年齡','性別','成交量'])

df二、資料索引

1、索引修改

#修改索引,直接賦值給Index即可

df.index=list('abcdef')

df2、資料索引

索引某行,有三種方法,一種是loc按照名字索引,另一種是iloc按照下標索引,Ix是loc和iloc的混合,既能按索引標籤提取,也能按位置進行資料提取。

#索引兩列

df.loc[:,['城市','成交量']]

#索引前兩行,兩列

df.loc[['a','b'],['城市','成交量']]

#獲取第一列、第二列資料

df.iloc[:,0:2]

#獲取第二行、第三行,第

一、二、三列的資料

df.iloc[[1, 2],[0, 1, 2]]

# 僅取出第1行的資料

df.iloc[0]

#索引全部行資料

df.iloc[:,[0, 1, 2]]

#使用ix按索引標籤和位置混合提取資料

df.ix[:'2021-03-26',:3]

3、條件篩選

#篩選性別為F的資料

df[df['性別']=='F']

df[(df['城市']=='北京') & (df['年齡']>30)]

#布林索引加普通索引選擇指定的行和列

df[df['年齡']>30][['使用者ID','城市','成交量']]

#切片索引加普通索引選擇指定的行和列

df.iloc[0:3][['使用者ID','城市','成交量']]

三、資料內容調整

1、修改資料型別

#資料型別修改

df.dtypes

#將使用者ID數值型別轉化為字串型別

df['使用者ID'] = df['使用者ID'].astype(str)

df['使用者ID'].dtype

2、去除空格

#去除欄位中的空格

df = pd.DataFrame()

df['城市']

df['城市'].str.strip()

3、資料替換

df['城市'] = df['城市'].replace('北京','北京市')

df['城市']

4、擷取部分字元

#擷取部分字元到日期日

df['日期'] = df['日期'].astype(str)

df['日期'].str[8:10]

四、資料規整

1、資料排序

#排序,以成交量降序排列

df.sort_values(['成交量'],ascending=False)

2、資料分類

#使用where進行判斷,條件滿足為第乙個值,不滿足則返回第二個值

df['達成情況']=np.where(df['成交量']>3000,'達成量高','達成量低')df

3樓:天才爆裂魔法使

軟體的作用只有乙個。那就是提高效率。既然你自己是做資料分析工作的。

那你也應該知道你工作的哪些地方需要提高效率?至於python,那就是你提高效率的手段之一。你要vba寫的溜溜的。

用excel來搞還不是方便的一X。

Python在資料分析方面取代R語言和MATLAB會是大勢所趨嗎

阿道克 我是R使用者,用了十來年了吧。我覺得R和Python的問題不是誰取代誰,而是兩者何時融合產生新工具,畢竟兩者一直在取長補短相互借鑑。R不是通用程式語言,而是統計程式語言,這是缺點也是優點。R很難像Python那樣大流行,但是專業性強也不容易被通用工具取代。反而是Python,如果有了更好用的...

做資料分析用python還是R?

ISKP 選擇什麼語言不是關鍵,主要是分析的方法和理論需要紮實的基本功。R語言在統計分析方面可能更加靈活,但是在大規模的資料處理方面捉襟見肘。而Python本身是乙個程式語言,但是有豐富的資料分析包來支援常見的函式。但是還是在實踐過程中有一些想要的函式並不在常用的statmodel sklearn ...

python能做資料分析嗎?

舒拉 結論,可以的,而且是最好用的工具之一。資料分析,這條技術路線,最開始有下面這些,最後面兩個是偏統計和機器學習的模組 一 numpy 二 pandas 三 matplotlib 四 scipy 五 statsmodels 六 scikit learn 波妮說資料分析 可以。py是實現資料分析的工...