こんにちは。
野中やすおです。
今回の記事では、pandasのdescribeメソッドを使ってシリーズやデータフレームの要約統計量を求めてみます。
describeメソッドとは
pandasのdescribeメソッドは、pandas.Series、pandas.DataFrameのメソッドで「NaN値を除いてデータセットの分布の中心的傾向、分散および形状を要約する記述、つまり要約統計量を生成するもの」になります。
describeメソッドはコード上では、describe()と書きます。
以下では、データフレームを使って例を紹介します。
describeメソッドの基本的使い方
まずは簡単なデータフレームを作成してみます。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 |
import pandas as pd df = pd.DataFrame([[1, 2, 3], [4, 5, 6], [7, 8, 9]], columns = ['One','Two','Three']) print(df) # One Two Three # 0 1 2 3 # 1 4 5 6 # 2 7 8 9 print(df.describe()) # One Two Three # count 3.0 3.0 3.0 # mean 4.0 5.0 6.0 # std 3.0 3.0 3.0 # min 1.0 2.0 3.0 # 25% 2.5 3.5 4.5 # 50% 4.0 5.0 6.0 # 75% 5.5 6.5 7.5 # max 7.0 8.0 9.0 |
以上のようにdescribe()を使うと要素の個数count、平均mean、標準偏差std、最小値min、25パーセンタイル、50パーセンタイル、75パーセンタイル、最大値maxが表示されます。
describeメソッドの引数
describeメソッドの引数は以下のようになっています。
1 |
DataFrame.describe(percentiles=None, include=None, exclude=None) |
percentile
引数percentileは、デフォルトで25%、50%、75%時点を表示するようになっています。
includeとexclude
引数includeは、ようやく統計量に含める型、excludeには含めない型を指定します。