【Python】pandasを使って要約統計量を算出してみる

  • 2022年2月26日
  • 2023年5月18日
  • python

こんにちは。

野中やすおです。

今回の記事では、pandasのdescribeメソッドを使ってシリーズやデータフレームの要約統計量を求めてみます。

describeメソッドとは

pandasのdescribeメソッドは、pandas.Series、pandas.DataFrameのメソッドで「NaN値を除いてデータセットの分布の中心的傾向、分散および形状を要約する記述、つまり要約統計量を生成するもの」になります。

describeメソッドはコード上では、describe()と書きます。

以下では、データフレームを使って例を紹介します。

describeメソッドの基本的使い方

まずは簡単なデータフレームを作成してみます。

以上のようにdescribe()を使うと要素の個数count、平均mean、標準偏差std、最小値min、25パーセンタイル、50パーセンタイル、75パーセンタイル、最大値maxが表示されます。

describeメソッドの引数

describeメソッドの引数は以下のようになっています。

percentile

引数percentileは、デフォルトで25%、50%、75%時点を表示するようになっています。

includeとexclude

引数includeは、ようやく統計量に含める型、excludeには含めない型を指定します。