python

【python】pandas

pandasとは??

データ処理を効率化する機能を提供するライブラリです

DataFrame pandasはデータを DataFrame という形式に変換してプログラムを書いていきます。

DataFrame の基本的な操作

取得

 

index 属性

 DataFrame の行インデックスです。

今回の例では、0から9の数字(DataFrame を表示したときの一番左の列)が RangeIndex というクラスのインスタンスで表現されています。 columns 属性は列のカラム名を取得します(DataFrame を表示したときの一番上の行)

values 属性

DataFrame のデータ部分を取得します。

 

統計情報

describe() メソッドはいくつか有名な統計情報(最大値、最小値、平均など)を計算します。

選択

ある1つのカラムを取得するときは角括弧 [] を利用します。

角括弧 [] にスライスを指定すると行の取得ができます。

locプロバティ
複数のカラム名(ラベル)を指定して選択する

Pythonのリストでは [start:end] と指定したときに end が含まれませんでしたが、loc プロパティのスライスには end が含まれます。

iloc プロパティ

行と列の位置を指定して選択します。

iloc プロパティに与えるスライスは end が含まれない

Boolean Indexing ある条件を満たす行や列を取得する方法を見ていきます。 NumPyの節で mask を作ったのと同様に、DataFrameにも mask を与えることができます。 例えば、A列が0以上の行だけを取り出すときは以下のようにします。

統計操作

平均を求める

和を求める