Pandasの使い方！列追加でデータ分析もっと楽に

1. pandas列追加とは
2. pandas列追加の方法
3. pandas列追加の応用方法
4. pandas列追加における注意点
5. pandas列追加が思ったように動かない時のトラブルシューティング

1. pandas列追加とは

pandas列追加とは、pandasデータフレームに新しい列を追加することを指します。新しい列を追加することで、既存のデータフレームの列と組み合わせた計算や集計を行うことができ、データの解析や処理をより効率的に行うことができます。

2. pandas列追加の方法

pandas列追加の方法には以下の4つがあります。

2-1. 新しい列を追加する

新しい列を追加するには、pandasデータフレームの列名を指定して、新しい列を作成することができます。

import pandas as pd

# データフレームの作成
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})

# 新しい列を作成して、データフレームに追加する
df['C'] = [7, 8, 9]

print(df)

実行結果:

2-2. 既存の列を組み合わせて新しい列を追加する

2つ以上の既存の列を組み合わせて、新しい列を作成するには、以下のように式を作成し、新しい列を作成することができます。

import pandas as pd

# データフレームの作成
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})

# 既存の列を組み合わせて、新しい列を作成する
df['C'] = df['A'] + df['B']

print(df)

実行結果:

2-3. 欠損値を含む新しい列を追加する

欠損値を含む新しい列を追加する方法には、以下のようにpandasのSeriesを作成し、それをデータフレームに追加する方法があります。

import pandas as pd
import numpy as np

# データフレームの作成
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})

# 欠損値を含む新しい列を作成する
new_col = pd.Series([7, np.nan, 9])

# 新しい列に名前を付ける
new_col.name = 'C'

# 新しい列をデータフレームに追加する
df = pd.concat([df, new_col], axis=1)

print(df)

実行結果:

   A  B    C
0  1  4  7.0
1  2  5  NaN
2  3  6  9.0

2-4. インデックス列を追加する

インデックス列を追加するには、pandasのreset_index()関数を使って、データフレームのインデックス列をリセットし、新しい列としてデータフレームに追加する方法があります。

import pandas as pd

# データフレームの作成
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})

# インデックス列を追加する
df['index'] = df.reset_index(drop=True).index

print(df)

実行結果:

   A  B  index
0  1  4      0
1  2  5      1
2  3  6      2

3. pandas列追加の応用方法

pandas列追加の応用方法として、以下のようなものがあります。

3-1. データ型の変換

データフレームに含まれる数値データの型を変換することで、データの解析や処理を効率的に行うことができます。例えば、下記のような方法で、数値データが含まれる列の型を変換することができます。

import pandas as pd

# データフレームの作成
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4.0, 5.0, 6.0], 'C': ['7', '8', '9']})

# 型を変換する
df['A'] = df['A'].astype(float)
df['B'] = df['B'].astype(int)
df['C'] = df['C'].astype(int)

print(df)

実行結果:

     A  B  C
0  1.0  4  7
1  2.0  5  8
2  3.0  6  9

3-2. 計算結果の追加

既存の列を組み合わせて新しい列を作成し、データフレームに追加することで、より複雑な計算を行うことができます。例えば、下記のような方法で、2つの列を組み合わせて、新しい列を作成することができます。

import pandas as pd

# データフレームの作成
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})

# 既存の列を組み合わせて、新しい列を作成する
df['C'] = df['A'] * df['B'] + 10

print(df)

実行結果:

   A  B   C
0  1  4  14
1  2  5  20
2  3  6  28

3-3. 欠損値の補完

欠損値を含むデータフレームに対して、欠損値を補完することで、データの完全性を維持することができます。例えば、下記のような方法で、欠損値を補完することができます。

import pandas as pd
import numpy as np

# データフレームの作成
df = pd.DataFrame({'A': [1, 2, np.nan], 'B': [4, np.nan, 6]})

# 欠損値を平均値で補完する
df = df.fillna(df.mean())

print(df)

実行結果:

     A    B
0  1.0  4.0
1  2.0  5.0
2  1.5  6.0

3-4. 新しい情報の追加

データフレームには存在しない新しい情報を追加することができます。例えば、日付データの「月」や「年」を新しい列として追加することで、より詳細な分析ができるようになります。

以下のようなデータフレームがあるとします。

import pandas as pd

df = pd.DataFrame({
    'date': ['2021-01-01', '2021-01-02', '2021-01-03', '2021-01-04', '2021-01-05'],
    'sales': [100, 200, 150, 300, 250]
})

このデータフレームに「年」列を追加するには、以下の操作を行います。

df['year'] = pd.DatetimeIndex(df['date']).year

これにより、以下のようなデータフレームが得られます。

         date  sales  year
0  2021-01-01    100  2021
1  2021-01-02    200  2021
2  2021-01-03    150  2021
3  2021-01-04    300  2021
4  2021-01-05    250  2021

同様に、「月」列を追加するには、以下の操作を行います。

df['month'] = pd.DatetimeIndex(df['date']).month

これにより、以下のようなデータフレームが得られます。

         date  sales  year  month
0  2021-01-01    100  2021      1
1  2021-01-02    200  2021      1
2  2021-01-03    150  2021      1
3  2021-01-04    300  2021      1
4  2021-01-05    250  2021      1

4. pandas列追加における注意点

pandasは、データの整理・加工を行うためのライブラリであり、列の追加も比較的簡単に行うことができます。ただし、列を追加する際に注意しなければならないことがいくつかあります。

4.1. データフレームを変更する

pandasのデータフレームは、元のデータを変更することができます。したがって、新しい列を追加すると、元のデータフレームが変更されることになります。そのため、元のデータフレームを保持する必要がある場合は、コピーを作成することをお勧めします。

以下は、元のデータフレームを変更しない方法の例です。

df_new = df.assign(new_column=values)

4.2. 行数が異なる場合は注意が必要

新しい列を追加する場合、行数が同じであることが想定されています。つまり、新しい列の長さは既存の列と同じでなければなりません。行数が異なる場合は、エラーが発生するか、データが失われる可能性があります。

以下は、異なる行数のデータを追加する場合の例です。

# エラーが発生
df['new_column'] = [1, 2, 3]

# データが失われる
df['new_column'] = [1, 2]

4.3. inplaceパラメータに注意する

pandasの列追加メソッドには、inplaceパラメータがあります。inplace=Trueに設定すると、元のデータフレームが変更されます。設定しない場合、新しいデータフレームが返されます。

以下は、inplaceパラメータの例です。

# 元のデータフレームを変更する場合
df['new_column'] = values
df.drop(columns='old_column', inplace=True)

# 新しいデータフレームを作成する場合
df_new = df.assign(new_column=values)

以上が、pandas列追加における注意点です。これらの注意点を守って、データの整理・加工を行ってください。

5. pandas列追加が思ったように動かない時のトラブルシューティング

pandasにおいて、データフレームに新しい列を追加する方法はdf['new_column'] = valueである。しかし、このコードが思ったように動かない場合がある。以下にその対処法を示す。

5.1. 変数のデータ型を確認する

新しい列に割り当てる値のデータ型と、既存の列と一致しているか確認する。データ型が一致していない場合、エラーが発生する。また、文字列値を数値カラムに割り当てると、NaN（Not a Number）が生成される可能性がある。

import pandas as pd

df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': ['a', 'b', 'c']
})

# 整数型の新しい列を追加する時
df['C'] = 4
# エラー: TypeError: int() argument must be a string, a bytes-like object or a number, not 'list'

5.2. 正しい列名を使用する

df['new_column']で新しい列を追加するため、new_columnが既存の列名と競合するか確認する必要がある。競合する場合、エラーが発生する。

import pandas as pd

df = pd.DataFrame({
    'A': [1, 2, 3],
    'new_column': ['a', 'b', 'c']
})

# 新しい列を追加する時
df['new_column'] = [4, 5, 6]
# エラー: TypeError: 'DataFrame' objects are mutable, thus they cannot be hashed

5.3. Copyをしない

pandasのDataFramesは、コピーを返す場合がある。DataFrameを修正する代わりにDataFrameのコピーを操作することがあるので、本来のDataFrameが変更されない場合がある。これを回避するため、インデックスを割り当てるか、copy()を使用することで、適切なDataFrameが修正される。

import pandas as pd

df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': ['a', 'b', 'c'],
    'C': [4, 5, 6],
})

# x に 'A' カラムだけを保持している。
x = df['A'] 
# 新しい列を追加する時
df['D'] = [7, 8, 9]

# df から 'A', 'B' カラムだけを保持する。
y = df[['A', 'B']]
# 新しい列を追加する時
y['DS'] = [10, 20, 30]

# x の型を出力
print(type(x))  # <class 'pandas.core.series.Series'>
# y の型を出力
print(type(y))  # <class 'pandas.core.frame.DataFrame'>

# DataFrame が変更されていないことを確認
print(df)
   A  B  C  D
0  1  a  4  7
1  2  b  5  8
2  3  c  6  9

print(y)
   A  B  DS
0  1  a  10
1  2  b  20
2  3  c  30