配列の形状変更と操作
NumPy配列の形状を変更したり、複数の配列を結合したり、配列を分割することは、データ処理や分析において非常に重要です。このセクションでは、これらの操作を行う基本的な方法を学びます。
形状変更の基本(reshapeの使用)
reshape
メソッドを使用すると、配列の形状を変更できます。この操作は、元の配列の総要素数が変更後の形状の総要素数と一致する必要があります。
import numpy as np
# 1次元配列の作成
arr = np.arange(1, 10)
print(arr)
# 出力: [1 2 3 4 5 6 7 8 9]
# 1次元配列を3x3の2次元配列に変更
arr_reshaped = arr.reshape((3, 3))
print(arr_reshaped)
# 出力:
# [[1 2 3]
# [4 5 6]
# [7 8 9]]
配列の次元追加と削除
次元の追加(newaxis/expand_dims)
np.newaxis
を使用すると、既存の配列に新しい軸(次元)を追加することができます。これは、配列の形状を変更する際に特に便利です。
# 1次元配列
arr = np.arange(4)
print(arr)
# 出力: [0 1 2 3]
# 新しい軸を追加して2次元配列に変更
arr_newaxis = arr[:, np.newaxis]
print(arr_newaxis)
# 出力:
# [[0]
# [1]
# [2]
# [3]]
expand_dimsを使用することで同じことを実現できます。
arr = np.array([0, 1, 2, 3])
expanded_arr = np.expand_dims(arr, axis=0)
print(expanded_arr)
# [[0]
# [1]
# [2]
# [3]]
次元の削除(squeeze)
np.squeeze
関数を使用すると、配列から1の次元を削除(圧縮)することができます。これは、不要な次元を削除する際に便利です。
# 不要な次元の削除
arr_squeezed = np.squeeze(arr_newaxis)
print(arr_squeezed)
# 出力: [0 1 2 3]
これらの操作をマスターすることで、NumPy配列をより柔軟に扱うことができるようになります。データの前処理や分析の際に、これらの技術を活用して効率的に作業を進めましょう。
多次元配列を1次元配列へ変形(flatten/ravel)
多次元配列を1次元配列に変形する操作は、データ処理や分析の際によく必要とされます。NumPyでは、このような変形を簡単に行うためにflatten
メソッドとravel
関数を提供しています。
flattenメソッド
flatten
メソッドは、多次元配列を1次元配列に”平滑化”します。このメソッドは元の配列のコピーを作成するため、flatten
を使用した後に得られる配列を変更しても、元の配列は影響を受けません。
import numpy as np
# 2次元配列の作成
arr_2d = np.array([[1, 2, 3], [4, 5, 6]])
print("Original 2D array:")
print(arr_2d)
# 出力:
# Original 2D array:
# [[1 2 3]
# [4 5 6]]
# flattenを使用して1次元配列に変形
flattened_arr = arr_2d.flatten()
print("Flattened array:")
print(flattened_arr)
# 出力:
# Flattened array:
# [1 2 3 4 5 6]
ravel関数
ravel
関数も配列を1次元に変形しますが、可能な限り元の配列のビューを返します。これはravel
がflatten
よりも効率的に動作する可能性があることを意味しますが、返された配列を変更すると元の配列に影響を与える可能性があります(ビューの場合)。
# ravelを使用して1次元配列に変形
raveled_arr = arr_2d.ravel()
print("Raveled array:")
print(raveled_arr)
# 出力:
# Raveled array:
# [1 2 3 4 5 6]
flattenとravelの主な違いは、flatten
が常にデータのコピーを作成するのに対し、ravel
は可能な限りビューを返す点です。これにより、ravel
はメモリ効率が良く、大きなデータセットでの操作においてパフォーマンスの向上が期待できます。しかし、返された配列を変更する際には、その変更が元の配列に影響を与える可能性があるため注意が必要です詳しくは次の記事を参考にしてください。
配列の結合と分割
配列の結合(concatenate / vstack / hstack)
NumPyでは、np.concatenate
、np.vstack
(垂直スタック)、np.hstack
(水平スタック)などの関数を使用して、複数の配列を結合することができます。
# 配列の結合
arr1 = np.array([[1, 2], [3, 4]])
arr2 = np.array([[5, 6], [7, 8]])
# 垂直方向(行方向)に結合
arr_vstack = np.vstack((arr1, arr2))
print(arr_vstack)
# 出力:
# [[1 2]
# [3 4]
# [5 6]
# [7 8]]
# 水平方向(列方向)に結合
arr_hstack = np.hstack((arr1, arr2))
print(arr_hstack)
# 出力:
# [[1 2 5 6]
# [3 4 7 8]]
配列の分割(split / hsplit / vsplit)
np.split
、np.hsplit
(水平分割)、np.vsplit
(垂直分割)などの関数を使用して、配列を複数の小さな配列に分割することができます。
# 配列の垂直方向の分割
arr = np.arange(16).reshape((4, 4))
print(arr)
# 出力:
# [[ 0 1 2 3]
# [ 4 5 6 7]
# [ 8 9 10 11]
# [12 13 14 15]]
# 2つの配列に垂直方向で分割
upper, lower = np.vsplit(arr, 2)
print(upper)
# 出力:
# [[0 1 2 3]
# [4 5 6 7]]
print(lower)
# 出力:
# [[ 8 9 10 11]
# [12 13 14 15]]
NumPy配列の形状変更チートシート
NumPy配列の形状変更はデータ分析や機械学習のプロジェクトにおいて頻繁に行われる操作です。ここでは、形状変更のための主要な関数とその使用例、および配列操作の際のコツとトラブルシューティングについて解説します。
形状変更のための主要な関数とその使用例
reshape
: 配列の形状を指定した次元に変更します。
import numpy as np
arr = np.arange(6)
reshaped_arr = arr.reshape((2, 3))
flatten
/ravel
: 配列を1次元に変換します。flatten
は新しい配列を返し、ravel
は可能な場合はビューを返します。
flattened_arr = reshaped_arr.flatten()
raveled_arr = reshaped_arr.ravel()
squeeze
: 配列から次元のサイズが1の軸を削除します。
arr = np.array([[[1, 2, 3]]])
squeezed_arr = np.squeeze(arr)
expand_dims
/np.newaxis
: 指定した位置に新しい軸(次元)を追加します。
arr = np.array([1, 2, 3])
expanded_arr = np.expand_dims(arr, axis=0) # np.newaxisを使う場合: arr[np.newaxis, :]
concatenate
: 既存の配列を軸に沿って結合します。
arr1 = np.array([[1, 2], [3, 4]])
arr2 = np.array([[5, 6]])
concatenated_arr = np.concatenate([arr1, arr2], axis=0)
vstack
/hstack
: 配列を垂直(行方向)または水平(列方向)に積み重ねます。
vstacked_arr = np.vstack([arr1, arr2])
hstacked_arr = np.hstack([arr1, arr2.reshape(2, 1)])
split
/hsplit
/vsplit
: 配列を複数の小さな配列に分割します。
arr = np.arange(9).reshape(3, 3)
# 3つの等しいサイズの配列に分割
split_arr = np.split(arr, 3)
配列操作のコツとトラブルシューティング
- 形状の確認: 操作前後で
arr.shape
を使用して配列の形状を確認することは、予期しないエラーを避けるために重要です。 - ビューかコピーかを理解する:
reshape
やravel
などの操作はビューを返すことがありますが、flatten
は常にコピーを返します。ビューを変更すると元の配列も変更されるため、意図しない結果を避けるためにこの違いを理解しておくことが重要です。 - エラーメッセージを注意深く読む: 形状変更時には、元の配列のサイズと変更後のサイズが一致しないとエラーが発生します。このような場合、エラーメッセージは問題の原因を特定するのに役立ちます。
- 自動形状推定: 一方の次元を-1に設定すると、NumPyが自動的に適切なサイズを計算します。これは、特定の次元のサイズを計算せずに形状を変更したい場合に便利です。
arr = np.arange(6)
reshaped_arr = arr.reshape(-1, 2) # 2列に自動で形状を変更
これらの関数とコツを駆使することで、NumPy配列の形状変更や操作を効率的に行うことができます。エラーに遭遇した場合は、配列の形状や操作の流れを一つ一つ確認して、問題の原因を特定しましょう。
応用例:NumPyを使ったデータ分析
NumPyはデータ分析において非常に強力なツールです。このセクションでは、実際のデータセットを使って、NumPy配列を活用したデータの前処理と簡単なデータ分析の実行例を紹介します。
実際のデータセットを使った例
ここでは、架空の人口統計データを例に取り上げます。このデータセットには、年齢と年収が含まれているとします。目的は、このデータを使って基本的な統計分析を行うことです。
import numpy as np
# 年齢と年収のデータセット
data = np.array([
[25, 35000],
[30, 40000],
[35, 50000],
[40, 60000],
[45, 80000],
[50, 90000],
[55, 85000],
[60, 75000],
[65, 65000],
[70, 55000]
])
# 列のインデックス
AGE = 0
INCOME = 1
NumPy配列を使ったデータの前処理
データ分析を始める前に、データの前処理を行うことが重要です。前処理には、データのクリーニング、正規化、欠損値の処理などが含まれます。ここでは、簡単な例として、年収データを正規化する手順を示します。
# 年収データの正規化
income_data = data[:, INCOME]
normalized_income = (income_data - income_data.min()) / (income_data.max() - income_data.min())
print("Normalized Income Data:")
print(normalized_income)
簡単なデータ分析の実行例
データの前処理が完了したら、基本的な統計分析を行います。ここでは、年齢と年収の平均値と中央値を計算し、年齢と年収の関係を探るための相関係数を求めます。
# 年齢と年収の平均値
average_age = np.mean(data[:, AGE])
average_income = np.mean(data[:, INCOME])
print(f"Average Age: {average_age}")
print(f"Average Income: {average_income}")
# 年齢と年収の中央値
median_age = np.median(data[:, AGE])
median_income = np.median(data[:, INCOME])
print(f"Median Age: {median_age}")
print(f"Median Income: {median_income}")
# 年齢と年収の相関係数
correlation = np.corrcoef(data[:, AGE], data[:, INCOME])[0, 1]
print(f"Correlation between Age and Income: {correlation}")
この例では、NumPyの基本的な機能を使って、データセットの基本的な統計量を計算し、年齢と年収の間にどのような関係があるかを探りました。NumPyはこれらの基本的な分析だけでなく、より複雑なデータ分析や機械学習アルゴリズムの実装にも使用されます。
データ分析プロジェクトでは、データの理解から始まり、前処理、探索的データ分析(EDA)、モデルの構築と評価、というステップを踏みます。NumPyはこれらのステップの多くで重要な役割を果たし、Pythonでのデータ分析作業を効率的に行うための基盤を提供します。
まとめ
この記事では、NumPyの基本的な使い方から配列操作の応用法、さらには実際のデータセットを使用したデータ分析の例までをカバーしました。NumPyはPythonでの科学計算の基盤となるライブラリであり、データ分析、機械学習、科学研究など幅広い分野で活用されています。
この記事の要点のまとめ
- NumPy配列の基礎: 1次元配列、2次元配列、多次元配列の作成方法と基本的な操作。
- 配列の形状変更と操作:
reshape
、flatten
、ravel
、squeeze
、expand_dims
などの関数を使用した配列の形状変更と次元操作。 - 配列の結合と分割:
concatenate
、vstack
、hstack
、split
、hsplit
、vsplit
を使用した配列の結合と分割。 - データの前処理と分析: 実際のデータセットを使用した前処理と基本的なデータ分析の例。
コメント