Pythonプログラミングを使ったデータ分析の入門学習を始めましょう。
ここでは、このサイトでのPythonのデータ分析に関連した入門的な内容の記事への案内として、目次のような形にリンクをまとめていきます。
主にNumPy、Pandas、Matplotlibといったパッケージの使い方を学んでいきます。
Pythonでデータ分析をする準備
Pythonでデータ分析を学習するための準備をします。
環境設定や前提知識を学びましょう。
データ分析の作業環境の準備 – Anaconda, jupyter notebook
NumPy
Numpyは、多次元配列の操作や、線形代数の計算などをすることができるサードパーティーパッケージです。
ここではNumPyの基本的な操作を学んでいきます。
配列のインデックスと値の指定選択 -スライス, copy()
Pandas
Pandasは、NumPyの上に構築されたパッケージで、データ解析をするためのたくさんの機能を持ったライブラリです。
特に、数表や時系列データを操作するためのデータ構造の分析と演算を可能にします。
ここではPandasの効率的なデータ操作を学んでいきます。
DataFrameの結合 -concate(), merge(), join()
Dataの読み込み・書き込み – CSV, Excel, HTML, SQL
Matplotlib 等によるデータの可視化
MatplotlibはNumPy配列の上に構築されたマルチプラットフォームのデータ可視化ライブラリです。
Matplotlibは何十種類ものグラフを描画する能力を持ち、描画したグラフを各種形式の画像に出力することができます。
ここではMatplotlibをはじめとしたデータの可視化の操作について学んでいきます。
Matplotlibによる可視化
ここではMatplotlibの基本的な描画の操作を学んでいきます。
seabornによる可視化
seabornはPythonのデータ可視化ライブラリであるMatplotlibをベースにしたグラフ描画ライブラリです。
Matplotlibで出力するグラフの描画よりも簡単で美しいグラフを描画することができます。
ここではseabornの基本的な使い方に触れていきます。(ただし、warningが出ている部分もあるので、将来的にコードを適正に書き換える必要があります)
色々な分布図の描画 – distplot(), jointplot(), pairplot()
グラフのマトリックス表示 – heatmap(), clustermap()
グラフのグリッド表示 – PairGrid(), pairplot(), FacetGrid(), JointGrid()
グラフのスタイルとカラーの操作 – set_style(), despine(), set_context()
Matplotlibでグラフの線種やマーカー、カラーリングを指定する時のコードを暗記するのは大変なので、公式ドキュメントのリンク先をまとめておきます。
その他の可視化の手法
データの可視化の手法には他にも色々あります。
Pandasの持つ機能でのデータの可視化(準備中)
PlotlyとCufflinksによるインタラクティブなデータの可視化(準備中)
地理的な描画(準備中)
ここまで扱ってきた内容をもとにして、今度は機械学習入門に挑戦していきたいと思います。