Pythonデータ分析入門編(NumPy,Pandas,Matplotlib etc)

スポンサーリンク

Pythonプログラミングを使ったデータ分析の入門学習を始めましょう。

ここでは、このサイトでのPythonのデータ分析に関連した入門的な内容の記事への案内として、目次のような形にリンクをまとめていきます。

主にNumPy、Pandas、Matplotlibといったパッケージの使い方を学んでいきます。

スポンサーリンク

Pythonでデータ分析をする準備

Pythonでデータ分析を学習するための準備をします。

環境設定や前提知識を学びましょう。

データ分析の作業環境の準備 – Anaconda, jupyter notebook

スポンサーリンク

NumPy

Numpyは、多次元配列の操作や、線形代数の計算などをすることができるサードパーティーパッケージです。

ここではNumPyの基本的な操作を学んでいきます。

NumPyで配列を作る

配列のインデックスと値の指定選択 -スライス, copy()

配列の各種演算 – ユニバーサル関数

NumPyの配列と画像処理 – pillow(PIL)

スポンサーリンク

Pandas

Pandasは、NumPyの上に構築されたパッケージで、データ解析をするためのたくさんの機能を持ったライブラリです。

特に、数表や時系列データを操作するためのデータ構造の分析と演算を可能にします。

ここではPandasの効率的なデータ操作を学んでいきます。

PandasでSeriesオブジェクトを作る

DataFrameオブジェクトを作る

欠損値の除外と代入操作

groupbyでデータの集約

DataFrameの結合 -concate(), merge(), join()

Dataframeのいろいろな操作方法

Dataの読み込み・書き込み – CSV, Excel, HTML, SQL

スポンサーリンク

 Matplotlib 等によるデータの可視化

MatplotlibはNumPy配列の上に構築されたマルチプラットフォームのデータ可視化ライブラリです。

Matplotlibは何十種類ものグラフを描画する能力を持ち、描画したグラフを各種形式の画像に出力することができます。

ここではMatplotlibをはじめとしたデータの可視化の操作について学んでいきます。

Matplotlibによる可視化

ここではMatplotlibの基本的な描画の操作を学んでいきます。

Matplotlibの導入と基本操作

グラフ表示するための色々な使い方

seabornによる可視化

seabornはPythonのデータ可視化ライブラリであるMatplotlibをベースにしたグラフ描画ライブラリです。

Matplotlibで出力するグラフの描画よりも簡単で美しいグラフを描画することができます。

ここではseabornの基本的な使い方に触れていきます。(ただし、warningが出ている部分もあるので、将来的にコードを適正に書き換える必要があります)

seabornの導入

色々な分布図の描画 – distplot(), jointplot(), pairplot()

カテゴリの分類データを描画

グラフのマトリックス表示 – heatmap(), clustermap()

グラフのグリッド表示 – PairGrid(), pairplot(), FacetGrid(), JointGrid()

回帰モデルの表示 – Implot()

グラフのスタイルとカラーの操作 – set_style(), despine(), set_context()

Matplotlibでグラフの線種やマーカー、カラーリングを指定する時のコードを暗記するのは大変なので、公式ドキュメントのリンク先をまとめておきます。

ラインスタイル、マーカー、カラーマップetcのコード

その他の可視化の手法

データの可視化の手法には他にも色々あります。

Pandasの持つ機能でのデータの可視化(準備中)

PlotlyとCufflinksによるインタラクティブなデータの可視化(準備中)

地理的な描画(準備中)

ここまで扱ってきた内容をもとにして、今度は機械学習入門に挑戦していきたいと思います。

 

スポンサーリンク
CodeGraffitiをフォローする
タイトルとURLをコピーしました