【Python】PandasでDataFrameオブジェクトを作る

Pandas
スポンサーリンク

初心者の独学でのプログラミング学習はとてもツライ…

プログラミングをマスターしたい!

今のIT業界はプログラミングエンジニアが不足していると言われています。
高収入の職業とも言われる分野もありますし、AI、機械学習、ディープラーニング、IOTといった注目される分野が目白押しです。

でも、いざ初心者がプログラミングをマスターしようとすると…

  • 本を読んだりネットの記事で自力で勉強しているけど限界を感じる
  • プログラミングスクールに定期的に通うのは面倒だ
  • 地方に住んでると家の近くにプログラミングスクールなんてない
  • どのプログラミング言語を学べばいいのか悩む
  • 実際の就職や転職にプログラミングが活かせるのか心配だ

など、プログラミングを自分で勉強しようとすると悩みが尽きません。

プログラミングに詳しい友人に教えてもらおうと思っても、そんな友人なんて滅多にいません。いたとしても細かく教えてくれるほど時間に余裕がある人はいないでしょう。

そんな独学でプログラミングをマスターするのに限界を感じてる方に、オンラインプログラミングスクールをがおすすめです。

おすすめのオンラインスクールはこちら

データ解析をするためのたくさんの機能を持ったPythonライブラリのPandasについて、データ型のSeries(シリーズ)は見てきました。

【Python】PandasでSeriesオブジェクトを作る
Pythonの拡張モジュールPandasは、数表や時系列データを操作するためのデータ構造の分析と演算をすることができます。ここではPandasでSeriesを作る操作を学びます。Seriesは軸ラベルを持つのがNumPy配列との違いです。

引き続き、今度はDataFrameについて扱って行きます。

DataFrameは、一連のデータオブジェクトをまとめて、同じインデックスを共有することができますPandasの主要な機能と言っていいでしょう。

ではPandasのDataFrameを作って行きましょう。

スポンサーリンク

PandasでDataFrameを作る

PythonのライブラリーPandasのDataFrameを扱っていきましょう。

まず、Seriesの時と同様に、NumPyとPandasのライブラリをインポートします。

ここでは、適当なデータをランダムに作るために、正規分布にしたがった乱数を発生させるrandnをインポートしておきます。

データを固定する為にseed()も設定しておきます。

さっそくDataFrameオブジェクトを作ってみます。

DataFrame()にデータとインデックス、カラムの値をそれぞれ与えます。

ここではデータにrandn()を使って5行4列のランダムな値を生成して与えています。indexとcolumnsに値を与えてsplit()で割り当て、DataFrameを作ります。コメントアウトした下側のようにインデックスとカラムの値をリストで与えても同じ操作になります。

実行するとこうなります。

インデックスとカラムが割り当てられた5行4列のデータが表示されました。

このDataFrameからデータを取得するさまざまな方法を扱っていきます。

値の選択とデータの位置(カラム)

先ほど作ったDataFrameからデータを取り出していきましょう。

PandasのDataFrameは、カラムを指定することで、列(縦軸)のデータを取得することができます。

カラムの’w’を指定してデータを取得します。

実行するとこうなります。

wの列のデータがインデックスラベルと共に表示されています。

ちなみにデータ型を調べてみましょう。

type()を使ってそれぞれ見てみます。

カラムを指定して取り出したもののデータ型はSeriesであるのがわかります。

ちなみにデータはドット(.)でアクセスしても取得できます。

このとおりです。

ただし、メソッドも同じ方法で操作するため混乱することにもなるのでこの方法は使わない方がいいでしょう。

データは複数のカラムを指定しても取得できます。

カラムのリストを与えて取得します。

2つのカラムのデータが取得できています。

カラムを新たに追加

カラムは追加することができます。

新しいカラムを指定して、それにデータを代入することで追加できます。

ここでは’new’というカラムを作ります。

データには’w’と’y’を足したものを代入しています。

右端にカラムが追加されました。

カラムの削除

カラムが追加できたので、今度はカラムの削除をやってみましょう。

カラムの削除にはdrop()に削除するカラムをしてします。

‘new’のカラムを指定します。縦軸のデータなので axisを1に指定します。inplaceをTrueと指定することでデータも削除することができます。

newのデータが削除できました。

行側(row)のデータも同様に削除できます。

引き続き、ラベル’e’の行データを削除して見ましょう。

axisを0に指定していますが、デフォルトが0なので指定しなくても大丈夫です。

ここでは、先ほどと違ってinplaceにTrueを指定していないので、データ自体は削除されていません。df.shapeで確認すると5行4列のままです。

試しに、’z’、’x’を指定してデータを取り出してみます。

このように表示されます。

eの行データが残っています。完全に削除するにはinplace=Trueを指定しましょう。

行(row)の選択(loc, iloc)

今度はrow側からみたデータを扱って行きましょう。

DataFrameを再度確認しておきます。

実行するとこうなります。

このデータからラベルcの部分の行データを取り出してみます。

locを使ってrowを指定することで取り出すことができます。

rowのラベルである’c’を指定しています。

指定した行データがカラムのラベルを縦にして表示されています。

このラベル’c’のインデックスは0から数えて2になりますが、このインデックスを指定することでも行データを取り出すことができます。

この時は、ilocを使います。

ilocにインデックスを指定しています。

‘c’で指定した時と同じになっています。

rowとcolumnを組み合わせ(サブセット)でもlocを使ってデータを取り出すことができます。

locに行ラベルと列ラベルをそれぞれ与えています。複数データであれば、それぞれのラベルをリストで渡します。

ラベルに対応したデータが取得できています。

条件を指定して選択

PandasもNumPyと同じようにブラケットに条件を指定してデータを選択することができます。

DataFrameを再度確認しておきます。

次のようになります。

これに条件を指定して取り出してみましょう。

0より大きいという条件を次のように指定してみます。

DataFrameに条件を与えたものと、それをDataFrameで取り出すコードになっています。

上側はTrue/Falseで出力され、それを元に下側はデータが取り出されているのがわかります。Falseの部分のデータはNaNとなっています。

カラムを指定して条件を与えてみます。

条件を与えないものと比較して表示してみます。

指定したカラムの部分がTrue/falseで表示されています。

この条件を当てはめたDataFrameを作るとこうなります。

条件を変えたものも合わせてやっています。

指定したラベルの列データだけでなく、条件にあったラベルの部分の行データを全て取り出す形になっているのがわかります。

これにさらにcolumnのラベルを指定することでデータを絞りこむことができます。

複数のラベルも指定できます。

条件にあったデータの中から、指定したラベルで絞り込まれているのがわかります。

複数の条件を組み合わせるにはand, or, notをPythonでは使いますが、PandasのDataFrameで条件指定するとエラーになります。

Pandasでは &, |, ~ を使います。条件部分をそれぞれ丸括弧でくくる必要があります。

andとorについてPandasでやってみました。

スポンサーリンク

その他インデックス設定

その他のインデックスの機能を見てみましょう。

DataFrameを再度表示します。

実行するとこうなります。

このDataFrameにインデックスを振り直してみましょう。

インデックスを振るには reset_index()を使います。

こうなります。

インデックスが0から振りなおされているのがわかります。

ここで新しく次のようにインデックス用のデータを作ろうと思います。

次のようになります。

インデックス用のリストが出来上がりました。

これをDataFrameに’Week’のラベルを指定して代入します。

次のようになります。

DataFrameの右端に’Week’ラベルが追加され、値が組み込まれています。

このラベルのインデックスにするにはset_index()を使います。

実行すると次のようになります。

続けて再度DataFrameを表示していますが、インデックスに指定したものが元に戻っています。

これはカラムの削除のところでやったinplaceの設定と同じことです。

次のようにinplaceをTrueに指定することで中身を入れ替えることができます。

実行するとこうなります。

dfで出力しても元に戻っていないのがわかります。

スポンサーリンク

多重インデックスと階層型インデックス

これまではマルチインデックスのDataFrameを作ってみましょう。

次のように複数のインデックスのラベルを用意します。

zip()で2つのリストを1つにまとめていますが、これはタプル形式で組み合わせたリストになっているので、これをMultiIndex.from_tuples()でリスト形式のリストに戻しています。

randn()を使って6行2列のデータを作ります。上のインデックスと、カラムのラベルをa, bで指定して、DataFrameを作ります。

次のようになります。

rowのインデックスラベルが2重になっているのがわかりますね。

locにラベルを指定して行データを取り出してみます。

外側のラベルのみの指定と、内側のラベルまで指定したデータを取り出します。

この階層化されたインデックスのそれぞれを表すラベルは今のところはありません。

実行するとこうなります。

このインデックスそれぞれにラベルを作って割り当ててみます。

‘Group’、’Num’を割り当てています。

DataFrameはこうなります。

rowのインデックスラベルにそれぞれ名前がついたのがわかります。

xs()を使えばマルチインデックスの特定の階層のデータを取り出すことができます。

先ほど指定したインデックスラベルの名前をlebelで指定することで細かいデータの選択ができます。

1つ1つ対応関係を確認してみましょう。

スポンサーリンク

最後に

ここではPythonの拡張モジュールのPandasを使って、DataFrameを作る操作を中心に見てきました。

DataFrameは、Pandasの主要な機能と言っていいので、しっかりと操作を理解しましょう。

自宅学習はオンラインプログラミングスクールを活用!

自宅学習にはオンラインプログラミングスクールがおすすめ!

オンラインプログラミングスクールは独学でプログラミングを学習する時のデメリットを解消する仕組みが備わっています。

気になるところは…

学習がオンラインで完結するのはもちろんですが、独学ではできない質問サポートがあるかどうか。わからないことを現役のエンジニアが質問に答えてくれるといいですよね。

受講者個人に担当のメンターがつき、マンツーマンで学習の相談に乗ってくれることも必要で、ITエンジニアの世界についても伺えたりもすると幅が広がります。

オンライン面談だけでなく、チャット機能を使って気軽に質問を投げかけることができることも大切です。

また、オリジナルプロダクトの開発とサポートがコースの中に組み込まれていて、独学ではなかなか難しい実践的なスキルの習得にもつなげたい。

プログラミングをマスターした後の実際の仕事につながる転職サポートでがあると、ITエンジニアの世界に飛び込むのに不安が解消されます。

そんな豊富なメニューが揃っているおすすめのオンラインプログラミングスクールがこちらにあります。

おすすめのオンラインプログラミングスクールはこちら

TechAcademyはおすすめのオンラインプログラミングスクール!

オンラインのプログラミングスクールでは、テックアカデミーの充実度が目を見張ります。

オンラインで受講が完結するので、自宅学習でプログラミングをマスターしたい人にはテックアカデミーがおすすめです。

メンター制度も現役のプロが対応してくれます。大学生などが対応しているスクールに比べて本気度と専門性が違います。メンター制度の無いスクールもありますし、担当では無いメンターが対応するスクールもあったりするので、相談の質が違いますね。

チャットサポートもあるので、それが無いスクールに比べて相談の気軽さの違いがあります。

プロダクト開発のサポートで実践力が養われるだけでなく、どの講座を利用しても転職サポートが受けられるのはありがたい。

用意されているコースも、初心者向けのプログラミングコースから、Python、Java、PHP、iPhoneアプリ、AndroidといったITエンジニアのベースとなる主要な言語だけでなく、AI、データサイエンス、ブロックチェーン、webアプリケーションと行った実践的なコースまで用意しています。

他にも、webデザインやUI/UXデザイン、動画編集、webディレクションやwebマーケティングといったプログラミング以外での役立つコースまであります。

このようなたくさんの選択肢から自分にあったコースを選ぶことがでるのがテックアカデミーです。

コースの期間も短期間でマスターしたり、長期の受講でじっくり取り組むコースを選ぶこともできます。

複数講座のセットコースを利用することで大幅な割引が受けらるので、お得に受講することもできます。

無料体験もありますので、プログラミング学習でオンラインスクールを考えている人はTechAcademyをぜひ利用してみてください。

テックアカデミーの公式サイトはこちら

タイトルとURLをコピーしました