【Python】scikit-learnの使い方を直線回帰分析で速習

Pythonの応用
スポンサーリンク

初心者の独学でのプログラミング学習はとてもツライ…

プログラミングをマスターしたい!

今のIT業界はプログラミングエンジニアが不足していると言われています。
高収入の職業とも言われる分野もありますし、AI、機械学習、ディープラーニング、IOTといった注目される分野が目白押しです。

でも、いざ初心者がプログラミングをマスターしようとすると…

  • 本を読んだりネットの記事で自力で勉強しているけど限界を感じる
  • プログラミングスクールに定期的に通うのは面倒だ
  • 地方に住んでると家の近くにプログラミングスクールなんてない
  • どのプログラミング言語を学べばいいのか悩む
  • 実際の就職や転職にプログラミングが活かせるのか心配だ

など、プログラミングを自分で勉強しようとすると悩みが尽きません。

プログラミングに詳しい友人に教えてもらおうと思っても、そんな友人なんて滅多にいません。いたとしても細かく教えてくれるほど時間に余裕がある人はいないでしょう。

そんな独学でプログラミングをマスターするのに限界を感じてる方に、オンラインプログラミングスクールをがおすすめです。

おすすめのオンラインスクールはこちら

scikit-learnはPythonで機械学習を行うことができるオープンソースのライブラリです。機械学習のアルゴリズムはとてもたくさんあって、scikit-learnでその多くを使えるようになっています。どんなものがあるのか全てに触れることはここでは出来ないので、scikit-learnの公式サイトを参照してください。

scikit-learn: machine learning in Python — scikit-learn 0.21.3 documentation

ここではscikit-learnの基本的な使い方を公式サイトの中の例にある直線回帰分析を使って簡単に学んでいきます。

Anacondaを使っているなら、scikit-learnはすでにインストールされているのではないかと思いますが、入っていなければターミナルからcondaコマンドやpipコマンドでインストールしましょう。

ここもjupyter notebookを使って学んでいきましょう。

スポンサーリンク

Scikit-learnで直線回帰分析

scikit-learnを使って、直線回帰をやってみましょう。データはscikit-learnの事例の中にあるものをここでは使います。

ライブラリのインポート

まずライブラリのインポートから。

これまで扱ってきたNumPy、Pandas、Matplotlibも合わせてscikit-learnもインポートします。データとモデルのライブラリだけでなく、統計量計算のライブラリも入れています。

データのロード

ここではscikit-learnで用意されているデータをload_diabetes()でロードして使っていきます。

これは糖尿病のデータだそうです。これを表示する為にDataFrame()を使って冒頭だけ表示してみます。

年齢、性別、BMIなどのデータで構成されているのがわかります。

本来ならここでは自分で集めてきたデータのCSVファイルなどを読み込むところになるわけです。

利用するデータを抽出

この中からBMIのデータだけを抜き出して使ってみることにします。

これで全体のデータからBMIの値だけ新たに抜き出してデータを作成しています。

(400以上あるデータなので途中まで表示しています)

BMIの部分が抜き出されているのがわかります。

そしてこちらがターゲットデータで、糖尿病の進行度を意味するデータが入っています。

このBMIの値と糖尿病の進行度合いのデータを使って2つの関係を分析するわけです。

学習データとテストデータに分割

これらのデータをそれぞれ学習用データとテスト用データに分割します。

データは、データの残り20個のところで区切って、学習用とテスト用に分けています。

最後2行にコメントアウトしている部分がありますが、ライブラリをインポートしたら、これらのコードはこの1行でも書けるということを示しました。本来はtest_sizeは0.2くらいが良いとされていますが、上の例の数になるように合わせました。

回帰モデルを適用する

直線回帰分析を行っていきます。

直線回帰のモデルを使ってオブジェクトにし、fit()を使って学習用データを学習させます。score()でどれくらいの精度のモデルであるかをテストデータで確認出来ます。

予測値を計算

これで予測値を出していきます。

predict()にBMIのテストデータを入れて予測値を計算します。詳細はここでは説明しませんが、統計量を表示するコードも書いています。

グラフに描画する

あとはグラフにしていくだけです。

scatter()を使ってテストデータの分布を黒色で示しています。予測値を青色の直線で示しています。特に目盛りは記入せずに、show()で表示します。

結果はこうなります。

あまり精度の良い分析ではなかったようですね。BMIと糖尿病の進行との関係はなんとなくはあるようにも見えますが、強くは関連していないようです。

スポンサーリンク

全体のコードを見る(再掲)

全体のコードを余計な部分を取り除いて、もう一度まとめておきます。

回帰分析の概念がわからない人もいるとは思いますが、そのあたりは統計などの学習が必要になります。

スポンサーリンク

最後に

scikit-learnはPythonで機械学習を行うことができるオープンソースのライブラリで、ここでは直線回帰のアルゴリズムを使って使い方の流れをサラッと見てきました。

機械学習のアルゴリズムはたくさんあるので、scikit-learnの公式サイトの中を色々覗いて見るのもいいと思います。

さらに詳しいところは別のところで扱おうと思います。

自宅学習はオンラインプログラミングスクールを活用!

自宅学習にはオンラインプログラミングスクールがおすすめ!

オンラインプログラミングスクールは独学でプログラミングを学習する時のデメリットを解消する仕組みが備わっています。

気になるところは…

学習がオンラインで完結するのはもちろんですが、独学ではできない質問サポートがあるかどうか。わからないことを現役のエンジニアが質問に答えてくれるといいですよね。

受講者個人に担当のメンターがつき、マンツーマンで学習の相談に乗ってくれることも必要で、ITエンジニアの世界についても伺えたりもすると幅が広がります。

オンライン面談だけでなく、チャット機能を使って気軽に質問を投げかけることができることも大切です。

また、オリジナルプロダクトの開発とサポートがコースの中に組み込まれていて、独学ではなかなか難しい実践的なスキルの習得にもつなげたい。

プログラミングをマスターした後の実際の仕事につながる転職サポートでがあると、ITエンジニアの世界に飛び込むのに不安が解消されます。

そんな豊富なメニューが揃っているおすすめのオンラインプログラミングスクールがこちらにあります。

おすすめのオンラインプログラミングスクールはこちら

TechAcademyはおすすめのオンラインプログラミングスクール!

オンラインのプログラミングスクールでは、テックアカデミーの充実度が目を見張ります。

オンラインで受講が完結するので、自宅学習でプログラミングをマスターしたい人にはテックアカデミーがおすすめです。

メンター制度も現役のプロが対応してくれます。大学生などが対応しているスクールに比べて本気度と専門性が違います。メンター制度の無いスクールもありますし、担当では無いメンターが対応するスクールもあったりするので、相談の質が違いますね。

チャットサポートもあるので、それが無いスクールに比べて相談の気軽さの違いがあります。

プロダクト開発のサポートで実践力が養われるだけでなく、どの講座を利用しても転職サポートが受けられるのはありがたい。

用意されているコースも、初心者向けのプログラミングコースから、Python、Java、PHP、iPhoneアプリ、AndroidといったITエンジニアのベースとなる主要な言語だけでなく、AI、データサイエンス、ブロックチェーン、webアプリケーションと行った実践的なコースまで用意しています。

他にも、webデザインやUI/UXデザイン、動画編集、webディレクションやwebマーケティングといったプログラミング以外での役立つコースまであります。

このようなたくさんの選択肢から自分にあったコースを選ぶことがでるのがテックアカデミーです。

コースの期間も短期間でマスターしたり、長期の受講でじっくり取り組むコースを選ぶこともできます。

複数講座のセットコースを利用することで大幅な割引が受けらるので、お得に受講することもできます。

無料体験もありますので、プログラミング学習でオンラインスクールを考えている人はTechAcademyをぜひ利用してみてください。

テックアカデミーの公式サイトはこちら

タイトルとURLをコピーしました