Python

【Python×データ分析】完全攻略!初心者が学ぶべきロードマップと5つの実践ステップ

▼動画版はこちらをご覧ください。

⚠️「データ分析入門完全攻略」の電子書籍受け取りたい方は、以下のLINEに飛んでキーワード

データ分析

の5文字を送信してください!

▶︎プレゼントの受け取りはこちら
※「アプリで開く」を押してください

0.はじめに

「Pythonを使用したデータ分析で何ができるんだろう?」

「学習の手順やロードマップが知りたい!」

近年、需要が高まるデータ分析スキルですが、ネット上には情報が溢れすぎていて、「結局何から始めればいいの?」と迷ってしまう方が非常に多いです。

この記事では、Python×データ分析初心者に必要な情報をこれ一本で全て学べるように凝縮しました。

この記事で学べること

  • ・データ分析でできること(全5カテゴリ)
  • ・必要なライブラリと学習ロードマップ
  • ・ビジネス現場で使われる分析フレームワーク「PPDAC」
  • ・【実践】コピペで動くデータ分析チュートリアル

「スマホで全体像を掴みたい」という方も、「実際にコードを書いてみたい」という方も、ぜひ最後までご覧ください。

1. データ分析でできること(全5種)

「データ分析」と一言で言っても、具体的に何ができるのかイメージしづらいですよね。

実は、ビジネスにおけるデータ分析は、大きく以下の5つに集約されます。

① 現状把握

「何にどれだけお金がかかっているか?」などを数字で明らかにします。

個人の家計簿で言えば「食費が23%、光熱費が6%」と把握すること。企業であれば「人件費の合計」や「商品ごとの売上」を可視化します。

② グルーピング(クラスタリング)

似た者同士でグループを作る技術です。

例えば保険の営業で、「子供が2人以上いる家庭」というグループを見つけられれば、効率的に子供向けの保険を提案できます。

③ 効果測定

「キャンペーンを実施して効果があったのか?」「Web広告は売上に貢献したか?」など、施策の良し悪しを判断します。

④ 原因特定

「なぜ売上が下がったのか?」という問いに対し、勘や経験ではなく、数字に基づいて原因を特定します。

(例:かき氷の売上が上がったのは、気温のせいなのか? それともTV番組の影響なのか?を切り分ける)

⑤ 予測

過去のデータ傾向から、未来を予測します。

(例:円安の傾向から来年の為替を予測する、過去の故障データから機械のメンテナンス時期を予測するなど)

2. データ分析の学習ロードマップ

データ分析を始めるために必要なスキルセットは、以下の5つです。

  1. Python基礎
  2. 統計学
  3. Pandas(データ加工)
  4. NumPy(数値計算)
  5. Matplotlib / Seaborn(可視化)

これらを「料理」に例えると、役割が非常にわかりやすくなります。

ライブラリ/知識料理での例え役割
統計学調理の基本技術「平均」などの基礎知識。まずは簡単な目玉焼き(基本)からでOK。
Pandas鍋・フライパン材料(データ)を煮る・焼くなどの加工・集計を行う道具。
NumPy包丁・計量カップ大量のデータを高速に刻む(計算する)ための道具。
Matplotlib盛り付け用の皿料理(分析結果)を美しく見せるためのグラフ描画ツール。

いきなり統計学を極める必要はありません。まずはツール(ライブラリ)の使い方を覚え、簡単な分析から始めてみましょう。

3. データ分析の基本手順「PPDAC」

ツールが揃っても、レシピ(手順)がなければ料理は作れません。

データ分析には「PPDAC」と呼ばれる5つのステップがあります。

  1. Problem(問題): 解決したい課題を明確にする
  2. Plan(計画): どうやって分析するか計画する
  3. Data(データ): 必要なデータを収集する
  4. Analysis(分析): 実際にデータを分析する
  5. Conclusion(結論): 分析結果から結論を出す

具体例:アパレル会社の場合

  • Problem: 「商品ごとの売上が把握できていない。不採算商品を特定して販売中止にしたい」
  • Plan: 売上データをシステムから出力し、商品別の平均売上と比較するグラフを作る。
  • Data: 販売データのCSVを用意する。
  • Analysis: Pythonを使って集計・グラフ化する。
  • Conclusion: 「Tシャツとジャケットの売上が平均より大幅に低いので、販売中止候補とする」

4.【実践】データ分析チュートリアル

それでは、実際にPythonを使ってPPDACの「Analysis(分析)」を行ってみましょう。 今回はGoogle Colabなどの環境を想定しています。

シナリオ: アパレル商品の売上データを分析し、売上が低い商品を特定する。

・Pandas
・Numpy
・Matplot/Seaborn

こちらの3つを使用して、以下のようなグラフを作成します。

Step 1: データの読み込みと加工(Pandas)

まずは必要なライブラリpandasを読み込みます。

!pip install pandas

import pandas as pd
Python

CSVデータをGoogle Colabにアップロードします。

CSVデータをロードして、dfで中身を確認しましょう。

# CSVの読み込み(ファイル名は適宜変更してください)
df = pd.read_csv('clothing_sales.csv')

# 中身の確認
df
Python

次に、分析に不要な「備考」列と、「返品されたデータ」を削除します。 いわゆる「データの加工」と呼ばれるものです。

列の削除にはdrop関数を使用します。削除したい列の列名をcolumns=のあとに以下のように指定します。

# 備考列の削除
df = df.drop(columns=['備考'])

# クリーニング後のデータを確認
df
Python

dfのカッコ内に条件を書くことで条件にあった情報を抜き出すことができます。

今回は返品データが不要なので、「返品が1ではないとき」を条件に情報を抽出します。

# 返品行(返品=1)の削除(返品が1ではないデータを抽出)
df = df[df['返品'] != 1]

# クリーニング後のデータを確認
df
Python

ここまでで以下のように、「備考」列と、「返品されたデータ」が削除されているかと思います。

Step 2: データの集計

「割引率」を考慮した「最終売上」を計算し、商品ごとに合計を出します。

売上×割引率で割引後金額がでるので、売上との列と割引率の列を掛け算を行います。

最終売上が正しく表示されていれば問題ありません。

# 割引後の金額を計算(売上 × 割引率)
df['最終売上'] = df['売上'] * (1 - df['割引率'] / 100)

# データを確認
df
Python

最後に割引後の金額を元に、商品毎の売上合計を集計しましょう。

商品ごとのデータ集計には、groupby関数を使用して、1商品毎ではなく商品毎の情報に集約します。

集約ができたら、最終売上列を指定して、sum関数で合計を計算します。

# 商品ごとにグループ化して合計を算出
sales_by_product = df.groupby('商品')['最終売上'].sum()

# データを確認
sales_by_product
Python

列のidであるindexが数字ではなく商品名になっているので、元の形式に戻しておきます。

# idを戻す
sales_by_product = sales_by_product.reset_index()

# データを確認
sales_by_product
Python

Step 3: 平均値の計算(NumPy)

pandasと同様にnumpyをインストール後、インポートします。

# numpyをインストール
!pip install numpy

# numpyをインポート
import numpy as np
Python

Numpyを使用して売上平均を計算してみましょう。numpyのmean関数を使用して平均を計算します。

# 平均を計算
average_sales = np.mean(sales_by_product['最終売上'])

# 表示
average_sales
Python

商品毎の売上の平均は6,015,185円と表示されるはずです。

ここまでで必要な計算が全てできたので、最後に計算結果をグラフで表示してみましょう。

Step 4: グラフによる可視化(Matplotlib / Seaborn)

まずは他と同じようにmatplotとseabornをインストール、インポートします。

#インストール
!pip install matplot
!pip install seaborn

#インポート
import matplotlib.pyplot as plt
import seaborn as sns
Python

インポートが終われば、冒頭で表示した以下のグラフを作成していきます。

# 1.seabornのスタイル設定
sns.set(style="whitegrid")
# 2.キャンバス(描画領域)の設定
plt.figure(figsize=(10, 6))
# 3.棒グラフの作成
sns.barplot(data=sales_by_product, x='商品', y='最終売上')
# 4.平均線(点線)の描画
plt.axhline(average_sales, color='blue', linestyle='--', label='Average Sales')
# 5.タイトルの設定
plt.title("Total Sales by Clothing Item")
# 6.X軸ラベルの設定
plt.xlabel("Clothing Item")
# 7.Y軸ラベルの設定
plt.ylabel("Total Sales")
# 8.凡例の設定
plt.legend()
# 9. グラフを画像として保存
plt.savefig("sales_by_product.png", format="png", dpi=300, bbox_inches="tight")
# 10.グラフの表示
plt.show()
Python

それぞれのコードの意味は以下の動画で詳しく解説しています。

こちらのコードを実行すると以下のような冒頭で表示した画像が表示されます。

チュートリアルで行ったことをおさらいしておくと、

1Pandasを使用して

2データの読み込みや加工、集計を行って

3Numpyで、データの計算をして

4Matplotとseabornにより棒グラフの作成

を行いました。

最後に結論を出していきましょう。

Step 5: 結論(Conclusion)

出力されたグラフを確認してください。 平均線(赤い点線)を下回っている商品はありましたか?

もし「T-shirt」と「Jacket」が平均を大きく下回っているなら、「この2商品はパフォーマンスが悪いため、販売停止または改善が必要である」という結論(Conclusion)を導き出すことができます。

ここまでやって、初めて「データ分析」が完了します。

5. まとめと学習を続けるコツ

お疲れ様でした!

今回紹介したコードは、実務でも頻繁に使用する基礎的な処理です。

「難しそう…」と感じた方も安心してください。最初から全て暗記する必要はありません。 プロのエンジニアでも、「チートシート」やドキュメントを見ながら実装しています。

大切なのは、正しい学習方法でコツコツ継続することです。 私のスクール生でも、プログラミング完全未経験からたった2ヶ月で副業案件を獲得した方がいます。

ぜひ今回のチュートリアルをきっかけに、データ分析の世界へ一歩踏み出してみてください。

最後に私の公式LINEに登録いただいている方限定で、

1.【最短6ヶ月で完全攻略】Python初心者からの業務効率&データ分析実践パーフェクトガイドプレミアム動画+電子書籍

2.【データ分析に迷ったらこれ】業種別業務データ分析事例145ーサンプルコード付き

3.【ライブラリは暗記不要】Pandas、numpy、matplotの基本的な使い方をサクッと参照できるライブラリ基礎完全攻略チートシート

4.サクッとPython副業で月10万円達成へー最大手案件獲得プラットフォーム完全攻略ガイド

5.【自動化で残業時間完全ゼロへ】業種別業務自動化事例130ーサンプルコード付き

6.ネットに落ちてる無料プログラミング学習動画や資料を私の知る限り全てを網羅した、合計6300分の動画をと6057スライドをつめこんだ無料学習教材のまとめ

7.プログラミング学習や実務にも使えるAIツールを全てまとめあげ、合計39個ツールの紹介と解説をしたPDFデータ

8.【完全審査制】ほし本人による30分間の無料個別相談VIPパス

9.【令和最新版】全16言語完全解説ー今学ぶべきプログラミング言語徹底解説電子書籍

Pythonを使用したスクレイピングやデータ分析をこれから学びたい方は、もうこれだけで十分だろう、というレベルで豪華特典を合計9個「無料配布」します。

・自分の学習方法が正しいか分からない

・学習の時間がない

と悩んでいて、

短期間で

・業務効率化やデータ分析

・副業で実際に稼ぐ方法

など、

あなたの求めるITスキルや副業方法を身につけてなりたい自分を実現したいのであれば、ぜひLINEに登録しておいてください。

⚠️「データ分析入門完全攻略」の電子書籍受け取るには、LINEに飛んでキーワード

データ分析

の5文字を送信してください!

▶︎プレゼントの受け取りはこちら
※「アプリで開く」を押してください