教育:Pythonで始めるデータ分析入門|はじめてでもわかる!

Pythonで始めるデータ分析入門|はじめてでもわかる!

今回は少し趣向を変えて誰でも出来そうなテーマ。データ分析に興味があるけれど、「どこから始めていいかわからない」「数学やプログラミングに自信がない」という方々に向けた雑な説明です。
そんな方に向けて、この記事では「Python」という人気のプログラミング言語を使った、データ分析のはじめの一歩を、できるだけやさしく・具体的にご紹介します。

1. Pythonとデータ分析の世界

いま世界中の会社や研究所、大学で使われている「Python(パイソン)」。
その大きな理由は、シンプルで覚えやすいことと、データ分析やAI向けの便利な道具(ライブラリ)がとても充実していることです。

  • エクセルの表やWebのデータを簡単に読み込み・集計できる
  • グラフや統計もワンランク上の分析ができる
  • 将来のAIや機械学習にもつながるスキル

この記事では、データ分析でよく使われる「pandas(パンダス)」というライブラリを中心に解説します。

2. 分析準備:環境構築からデータ用意まで

Pythonのインストール

まだPythonを入れていない方は、まず公式サイト(https://www.python.org/)から「Download」を選び、パソコンにインストールしてください。
最近のWindowsやMacなら「次へ」で進むだけで大丈夫です。

pandas(パンダス)を入れよう

次に、分析用のライブラリ「pandas」をインストールします。
コマンドプロンプト(Windows)ターミナル(Mac)で下記を入力してください。

pip install pandas

pipはPythonの便利な道具(パッケージ)を追加する命令です。他にも
pip install matplotlib(グラフ用)
pip install numpy(数値計算用)
なども、データ分析でよく使います。

サンプルCSVデータの準備

今回はこんな「テストの点数表」を使ってみましょう。下の表を「sample_data.csv」という名前で保存してください。

名前,数学,英語,理科
佐藤,80,75,90
鈴木,65,88,70
田中,78,60,82
高橋,90,95,85
伊藤,55,72,60
  • 「,(カンマ)」で区切られた「CSVファイル」は、エクセルなどで編集・保存できます。
  • 行の最初が見出し(「数学」など)、その下にデータが続きます。

3. はじめてのPythonデータ分析:サンプルコードと解説

まずはデータを読み込んでみよう

import pandas as pd

# データの読み込み
df = pd.read_csv('sample_data.csv')

# データの先頭5行を表示
print(df.head())

# 基本統計量の表示
print(df.describe())

このコードの意味

  • import pandas as pd:pandas(パンダス)という道具を「pd」と呼んで使います(短縮形)。
  • df = pd.read_csv('sample_data.csv'):「sample_data.csv」というファイルのデータを読み込んで、「df」という入れ物に保存します。
  • print(df.head()):「df」の最初の5行(head=頭)だけを表示します。データが正しく読み込めたか確認できます。
  • print(df.describe()):数字が入っている列(数学・英語・理科)について、平均(mean)、最大値(max)、最小値(min)などの統計情報を一気に出してくれます。
補足:「df」は「データフレーム(DataFrame)」という表データを意味します。エクセルの表のようなものです。

4. 実行例と結果の解説

上のコードを動かすと、まずはこういった表が出力されます(生徒ごとの点数一覧)。


    名前   数学   英語   理科
0  佐藤   80    75    90
1  鈴木   65    88    70
2  田中   78    60    82
3  高橋   90    95    85
4  伊藤   55    72    60
    
数学英語理科
count5.05.05.0
mean73.678.077.4
std13.6913.7712.20
min55.060.060.0
25%65.072.070.0
50%78.075.082.0
75%80.088.085.0
max90.095.090.0

この数字の意味

  • count:人数(データの数)。5人。
  • mean:平均点。
  • std:標準偏差(ばらつきの大きさ、難しければ「点数がバラバラか近いかの指標」)。
  • min:最低点。
  • 25%, 50%, 75%:点数の下から25%、真ん中(中央値)、上から25%の値。
  • max:最高点。

5. データからどんなことが分かる?

データ分析の楽しさは、数字から「気づき」を得られることです。上の例で気づくことを整理してみましょう。

  • 英語の最高点(95点)が一番高い。がんばった人がいる!
  • 数学の最低点(55点)はちょっと低め。苦手な人がいるかも。
  • どの教科も「平均点」と「中央値(50%)」がわかる。中央値は外れ値(すごく高いor低い点)があっても影響されにくい。
  • 「標準偏差(std)」が大きいと、みんなの点がバラバラ。小さいとみんな似た点数。
  • 四分位数(25%, 75%)を見ることで「上位・下位グループ」の点数の幅もわかる。

こうして「誰がどの教科で得意・不得意なのか」「全体的な成績レベルはどうか」が数字でわかるようになります。これがデータ分析の出発点です!

6. さらに分析してみる(応用例)

ここから一歩進んで、「平均点より高い人は?」「得点のばらつきをグラフで見てみたい!」など、データ分析はどんどん広がります。

平均点より高い人を表示


# 数学の平均点より高い人の名前と点数を表示
mean_math = df['数学'].mean()
print(df[df['数学'] > mean_math][['名前', '数学']])
    

このようなコードで「数学が平均より高い人」だけを取り出せます。他の教科や条件も同じようにできます。

グラフで可視化(matplotlib)

「matplotlib」というグラフ描画ライブラリを使うと、点数の分布をグラフにできます。


import matplotlib.pyplot as plt

# 各教科の点数を棒グラフにする
df.set_index('名前')[['数学','英語','理科']].plot(kind='bar')
plt.title('生徒別教科点数')
plt.ylabel('点数')
plt.show()
    

こうすれば、「誰がどの教科で強いか」がひと目でわかります。

7. データ分析で広がる世界:社会や趣味で活かすには?

  • 学校・教育現場:生徒ごとの得意・不得意を把握し、指導や教材の改善に役立てる
  • 家計簿・健康管理:日々の支出や歩数、体重などをグラフ化して自己管理
  • ビジネス:売上データやお客様の声を分析してサービスを改善
  • 趣味:スポーツの記録やゲームのスコア管理もOK!
データ分析は「数字で物事を見る力」を伸ばします。
社会のさまざまな場面で、分析力はこれからますます求められるスキルです。

8. まとめ|Pythonデータ分析の第一歩を踏み出そう

Pythonとpandasを使えば、誰でも簡単にデータ分析を始めることができます。最初は小さな表から、徐々に大きなデータ、応用的な分析にもチャレンジしてみてください。

  • Pythonとpandasのインストールからスタート
  • CSVデータの読み込み・表示・基本統計量の取得
  • 自分なりの「気づき」を見つける
  • 興味が出たら、グラフ化や機械学習など次のステップへ
データ分析の楽しさは「自分で見つけた発見」にあります。
まずは気軽に、身近なデータから始めてみましょう!

© 2025 Bee Knowledge Design Inc Blog

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA