教育：Pythonで始めるデータ分析入門｜はじめてでもわかる！

Pythonで始めるデータ分析入門｜はじめてでもわかる！

今回は少し趣向を変えて誰でも出来そうなテーマ。データ分析に興味があるけれど、「どこから始めていいかわからない」「数学やプログラミングに自信がない」という方々に向けた雑な説明です。
そんな方に向けて、この記事では「Python」という人気のプログラミング言語を使った、データ分析のはじめの一歩を、できるだけやさしく・具体的にご紹介します。

1. Pythonとデータ分析の世界

いま世界中の会社や研究所、大学で使われている「Python（パイソン）」。
その大きな理由は、シンプルで覚えやすいことと、データ分析やAI向けの便利な道具（ライブラリ）がとても充実していることです。

エクセルの表やWebのデータを簡単に読み込み・集計できる
グラフや統計もワンランク上の分析ができる
将来のAIや機械学習にもつながるスキル

この記事では、データ分析でよく使われる「pandas（パンダス）」というライブラリを中心に解説します。

2. 分析準備：環境構築からデータ用意まで

Pythonのインストール

まだPythonを入れていない方は、まず公式サイト（https://www.python.org/）から「Download」を選び、パソコンにインストールしてください。
最近のWindowsやMacなら「次へ」で進むだけで大丈夫です。

pandas（パンダス）を入れよう

次に、分析用のライブラリ「pandas」をインストールします。
コマンドプロンプト（Windows）やターミナル（Mac）で下記を入力してください。

pip install pandas

pipはPythonの便利な道具（パッケージ）を追加する命令です。他にも
pip install matplotlib（グラフ用）
pip install numpy（数値計算用）
なども、データ分析でよく使います。

サンプルCSVデータの準備

今回はこんな「テストの点数表」を使ってみましょう。下の表を「sample_data.csv」という名前で保存してください。

名前,数学,英語,理科
佐藤,80,75,90
鈴木,65,88,70
田中,78,60,82
高橋,90,95,85
伊藤,55,72,60

「,（カンマ）」で区切られた「CSVファイル」は、エクセルなどで編集・保存できます。
行の最初が見出し（「数学」など）、その下にデータが続きます。

3. はじめてのPythonデータ分析：サンプルコードと解説

まずはデータを読み込んでみよう

import pandas as pd

# データの読み込み
df = pd.read_csv('sample_data.csv')

# データの先頭5行を表示
print(df.head())

# 基本統計量の表示
print(df.describe())

このコードの意味

import pandas as pd：pandas（パンダス）という道具を「pd」と呼んで使います（短縮形）。
df = pd.read_csv('sample_data.csv')：「sample_data.csv」というファイルのデータを読み込んで、「df」という入れ物に保存します。
print(df.head())：「df」の最初の5行（head＝頭）だけを表示します。データが正しく読み込めたか確認できます。
print(df.describe())：数字が入っている列（数学・英語・理科）について、平均（mean）、最大値（max）、最小値（min）などの統計情報を一気に出してくれます。

補足：「df」は「データフレーム（DataFrame）」という表データを意味します。エクセルの表のようなものです。

4. 実行例と結果の解説

上のコードを動かすと、まずはこういった表が出力されます（生徒ごとの点数一覧）。


    名前   数学   英語   理科
0  佐藤   80    75    90
1  鈴木   65    88    70
2  田中   78    60    82
3  高橋   90    95    85
4  伊藤   55    72    60

	数学	英語	理科
count	5.0	5.0	5.0
mean	73.6	78.0	77.4
std	13.69	13.77	12.20
min	55.0	60.0	60.0
25%	65.0	72.0	70.0
50%	78.0	75.0	82.0
75%	80.0	88.0	85.0
max	90.0	95.0	90.0

この数字の意味

count：人数（データの数）。5人。
mean：平均点。
std：標準偏差（ばらつきの大きさ、難しければ「点数がバラバラか近いかの指標」）。
min：最低点。
25%, 50%, 75%：点数の下から25%、真ん中（中央値）、上から25%の値。
max：最高点。

5. データからどんなことが分かる？

データ分析の楽しさは、数字から「気づき」を得られることです。上の例で気づくことを整理してみましょう。

英語の最高点（95点）が一番高い。がんばった人がいる！
数学の最低点（55点）はちょっと低め。苦手な人がいるかも。
どの教科も「平均点」と「中央値（50%）」がわかる。中央値は外れ値（すごく高いor低い点）があっても影響されにくい。
「標準偏差（std）」が大きいと、みんなの点がバラバラ。小さいとみんな似た点数。
四分位数（25%, 75%）を見ることで「上位・下位グループ」の点数の幅もわかる。

こうして「誰がどの教科で得意・不得意なのか」「全体的な成績レベルはどうか」が数字でわかるようになります。これがデータ分析の出発点です！

6. さらに分析してみる（応用例）

ここから一歩進んで、「平均点より高い人は？」「得点のばらつきをグラフで見てみたい！」など、データ分析はどんどん広がります。

平均点より高い人を表示


# 数学の平均点より高い人の名前と点数を表示
mean_math = df['数学'].mean()
print(df[df['数学'] > mean_math][['名前', '数学']])

このようなコードで「数学が平均より高い人」だけを取り出せます。他の教科や条件も同じようにできます。

グラフで可視化（matplotlib）

「matplotlib」というグラフ描画ライブラリを使うと、点数の分布をグラフにできます。


import matplotlib.pyplot as plt

# 各教科の点数を棒グラフにする
df.set_index('名前')[['数学','英語','理科']].plot(kind='bar')
plt.title('生徒別教科点数')
plt.ylabel('点数')
plt.show()

こうすれば、「誰がどの教科で強いか」がひと目でわかります。

7. データ分析で広がる世界：社会や趣味で活かすには？

学校・教育現場：生徒ごとの得意・不得意を把握し、指導や教材の改善に役立てる
家計簿・健康管理：日々の支出や歩数、体重などをグラフ化して自己管理
ビジネス：売上データやお客様の声を分析してサービスを改善
趣味：スポーツの記録やゲームのスコア管理もOK！

データ分析は「数字で物事を見る力」を伸ばします。
社会のさまざまな場面で、分析力はこれからますます求められるスキルです。

8. まとめ｜Pythonデータ分析の第一歩を踏み出そう

Pythonとpandasを使えば、誰でも簡単にデータ分析を始めることができます。最初は小さな表から、徐々に大きなデータ、応用的な分析にもチャレンジしてみてください。

Pythonとpandasのインストールからスタート
CSVデータの読み込み・表示・基本統計量の取得
自分なりの「気づき」を見つける
興味が出たら、グラフ化や機械学習など次のステップへ

データ分析の楽しさは「自分で見つけた発見」にあります。
まずは気軽に、身近なデータから始めてみましょう！