教育:Pythonで始めるデータ分析入門|はじめてでもわかる!

今回は少し趣向を変えて誰でも出来そうなテーマ。データ分析に興味があるけれど、「どこから始めていいかわからない」「数学やプログラミングに自信がない」という方々に向けた雑な説明です。
そんな方に向けて、この記事では「Python」という人気のプログラミング言語を使った、データ分析のはじめの一歩を、できるだけやさしく・具体的にご紹介します。
1. Pythonとデータ分析の世界
いま世界中の会社や研究所、大学で使われている「Python(パイソン)」。
その大きな理由は、シンプルで覚えやすいことと、データ分析やAI向けの便利な道具(ライブラリ)がとても充実していることです。
- エクセルの表やWebのデータを簡単に読み込み・集計できる
- グラフや統計もワンランク上の分析ができる
- 将来のAIや機械学習にもつながるスキル
この記事では、データ分析でよく使われる「pandas(パンダス)」というライブラリを中心に解説します。
2. 分析準備:環境構築からデータ用意まで
Pythonのインストール
まだPythonを入れていない方は、まず公式サイト(https://www.python.org/)から「Download」を選び、パソコンにインストールしてください。
最近のWindowsやMacなら「次へ」で進むだけで大丈夫です。
pandas(パンダス)を入れよう
次に、分析用のライブラリ「pandas」をインストールします。
コマンドプロンプト(Windows)やターミナル(Mac)で下記を入力してください。
pip install pandas
pipはPythonの便利な道具(パッケージ)を追加する命令です。他にも
pip install matplotlib
(グラフ用)
pip install numpy
(数値計算用)
なども、データ分析でよく使います。
サンプルCSVデータの準備
今回はこんな「テストの点数表」を使ってみましょう。下の表を「sample_data.csv」という名前で保存してください。
名前,数学,英語,理科
佐藤,80,75,90
鈴木,65,88,70
田中,78,60,82
高橋,90,95,85
伊藤,55,72,60
- 「,(カンマ)」で区切られた「CSVファイル」は、エクセルなどで編集・保存できます。
- 行の最初が見出し(「数学」など)、その下にデータが続きます。
3. はじめてのPythonデータ分析:サンプルコードと解説
まずはデータを読み込んでみよう
import pandas as pd
# データの読み込み
df = pd.read_csv('sample_data.csv')
# データの先頭5行を表示
print(df.head())
# 基本統計量の表示
print(df.describe())
このコードの意味
import pandas as pd
:pandas(パンダス)という道具を「pd」と呼んで使います(短縮形)。df = pd.read_csv('sample_data.csv')
:「sample_data.csv」というファイルのデータを読み込んで、「df」という入れ物に保存します。print(df.head())
:「df」の最初の5行(head=頭)だけを表示します。データが正しく読み込めたか確認できます。print(df.describe())
:数字が入っている列(数学・英語・理科)について、平均(mean)、最大値(max)、最小値(min)などの統計情報を一気に出してくれます。
4. 実行例と結果の解説
上のコードを動かすと、まずはこういった表が出力されます(生徒ごとの点数一覧)。
名前 数学 英語 理科
0 佐藤 80 75 90
1 鈴木 65 88 70
2 田中 78 60 82
3 高橋 90 95 85
4 伊藤 55 72 60
数学 | 英語 | 理科 | |
---|---|---|---|
count | 5.0 | 5.0 | 5.0 |
mean | 73.6 | 78.0 | 77.4 |
std | 13.69 | 13.77 | 12.20 |
min | 55.0 | 60.0 | 60.0 |
25% | 65.0 | 72.0 | 70.0 |
50% | 78.0 | 75.0 | 82.0 |
75% | 80.0 | 88.0 | 85.0 |
max | 90.0 | 95.0 | 90.0 |
この数字の意味
- count:人数(データの数)。5人。
- mean:平均点。
- std:標準偏差(ばらつきの大きさ、難しければ「点数がバラバラか近いかの指標」)。
- min:最低点。
- 25%, 50%, 75%:点数の下から25%、真ん中(中央値)、上から25%の値。
- max:最高点。
5. データからどんなことが分かる?
データ分析の楽しさは、数字から「気づき」を得られることです。上の例で気づくことを整理してみましょう。
- 英語の最高点(95点)が一番高い。がんばった人がいる!
- 数学の最低点(55点)はちょっと低め。苦手な人がいるかも。
- どの教科も「平均点」と「中央値(50%)」がわかる。中央値は外れ値(すごく高いor低い点)があっても影響されにくい。
- 「標準偏差(std)」が大きいと、みんなの点がバラバラ。小さいとみんな似た点数。
- 四分位数(25%, 75%)を見ることで「上位・下位グループ」の点数の幅もわかる。
こうして「誰がどの教科で得意・不得意なのか」「全体的な成績レベルはどうか」が数字でわかるようになります。これがデータ分析の出発点です!
6. さらに分析してみる(応用例)
ここから一歩進んで、「平均点より高い人は?」「得点のばらつきをグラフで見てみたい!」など、データ分析はどんどん広がります。
平均点より高い人を表示
# 数学の平均点より高い人の名前と点数を表示
mean_math = df['数学'].mean()
print(df[df['数学'] > mean_math][['名前', '数学']])
このようなコードで「数学が平均より高い人」だけを取り出せます。他の教科や条件も同じようにできます。
グラフで可視化(matplotlib)
「matplotlib」というグラフ描画ライブラリを使うと、点数の分布をグラフにできます。
import matplotlib.pyplot as plt
# 各教科の点数を棒グラフにする
df.set_index('名前')[['数学','英語','理科']].plot(kind='bar')
plt.title('生徒別教科点数')
plt.ylabel('点数')
plt.show()
こうすれば、「誰がどの教科で強いか」がひと目でわかります。
7. データ分析で広がる世界:社会や趣味で活かすには?
- 学校・教育現場:生徒ごとの得意・不得意を把握し、指導や教材の改善に役立てる
- 家計簿・健康管理:日々の支出や歩数、体重などをグラフ化して自己管理
- ビジネス:売上データやお客様の声を分析してサービスを改善
- 趣味:スポーツの記録やゲームのスコア管理もOK!
社会のさまざまな場面で、分析力はこれからますます求められるスキルです。
8. まとめ|Pythonデータ分析の第一歩を踏み出そう
Pythonとpandasを使えば、誰でも簡単にデータ分析を始めることができます。最初は小さな表から、徐々に大きなデータ、応用的な分析にもチャレンジしてみてください。
- Pythonとpandasのインストールからスタート
- CSVデータの読み込み・表示・基本統計量の取得
- 自分なりの「気づき」を見つける
- 興味が出たら、グラフ化や機械学習など次のステップへ
まずは気軽に、身近なデータから始めてみましょう!
© 2025 Bee Knowledge Design Inc Blog