Lewati ke isi

Bab 13: Analisis Data

AI tidak akan bisa hitung 1.5 juta baris Excel kamu sendiri. Tapi dia bisa mengarahkan analisis kamu — dari pertanyaan kabur ke insight tajam.

Bab ini fokus ke pakai AI untuk data analysis workflow. Bukan AI yang ngolah data sendiri (untuk itu pakai pandas/SQL), tapi AI yang membantu kamu berpikir tentang data.

Setelah Bab 13, kamu akan bisa:

  • Pakai AI untuk eksplorasi data awal
  • Generate SQL/pandas query dari pertanyaan natural
  • Interpret hasil analysis dan dapat insight
  • Build dashboard narrative dari raw numbers

13.1. Mindset: AI sebagai Co-Analyst

AI tidak baca file Excel kamu sendiri (kecuali pakai code execution tool). Tapi dia bisa:

  • ✅ Saran query yang harus kamu jalankan
  • ✅ Interpret summary statistics yang kamu paste
  • ✅ Generate hypothesis dari pattern
  • ✅ Bantu storytelling dari angka
  • ❌ Hitung sendiri dataset besar
  • ❌ Akses real-time data (kecuali via tool/code)

Pattern: kamu run query → paste hasil ke AI → AI analyze.

13.2. Pattern: Eksplorasi Awal

[KONTEKS]
Saya punya dataset penjualan e-commerce, format CSV, 50,000 baris.

[KOLOM]
- order_id (string)
- date (datetime)
- customer_id (string)
- product_category (string, 8 kategori)
- price (float)
- quantity (int)
- discount_percent (float, 0-50)
- city (string)

[PERTANYAAN]
Saya pemula di data analysis. Belum tahu mau cari apa di data ini.
Kasih saya:

1. **5 pertanyaan menarik** yang bisa dijawab dari data ini
2. Untuk tiap pertanyaan, **SQL query** atau **pandas code** untuk jawabnya
3. **Hipotesis kasar** apa yang akan kamu temukan

Sortir dari paling impactful untuk decision bisnis ke paling exploratory.

Output: roadmap eksplorasi yang terstruktur. Jauh lebih baik dari "let me see..." dan klik random di Excel.

13.3. Pattern: Natural Language → SQL

[SCHEMA]
Tabel: orders
- id, customer_id, product_id, quantity, price, created_at

Tabel: customers
- id, name, city, signup_date, segment ('new', 'returning', 'vip')

Tabel: products
- id, name, category, cost

[PERTANYAAN]
Berapa total revenue dari customer 'vip' di Jakarta untuk bulan Mei 2026?
Group by category, sortir descending.

[FORMAT]
SQL standard (PostgreSQL syntax). Include comments untuk join logic.

Output: SQL ready-to-run.

Untuk Pandas

[DATAFRAME]
df dengan kolom: order_id, date, customer_id, category, price, quantity

[PERTANYAAN]
Top 10 customer berdasarkan total spend di Q1 2026, dengan jumlah order mereka.

[FORMAT]
Pandas code, pakai method chaining (bukan banyak intermediate variable).
Ekspresif dan mudah dibaca.

13.4. Pattern: Interpretasi Statistik

[KONTEKS]
Dari analysis sales:

Mean order value: Rp 250,000
Median: Rp 150,000
Std Dev: Rp 480,000
Min: Rp 25,000
Max: Rp 12,500,000
Skewness: 4.2

[PERTANYAAN]
Apa yang angka-angka ini ngomong tentang distribusi sales?
Apa implikasi-nya untuk:
1. Targeting marketing
2. Pricing strategy
3. Identifying outlier transactions

Jelaskan untuk audience non-statistik.

Output: insight bisnis dari raw stats. AI bagus dalam terjemah angka jadi narative.

13.5. Pattern: Hypothesis Generation

[OBSERVED]
- Sales drop 30% bulan terakhir
- Kategori "elektronik" turun 50%
- "Fashion" naik 10%
- Conversion rate dari ads stabil
- Cart abandonment rate naik dari 65% ke 78%

[CONTEXT]
- Market: Indonesia, e-commerce mid-tier
- Competitor: ada launch promo besar bulan lalu
- Internal: kita ganti payment gateway 3 minggu lalu

[TASK]
Generate 5 hipotesis kenapa sales drop. Sortir dari paling probable
ke paling tidak probable. Untuk tiap hipotesis:
- Reasoning kenapa ini probable
- Cara verify (data apa yang harus dilihat)
- Action yang bisa diambil kalau benar

Output: hypothesis terstruktur untuk investigated. Saves berjam-jam thinking.

13.6. Pattern: Dashboard Narrative

Numbers tanpa story = chart yang dilihat tanpa understanding.

[METRICS Q1 2026]
- Revenue: Rp 1.2B (+15% YoY)
- New customers: 5,200 (-8% YoY)
- Repeat purchase rate: 35% (+10% YoY)
- AOV: Rp 230k (+25% YoY)
- Marketing spend: Rp 200jt (+20% YoY)
- ROAS: 6x (-15% YoY)

[TASK]
Tulis executive summary 200 kata untuk board meeting:
- Headline insight (apa yang paling matter)
- Pattern yang muncul
- Concern yang harus dibahas
- Rekomendasi action

[TONE]
Direct, data-driven. Tidak sugar-coat masalah.

Output: 200 kata yang transform raw numbers jadi story yang actionable.

13.7. Pitfalls

Pitfall 1: AI Hitung Sendiri

❌ "Hitung rata-rata dari [1, 2, 3, 4, 5, ...]" — di list 100 angka, AI bisa salah.

✅ Pakai code execution tool, atau hitung sendiri dengan Python.

Pitfall 2: Trust Insight Tanpa Validate

AI generate insight yang plausible-sounding tapi salah. Validasi ke data sebenarnya.

Pitfall 3: Skip Sanity Check

AI suggestkan strategi marketing → kamu langsung execute. Selalu cek logic-nya. Apakah masuk akal di domain kamu?

13.8. Latihan

13.1 — Eksplorasi Real

Pilih dataset di kerjaan kamu. Pakai pattern 13.2. Apakah dapat 5 pertanyaan yang useful?

13.2 — SQL Generator

Coba 10 pertanyaan natural. Pakai AI generate SQL. Run di database. Berapa yang langsung benar?

13.3 — Tantangan: Dashboard Story

Ambil dashboard di kerjaan kamu. Pakai pattern 13.6 untuk transform numbers jadi narrative.

Pattern Awal

[KONTEKS] dataset description
[KOLOM] schema
[GOAL] decision yang ingin dibuat

Tasks:
1. 5 pertanyaan menarik
2. Query/code untuk masing-masing
3. Hipotesis kasar

NL → SQL

[SCHEMA] tabel & kolom
[PERTANYAAN] dalam bahasa natural
[FORMAT] dialect SQL spesifik

Interpretasi Stats

[NUMBERS] paste stats
[PERTANYAAN]
- Apa yang angka ini cerita?
- Implikasi untuk decision X, Y, Z
- Untuk audience non-statistik

Hypothesis

[OBSERVED] data point
[CONTEXT] external factor
[TASK] 5 hipotesis + verify + action

Hindari

  • ❌ AI hitung dataset besar (pakai code execution)
  • ❌ Trust insight tanpa validate
  • ❌ Skip sanity check

← Bab 12 Lanjut Bab 14 →

Diadaptasi dari modul "Data Analysis with AI" dari Learn Prompting. Dilisensikan Apache 2.0.