Bab 13: Analisis Data¶
AI tidak akan bisa hitung 1.5 juta baris Excel kamu sendiri. Tapi dia bisa mengarahkan analisis kamu — dari pertanyaan kabur ke insight tajam.
Bab ini fokus ke pakai AI untuk data analysis workflow. Bukan AI yang ngolah data sendiri (untuk itu pakai pandas/SQL), tapi AI yang membantu kamu berpikir tentang data.
Setelah Bab 13, kamu akan bisa:
- Pakai AI untuk eksplorasi data awal
- Generate SQL/pandas query dari pertanyaan natural
- Interpret hasil analysis dan dapat insight
- Build dashboard narrative dari raw numbers
13.1. Mindset: AI sebagai Co-Analyst¶
AI tidak baca file Excel kamu sendiri (kecuali pakai code execution tool). Tapi dia bisa:
- ✅ Saran query yang harus kamu jalankan
- ✅ Interpret summary statistics yang kamu paste
- ✅ Generate hypothesis dari pattern
- ✅ Bantu storytelling dari angka
- ❌ Hitung sendiri dataset besar
- ❌ Akses real-time data (kecuali via tool/code)
Pattern: kamu run query → paste hasil ke AI → AI analyze.
13.2. Pattern: Eksplorasi Awal¶
[KONTEKS]
Saya punya dataset penjualan e-commerce, format CSV, 50,000 baris.
[KOLOM]
- order_id (string)
- date (datetime)
- customer_id (string)
- product_category (string, 8 kategori)
- price (float)
- quantity (int)
- discount_percent (float, 0-50)
- city (string)
[PERTANYAAN]
Saya pemula di data analysis. Belum tahu mau cari apa di data ini.
Kasih saya:
1. **5 pertanyaan menarik** yang bisa dijawab dari data ini
2. Untuk tiap pertanyaan, **SQL query** atau **pandas code** untuk jawabnya
3. **Hipotesis kasar** apa yang akan kamu temukan
Sortir dari paling impactful untuk decision bisnis ke paling exploratory.
Output: roadmap eksplorasi yang terstruktur. Jauh lebih baik dari "let me see..." dan klik random di Excel.
13.3. Pattern: Natural Language → SQL¶
[SCHEMA]
Tabel: orders
- id, customer_id, product_id, quantity, price, created_at
Tabel: customers
- id, name, city, signup_date, segment ('new', 'returning', 'vip')
Tabel: products
- id, name, category, cost
[PERTANYAAN]
Berapa total revenue dari customer 'vip' di Jakarta untuk bulan Mei 2026?
Group by category, sortir descending.
[FORMAT]
SQL standard (PostgreSQL syntax). Include comments untuk join logic.
Output: SQL ready-to-run.
Untuk Pandas¶
[DATAFRAME]
df dengan kolom: order_id, date, customer_id, category, price, quantity
[PERTANYAAN]
Top 10 customer berdasarkan total spend di Q1 2026, dengan jumlah order mereka.
[FORMAT]
Pandas code, pakai method chaining (bukan banyak intermediate variable).
Ekspresif dan mudah dibaca.
13.4. Pattern: Interpretasi Statistik¶
[KONTEKS]
Dari analysis sales:
Mean order value: Rp 250,000
Median: Rp 150,000
Std Dev: Rp 480,000
Min: Rp 25,000
Max: Rp 12,500,000
Skewness: 4.2
[PERTANYAAN]
Apa yang angka-angka ini ngomong tentang distribusi sales?
Apa implikasi-nya untuk:
1. Targeting marketing
2. Pricing strategy
3. Identifying outlier transactions
Jelaskan untuk audience non-statistik.
Output: insight bisnis dari raw stats. AI bagus dalam terjemah angka jadi narative.
13.5. Pattern: Hypothesis Generation¶
[OBSERVED]
- Sales drop 30% bulan terakhir
- Kategori "elektronik" turun 50%
- "Fashion" naik 10%
- Conversion rate dari ads stabil
- Cart abandonment rate naik dari 65% ke 78%
[CONTEXT]
- Market: Indonesia, e-commerce mid-tier
- Competitor: ada launch promo besar bulan lalu
- Internal: kita ganti payment gateway 3 minggu lalu
[TASK]
Generate 5 hipotesis kenapa sales drop. Sortir dari paling probable
ke paling tidak probable. Untuk tiap hipotesis:
- Reasoning kenapa ini probable
- Cara verify (data apa yang harus dilihat)
- Action yang bisa diambil kalau benar
Output: hypothesis terstruktur untuk investigated. Saves berjam-jam thinking.
13.6. Pattern: Dashboard Narrative¶
Numbers tanpa story = chart yang dilihat tanpa understanding.
[METRICS Q1 2026]
- Revenue: Rp 1.2B (+15% YoY)
- New customers: 5,200 (-8% YoY)
- Repeat purchase rate: 35% (+10% YoY)
- AOV: Rp 230k (+25% YoY)
- Marketing spend: Rp 200jt (+20% YoY)
- ROAS: 6x (-15% YoY)
[TASK]
Tulis executive summary 200 kata untuk board meeting:
- Headline insight (apa yang paling matter)
- Pattern yang muncul
- Concern yang harus dibahas
- Rekomendasi action
[TONE]
Direct, data-driven. Tidak sugar-coat masalah.
Output: 200 kata yang transform raw numbers jadi story yang actionable.
13.7. Pitfalls¶
Pitfall 1: AI Hitung Sendiri¶
❌ "Hitung rata-rata dari [1, 2, 3, 4, 5, ...]" — di list 100 angka, AI bisa salah.
✅ Pakai code execution tool, atau hitung sendiri dengan Python.
Pitfall 2: Trust Insight Tanpa Validate¶
AI generate insight yang plausible-sounding tapi salah. Validasi ke data sebenarnya.
Pitfall 3: Skip Sanity Check¶
AI suggestkan strategi marketing → kamu langsung execute. Selalu cek logic-nya. Apakah masuk akal di domain kamu?
13.8. Latihan¶
13.1 — Eksplorasi Real¶
Pilih dataset di kerjaan kamu. Pakai pattern 13.2. Apakah dapat 5 pertanyaan yang useful?
13.2 — SQL Generator¶
Coba 10 pertanyaan natural. Pakai AI generate SQL. Run di database. Berapa yang langsung benar?
13.3 — Tantangan: Dashboard Story¶
Ambil dashboard di kerjaan kamu. Pakai pattern 13.6 untuk transform numbers jadi narrative.
Pattern Awal¶
[KONTEKS] dataset description
[KOLOM] schema
[GOAL] decision yang ingin dibuat
Tasks:
1. 5 pertanyaan menarik
2. Query/code untuk masing-masing
3. Hipotesis kasar
NL → SQL¶
Interpretasi Stats¶
[NUMBERS] paste stats
[PERTANYAAN]
- Apa yang angka ini cerita?
- Implikasi untuk decision X, Y, Z
- Untuk audience non-statistik
Hypothesis¶
Hindari¶
- ❌ AI hitung dataset besar (pakai code execution)
- ❌ Trust insight tanpa validate
- ❌ Skip sanity check