Measures of variation (ukuran variasi) adalah ukuran statistik yang menggambarkan seberapa besar data tersebar atau bervariasi dari nilai pusatnya. Berbeda dengan measures of central tendency yang menunjukkan nilai "tipikal" atau pusat data, measures of variation memberikan informasi tentang dispersi atau sebaran data. Memahami variasi data sangat penting karena dua dataset dapat memiliki mean yang sama tetapi memiliki pola penyebaran yang sangat berbeda.
Artikel ini akan membahas secara komprehensif berbagai ukuran variasi mulai dari yang paling sederhana (range) hingga yang lebih kompleks (standard deviation dan z-score), serta aplikasi praktisnya dalam analisis data statistik.
📑 Daftar Isi
- 1. Range (Rentang)
- 2. Deviation (Deviasi)
- 3. Variance dan Standard Deviation
- 4. Empirical Rule (Aturan 68-95-99.7)
- 5. Chebyshev's Theorem
- 6. Standard Deviation untuk Data Berkelompok
- 7. Quartiles (Kuartil)
- 8. Interquartile Range (IQR)
- 9. Box-and-Whisker Plot
- 10. Percentiles dan Deciles
- 11. Standard Score (Z-Score)
1. Range (Rentang)
Range adalah ukuran variasi yang paling sederhana, yaitu selisih antara nilai maksimum dan minimum dalam dataset. Range memberikan gambaran cepat tentang seberapa luas data tersebar.
Data berikut adalah harga penutupan suatu saham pada sepuluh hari Jumat berturut-turut. Tentukan range-nya.
| Harga Saham ($) | |||||||||
|---|---|---|---|---|---|---|---|---|---|
| 56 | 56 | 57 | 58 | 61 | 63 | 63 | 67 | 67 | 67 |
Maximum = 67
Minimum = 56
Range = 67 − 56 = 11
Interpretasi: Harga saham bervariasi sebesar $11 selama periode tersebut.
- Hanya mempertimbangkan dua nilai (maksimum dan minimum)
- Sangat sensitif terhadap outlier atau nilai ekstrem
- Tidak memberikan informasi tentang bagaimana data terdistribusi di antara nilai maksimum dan minimum
- Tidak memperhitungkan semua nilai dalam dataset
2. Deviation (Deviasi)
Deviation dari suatu entri x dalam dataset populasi adalah selisih antara entri tersebut dengan mean (μ) dari dataset.
Data berikut adalah harga penutupan suatu saham pada lima hari Jumat berturut-turut. Tentukan deviasi dari setiap harga.
Data: 56, 58, 61, 63, 67
μ = Σx / N
μ = (56 + 58 + 61 + 63 + 67) / 5
μ = 305 / 5
μ = 61
| x (Harga) | Deviasi (x − μ) | Interpretasi |
|---|---|---|
| 56 | 56 − 61 = −5 | $5 di bawah rata-rata |
| 58 | 58 − 61 = −3 | $3 di bawah rata-rata |
| 61 | 61 − 61 = 0 | Sama dengan rata-rata |
| 63 | 63 − 61 = 2 | $2 di atas rata-rata |
| 67 | 67 − 61 = 6 | $6 di atas rata-rata |
| Σx = 305 | Σ(x − μ) = 0 |
Jumlah semua deviasi dalam dataset selalu sama dengan nol: Σ(x − μ) = 0
Ini karena nilai-nilai positif (di atas mean) dan negatif (di bawah mean) saling meniadakan. Oleh karena itu, kita tidak bisa menggunakan jumlah deviasi sebagai ukuran variasi. Solusinya adalah dengan mengkuadratkan setiap deviasi, yang mengarah pada konsep variance.
3. Variance dan Standard Deviation
Variance (ragam) dan standard deviation (simpangan baku/deviasi standar) adalah ukuran variasi yang paling umum digunakan dalam statistik. Kedua ukuran ini mempertimbangkan setiap nilai dalam dataset.
3.1 Population Variance dan Standard Deviation
σ² = Σ(x − μ)² / N
Population Standard Deviation (σ):
σ = √[Σ(x − μ)² / N]
3.2 Sample Variance dan Standard Deviation
s² = Σ(x − x̄)² / (n − 1)
Sample Standard Deviation (s):
s = √[Σ(x − x̄)² / (n − 1)]
Pembagian dengan (n − 1) disebut Bessel's correction. Ini dilakukan untuk mendapatkan estimasi yang tidak bias (unbiased) dari variance populasi. Penggunaan (n − 1) mengkompensasi kecenderungan sampel untuk memiliki variabilitas yang lebih kecil dibandingkan populasi.
3.3 Langkah-Langkah Menghitung Standard Deviation
Langkah 1: Hitung Mean
Langkah 2: Hitung Deviasi Setiap Entri
Langkah 3: Kuadratkan Setiap Deviasi
Langkah 4: Jumlahkan Semua Kuadrat Deviasi (Sum of Squares)
Langkah 5: Hitung Variance
Sampel: s² = SS / (n − 1)
Langkah 6: Hitung Standard Deviation (Akar Kuadrat Variance)
Sampel: s = √(s²)
Data harga penutupan saham pada lima hari Jumat: 56, 58, 61, 63, 67. Mean populasi = 61. Tentukan population standard deviation.
| x (Harga) |
x − μ (Deviasi) |
(x − μ)² (Deviasi Kuadrat) |
|---|---|---|
| 56 | −5 | 25 |
| 58 | −3 | 9 |
| 61 | 0 | 0 |
| 63 | 2 | 4 |
| 67 | 6 | 36 |
| Σx = 305 | Σ(x − μ) = 0 | Σ(x − μ)² = 74 |
σ² = Σ(x − μ)² / N
σ² = 74 / 5
σ² = 14.8
Perhitungan Standard Deviation:
σ = √(σ²)
σ = √(14.8)
σ = 3.85
Kesimpulan: Standard deviation harga saham adalah $3.85
3.4 Interpretasi Standard Deviation
- Standard deviation mengukur jumlah tipikal sebuah entri menyimpang dari mean
- Standard deviation kecil = data terkonsentrasi dekat dengan mean (variasi rendah)
- Standard deviation besar = data tersebar jauh dari mean (variasi tinggi)
- Standard deviation selalu bernilai non-negatif (≥ 0)
- Standard deviation = 0 hanya jika semua nilai dalam dataset identik
Perbandingan Visual: Standard Deviation Kecil vs Besar
•
• • •
• • • • •
• • • • • • •
• • • • • • • • •
|———————————————|
μ
Standard Deviation Besar (Data Tersebar):
• •
• • • •
• • • • • • • • •
• • • • • • • • • • • • •
|———————————————————————————————————|
μ
4. Empirical Rule (Aturan 68-95-99.7)
Empirical Rule, juga dikenal sebagai 68-95-99.7 Rule, adalah aturan yang berlaku untuk data dengan distribusi berbentuk lonceng (bell-shaped) yang simetris. Aturan ini memberikan persentase data yang berada dalam interval tertentu dari mean.
- Sekitar 68% data berada dalam 1 standard deviation dari mean (μ ± σ)
- Sekitar 95% data berada dalam 2 standard deviations dari mean (μ ± 2σ)
- Sekitar 99.7% data berada dalam 3 standard deviations dari mean (μ ± 3σ)
Visualisasi Empirical Rule
←——————————————————————————————————→
95% dalam μ ± 2σ
←——————————————————————→
68% dalam μ ± σ
←——————————————→
0.15% 2.35% 13.5% 34% 34% 13.5% 2.35% 0.15%
| | | | | | | |
μ-3σ μ-2σ μ-σ μ μ+σ μ+2σ μ+3σ
Nilai rata-rata rumah di suatu jalan adalah $125 ribu dengan standard deviation $5 ribu. Data memiliki distribusi berbentuk lonceng. Estimasi persentase rumah yang bernilai antara $120 ribu dan $130 ribu.
μ = $125 ribu
σ = $5 ribu
Ditanya:
Persentase rumah dengan nilai antara $120 ribu dan $130 ribu
Analisis:
$120 ribu = μ − σ = $125 ribu − $5 ribu
$130 ribu = μ + σ = $125 ribu + $5 ribu
Interval [$120 ribu, $130 ribu] adalah interval μ ± σ
Kesimpulan:
Menurut Empirical Rule, sekitar 68% rumah memiliki nilai
antara $120 ribu dan $130 ribu.
Empirical Rule HANYA berlaku untuk data dengan distribusi simetris berbentuk lonceng (bell-shaped/normal distribution). Untuk distribusi yang tidak simetris atau tidak berbentuk lonceng, gunakan Chebyshev's Theorem.
5. Chebyshev's Theorem
Chebyshev's Theorem adalah alternatif dari Empirical Rule yang dapat digunakan untuk distribusi apapun, tidak peduli bentuknya (simetris atau skewed).
Proporsi data yang berada dalam k standard deviations (k > 1)
dari mean adalah setidaknya:
1 − (1/k²)
atau dalam persentase:
[1 − (1/k²)] × 100%
k = 2
= 0.75 = 75%
Setidaknya 75% data
berada dalam μ ± 2σ
k = 3
≈ 0.889 = 88.9%
Setidaknya 88.9% data
berada dalam μ ± 3σ
k = 4
= 0.9375 = 93.75%
Setidaknya 93.75% data
berada dalam μ ± 4σ
Mean waktu lari 400 meter wanita adalah 52.4 detik dengan standard deviation 2.2 detik. Setidaknya 75% waktu lari wanita akan berada di antara dua nilai berapa?
μ = 52.4 detik
σ = 2.2 detik
Target: Setidaknya 75% data
Langkah 1: Cari nilai k
1 − (1/k²) = 0.75
1/k² = 0.25
k² = 4
k = 2
Langkah 2: Hitung interval μ ± kσ
Batas bawah = μ − kσ = 52.4 − 2(2.2) = 52.4 − 4.4 = 48 detik
Batas atas = μ + kσ = 52.4 + 2(2.2) = 52.4 + 4.4 = 56.8 detik
Kesimpulan:
Setidaknya 75% waktu lari 400 meter wanita akan berada
antara 48 detik dan 56.8 detik.
| Aspek | Empirical Rule | Chebyshev's Theorem |
|---|---|---|
| Berlaku untuk | Distribusi normal/bell-shaped | SEMUA distribusi |
| k = 2 | ~95% data dalam μ ± 2σ | ≥75% data dalam μ ± 2σ |
| k = 3 | ~99.7% data dalam μ ± 3σ | ≥88.9% data dalam μ ± 3σ |
| Presisi | Lebih presisi | Estimasi minimum (konservatif) |
| Kapan digunakan | Data normal/simetris | Data tidak normal/bentuk apapun |
6. Standard Deviation untuk Data Berkelompok
Ketika data disajikan dalam bentuk distribusi frekuensi (data berkelompok), kita menggunakan titik tengah kelas (midpoint) untuk menghitung standard deviation.
s = √[Σf(x − x̄)² / (n − 1)]
di mana:
• x = titik tengah kelas
• f = frekuensi
• n = Σf = jumlah total data
Distribusi frekuensi berikut merepresentasikan usia 30 mahasiswa dalam kelas statistik. Mean usia = 30.3 tahun. Tentukan standard deviation.
| Kelas | Titik Tengah (x) | Frekuensi (f) | x − x̄ | (x − x̄)² | (x − x̄)²·f |
|---|---|---|---|---|---|
| 18 – 25 | 21.5 | 13 | −8.8 | 77.44 | 1006.72 |
| 26 – 33 | 29.5 | 8 | −0.8 | 0.64 | 5.12 |
| 34 – 41 | 37.5 | 4 | 7.2 | 51.84 | 207.36 |
| 42 – 49 | 45.5 | 3 | 15.2 | 231.04 | 693.12 |
| 50 – 57 | 53.5 | 2 | 23.2 | 538.24 | 1076.48 |
| Total | n = 30 | Σ = 2988.80 |
s = √[Σf(x − x̄)² / (n − 1)]
s = √[2988.80 / (30 − 1)]
s = √[2988.80 / 29]
s = √103.06
s ≈ 10.2 tahun
Kesimpulan:
Standard deviation usia mahasiswa adalah sekitar 10.2 tahun.
7. Quartiles (Kuartil)
Quartiles membagi dataset yang telah diurutkan menjadi empat bagian yang kurang lebih sama. Ada tiga kuartil: Q₁, Q₂, dan Q₃.
- Q₁ (Kuartil Pertama/Lower Quartile): 25% data berada di bawah Q₁
- Q₂ (Kuartil Kedua/Median): 50% data berada di bawah Q₂
- Q₃ (Kuartil Ketiga/Upper Quartile): 75% data berada di bawah Q₃
Visualisasi Kuartil
| | |
|-----------|----------------|----------------|-----------|
Min Q₁ Q₂ Q₃ Max
(Median)
Nilai kuis 15 siswa adalah sebagai berikut. Tentukan Q₁, Q₂, dan Q₃.
Data (belum terurut): 28, 43, 48, 51, 43, 30, 55, 44, 48, 33, 45, 37, 37, 42, 38
28, 30, 33, 37, 37, 38, 42, 43, 43, 44, 45, 48, 48, 51, 55
Langkah 2: Cari Q₂ (Median)
n = 15 (ganjil), posisi median = (15+1)/2 = 8
Q₂ = nilai ke-8 = 43
Langkah 3: Cari Q₁
Q₁ adalah median dari setengah bawah data (7 nilai pertama)
28, 30, 33, 37, 37, 38, 42
Q₁ = 37
Langkah 4: Cari Q₃
Q₃ adalah median dari setengah atas data (7 nilai terakhir)
43, 44, 45, 48, 48, 51, 55
Q₃ = 48
- Sekitar seperempat siswa mendapat nilai 37 atau kurang
- Sekitar setengah siswa mendapat nilai 43 atau kurang
- Sekitar tiga perempat siswa mendapat nilai 48 atau kurang
8. Interquartile Range (IQR)
Interquartile Range (IQR) adalah ukuran variasi yang robust terhadap outlier. IQR mengukur penyebaran dari 50% data bagian tengah.
Dari contoh sebelumnya, kuartil untuk 15 nilai kuis adalah:
- Q₁ = 37
- Q₂ = 43
- Q₃ = 48
IQR = Q₃ − Q₁
IQR = 48 − 37
IQR = 11
Interpretasi:
Nilai kuis pada bagian tengah dataset (middle 50%) bervariasi
maksimal 11 poin.
- Tidak terpengaruh outlier: IQR hanya menggunakan Q₁ dan Q₃, mengabaikan nilai ekstrem
- Mengukur variabilitas tengah: Fokus pada 50% data di tengah
- Identifikasi outlier: Nilai yang berada di luar 1.5×IQR dari Q₁ atau Q₃ dianggap outlier potensial
• x < Q₁ − 1.5×IQR (outlier bawah)
• x > Q₃ + 1.5×IQR (outlier atas)
Contoh dengan data sebelumnya:
Q₁ = 37, Q₃ = 48, IQR = 11
Batas bawah = Q₁ − 1.5×IQR = 37 − 1.5(11) = 37 − 16.5 = 20.5
Batas atas = Q₃ + 1.5×IQR = 48 + 1.5(11) = 48 + 16.5 = 64.5
Data yang < 20.5 atau > 64.5 adalah outlier potensial.
9. Box-and-Whisker Plot
Box-and-whisker plot (atau box plot) adalah alat analisis data eksploratif yang menyoroti fitur-fitur penting dari dataset. Plot ini menggunakan five-number summary.
- Minimum (nilai terkecil)
- Q₁ (kuartil pertama)
- Q₂ (median)
- Q₃ (kuartil ketiga)
- Maximum (nilai terbesar)
Gunakan data 15 nilai kuis untuk membuat box-and-whisker plot:
Data terurut: 28, 30, 33, 37, 37, 38, 42, 43, 43, 44, 45, 48, 48, 51, 55
Minimum = 28
Q₁ = 37
Q₂ (Median) = 43
Q₃ = 48
Maximum = 55
Box-and-Whisker Plot
← ←-----→ →
| | | | |
|———————|——————|——|——|——————|———————|
25 30 35 40 45 50 55
Nilai Kuis
| | | | |
Min Q₁ Q₂ Q₃ Max
28 37 43 48 55
Komponen:
• Garis kiri (whisker): dari Min ke Q₁
• Box: dari Q₁ ke Q₃ (berisi 50% data tengah)
• Garis vertikal dalam box: Q₂ (median)
• Garis kanan (whisker): dari Q₃ ke Max
- Pusat data: Ditunjukkan oleh median (Q₂)
- Variabilitas: Lebar box (IQR) dan panjang whisker
- Skewness: Jika median tidak di tengah box, distribusi miring
- Outlier: Titik di luar whisker
- Perbandingan: Mudah membandingkan beberapa dataset
10. Percentiles dan Deciles
Fractiles adalah angka yang mempartisi atau membagi dataset yang telah diurutkan. Percentiles dan deciles adalah jenis fractiles yang paling umum digunakan.
10.1 Percentiles
Percentiles membagi dataset yang diurutkan menjadi 100 bagian. Ada 99 percentiles: P₁, P₂, P₃, ..., P₉₉.
Nilai ujian pada percentile ke-80 (P₈₀) menunjukkan bahwa nilai ujian tersebut:
- Lebih besar dari 80% dari semua nilai ujian lainnya
- Kurang dari atau sama dengan 20% nilai lainnya
Jika nilai ujian Anda adalah 85 dan berada pada P₈₀, maka:
• Anda mengalahkan 80% peserta ujian
• Hanya 20% peserta yang nilai ujiannya lebih baik dari Anda
10.2 Deciles
Deciles membagi dataset yang diurutkan menjadi 10 bagian. Ada 9 deciles: D₁, D₂, D₃, ..., D₉.
| Decile | Percentile | Quartile | Interpretasi |
|---|---|---|---|
| D₁ | P₁₀ | - | 10% data di bawah nilai ini |
| D₂ | P₂₀ | - | 20% data di bawah nilai ini |
| D₂.₅ | P₂₅ | Q₁ | 25% data di bawah nilai ini |
| D₅ | P₅₀ | Q₂ | 50% data di bawah nilai ini (Median) |
| D₇.₅ | P₇₅ | Q₃ | 75% data di bawah nilai ini |
| D₉ | P₉₀ | - | 90% data di bawah nilai ini |
11. Standard Score (Z-Score)
Standard score atau z-score merepresentasikan jumlah standard deviations yang mana suatu nilai data x berada dari mean μ. Z-score adalah cara untuk standardisasi data sehingga dapat dibandingkan dengan skala yang sama.
z = (x − μ) / σ
untuk populasi, atau
z = (x − x̄) / s
untuk sampel
11.1 Interpretasi Z-Score
- z = 0: Nilai sama dengan mean
- z > 0: Nilai berada di atas mean (positif z standard deviations dari mean)
- z < 0: Nilai berada di bawah mean (negatif z standard deviations dari mean)
- |z| > 3: Nilai sangat ekstrem/unusual (outlier potensial)
Nilai ujian akhir statistik di Union College memiliki mean 78 dan standard deviation 7. Tentukan z-score untuk:
a) Nilai ujian 85
z = (x − μ) / σ
z = (85 − 78) / 7
z = 7 / 7
z = 1.0
Interpretasi:
Nilai 85 berada 1 standard deviation di atas mean.
Ini adalah nilai yang cukup baik, lebih baik dari mayoritas.
b) Nilai ujian 70
z = (x − μ) / σ
z = (70 − 78) / 7
z = −8 / 7
z ≈ −1.14
Interpretasi:
Nilai 70 berada 1.14 standard deviations di bawah mean.
Ini adalah nilai yang di bawah rata-rata.
c) Nilai ujian 78
z = (x − μ) / σ
z = (78 − 78) / 7
z = 0 / 7
z = 0
Interpretasi:
Nilai 78 sama dengan mean (rata-rata).
11.2 Membandingkan Nilai dengan Z-Score
Z-score sangat berguna untuk membandingkan nilai dari dataset yang berbeda dengan skala yang berbeda.
John mendapat 75 pada ujian dengan mean kelas 73.2 dan standard deviation 4.5. Samantha mendapat 68.6 pada ujian dengan mean kelas 65 dan standard deviation 3.9. Siapa yang memiliki nilai lebih baik relatif terhadap kelasnya?
x = 75, x̄ = 73.2, s = 4.5
z = (x − x̄) / s
z = (75 − 73.2) / 4.5
z = 1.8 / 4.5
z = 0.4
Interpretasi: Nilai John adalah 0.4 standard deviations
di atas mean kelasnya.
────────────────────────────────────────────────
Z-Score Samantha:
x = 68.6, x̄ = 65, s = 3.9
z = (x − x̄) / s
z = (68.6 − 65) / 3.9
z = 3.6 / 3.9
z ≈ 0.92
Interpretasi: Nilai Samantha adalah 0.92 standard deviations
di atas mean kelasnya.
────────────────────────────────────────────────
Kesimpulan:
Meskipun nilai mentah John (75) lebih tinggi dari Samantha (68.6),
Samantha memiliki performa lebih baik relatif terhadap kelasnya
karena z-score Samantha (0.92) > z-score John (0.4).
- Standardisasi: Mengubah data dengan skala berbeda ke skala yang sama
- Perbandingan: Membandingkan nilai dari distribusi yang berbeda
- Identifikasi outlier: Nilai dengan |z| > 3 biasanya dianggap outlier
- Probabilitas: Menentukan probabilitas dengan tabel z (distribusi normal standar)
- Ranking relatif: Menentukan posisi relatif suatu nilai dalam distribusi
📝 Rangkuman Measures of Variation
🎯 Ringkasan Konsep Utama
| Ukuran | Formula | Kegunaan | Keterbatasan |
|---|---|---|---|
| Range | Max − Min | Cepat, mudah | Sensitif outlier |
| Variance (σ²) | Σ(x−μ)²/N | Basis untuk std dev | Sulit interpretasi (unit²) |
| Std Deviation (σ) | √(σ²) | Ukuran variasi standar | Sensitif outlier |
| IQR | Q₃ − Q₁ | Robust terhadap outlier | Hanya gunakan 50% data |
| Z-Score | (x−μ)/σ | Standardisasi & perbandingan | Memerlukan σ dan μ |
💡 Kapan Menggunakan Ukuran Mana?
Gunakan Range ketika:
- Butuh gambaran cepat tentang penyebaran
- Data tidak memiliki outlier ekstrem
Gunakan Standard Deviation ketika:
- Data berdistribusi normal/simetris
- Ingin ukuran variasi yang memperhitungkan semua data
- Akan menggunakan Empirical Rule
Gunakan IQR ketika:
- Data memiliki outlier atau distribusi skewed
- Ingin ukuran yang robust
- Akan membuat box plot
Gunakan Z-Score ketika:
- Membandingkan nilai dari distribusi berbeda
- Mengidentifikasi outlier
- Standardisasi data
⚠️ Kesalahan Umum yang Harus Dihindari
- Menggunakan Empirical Rule untuk distribusi non-normal
- Lupa membagi dengan (n−1) saat menghitung sample variance
- Menginterpretasikan variance tanpa mengakarkannya ke standard deviation
- Membandingkan nilai mentah dari distribusi berbeda tanpa z-score
- Mengabaikan outlier saat menghitung mean dan standard deviation

Komentar
Posting Komentar