Sắp mẫu theo thứ tự không giảm $x_{(1)} \leq x_{(2)} \leq \dots \leq x_{(N)}$:
- $N$ lẻ: $M_e = x_{(\dfrac{N+1}{2})}$.
- $N$ chẵn: $M_e = \dfrac{x_{(N/2)} + x_{(N/2 + 1)}}{2}$.
→
Trung vị ít chịu ảnh hưởng bởi giá trị ngoại lai (outliers).
Mốt là giá trị có
tần số lớn nhất trong mẫu.
- Mẫu có thể có 1 mốt (đơn mốt), 2 mốt (lưỡng mốt), hoặc nhiều mốt.
- Có thể không có mốt nếu mọi giá trị xuất hiện cùng số lần.
Mốt thường dùng cho dữ liệu định tính (màu, loại) hoặc dữ liệu rời rạc.
Chia mẫu đã sắp xếp thành 4 phần bằng nhau (mỗi phần ≈ 25% dữ liệu):
- $Q_2 = M_e$: trung vị.
- $Q_1$: trung vị của nửa dưới (các phần tử trước $Q_2$).
- $Q_3$: trung vị của nửa trên (các phần tử sau $Q_2$).
Khoảng tứ phân vị: $\Delta_Q = Q_3 - Q_1$.
$$\Delta_Q = Q_3 - Q_1.$$
Đo độ phân tán của 50% dữ liệu giữa — không bị ảnh hưởng bởi 25% nhỏ nhất + 25% lớn nhất.
Ổn định hơn $R$ và $s$ khi có ngoại lai.
Giá trị $x$ là ngoại lai nếu:
$$x < Q_1 - 1.5 \Delta_Q \quad \text{hoặc} \quad x > Q_3 + 1.5 \Delta_Q.$$
Khi mẫu có outliers → ưu tiên dùng trung vị + IQR thay cho mean + variance.
$$R = x_{\max} - x_{\min}.$$
Đo phạm vi của mẫu. Nhược điểm: nhạy với 2 giá trị cực.
Tần số tích lũy đến nhóm $i$:
$$N_i = n_1 + n_2 + \dots + n_i.$$
Cho biết có bao nhiêu phần tử $\leq$ đầu phải của nhóm $i$.
Dùng để tìm trung vị, tứ phân vị cho mẫu ghép nhóm.
Cho mẫu số liệu kích thước $N$:
- Tần số $n_i$: số lần xuất hiện của giá trị $x_i$ (hoặc số phần tử trong nhóm $i$).
- Tần số tương đối: $f_i = \dfrac{n_i}{N}$, thường tính theo %.
- $\sum n_i = N, \sum f_i = 1$.
Giá trị đại diện của nhóm $[a_i; a_{i+1})$ là trung điểm:
$$x_i = \dfrac{a_i + a_{i+1}}{2}.$$
Dùng khi tính trung bình + phương sai cho mẫu ghép nhóm — vì không có giá trị thật của từng phần tử.