箱线图 看法 分析法
箱形图(Boxplot)又称为箱线图、盒须图或盒式图,一种用于展示一组或多组数据分散情况的统计图。是一种能直观展示数据分布情况的统计图。它由美国统计学家约翰・图基发明。
【用途】
展示数据的集中趋势:箱线图的中位数反映数据集中趋势。若中位数在箱体中心,数据分布对称;若不在中心,则数据偏斜。
展示数据的分散程度:箱体的长度(即Q3与Q1的间距)展示了数据的分散程度,箱体长度越长,说明数据越分散。
显示异常值:箱线图延伸出去的须表示正常范围内的最大值与最小值超出正常范围的数据点则是异常值(用星号或圆点表示)。
显示数据的对称性与偏态:若箱体与须线长度均匀,数据分布对称;若须线长短不一或箱体偏斜,则数据分布呈现偏态。
箱线图主要由以下几个部分构成:
1、箱体:箱体的上下边界分别是数据的上四分位数(Q3,数据中 75% 的数值小于该值)和下四分位数(Q1,数据中 25% 的数值小于该值),箱体中间的线代表中位数(数据中 50% 的数值小于该值,反映数据的中心位置)。这个箱体包含了数据中 50% 的观测值哦!
2、须(whiskers):从箱体的上下两端延伸出来的线。上须通常连接到数据中的最大值(在没有异常值的情况下),下须连接到最小值。
上限通常延伸至最大值(或距上四分位数 1.5 倍四分位距的位置,超出部分为异常值)。下限通常延伸至最小值(或距下四分位数 1.5 倍四分位距的位置,超出部分为异常值)。
3、异常值:那些远离箱体和须的孤立数据点,通常用单独的点表示。
四分位数
箱体的底部和顶部分别表示第一四分位数(Q1)和第三四分位数(Q3),箱体的长度代表四分位数间距(IQR),反映数据的分散程度。


