如何称大象体重?
得把统计各种概念串起来,便于理解,就写了下面的小故事。
———————————————————
从前,王尼玛捡了一只大象,翠花问了王尼玛一个问题:大象有多长?
首先,王尼玛就想到,让大象把鼻子伸直,尾巴伸直,量了鼻尖到尾末的长度。最大值-最小值,这叫极差。
但是,王尼玛发现了一个问题:大象的鼻子和尾巴太长、太细了,把它两的长度也算到大象的长度里,似乎不大合适。所以,得把鼻子和尾巴的长度去掉。
把大象的长度分成100段,鼻尖是第一个百分位(percentile),尾末是最后一个百分位。鼻子和尾巴正好占了5份。
那么,就是P95-P5=SPAN,这叫跨度。
然后,翠花又提了一个问:大象有多粗?
王尼玛就想到,把大象身长分4份,量3次。大象的腰围正好是身子的正中间,这叫中位数。王尼玛量完了腰围,发现大象并不是一个规则的圆柱体,全身有粗有细,大象的粗度是一个分布。那,怎么回答翠花的问题呢?
王尼玛想到,画一个把大象等比例缩小画出来,画画水平太臭了,只能用矩形画,图行里画出第一个四分之一大象脖子的粗细,第三个四分之一屁股的粗细,腰的位置,还有鼻子和尾巴这两个异常值。这叫盒形图。
但别人问,大象有多粗,不能每次都画图,还是得给出数字。
王尼玛把4个数直接求了一个平均值。
王尼玛又发现了一个问题,他只量了4次,是在抽样。大象是个流线型的,永远也量不完。通过抽样算出来的平均值是有误差的。
王尼玛想知道,误差有多大?
王尼玛很勤奋,又量了100次,求得了平均值x。又把这100个数求了标准差σ。抽样误差用标准误差SE来表述,抽样的平均值和SE都符合一个正态分布。
标准误差SE=σ/√100
王尼玛决定,有95%的概率,大象的粗细=x±1.96SE。这叫大象体长(总体)95%的置信区间。
翠花又问:大象的粗细跟体长有关系吗?
王尼玛就又捡了50只大象,量出了每一只大象的粗细x和体长y。然后算了二者的协方差和平方差
协方差/平方差得到一个系数,这叫相关系数。发现答案是0.9。
王尼玛给出了答案,大象的粗细跟体长有关系。
翠花又问:大象的粗细和体长有什么关系?
王尼玛就把x和y放在一个散点图里,画了条直线,尽可能的在x和y的中间。然后算出了这条直线的方程,这叫线性回归
y0=β0+β1X
但是真正的y和算出来的y(拟合值),还是有个差值,这叫残差。残差是x是解释不了的部分。
王尼玛给出了答案,大象的体长每胖一个单位,长增加β1个单位。
翠花又问:那这个方程到底解释了大象体长变化原因的多少程度?
王尼玛想到了下面的方程
y的偏差平方和=拟合值的偏差平方和+残差的偏差平方和
SST=SSR+SSE
R平方=SSR/SST,解释了多少Y的变化
至此,大象的称完了。
本网站文章仅供交流学习 ,不作为商用, 版权归属原作者,部分文章推送时未能及时与原作者取得联系,若来源标注错误或侵犯到您的权益烦请告知,我们将立即删除.