
翻完近几个赛季的对阵记录,一些容易被忽略的规律开始浮现。统计学数据主要分为定性数据和定量数据,进一步可细分为名义、顺序、间隔、比率等尺度。本文结合历史交锋、主客场差异等维度,用实际样本说明不同数据类型的应用与局限。
历史交锋数据通常以时间序列形式记录,每一场比赛对应一个时间点。这种数据的核心是名义尺度(球队胜负类别)和顺序尺度(排名变化)。以皇马VS巴萨近10场交锋为例,时间序列图显示主队胜率随赛季波动,但整体维持40%左右。
胜负平属于无序分类数据(名义数据),编码为0、1、2后可直接计算频数。统计样本显示,2015-2025年期间,两队平局占比26%,主胜39%,客胜35%。这种编码方式便于后续卡方检验等统计建模。
主客场属性是典型的二分类变量。通过对500场比赛的统计,主队平均控球率51.8%,客队48.2%;主队场均射门11.2次,客队9.8次。这种分类数据常通过独立样本t检验判断差异显著性。
更细化的主客场分类可加入中立场地或气候因素,形成多分类变量。例如,将场地分为高海拔、低海拔、室内三类。统计样本显示,高海拔主场的主队胜率高出10个百分点,说明分类颗粒度影响结论。
每场比赛的进球数是离散数据(整数)。收集英超2010-2020赛季共3800场比赛,进球数分布的直方图呈右偏态,众数为2球(占比31%),平均值为2.76球。这种分布支持泊松回归模型。
场均预期进球(xG)是连续数据。以某赛季为例,主队场均xG 1.45,客队1.21。通过置信区间计算,主队xG在95%置信水平下波动范围为1.38-1.52。连续数据提供更精细的区间推断。
胜率是比例数据(比率尺度)。不同赛季样本量不同,需标准化。以近5赛季样本为例,A队累计胜率62%,但将赛季权重调整为均等后,校正胜率为59%。比例数据要求注意基期。
小样本比例波动大。取某队主客场各20场样本,主场胜率60%,客场40%,但扩大至100场后,主场胜率稳定在52%。比例数据的标准误与样本量平方根成反比。
不同数据类型蕴含信息量不同。名义数据丢失顺序信息,顺序数据忽略间距。例如,仅用胜负名义数据建模,会忽略1-0与5-0的差异。建议根据研究目的选择合适的尺度。
历史数据常存在缺失值,如早期比赛缺少射门统计。若直接删除,可能产生幸存者偏差。使用插补法(如均值填充)会改变数据类型属性,需谨慎处理。
| 数据类型 | 细分类型 | 典型例子 | 统计方法示例 |
|---|---|---|---|
| 定性数据 | 名义数据 | 胜负平编码 | 卡方检验 |
| 定性数据 | 顺序数据 | 联赛排名 | 秩和检验 |
| 定量数据 | 离散数据 | 进球数 | 泊松回归 |
| 定量数据 | 连续数据 | 预期进球xG | t检验 |
名义数据没有内在顺序,如球队名称;顺序数据有排序但间距不固定,如排名1、2、3。在历史交锋中,胜负平是名义数据,而积分排名是顺序数据。
进球数只能取整数(0,1,2...),是离散变量;控球率可取值0-100%之间的任意实数,是连续变量。在统计分析中,离散数据多用频数分布,连续数据多用密度曲线。
主客场属性本身是二分类名义数据,但涉及的表现指标(如控球率)是连续数据。常用独立样本t检验比较两组均值。
比例数据(如胜率)的方差随样本量增大而减小。小样本(如10场)的胜率可能偏离真实值,大样本(如100场)更稳定,一般要求至少30个样本。
数据由 ky.cn 整理分析
Copyright 2010 daimiao.cn. All rights reserver. 备案号:鲁ICP备10209964号
泰山岱庙版权所有 地址:山东省泰安市泰山区东岳大街191号 电话:0538-8261038
您是第397位访客
泰山景区官方售票渠道
泰山岱庙微信公众号