点球成金 数据分析「点球成金案例分析展现线性回归的那些强大功能」

来源:TVB影视大全人气:360更新:2023-04-29 02:45:25

概述

不知道大家有没有看过一部2011年制作的电影,叫做《点球成金》(钱球),它是一场有关体育分析的故事,故事讲述的是2002年8月13日至9月期间,奥克兰运动队(Oakland Athletics team)连续赢得20场比赛,创造了历史。

大部分奥克兰体育(通常称为A)在那个赛季的成功都归功于其总经理比利·比恩和前助理总经理保罗·德波德斯塔。

德波德斯塔是哈佛大学经济学系的毕业生,1999年加入A队,并迅速开始整合分析棒球统计数据以评估并和购买球员(Sabermetrics)结合起来。

在2002年的历史赛季之后,这种做法引起了人们的注意,比利比恩在赛季开始之前购买了大量价值被低估的球员以挽回主要球员离开的损失。由于奥克兰田径运动预算紧张,比利采用了德波德斯塔正在研究的方法,以购买被低估的球员,从而使得更加符合加利福尼亚球队的工资单。

布拉德皮特扮演比利比恩和乔纳希尔作为保罗·德波德斯塔在电影《点球成金》中的对手

本文尝试重新创建保罗·德波德斯分析的部分内容,以展示最简单的监督学习技术(线性回归)的强大功能。

免责声明

此分析与麻省理工学院edX 分析边缘课程中的案例研究非常相似。然而,选择这篇文章的编程语言是Python,而不是上述中使用的R。

线性回归

线性回归是机器学习中的监督学习算法,它源于统计学原理。主要用于模拟解释变量(通常为y)与一个或多个由X表示的独立变量之间的关系。当只有一个独立变量用于预测y时,它被称为简单线性回归或线性回归,而当是多个独立变量,它被称为多重线性回归。

称为回归系数的β项是指x变量和因变量y之间的关系。让我们用一个例子来说明这一点。

方程:

房屋价格 = $ 50000 1.35×(房屋面积,平方英尺) ε

上面的等式是一个回归函数的例子,用于确定房屋的面积,单位为平方英尺。

1.35β的值是表示在房子的每1平方英尺大小的增加,价格增加1.35美元。如果β的值是-1.35,那么表示的是每1平方英尺房子大小增加,会有一个1.35美元的单位房子的价格下降。

误差项ε用于表示Y的实际值和预测值之间的残差或差值。它告诉我们如何远离我们的预测与实际价值。

残差公式:

ε= y  -  ŷ

其中y代表实际值,ŷ代表我们模型预测的y的值。

用一个独立变量绘制简单线性回归图。

这里不会详细讨论如何计算β值,以及如何优化模型。相反,让我们直接进入模型构建框架。

数据集

使用的数据集是来自baseball-reference.com的Kaggle的Moneyball数据集。

探索数据

数据使用panda库读入python。

我们需要在这里定义一些术语:

RA代表允许运行。

RS代表比分得分。

OBP代表基本百分比。

SLG表示重击率。

BA是击球率。

OOBP是对手的OBP。

OSLG是对手的SLG。

W代表该赛季的胜数。

增加一个新的变量RD作为RS和RA之间的差异。

此外,我们只会保留<2002年的记录,以便在2002之前复制数据。

我们将使用图表来发现关于数值变量分布的见解。

直方图的数值特征

注意到所有四个特征(变量)近似正态分布。在这两种运行状态下,运行得分和允许运行图似乎都向左倾斜。运行得分图的尾部似乎比允许运行的图更厚。

根据保罗·德波德斯塔在该片段中的角色,A为了在2002年进入季后赛至少需要赢得99场的胜利。让我们试着将这种见解形象化。

从上面的图中我们可以看到保罗·德波德斯塔对99胜的估计是有道理的,因为看起来只有3个观测值(红色)没有进入季后赛,超过99胜出。

保罗·德波德斯塔还计算出A的得分至少为814分,并且只有645分才能进入季后赛。这意味着运行的得分和运行之间的差异需要约为169(RD)。让我们看看RD和胜率之间的关系。

我们可以清楚地看到两个变量之间的关系是线性的。

此外, RD和胜场数之间有较强的相关性,为0.9385。

因此,我们的探索性数据分析证实DePodesta的估计已经出现。在下一部分研究中,我们将建立回归模型以进一步验证DePodesta的分析。

未完待续,请继续关注我们的第2部分。

最新资讯


Copyright © 2010-2022