专注苹果竞价广告(ASM)研究
App Store Search Ads

TalkingData:回归分析在游戏分析中的应用(一)

上一篇文章介绍了相关分析,相关系数描述了变量之间的相关程度,通过显著性检验后,我们也找到了有统计意义的相关性比较大的变量。今天就通过线性回归将这些关联性强的变量建立数学模型,研究一下当一个变量(自变量)变化时,另一个变量(因变量)是如何变化的,以及变化多少的问题。

首先了解一下什么是因变量和自变量?在数据分析中往往涉及到多个变量,在这些变量中,有一个变量是特别关注的,则称为因变量。其它变量则看成影响这一变量的因素,称为自变量。

上篇文章的例子来看,日收入与付费人数有比较强的相关性,相关系数是0.954,具有显著性。下面通过SPSS画出收入和付费人数的散点图:从散点图来看,收入是随着付费人数的变化而变化的,有一定的线性关系。接下来进行回归分析,选择分析->回归->线性。运行结果中包含5个表两个图,我们摘取其中三个重要的表看一下

R即是上一篇文章介绍的相关系数。R2是判定系数,反映回归方程的拟合程度,取值范围在[0,1]之间。

R2->1说明回归方程拟合的越好;
R2->0说明回归方程拟合的越差;

由这个回归系数表看出,回归系数通过T检验,P值远小于0.05,说明是显著的(在《相关分析在游戏中的应用》这文章也有提到)。从这个表即可得到回归方程y(收入)=-144.2+3.55×x(付费人数)。

由表二可知,回归系数可以做显著性检验,同样,回归方程也可以做显著性检验,从表三看出F检验P值为0.000,远小于0.05.说明回归方程也是显著性的。

其实,在散点图上也可以画出回归直线和回归方程,双击散点图->添加总计拟合线即可如下图。

通过前面的分析可知回归方程和回归系数都是显著的,那么接下来的预测就是可靠的。假如有500个付费用户,根据回归方程y(收入)=-144.2+3.55×x(付费人数)得到收入大概是1631元。有时候要分析的变量中,可能会遇到离群值,离群值是落在置信区间外的点,比如有个大鲸鱼用户一次充了10w,可能造成当天的收入异常的高。在做回归分析中,为了提高回归方程的拟合程度,可以将这些点忽略掉。

本文讲的是最简单的一元线性回归做初步了解,除了一元线性回归还包括多元线性回归和多项式回归等,后面的文章会再探讨。

本文由TalkingData授权APPYING发表,APPYING做了适当润色以增强可读性,转载此文章须经作者及APPYING同意,并请附上本文来源(APPYING)及本文链接。

本文由 APPYING 原创发布,转载请注明来源及本文链接。
APPYING » TalkingData:回归分析在游戏分析中的应用(一)

分享到:更多 ()

留言交流 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址