最新消息:孤狼工作室文章系统正式上线!

生活微信公众号文章发布到网站以简单粗暴,但数据分析却不可以…

商机资讯 JMP数据分析 902浏览

生活中我们常常会遇到很多问题和状况是微信公众号文章采集的发生,有时我们处世有方,从容面对。有时我们可能需要用一些“简单粗暴”是微信公众号文章采集的方式去尝试解决,往往会收获出乎意料是微信公众号文章采集的惊喜。比如下面来自知乎的种种…

*图片来源于网络

上面这些“简单粗暴”的方法是不是很精彩?或者你也有似曾相识的经历?

 

“简单粗暴”在解决生活中的问题时可能会管用,但到数据分析上,可能就不那么地奏效了。

相信大多数从事数据分析的朋友都会有同感,有时候拿到一组数据,不知道该怎么分析,于是可能就会用一些“简单粗暴”的方式——把所有变量丢到软件中,一股脑去看结果。但实际上这种方法并不是非常可取的

为什么这么说呢?


这还得要从上周六(8月18日)JMP在北京王府井希尔顿酒店举办的“应用探索性数据分析EDA发现并预测疾病规律”的专题培训说起。

活动现场

这场面向公共卫生和疾病控制体系人群的专业培训,由JMP主导,并特别邀请了行业资深专家冯国双老师一起畅谈了数据分析在疾病预测方面分析的思路和方法。50多名来自医院、疾病控制、药企、高校等数据分析专业人士冒雨参加了这场座无虚席的活动。在会后的调研问卷中,大家对此次培训的满意度达到了100%,并且,所有的学员都表示:“如果下次有机会,还将参加JMP中国区的专业培训。”

入门引导培训,夯实分析基础

全天的培训从徐湛老师数据管理和数据可视化的入门操作开始,引导大家快速融入JMP软件的从数据导入、到数据清洗、再到数据探索的作业环境。JMP软件对于一些专业统计图表的简洁高效绘制,以及对中文文本分析的差异化平台支持深受现场朋友们的喜爱。

统计思维梳理,实战案例分析

下午的培训课程,冯国双老师则首先深入浅出地通过t检验、方差分析、一般线性回归和广义线性回归的大串讲,帮助大家梳理常见统计分析方法间的脉络,梳理统计思维和体系,并通过一个一般线性回归案例一个Logistic回归案例,生动鲜活地展示了用JMP软件进行数据探索和建模分析的全过程。

JMP交互性、可视化、易学易用的产品特色再次得到广大学员的认可,特别是在Logistic回归案例中,对一些看似统计意义不显著变量的灵活分箱处理,从而真正识别出自变量与因变量之间的客观规律,令学员大开眼界,广受裨益。

值得注意的是,在冯老师的培训中,就特别提到了简单粗暴的方法为什么在实际数据分析工作中往往是不可行的。

今天,小编就带你一起来回(Xué)顾(Xí)下与本次培训中冯老师授课案例近似的一个非教材的非典型线性回归的分析案例,让你也能够“坐享其成”。

什么是非教材的非典型案例?

首先,什么叫非教材的非典型案例呢?

如果我们翻一翻统计学教科书,那么大多数都会介绍线性回归,但几乎所有的案例都在告诉我们:把变量纳入统计软件,得到一个回归模型,既没有缺失值也没有异常值,更没有共线性,多么完美的数据。

但试想一下,如果你整天生活在一个没有任何困难的环境中,那么,当你遇到哪怕一点点麻烦时,都会让你不知所措。这也就是为什么很多人翻了很多遍课本,一旦遇到实际数据却仍不知如何下手。因为教科书告诉你的都是完美的数据,而现实中这种数据几乎不存在

经典实战案例 

某研究采用SF-36量表,调查了82名肺动脉高压患者的躯体健康评分,欲分析影响该人群躯体健康评分的影响因素有哪些。

案例因素

该研究调查了病程(月)、年龄(岁)、体质指数(以下简称BMI)、收缩压(sBP)、舒张压(dBP)、6分钟步行距离(米,以下简称“步行距离”)、呼吸困难Borg评分共7个因素(本例分析全部采用JMP Pro14软件实现)

此类研究很常见,不少非统计学专业人员往往采用简单粗暴的做法,即把所有变量都放到统计软件中,直接给出结果,如下图所示。

回想下,你是不是也常常这么做呢?但这里我们会采用另一种分析思路,这种思路不是唯一的,也并不一定是最好的,但确实是值得借鉴的。

1

数据探索

首先,绘制所有变量之间的散点图,顺便看一下各变量的分布情况。这一点可通过散点图矩阵来实现。

打开JMP软件的菜单:分析——多元方法——多元,将所有变量拖到Y列,如下图所示。

点击“确定”后,即可呈现下图的散点图效果!(前方高能!处女座的同志们看散点图要当心点。)


这就是传说中的“油条大饼图”!

从上图不难看出,多数变量还是呈大致正态分布的,只有病程呈明显偏态,因为大多数人的病程都较短,只有少数人的病程较长。呼吸困难评分也略显偏态,相对高分而言,低分的人数更多一些。

 

再来看变量间的关系。除各自变量与因变量之间的关系外,还可以观察各自变量之间关系的强弱。从图形直观来看,收缩压和舒张压的关系较密切(这在意料之中)。BMI与收缩压、舒张压均有一定的关系(这也可以理解),而步行距离与呼吸困难评分则大致呈负相关。从图中还可以看出,病程中可能有异常点的存在,但需要在后面进一步证实。

2

单因素分析

下面分别看一下每个自变量分别对因变量的影响情况,看看他们之间是不是线性关系,有没有明显的异常值等等。如下图所示为各自变量与因变量关系的散点图。

从图中可以更清楚地看到,病程这一变量似乎有一个异常点,收缩压似乎也有一个不是特别明显的异常点。红色菱形标记点较为明显,那该不该删除呢?

我们仔细看一下,该点的病程为200多个月,即18年的病程。对于一个61岁的人而言,18年的病程是很有可能的,而且其收缩压、舒张压等并不是很高,基本居中。因此,终认为尽管该点的值较大,但属于实际情况,不应删除

  • 再看收缩压异常的蓝色正方形标记点,不难看出,该点的收缩压和舒张压均较高,而且呼吸困难评分很高。从这一点来看,还是比较符合逻辑关系的。而且该点并没有特别偏离,因此最终也保留该点。

    事实上,删除上述两个点跟保留这两个点,结果几乎没有变化,这可以从统计学上佐证这两个点并不会影响到结果。

 

  • 再看一下自变量与因变量的关系。年龄和舒张压对躯体健康评分的影响很小,几乎看不出任何趋势,这说明这两个变量对躯体建立评分的影响几乎可以忽略不计。因此,在后续的分析中不再考虑这两个变量。这是一个好消息,因为这也顺便解决了舒张压和收缩压强相关这一问题。

  • 再看其他变量,收缩压、步行距离、BMI这三个变量应该呈较为明显的线性关系,尽管关系强弱不等;但病程和呼吸困难评分则不像直线关系,似乎都有一些前面降低快,后面降低慢的趋势。当然,仅凭散点图还不能确定,我们可以采用Box-Tidwell变换尝试一下。

    Box-Tidwell变换结果提示,病程和呼吸困难评分的λ值分别为-0.26和-1.22,舍入最近的整数,可以考虑将病程采用对数变换,将呼吸困难评分采用倒数变换。变换后的结果如下图所示。

经变换后,病程和呼吸困难评分的R方分别由原来的0.04和0.33变为0.08和0.50,这提示变换还是比较有用的。另一个好消息是,病程的P值也降低了不少。

3

多因素分析

经过前面的探索,我们大致确定,在后续的分析中,仅考虑病程(对数)、BMI、收缩压、步行距离、呼吸困难评分(倒数)这5个变量。

 

那我们是不是就把这些变量一股脑地纳入模型直接给出结果呢?下图给出了这种思路的结果。

可以看出,收缩压的结果发生了质的变化,本来应该是正向影响关系,现在参数估计值却变成了负数;病程(对数)的参数估计值从-3.31变成了-1.05;步行距离的参数估计值由0.07降到了0.02. 这些都提示模型可能有问题,因为系数变化了数倍。

当然,如果我们还记得前面提到的共线性问题,则应该想到这很可能是由于共线性造成的。尽管我们删除了收缩压,避免了收缩压与舒张压的共线性,但分析发现,剩余的这5个变量之间依然有一定的相关性,尽管其VIF值其实并不高。

根据相关系数我们不难推测,收缩压系数的改变很可能是因为它与BMI的关系太强(r=0.48,这里就不要说什么大于0.7才算强相关之类的话,有时0.3的相关就可以造成很大影响);而病程(对数)和步行距离的变化很可能是因为他们均与呼吸困难评分(倒数)有较强的相关性。

至于对共线性问题的处理,方法并不唯一,简单常规的如进一步剔除共线性因子,高阶略复杂的如岭回归、Lasso回归,偏最小二乘回归建模等等,篇幅所限,本文暂且不再予以阐述,有兴趣的朋友可以自行扩充学习。

看完上面的这个非教材的非典型线性回归案例(案例来自冯国双老师的《白话统计》),相信大家会得到一定的启发。有时候,简单粗暴的方法可能也并不适用,需要我们合理利用手边工具为己所用,以达到事半功倍的效果。

援引冯老师的一句话:“源自SAS的JMP软件凭借对统计学的深度理解,其菜单设置非常便于使用者树立自己的统计分析体系,这也是其优于一般统计分析软件的地方”。

最后,如果你也想亲自体验可以让你事半功倍的JMP软件的强大功能,欢迎下载JMP免费试用30天,你可以点击文末“阅读原文”或复制以下链接到PC浏览器免费下载:

https://www.jmp.com/zh_cn/download-jmp-free-trial.html?utm_campaign=td7011O000002OuZY&utm_source=wechat&utm_medium

JMP官方微信公众号

敏捷分析 成就无限

点击“阅读原文”,下载JMP 30天免费试用版

转载请注明:孤狼工作室 » 生活微信公众号文章发布到网站以简单粗暴,但数据分析却不可以…