100字范文,内容丰富有趣,生活中的好帮手!
100字范文 > 真实世界研究:自变量是定量数据 怎么构建回归模型?

真实世界研究:自变量是定量数据 怎么构建回归模型?

时间:2023-09-04 05:10:53

相关推荐

真实世界研究:自变量是定量数据 怎么构建回归模型?

如何分析真实世界研究数据”系列(七)

回归分析,无论是线性、logistic、还是COX回归,自自变量的变量类型不受限制,可以是定量数据、也可以是二分类、无序多分类、或者有序多分类数据。那么问题来了,当自变量是定量数据的时候,回归分析怎么处理?

估计懂一点回归分析的朋友们会蒙。自变量是定量数据不是最好处理吗?直接放入模型不就得了,分类数据才麻烦呢!是不是这样呢?

一、研究案例

一项基于孕妇的出生队列,研究希望探讨低出生体重婴儿的影响因素。结果变量为是否娩出低出生体重儿,为二分类的结果,考虑的影响因素有产妇妊娠前体重、产妇年龄、种族、是否饮酒、早产次数、是否患高血压等。

统计分析方法:是否发生低出生体重为应变量,其余是自变量,可构建logistic回归开展影响因素分析。

二、定量自变量的直接纳入法分析

本案例有不少是定量数据,包括产妇年龄、产妇体重、本次妊娠次数、随访次数等。那么开展logistic回归时,是不是把定量数据直接放入回归模型就完事了呢?

从理论上来讲,回归分析时,自变量是定量数据,模型解释起来最直接,最容易理解、最容易解释。根据公式:

自变量X对Y的影响,可以表现为X每增加一个单位,Y改变的量。这里也只有X是定量数据时,才能说增加或者减少。

比如开展年龄与结局的单因素回归分析,直接年龄这一变量时,发现年龄对出生结局的影响存在,年龄越大,出生结局越差(OR=1.083,P=0.003)。该结果可以解释为:年龄每增加1岁,风险系数增加0.083倍。

类似的是产妇早产次数。本次妊娠前早产次数的影响是OR=2.680,P<0.001; 说明妊娠前早产次数越多,本次低出生儿的可能性越大。早产次数每增加1次,风险提高1.68倍!

看起来操作简单、理解起来容易,但这里我告诉诸位,自变量是定量数据时,回归模型最难建!

为什么?

当自变量是二分类变量时,回归操作显然最简单!

当然自变量是无序二分类变量时,操作方法同样直接,直接设置哑变量即可!

当自变量是有序多分类变量时,一般也设置哑变量居多。

但当自变量是定量数据时,情况变得较为复杂。定量自变量纳入回归模型的方式有不少, 其中包括直接放入法、转成有序多分类方法、转为二分类法、转成多分类后哑变量操作法。其它的考虑还包括,数据是不是和结局变量存在着线性关系?转为分类数据,到底按照什么原则来转换呢?转为几类呢?哑变量设置时,对照组是谁呢?

真心累!

三、关键问答

现在,郑老师以问答的形式,解决几个关键疑惑!

Q1:回归分析中,定量自变量的分析首选是不是直接以定量的形式纳入回归方程,比如年龄、早产次数?

郑老师:主要研究指标(关键自变量)不推荐,其它指标推荐。

关键自变量不推荐的原因如下:

第一,很多定量数据与结局的关联性不是线性关系,而上述介绍X每增加一个单位Y改变的量,就毫无意义!X每增加一个单位,Y改变的量是一个平均值,只有在线性关系上,才有价值。

第二,很多自变量像年龄这样,即便是线性关系成立,一个单位年龄改变的量(一岁)很小,没有任何的临床意义。

Q2:回归分析中,定量数据的转成二分类合适还是多分类?

郑老师:比如年龄可否转成(<30,>=30)二分类资料?早产数可否转成(0次,=>1次)?

这种方法不是说有错,但是过于简单粗暴,会损失很多信息,不值得推荐,特别是主要研究指标,一般可转为有序多分类变量,比如早产次数转换成0次、1次、2-3次、3次及以上。由于早产次数越多,人群数量越少,因此往往是不等间距转为有序多分类变量。

Q3:回归分析中,转换成多分类数据可以不设置哑变量分析吗?现在有一个自变量为随访次数,数据分布如下,请问如何进行转换分析?

郑老师:毫无疑问,孕产妇随访次数的数据,最好还是转为多分类的数据。由于3、4、5、6次过少,推荐转为0次、1次、>=2次三分类。

转换后的自变量随访次数1,仍然有两种操作思路:

一方面,可以继续按照定量数据的思路来进行,直接纳入有序多分类自变量进入模型。那么就是早产次数每增加一个级别,低出生体重改变的量,也就是说从0次到1次,从1次到2次及以上,平均减少风险1-0.574,或者42.6%。

但是,这里需要警告的是:第一,0次,1次,2次及以上,随着随访次数的增加,与结局的线性关系是否成立;第二,由于该等级资料级别不等距,等级每增加1次的说法是否合适?

鉴于上述两个需要警惕的问题,很多时候我们可以设置对照组,进行哑变量分析。比如将0次作为对照,分别让1次与0次比较、2次及以上与0次比较得到的以下结果:

这样的结果较容易解释,也无可挑剔。

Q4:综上所述,回归分析中定量自变量分析的正确姿势是什么?

郑老师: 经过裹脚布一样又长又臭的铺垫后,现在公布定量自变量分析的正确姿势:

第一,定量数据,如果非关键指标,可以直接作为定量数据进行分析,省却转换麻烦。

其次,关键指标定量自变量推荐进行多分类转换,转换界值一般是具有临床意义的界值。如果没有,也可以按照四分位数界值进行转换。

第三,转换为有序多分类后,要从两个角度开展分析,一方面,设置哑变量进行分析;另一方面,开展趋势性检验,探讨自变量X对Y的线性影响(下一篇文章着重进行介绍)

第四、如果数据本身就是有序多分类的指标,同样可以按照第三点进行。

本讲就到这里,下一讲介绍趋势性检验。

“如何分析真实世界研究数据”系列更多文章

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。