一、简单线性回归的理论模型
给定一个随机样本,一个线性回归模型假设回归子Yi和回归量之间的关系可能是不完美的。我们加入一个误差项(也是一个随机变量)来捕获除了之外任何对Yi的影响。所以一个多变量线性回归模型表示为以下的形式:
其他的模型可能被认定成非线性模型。一个线性回归模型不需要是自变量的线性函数。线性在这里表示Yi的条件均值在参数β里是线性的。例如:模型在β1和β2里是线性的,但在里是非线性的,它是Xi的非线性函数。
二、什么是线性回归模型
实验数据是离散的,用一线性方程式逼近数据,此线性方程式就是线性回归模型。
三、MATLAB中多元线性回归命令 (除了regress)
二、一元线性回归
2.1.命令 polyfit最小二乘多项式拟合
[p,S]=polyfit(x,y,m)
多项式y=a1xm+a2xm-1+…+amx+am+1
其中x=(x1,x2,…,xm)x1…xm为(n*1)的矩阵;
y为(n*1)的矩阵;
p=(a1,a2,…,am+1)是多项式y=a1xm+a2xm-1+…+amx+am+1的系数;
S是一个矩阵,用来估计预测误差.
2.2.命令 polyval多项式函数的预测值
Y=polyval(p,x)求polyfit所得的回归多项式在x处的预测值Y;
p是polyfit函数的返回值;
x和polyfit函数的x值相同。
2.3.命令 polyconf 残差个案次序图
[Y,DELTA]=polyconf(p,x,S,alpha)求polyfit所得的回归多项式在x处的预测值Y及预测值的显著性为1-alpha的置信区间DELTA;alpha缺省时为0.05。
p是polyfit函数的返回值;
x和polyfit函数的x值相同;
S和polyfit函数的S值相同。
2.4 命令 polytool(x,y,m)一元多项式回归命令
2.5.命令regress多元线性回归(可用于一元线性回归)
b=regress( Y, X )
[b, bint,r,rint,stats]=regress(Y,X,alpha)
b 回归系数
bint 回归系数的区间估计
r 残差
rint 残差置信区间
stats 用于检验回归模型的统计量,有三个数值:相关系数R2、F值、与F对应的概率p,相关系数R2越接近1,说明回归方程越显著;F > F1-α(k,n-k-1)时拒绝H0,F越大,说明回归方程越显著;与F对应的概率p 时拒绝H0,回归模型成立。
Y为n*1的矩阵;
X为(ones(n,1),x1,…,xm)的矩阵;
alpha显著性水平(缺省时为0.05)。
三、多元线性回归
3.1.命令 regress(见2。5)
3.2.命令 rstool 多元二项式回归
命令:rstool(x,y,’model’, alpha)
x 为n*m矩阵
y为 n维列向量
model 由下列4个模型中选择1个(用字符串输入,缺省时为线性模型):
linear(线性):
purequadratic(纯二次):
interaction(交叉):
quadratic(完全二次):
alpha 显著性水平(缺省时为0.05)
返回值beta 系数
返回值rmse剩余标准差
返回值residuals残差
四、非线性回归
4.1.命令 nlinfit
[beta,R,J]=nlinfit(X,Y,’’model’,beta0)
X 为n*m矩阵
Y为 n维列向量
model为自定义函数
beta0为估计的模型系数
beta为回归系数
R为残差
J
4.2.命令 nlintool
nlintool(X,Y,’model’,beta0,alpha)
X 为n*m矩阵
Y为 n维列向量
model为自定义函数
beta0为估计的模型系数
alpha显著性水平(缺省时为0.05)
4.3.命令 nlparci
betaci=nlparci(beta,R,J)
beta为回归系数
R为残差
J
返回值为回归系数beta的置信区间
4.4.命令 nlpredci
[Y,DELTA]=nlpredci(‘model’,X,beta,R,J)
Y为预测值
DELTA为预测值的显著性为1-alpha的置信区间;alpha缺省时为0.05。
X 为n*m矩阵
model为自定义函数
beta为回归系数
R为残差
J
四、简单线性回归模型的每一构成项各有什么含义
一元线性回归是一个主要影响因素作为自变量来解释因变量的变化,在现实问题研究中,因变量的变化往往受几个重要因素的影响,此时就需要用两个或两个以上的影响因素作为自变量来解释因变量的变化,这就是多元回归亦称多重回归。当多个自变量与因变量之间是线性关系时,所进行的回归分析就是多元性回归。 设y为因变量X1,X2…Xk为自变量,并且自变量与因变量之间为线性关系时,则多元线性回归模型为:
Y=b0+b1x1+…+bkxk+e
其中,b0为常数项,b1,b2…bk为回归系数,b1为X1,X2…Xk固定时,x1每增加一个单位对y的效应,即x1对y的偏回归系数;同理b2为X1,X2…Xk固定时,x2每增加一个单位对y的效应,即,x2对y的偏回归系数,等等。如果两个自变量x1,x2同一个因变量y呈线相关时,可用二元线性回归模型描述为:
y=b0 +b1x1 +b2x2 +e
建立多元性回归模型时,为了保证回归模型具有优良的解释能力和预测效果,应首先注意自变量的选择,其准则是:
(1)自变量对因变量必须有显著的影响,并呈密切的线性相关;
(2)自变量与因变量之间的线性相关必须是真实的,而不是形式上的;
(3)自变量之彰应具有一定的互斥性,即自变量之间的相关程度不应高于自变量与因变量之因的相关程度;
(4)自变量应具有完整的统计数据,其预测值容易确定。
多元性回归模型的参数估计,同一元线性回归方程一样,也是在要求误差平方和(Σe)为最小的前提下,用最小二乘法求解参数。以二线性回归模型为例,求解回归参数的标准方程组为
解此方程可求得b0,b1,b2的数值。