新闻资讯
看你所看,想你所想

Tobit模型

Tobit模型

Tobit模型

Tobit模型(tobit model)是指因变数虽然在正值上大致连续分布,但包含一部分以正机率取值为0的观察值的一类模型。比如,在任一给定年份,有相当数量家庭的医疗保险费用支出为0,因此,虽然年度家庭医疗保险费用支出的总体分布散布于一个很大的正数範围内,但在数字0上却相当集中。它也被称为截尾回归模型或删失回归模型(censored regression model),属于受限因变数(limited dependent variable)回归的一种。受限因变数指因变数的观测值是连续的,但是受到某种限制,得到的观测值并不完全反映因变数的实际状态。主要包括断尾回归模型(truncated regression model)、Tobit模型(tobit model)和样本选择模型(sample selection model)等。

基本介绍

  • 中文名:Tobit模型
  • 外文名:Tobit Model
  • 别称:截尾回归模型、删失回归模型
  • 所属学科:数学(统计学)

基本概念

经典的Tobit 模型是James Tobin在分析家庭耐用品的支出情况时对Probit 回归进行的一种推广(Tobit一词源自Tobin’S Probit),其后又被扩展成多种情况,Amemiya将其归纳为Ⅰ型到Ⅴ型Tobit模型。标準的Ⅰ型Tobit回归模型如下:
式(1)中,
是潜在应变数,潜变数大于0时被观察到,取值为
,小于等于0时在0处截尾,
是自变数向量,
是係数向量,误差项
独立且服从常态分配:
。该模型也可以作如下简化表达:
用最小二乘法估计含有截尾数据的模型参数会产生偏差,且估计量是不一致的。在一定假设下可通过最大似然法估计其参数。

Tobit模型的最大似然估计

当Tohit模型的误差项满足正态性和方差齐性时,即式(1)中,
,潜变数
满足经典线性模型假定,服从具有线性条件均值的等方差常态分配。在该假设条件下,Tobit模型中对于正值即
,给定x下y的密度与给定x下
的密度一样;对于
的观测值,由于u/a服从标準常态分配并独立于丁,则
因此如果
是来自总体的一次随机抽取,则在给定
的密度为:
式中,
是标準正态密度函式。从中得到每个观测i的对数似然函式:
通过将上式对i求和,就可以得到容量为n的一个随机样本的对数似然函式,即
该式由两部分组成,一部分对应于没有限制的观测值,是经典回归模型部分;一部分对应于受到限制的观测值。这是一个非标準的似然函式,它实际上是离散分布与连续分布的混合。通过对上式极大化,就可以得到
的最大似然估计值。该对数似然函式的求解比较棘手,因为Tobit 模型的对数似然函式对原参数
不是全局凹的(global concavity)。对该似然函式进行再参数化,可使得估计过程更为简单,并且再参数化后的对数似然函式是全局凹的。令
对数似然函式变为
对上式极大化,由于Hessian矩阵始终是负正定的,所以不管初始值是什幺,只要叠代过程有一个解,则这个解就是似然函式的全局最大化解。套用牛顿法求解时较为简单,且收敛速度快,得到
的估计量后,再利用
求得原参数估计量。这些估计量的渐近协方差矩阵可以从估计量
中得到。

Tobit模型的半参数估计

Tobit模型最大似然估计的一致性依赖于其潜变数模型中误差项的正态性和方差齐性,在误差项存在序列相关(serial correlation)的情况下最大似然估计仍可以保持一致性,但其异方差和非常态分配会导致
的不一致估计。检验Tobit模型中误差项是否服从常态分配的方法有Hausman检验、拉格朗日乘数检验和条件矩检验等。不满足常态分配时可选用替代的其他分布,如指数分布、对数常态分配和威布尔分布。但是假定一些其他的特定分布并不能有效的解决问题而且有可能使问题更糟,此时可採用一些稳健的半参数方法。
删失最小绝对离差估计CLAD(censored least absolute deviations)是Tobit模型的一种半参数估计方法,该方法假定
的中位数为0,即
,这也意味着
,如果额外假设误差项有关于0为中心的对称分布,那幺条件中位数和均数就是一致的。对于经典线性模型,最小绝对离差估计LAD(Least Absolute Deviations)通过最小化误差项的绝对值之和来获得回归係数的估计值(最小一乘估计)。在Tobit 模型中只能观测到截取的因变数y所以要对经典的LAD估计作一些改进。对任何连续随机变数Z,可以通过选择合适的b作为Z 分布的中位数从而最小化函式,
。如果
的中位数是回归自变数和未知参数的已知函式
,那幺
的样本条件中位数可以通过选择适当的
来获得,而这个
使得函式
处最小化。对于截取回归模型来说,很容易证明
的中位数函式
,所以CLAD估计的目标函式为
由于该函式是连续的,最小值总是存在,但最小化可能产生不唯一的
值。CLAD估计具有一致性,并且有渐近的常态分配,由于最小化的函式不是连续可微的,所以该估计量的计算较複杂。Buchinsky 建议用叠代线性规划算法ILPA(the iterative linear programming algorithm)来获得CLAD 的估计量。由于CLAD 估计允许误差项可以为更广泛的分布,包括非对称分布,当Tobit模型的某些有关分布的假设不成立时,,蒙特卡罗模拟证据表明它表现良好,对异方差也稳健。Deaton指出当有异方差性时,小样本情况下,CLAD估计有大的标準差,而似然估计在小样本中儘管有偏倚,但它的标準差较小。所以对于小样本来说似然估计是比较好的,而CLAD估计随着样本含量的增大比较适用。

Tobit模型回归係数的含义

在实际套用中,Tobit 回归係数的解释和一般线性模型的归係数不同。它与Tobit模型中三个重要的条件期望(conditional expectation)
有关,具体应该是哪个解释取决于实际套用的目的,将这些条件期望对协变数进行求导后就是想要得到的边际效应(marginal effects)。

Tobit模型的假设检验

在Tobit 模型中可以用似然比检验检验回归係数,既适合单个自变数的假设检验又适合多个自变数的同时检验。
似然比检验基于不受约束模型和受约束模型的对数似然函式之差。其思想是,由于似然估计最大化了对数似然函式,所以去掉变数一般会导致一个较小的对数似然函式值。对数似然函式值的下降程度是否大到足以断定去掉的变数是重要的,可以通过似然比统计量和一系列临界值做出判断。似然比统计量是对数似然值之差的2倍即
为不受约束模型即含有待检因素的Tobit 模型的对数似然值,
为受约束模型即不包含待检因素的Tobit 模型的对数似然值。似然比统计量在
下服从渐近
分布,自由度为待检参数的个数q。
以上介绍中将截尾点设为0,这并不使得该模型失去一般性,事实上截尾临界点可以为
可以对所有的i 都是一样的,但在多数情况下随着i的特徵而变化,并且
既可以从左边截尾也可以从右边截尾还可以两边同时截尾。事实上,当误差项指定为生存时间经常服从的指数分布且为右删失时,起源于计量经济学中的Tobit模型就是医学统计学领域常用的生存分析中的一种加速失效模型(accelerated failure model)。

转载请注明出处海之美文 » Tobit模型

相关推荐

    声明:此文信息来源于网络,登载此文只为提供信息参考,并不用于任何商业目的。如有侵权,请及时联系我们:ailianmeng11@163.com