
Tobit模型
Tobit模型(tobit model)是指因变数虽然在正值上大致连续分布,但包含一部分以正机率取值为0的观察值的一类模型。比如,在任一给定年份,有相当数量家庭的医疗保险费用支出为0,因此,虽然年度家庭医疗保险费用支出的总体分布散布于一个很大的正数範围内,但在数字0上却相当集中。它也被称为截尾回归模型或删失回归模型(censored regression model),属于受限因变数(limited dependent variable)回归的一种。受限因变数指因变数的观测值是连续的,但是受到某种限制,得到的观测值并不完全反映因变数的实际状态。主要包括断尾回归模型(truncated regression model)、Tobit模型(tobit model)和样本选择模型(sample selection model)等。
基本介绍
- 中文名:Tobit模型
- 外文名:Tobit Model
- 别称:截尾回归模型、删失回归模型
- 所属学科:数学(统计学)
基本概念
经典的Tobit 模型是James Tobin在分析家庭耐用品的支出情况时对Probit 回归进行的一种推广(Tobit一词源自Tobin’S Probit),其后又被扩展成多种情况,Amemiya将其归纳为Ⅰ型到Ⅴ型Tobit模型。标準的Ⅰ型Tobit回归模型如下:








用最小二乘法估计含有截尾数据的模型参数会产生偏差,且估计量是不一致的。在一定假设下可通过最大似然法估计其参数。
Tobit模型的最大似然估计
当Tohit模型的误差项满足正态性和方差齐性时,即式(1)中,
,潜变数
满足经典线性模型假定,服从具有线性条件均值的等方差常态分配。在该假设条件下,Tobit模型中对于正值即
,给定x下y的密度与给定x下
的密度一样;对于
的观测值,由于u/a服从标準常态分配并独立于丁,则


























Tobit模型的半参数估计
Tobit模型最大似然估计的一致性依赖于其潜变数模型中误差项的正态性和方差齐性,在误差项存在序列相关(serial correlation)的情况下最大似然估计仍可以保持一致性,但其异方差和非常态分配会导致
和
的不一致估计。检验Tobit模型中误差项是否服从常态分配的方法有Hausman检验、拉格朗日乘数检验和条件矩检验等。不满足常态分配时可选用替代的其他分布,如指数分布、对数常态分配和威布尔分布。但是假定一些其他的特定分布并不能有效的解决问题而且有可能使问题更糟,此时可採用一些稳健的半参数方法。


删失最小绝对离差估计CLAD(censored least absolute deviations)是Tobit模型的一种半参数估计方法,该方法假定
的中位数为0,即
,这也意味着
,如果额外假设误差项有关于0为中心的对称分布,那幺条件中位数和均数就是一致的。对于经典线性模型,最小绝对离差估计LAD(Least Absolute Deviations)通过最小化误差项的绝对值之和来获得回归係数的估计值(最小一乘估计)。在Tobit 模型中只能观测到截取的因变数y所以要对经典的LAD估计作一些改进。对任何连续随机变数Z,可以通过选择合适的b作为Z 分布的中位数从而最小化函式,
。如果
的中位数是回归自变数和未知参数的已知函式
,那幺
的样本条件中位数可以通过选择适当的
来获得,而这个
使得函式
在
处最小化。对于截取回归模型来说,很容易证明
的中位数函式
,所以CLAD估计的目标函式为















Tobit模型回归係数的含义
在实际套用中,Tobit 回归係数的解释和一般线性模型的归係数不同。它与Tobit模型中三个重要的条件期望(conditional expectation)
有关,具体应该是哪个解释取决于实际套用的目的,将这些条件期望对协变数进行求导后就是想要得到的边际效应(marginal effects)。

Tobit模型的假设检验
在Tobit 模型中可以用似然比检验检验回归係数,既适合单个自变数的假设检验又适合多个自变数的同时检验。
似然比检验基于不受约束模型和受约束模型的对数似然函式之差。其思想是,由于似然估计最大化了对数似然函式,所以去掉变数一般会导致一个较小的对数似然函式值。对数似然函式值的下降程度是否大到足以断定去掉的变数是重要的,可以通过似然比统计量和一系列临界值做出判断。似然比统计量是对数似然值之差的2倍即
为不受约束模型即含有待检因素的Tobit 模型的对数似然值,
为受约束模型即不包含待检因素的Tobit 模型的对数似然值。似然比统计量在
下服从渐近
分布,自由度为待检参数的个数q。




以上介绍中将截尾点设为0,这并不使得该模型失去一般性,事实上截尾临界点可以为
,
可以对所有的i 都是一样的,但在多数情况下随着i的特徵而变化,并且
既可以从左边截尾也可以从右边截尾还可以两边同时截尾。事实上,当误差项指定为生存时间经常服从的指数分布且为右删失时,起源于计量经济学中的Tobit模型就是医学统计学领域常用的生存分析中的一种加速失效模型(accelerated failure model)。


