馬海飛,肖鴻民,趙弘宇
(西北師范大學(xué) 數(shù)學(xué)與統(tǒng)計學(xué)院,甘肅 蘭州 730070)
死亡率、出生率和移民是決定人口規(guī)模、結(jié)構(gòu)和分布變化的主要因素.近幾十年來, 隨著社會經(jīng)濟(jì)的不斷發(fā)展和醫(yī)療水平的進(jìn)一步提升, 人口死亡率逐漸降低, 致使老齡化問題越來越嚴(yán)重.人均壽命的不斷提高, 可能會使壽險公司和養(yǎng)老金機(jī)構(gòu)在終身年金業(yè)務(wù)上面臨巨大的損失, 進(jìn)而影響整個社會經(jīng)濟(jì)的發(fā)展.因此, 在未來長期以及中短期規(guī)劃中, 人口預(yù)測是至關(guān)重要的.
死亡率預(yù)測作為一個重要的人口因素, 被廣泛應(yīng)用于各個領(lǐng)域.尤其是對于壽險企業(yè)而言, 為了最大化利潤, 同時成功避免可能的風(fēng)險, 養(yǎng)老金計劃和人壽保險產(chǎn)品的定價需要準(zhǔn)確預(yù)測未來死亡率,這促使研究人員不斷地調(diào)查人口數(shù)據(jù)、建立預(yù)測模型、擬合模型和預(yù)測未來死亡率.近幾十年來, 死亡率預(yù)測技術(shù)有了很大的發(fā)展和提高.在國外, Lee等(1992)[1]提出的Lee-Carter模型, 是一種將人口統(tǒng)計模型和時間序列聯(lián)系起來的對數(shù)雙線性模型.Renshaw等(2006)[2]在Lee-Carter模型的基礎(chǔ)上加入了出生年效應(yīng), 首次提出了RH模型并將其應(yīng)用到英格蘭和威爾士男性死亡率預(yù)測中.Cairns等(2011)[3]通過對6個隨機(jī)死亡率模型的分析, 發(fā)現(xiàn)要從擬合和預(yù)測兩個方面來判定一個模型的合理性.Li等(2013)[4]運用擴(kuò)展的Lee-Carter方法對美國和日本死亡率數(shù)據(jù)進(jìn)行擬合與預(yù)測.Enchev等(2017)[5]利用6個國家的死亡率數(shù)據(jù)對共同年齡效應(yīng)(CAE)等隨機(jī)死亡率模型的擬合效果進(jìn)行比較, 通過模型預(yù)測發(fā)現(xiàn)CAE模型最優(yōu).Li等(2019)[6]運用一個新的雙人口死亡率預(yù)測模型對比利時、瑞典、瑞士和英國4個國家的高齡死亡率數(shù)據(jù)進(jìn)行了擬合與預(yù)測.在國內(nèi)研究中, 李志生等(2010)[7]運用Lee-Carter模型對中國人口死亡率數(shù)據(jù)進(jìn)行擬合和預(yù)測, 之后黃順林等(2010)[8]運用RH模型對中國男性人口死亡率進(jìn)行了預(yù)測,并將其應(yīng)用到預(yù)期壽命和年金系數(shù)的估計中.韓猛等(2010)[9]對Lee-Carter模型進(jìn)行了改進(jìn),通過一個雙隨機(jī)過程對Lee-Carter模型中的時間項進(jìn)行建模.曾燕等(2016)[10]采用Bootstrap方法與Lee-Carter模型擬合死亡率數(shù)據(jù),運用帶漂移項的隨機(jī)游走模型進(jìn)行預(yù)測.曹園(2018)[11]用Lee-Carter模型對中國人口死亡率進(jìn)行預(yù)測后,根據(jù)預(yù)測的死亡率數(shù)據(jù)對中國人口平均預(yù)期壽命進(jìn)行計算.樊毅和張寧等(2018)[12]基于中國人口死亡率數(shù)據(jù), 對8個死亡率經(jīng)典模型進(jìn)行了比較分析, 發(fā)現(xiàn)APC模型對中國人口死亡率的擬合效果最優(yōu).王曉軍等(2019)[13]運用臺灣高齡人口死亡率數(shù)據(jù)對貝葉斯分層模型等8種死亡率模型進(jìn)行了比較分析, 最后通過擬合中國大陸人口數(shù)據(jù), 發(fā)現(xiàn)CBD模型對我國大陸地區(qū)高齡死亡率的擬合和預(yù)測較好.
到目前為止, 關(guān)于中國人口數(shù)據(jù)的死亡率模型研究, 都依賴于LC和APC等幾個常見的隨機(jī)死亡率模型, 模型可選擇性受到約束.本文的主要工作是對APC模型進(jìn)行擴(kuò)展, 提出一個新的死亡率模型——EPAC(Extended Age-Period-Cohort), 通過比較模型的擬合效果和預(yù)測效果, 并對其穩(wěn)定性進(jìn)行檢驗, 發(fā)現(xiàn)EAPC模型更適合于擬合和預(yù)測中國的人口死亡率.在論文第二部分將介紹EPAC模型, 第三部分對新模型的擬合效果的與LC和APC進(jìn)行比較分析, 第四部分是預(yù)測效果的比較分析.
在理論研究上比較成熟且出現(xiàn)最早的隨機(jī)死亡率模型是Lee and Carter(1992)提出的Lee-Carter模型, 將死亡率的變動跟年齡因子和年份因子結(jié)合在一起, 簡記為LC模型.具體形式如下:
lnmx,t=αx+βxkt+εx,t.
(1)
其中,mx,t表示時間為t年齡為x歲人群的中心死亡率;αx為依賴年齡因子的參數(shù),表示x歲人口對數(shù)死亡率的平均數(shù);βx表示年齡因子對時間的敏感度;kt反映死亡率隨時間t的變化程度,通常稱為死亡指數(shù),可以看成一個ARIMA過程或隨機(jī)游走過程;εx,t為隨機(jī)誤差項.
Currie(2006)提出了一個帶出生年效應(yīng)的死亡率模型,即Age-Period-Cohort模型(APC模型),其具體形式如下:
lnmx,t=αx+kt+γt-x.
(2)
其中,γt-x是一個出生年效應(yīng), 表示出生年(t-x)對死亡率的影響, 其他符號與參數(shù)意義同前文相同.
(3)
對上述隨機(jī)死亡率模型進(jìn)行參數(shù)估計時, 都假定死亡人數(shù)Dx,t服從參數(shù)為λx,t的泊松分布,λx,t=mx,tEx,t,即
Dx,t~Possion(mx,tEx,t).
(4)
其中,Dx,t表示年齡為x時間為t的死亡人數(shù),Ex,t表示年齡為x時間為t的平均暴露人數(shù).對于一個給定的模型, 用θ來代表待估計的參數(shù)向量, 符號mx,t擴(kuò)展成mx,t,θ來代表參數(shù)之間的依賴性.對于所有的模型都可以通過極大似然估計方法進(jìn)行參數(shù)估計,其對數(shù)似然函數(shù)形式如下:
L(θ,D,E)=∑x,t[Dx,tln(Ex,tmx,t,θ)-Ex,tmx,t,θ]+constant.
(5)
最后運用牛頓迭代法得到各參數(shù)的估計值, 牛頓迭代公式如下:
(6)
(7)
(8)
(9)
本文采用的原始數(shù)據(jù)來源于1996-2018年的《中國人口統(tǒng)計年鑒》.對于選取的連續(xù)23年的中國人口0~90歲死亡率數(shù)據(jù), 由于大部分日歷年數(shù)據(jù)的末組都為90+(90歲及以上用90+表示),所以本文的年齡上限設(shè)為90,其中1996年數(shù)據(jù)的最高年齡是85歲以上,對于數(shù)據(jù)不足90+的部分,用均值插值法進(jìn)行補(bǔ)充處理,對1995,2000,2005和2010年數(shù)據(jù)中100歲以上(包括100歲)的部分進(jìn)行合并處理.根據(jù)這些數(shù)據(jù)繪制了分年齡死亡率圖, 見圖1.
圖1 1995-2017年中國人口死亡率圖
從圖1可以看出, 死亡率隨著年齡的增長呈現(xiàn)出先降低再逐漸上升的趨勢.同時, 隨著時間的推移, 每個年齡的死亡率表現(xiàn)出降低的趨勢, 這說明死亡率在逐漸改善, 不過改善程度在不同年齡存在較大的差異, 接下來將利用隨機(jī)死亡率模型對上述死亡率數(shù)據(jù)進(jìn)行擬合與預(yù)測.
在上述數(shù)據(jù)中選取1995-2014年的死亡率數(shù)據(jù), 結(jié)合式(6)分別對LC模型、APC模型和EAPC模型的參數(shù)進(jìn)行估計, 結(jié)果如圖2所示.
圖2 LC模型、APC模型和EAPC模型參數(shù)估計圖
圖3是LC模型、APC模型和EAPC模型擬合的殘差圖.總的來看, 3個模型都較好地捕捉到了年齡效應(yīng)和時間效應(yīng), APC模型和EAPC模型捕捉到了出生年效應(yīng), LC模型中出生年效應(yīng)的殘差有輕微的波動, 說明該模型未能較好地捕捉出生年效應(yīng).所以從模型擬合的殘差圖可以看出, APC模型和EAPC模型的擬合效果相對較好.
圖3 LC模型、APC模型和EAPC模型的殘差圖
為了更直觀地比較模型擬合的效果, 定義絕對擬合誤差(Absolute Fitting Error, AFE)為死亡率擬合值與實際死亡率差的絕對值之和, AFE的定義式如下:
(10)
表1給出了3個死亡率模型的絕對擬合誤差及其AIC和BIC值, 其中APC模型的絕對擬合誤差為3.7863, LC模型的擬合誤差比APC模型的絕對擬合誤差大, EAPC模型的絕對擬合誤差為3.7817, 略低于APC模型的擬合誤差值.從另一方面來看, LC模型的AIC和BIC信息值分別為17469.39和18570.71, 而APC模型和EAPC模型的信息值均低于LC模型的信息值.由此可見, APC模型和EAPC模型的擬合效果較好.
表1 死亡率模型的AFE、AIC和BIC值
APC模型和EAPC模型中死亡率的動態(tài)變化受時間指數(shù)和出生年指數(shù)的影響, 因此預(yù)測未來死亡率需要使用時間序列的處理方法進(jìn)行建模.對于上述兩種模型的時間因素kt, 使用帶漂移項的隨機(jī)游走過程進(jìn)行擬合, 而對于出生年效應(yīng)γt-x, 假設(shè)它獨立于kt,服從一個ARIMA過程.圖4是APC模型和EAPC模型參數(shù)kt和γt-x未來3年的預(yù)測值.
圖4 APC模型和EAPC模型參數(shù)kt和γt-x的預(yù)測值
將上述序列kt和γt-x的預(yù)測值分別代入式(2)和(3)中, 可以得到2015-2024年中國人口死亡率預(yù)測值.選取2016年和2017年的死亡率預(yù)測值與真實值做對比, 結(jié)果如圖5所示.從圖中可以看出, APC模型與EAPC模型在65歲以下的死亡率預(yù)測值與真實值非常接近, 預(yù)測效果較好.但在65歲以上的高年齡組中, 兩個模型的死亡率預(yù)測值均略高于真實值, 這是由于本文所用數(shù)據(jù)截至90+,對原始數(shù)據(jù)中更高年齡組,用合并的方式重新計算了死亡率數(shù)據(jù),故存在少量偏差.
圖5 2016和2017年死亡率預(yù)測值與真實值對比
為了更直觀地比較上述兩種死亡率模型在高年齡組的預(yù)測效果, 根據(jù)2015-2017年APC模型和EAPC模型的死亡率預(yù)測值, 作出年齡分別為65歲、75歲和85歲時, 死亡率預(yù)測值與真實值的對比圖, 如圖6所示.從圖中可以看出, 在高年齡組中, EAPC模型的曲線介于真實值與APC模型的曲線之間, 也就是說EAPC模型的預(yù)測值更接近真實值, 所以 EAPC模型的預(yù)測效果較好.
圖6 65,75和85歲死亡率預(yù)測值與真實值對比
從上述各方面來看, EAPC模型表現(xiàn)較好, 不過還需對其進(jìn)行穩(wěn)定性檢驗, 需要比較用1995-2014年的數(shù)據(jù)擬合得到的預(yù)測結(jié)果和用1999-2014年的數(shù)據(jù)擬合得到的預(yù)測結(jié)果.如果模型是穩(wěn)定的, 那么減少4年的數(shù)據(jù)不會對預(yù)測結(jié)果產(chǎn)生太多影響.本文用這兩組數(shù)據(jù)估計了EAPC模型在x=0, 15, 65, 90歲情況下的死亡率預(yù)測值(見圖7).根據(jù)1995-2014年數(shù)據(jù)估計出來的預(yù)測值記為EAPC, 根據(jù)1999-2014年數(shù)據(jù)估計出來的預(yù)測值記為EAPC*.
從圖7可以看出, 死亡率預(yù)測值隨著時間的推移而逐漸下降, 說明死亡率隨著年份的變化逐漸改善, 符合人口死亡率數(shù)據(jù)變化的趨勢.而且,EAPC模型使用兩組不同的數(shù)據(jù)在4個年齡上得到的預(yù)測值非常相似, 沒有明顯變化, 這說明這個模型在預(yù)測上是穩(wěn)定的.
圖7 EAPC模型預(yù)測的穩(wěn)定性比較圖
本文在APC模型的基礎(chǔ)上進(jìn)行優(yōu)化得到EAPC模型, 并結(jié)合中國人口死亡率數(shù)據(jù), 比較該新模型與LC模型和APC模型的擬合與預(yù)測效果.
從擬合方面來看, APC模型和EAPC模型較好地捕捉到了出生年效應(yīng), 其殘差圖更穩(wěn)定.通過進(jìn)一步計算模型的AIC和BIC值, 發(fā)現(xiàn)APC模型和EAPC模型優(yōu)于LC模型, 所以用EAPC模型來擬合中國人口死亡率是比較可靠的.
從預(yù)測方面來看, APC模型和EAPC模型的預(yù)測值與真實值均非常接近, 而且在高年齡組中, EAPC的預(yù)測效果優(yōu)于APC模型.通過進(jìn)一步對EAPC模型的預(yù)測結(jié)果進(jìn)行穩(wěn)定性檢驗, 發(fā)現(xiàn)EAPC模型在減少4年數(shù)據(jù)的情況下, 預(yù)測結(jié)果沒有太大變化, 說明EAPC模型在一定程度上是穩(wěn)定的.
所以, 從EAPC模型的擬合效果和預(yù)測效果可以看出, EAPC模型更適合于中國人口死亡率的擬合與預(yù)測, 也就是說作為由APC模型擴(kuò)展而來的一種新模型, EAPC模型可以廣泛應(yīng)用于中國人口死亡率的預(yù)測之中.