回歸模型是應用最為廣泛的數據分析方法之一,它的核心思想是建立若干個解釋變量與一個因變量的函數關繫,並通過這個函數關繫對因變量的變化規律進行解釋和預測。
回歸模型包括線性回歸模型、廣義線性模型、廣義可加模型、線性混合模型、廣義線性混合模型以及它們的各種擴展模型。本書以線性回歸模型和廣義線性模型為主,介紹回歸模型的基本原理和應用技巧。
線性回歸模型主要建立在因變量服從正態分布等一繫列重要假設之上,所以不能完全滿足解決某些特定問題的實際需求。譬如,損失次數是非負的整數,損失金額是大於零的實數,都不符合線性回歸模型關於因變量服從正態分布假設的前提條件。在廣義線性模型中,因變量可以服從指數分布族中的任意分布,如正態分布、二項分布、泊松分布、伽馬分布、逆高斯分布和Tweedie分布等。這些分布非常適合描述保險損失數據,如損失次數可以用二項分布、泊松分布或負二項分布進行描述,損失金額可以用伽馬分布或逆高斯分布進行描述。事實上,幾乎所有分布假設下的廣義線性模型都可以在保險損失數據的分析中找到用武之地,也很難找到另一個數據分析需要用到所有的廣義線性模型的實際領域。有鋻於此,本書主要使用汽車保險的損失數據來說明廣義線性模型的建模原理,但讀者可以毫無困難地將其應用到其他領域的數據分析中。
由於實際數據結構的復雜性,廣義線性模型還在不斷發展。譬如,在廣義線性模型的線性預測項中引入平滑函數,就可以建立廣義可加模型;在線性預測項中增加隨機效應,就得到了廣義線性混合效應模型;如果不僅對分布的均值參數建立回歸模型,同時對其他參數建立回歸模型,就可以將廣義線性模型推廣到關於位置參數、尺度參數和形狀參數的廣義可加模型(GAMLSS)。
本書將以線性回歸模型和廣義線性模型為主,介紹回歸模型的基本原理和建模技術。書中雖然有一定的理論介紹,但更加側重於回歸模型的實際應用。第1章介紹線性回歸模型的基本原理,並通過模擬數據介紹線性回歸模型的建模技術。第2章介紹廣義線性模型的統計理論,為後面各章的實際應用奠定基礎。第3~7章根據因變量的不同類型,分別介紹基於二分類因變量、計數型因變量、連續型因變量和混合型因變量建立回歸模型的基本方法,包括參數估計、統計推斷、殘差分析和模型檢驗等內容。此外,作為對廣義線性模型的進一步拓展,還介紹了基於多分類因變量的回歸模型、有限混合回歸模型、零膨脹回歸模型、零調整逆高斯回歸模型和廣義可加模型。第8章簡要介紹貝葉斯視角下回歸模型的參數估計方法。第9章應用我國一家財產保險公司的車損險數據,討論如何建立索賠發生概率、索賠頻率、索賠強度和純保費的回歸模型。
本書在建模過程中使用了兩種類型的數據,一類是模擬數據;另一類是實際數據。基於模擬數據的建模過程可以清晰地展示數據的生成機理和回歸模型的誤差,而基於實際數據的建模過程可以揭示回歸模型在應用中可能遇到的問題和解決方法。
常用的統計軟件都包含建立回歸模型的模塊,如R,SAS和STATA等。本書主要使用了R軟件中的lm函數,glm函數和glmnb函數,以及gamlss,tweedie,cplm,car,rstan,penalized,datatable,ggplot2,knitr等程序包。在此謹向這些程序包的開發者表示感謝。
……