閱讀681 返回首頁    go 財經資訊


回歸算法做農業貸款發放預測__案例_機器學習-阿裏雲

(本文數據為虛構,僅供實驗)

一、背景

很多農民因為缺乏資金,在每年耕種前會向相關機構申請貸款來購買種地需要的物資,等豐收之後償還。農業貸款發放問題是一個典型的數據挖掘問題。貸款發放人通過往年的數據,包括貸款人的年收入、種植的作物種類、曆史借貸信息等特征來構建經驗模型,通過這個模型來預測受貸人的還款能力。本文借助真實的農業貸款業務場景,利用回歸算法解決貸款發放業務。 線性回歸,是利用數理統計中回歸分析,來確定兩種或兩種以上變量間相互依賴的定量關係的一種統計分析方法,運用十分廣泛。本文通過農業貸款的曆史發放情況,預測是否給預測集的用戶發放他們需要的金額的貸款。

二、數據集介紹

具體字段如下:

字段名 含義 類型 描述
id 數據唯一標識符 string
name 用戶名 string
region 用戶所屬地區 string 從北到南排列
farmsize 擁有土地大小 double 土地麵積
rainfall 降雨量 double 降雨量
landquality 土地質量 double 土地質量數值越大越好
farmincome 收入 double 年收入
maincrop 種植作物 string 種植作物的種類
claimtype 貸款類型 string 兩種
claimvalue 貸款金額 double 貸款金額

數據截圖:

三、數據探索流程

首先,實驗流程圖:

1.數據源

數據的輸入有兩部分,貸款訓練集用來進行回歸模型的訓練,共二百條數據,是曆史貸款數據,包括一些farmsize、rainfall等特征,claimvalue是貸款收回的金額。貸款預測集是今年申請貸款者,claimvalue是農民申請的貸款金額,共71人。我們通過已有的二百多條曆史數據,預測給七十一人中的哪些申請貸款人發放貸款。

2.特征工程

將一些字符串類型的數據,根據他們的含義映射成數字。比如說region字段,我們將其中的north、middle、south按照從北到南的順序分別映射成0、1、2。然後通過類型轉換將字段轉換成double類型,這樣就可以進行下麵的回歸計算了。

如下圖:

3.回歸及預測

線性回歸組件對於曆史數據訓練並生成回歸模型,在預測組件中利用回歸模型對於預測集數據進行了預測。通過合並列組件將用戶ID、預測值、申請的貸款值合並。預測值表示的是用戶的還貸能力(預期可以歸還的金額)。

4.回歸模型評估

通過回歸模型評估組件對於回歸模型進行評估。

5.發放貸款人

通過過濾與映射組件篩選出可以獲得貸款的人,這裏的業務邏輯是針對每個客戶,如果他被預測得到的還款能力大於他申請貸款的金額,就對他發放貸款。

四、其它

參與討論:雲棲社區公眾號

免費體驗:阿裏雲數加機器學習平台

往期文章:

【玩轉數據係列一】人口普查統計案例

【玩轉數據係列二】機器學習應用沒那麼難,這次教你玩心髒病預測

【玩轉數據係列三】利用圖算法實現金融行業風控

【玩轉數據係列四】聽說啤酒和尿布很配?本期教你用協同過濾做推薦

最後更新:2016-08-02 11:44:36

  上一篇:go 【圖算法】金融風控實驗__案例_機器學習-阿裏雲
  下一篇:go 心髒病預測案例__案例_機器學習-阿裏雲