數據科學家需要了解的45個回歸問題測試題(附答案)
簡介
回歸技術不僅包含線性和邏輯回歸方麵知識,它還體現了多種建模和分析變量的能力。此項技能測試是為了評估你在眾多回歸技術方麵的概念和運用能力。
此次共有1845名選手參與測試,我能確信,這是在回歸領域內公認的最佳測試集。
如果你沒能參與,確實是錯過了實時考試的機會,那也不必遺憾,這裏將公布考題和答案,你可以看看自己掌握了多少。
總體分數
下圖展示了整體分數的分布情況,可以幫助你評估自己的成績。
你能夠在此處(https://datahack.analyticsvidhya.com/contest/skilltest-regression/lb)評估你的成績:約530名選手參加了技能測試,最高分是38分,下麵是些分布統計值:
平均值:23.15
中位值:23
高頻值:23
回歸學習的資源
如果你要複習一下回歸的相關知識,可以參考以下網站:
■ 使用假設,圖解及方案,深入學習回歸分析
https://www.analyticsvidhya.com/blog/2016/07/deeper-regression-analysis-assumptions-plots-solutions/
■ 五個問題帶你學習多重回歸(附R和Python代碼)
https://www.analyticsvidhya.com/blog/2015/10/regression-python-beginners/
■ 你應該知道的7種回歸技術
https://www.analyticsvidhya.com/blog/2015/08/comprehensive-guide-regression/
■ 用R實現邏輯回歸的簡單指南
https://www.analyticsvidhya.com/blog/2015/11/beginners-guide-on-logistic-regression-in-r/
■ Python實現嶺回歸和Lasso回歸的完全指導書
https://www.analyticsvidhya.com/blog/2016/01/complete-tutorial-ridge-lasso-regression-python/
■ 利用Platt Scaling和保序回歸(Isotonic Regression)來最小化Log loss Error,用R語言實現
https://www.analyticsvidhya.com/blog/2016/07/platt-scaling-isotonic-regression-minimize-logloss-error/
1下麵回歸模型中的哪個步驟/假設最能影響過擬合和欠擬合之間的平衡因素:
A. 多項式的階數
B. 是否通過矩陣求逆或梯度下降學習權重
C.使用常數項
答案:A
選取合適的多項式階數對於回歸的擬合程度會產生重要的影響。多項式階數越高,越容易產生過擬合現象。
2假設您有一組實數輸入變量和實數輸出變量,線性回歸(Y=bX+c)情況下的留一交叉驗證(leave-one-out-cross-validation)的均方誤差是多少?
A. 10/27
B. 20/27
C. 50/27
D. 49/27
答案:D
我們要計算每個交叉驗證點的殘差。用兩點擬合出直線後,用剩下的那個點進行交叉驗證。棄一交叉驗證的均方差=(2^2 +(2/3)^2 +1^2) /3 = 49/27
3Q3: 關於MLE(最大似然估計),下麵哪一項或幾項說法是正確的
-
MLE可能不存在
-
MLE總是存在
-
如果MLE存在,可能不是唯一的
-
如果MLE存在,肯定是唯一的
-
A. 1 and 4 B. 2 and 3 C. 1 and 3 D. 2 and 4
答案: C
MLE可以不是轉折點,即,可以不是似然(和對數似然)函數的一階導數的消失點。
MLE可以不是唯一的。
Q4:假設一個線性回歸模型完美適合訓練數據(訓練誤差為0),下麵那個說法是錯誤的:
A. 你總是能獲得測試誤差為0
B. 你不能得到測試誤差為0
C. 以上皆非
答案:C
測試誤差有可能為0,假如測試數據裏麵沒有噪聲數據。或者說,如果測試數據能夠完美表征訓練數據集,測試誤差即可為0,但測試數據不會總這樣。
5Q5: 在線性回歸問題中,我們使用決定係數 (R-squared)來測量擬合優度。我們在線性回歸模型中添加一個特征值,並保留相同的模型。
下麵哪種說法是正確的?
-
如果R-Squared增大,這個變量是顯著的。
-
如果R-Squared減小,這個變量是不顯著的。
-
單獨觀察R-Squared的變化趨勢,無法判斷這個變量是否顯著。
-
以上皆非
答案:C
決定變量的變化並不能獨立決定某個變量的的顯著程度,因為每當我們添加一個特征值的時候,R-squared可以增加或不變。但是如果是矯正後的決定係數,這種R-squared增大即該變量重要的說法肯定是不對的。
6Q6:關於回歸分析中的殘值,下述哪個說法是正確的?
-
殘值的平均數總是為0
-
殘值的平均數總是小於0
-
殘值的平均數總是大於0
-
殘值的大小沒有規則。
答案:A
回歸的殘值和始終為0,因此平均值也始終為0.
7關於異方差性,下麵哪種說法是正確的:
-
具有不同誤差項的線性回歸
-
具有相同誤差常數項的線性回歸
-
具有0誤差項的線性回歸
-
以上皆非
答案:A
誤差項中非恒定方差的存在導致異方差。一般情況下,非恒定方差的出現是因為異常值或極端杠杆值的存在。你可以參考這篇文章,了解更多回歸分析的細節。
8下麵哪種說法顯示了X和Y之間的較強相關性?
-
相關係數=0.9
-
對於零假設(null hypothesis)的p value=0.0001,Beta係數=0
-
對於零假設(null hypothesis)的t-statistic=30,Beta係數=0
-
D以上皆非
答案:A
相關係數為0.9表明變量之間的相關性相當強。另一方麵,p-value和t-statistics隻是衡量證據和非零假設的相關程度。給定足夠的數據,一個微弱效應也能顯示出超強的顯著性。
9在推導線性回歸參數時,我們會做出以下哪些假設?
-
因變量y和預測變量x之間的真實關係是線性的。
-
模型的誤差在統計意義上是獨立的。
-
誤差通常分布是均值為0,且標準差為常數。
-
預測變量x是非隨機的,而且不存在測量誤差。
A.1,2,3
B.1,3,4
C1,3
D. 以上所有
答案:D
當我們推到回歸參數的時候,我們會提出以上四項假設。。當任意一項假設不成立的時候,得到的模型將會是錯誤的。
10要測試y(因變量)和x(自變量)連續變量的線性關係,下麵哪個圖最適合?
A. 散點圖
B. 條狀圖
C. 直方圖
D. 都不是
答案:A
散點圖是表達連續變量線性關係的較好選擇。我們能夠從中發現一個變量的變化是如何影響到另一個變量的。散點圖呈現的是兩個可量化的變量之間的關係。
11通常來說,下麵哪種(些)方法能夠用來預測連續因變量?
1. 線性回歸
2. 邏輯回歸
A. 1和2
B. 隻有1
C. 隻有2
D. 以上皆非
答案:B
邏輯回歸是用來處理分類問題的,這裏的回歸的說法,從字麵上來說是有誤導傾向的。
12一個人的年齡和健康情況的關聯性為-1.09.根據這點,你可以告訴醫生:
A 年齡是健康情況的良好預測器
B 年齡不是健康情況的良好預測器。
C以上皆非
答案:C
相關係數的範圍是【-1,1】,所以-1.09是不可能的。
13在最小二乘法擬合的情況下,我們使用以下哪個偏移量?假設水平軸為自變量,豎直軸為因變量。
A 豎直(vertical)偏移量
B 垂直(Perpendicular)偏移量
C 都可以,視情況而定
D 以上皆非
答案:A
我們總是用豎直偏移量來計算殘差。垂直偏移量在PCA上有用。
14假設我們已經由3次多項式回歸的生成了數據(三次正好能擬合改組數據)。現在請考慮以下幾種說法,並選擇合適項。
-
簡單線性回歸將具有高偏差和低方差
-
簡單線性回歸將具有低偏差和高方差
-
三次多項式將具有低偏差和高方差
-
三次多項式將具有低偏差和低方差
A. Only 1
B. 1 and 3
C. 1 and 4
D. 2 and 4
答案:C
如果我們用更高次(大於3次)的多項式去擬合,會出現過擬合現象,因為模型將會變得更加複雜。如果我們用更低次(小於3次)的多項式去擬合,就意味著模型變得簡單,所以在這種情況下會出現高偏差和低方差的情況。而在3次多項式的情況下,我們就會得到低方差低偏差。
15假設你在訓練一個線性回歸模型,請看一下兩點,哪個(些)說法是正確的?
如果我們擁有較少的數據,更容易發生過擬合的情況
如果假設空間很小,更容易產生過擬合的情況
A 兩種說法都錯
B 是錯的,2是對的
C 1是對的,2是錯的
D 兩種說法都對
答案:C
1. 具有一個比較小的訓練集,很容易找到假設去擬合訓練數據集,即為過擬合
2. 我們能從偏差-方差平衡上來理解這點。當假設空間集比較小的時候,它具有更高的偏差和更低的方差,所以對於較小的假設空間,不太能找到合適的假設去擬合數據,這正是欠擬合。
16假設我們對一組數據用Lasso回歸去進行擬合,這組數據有100個特征值(X1,X2…X100)。現在,我們把其中一個特征值放大10倍(假設就是X1),然後重新用Lasso回歸進行擬合,保持相同的正則化參數。下麵那個選擇是正確的?
A. X1很有可能被排除在模型外
B. X1很有可能被包含著模型內
C. 無法判斷
D. 以上都不是
答案:B
大特征值è更小的係數è更小的Lasso懲罰項è更容易被保留
17關於特征值選擇,下麵關於Ridge回歸或Lasso回歸的說法,那個是正確的?
A. 回歸:對特征值用子集選擇的方法
B. 回歸:對特征值用子集選擇的方法
C. 兩種方法都用子集選擇的方法
D. 以上皆非
答案:B
Ridge回歸會在模型中用到所有的預測項,而Lasso回歸適用於於特征值選擇,因為係數值可以為0。更詳細的內容可以參考這裏(https://discuss.analyticsvidhya.com/t/difference-between-ridge-regression-and-lasso-and-its-effect/3000)。
18在線性回歸模型中添加變量後,以下哪個(些)說法是正確的?
R平方和調整後的R平方都增加
R平方增加,調整後的R平方減小
R-Squared decreases and Adjusted R-squared decreases R平方和調整後的R平方都減小
R-Squared decreases and Adjusted R-squared increases R平方減小,調整後的R平方增加
A. 1和2
B. 1和3
C. 2和4
D. 以上皆非
答案:A
每次加一個特征值後,R平方總是增加或維持不變。但對於調整過的R平方並非如此,如果增加了,這個特征值是有顯著性的。
19下麵的可視化圖顯示了對於相同訓練數據的三種不同模型的擬合情況(藍線)。從中你能得到怎樣的結論?
1. 第一個模型的訓練誤差比第二個和第三個模型大。
2. 對於這個回歸問題,第三個模型是最好的,因為其訓練誤差最小。
3. 第二個模型魯棒性比第一個和第三個模型更強,因為它對於不可見部分數據的表現更好
4. 相對於第一個和第二個模型來說,第三個模型過擬合了。
5. 所有的模型都一樣,因為我們沒有看到測試數據集。
A.1和3
B. 1和2
C. 1,3和4
D. 隻有5
答案:C
數據的趨勢看起來像是自變量X的二階趨勢。對於訓練集來說,更高階數(右圖)多項式可能會更精確,但很有可能在測試集上會預測失敗。而觀察左邊的圖,你會得到最大的訓練誤差,因為這個模型欠擬合。
20以下哪些指標可用於評估回歸模型?
-
R平方
-
調整後的R平方
-
F檢驗
-
RMSE / MSE / MAE
A. 2和4
B. 1和2
C. 2,3和4
D.以上所有
答案:D
這些(R平方,調整後的R平方,F檢驗,RSME/MSE/MAE)是可以用來評估回歸模型的指標
21我們還可以借助於稱為“normal equation”的分析方法來計算線性回歸的係數,關於normal equation,下麵哪個(些)說法是正確的?
1. 我們不必選擇學習速度
2. 當特征值很多的時候,就會變慢
3. 不需要迭代
A. 1和2
B. 1和3
C. 2和3
D. 1,2和3
答案:D
如果不用梯度下降法,normal equation也可以用於找到係數,可以參考這篇文章(https://eli.thegreenplace.net/2014/derivation-of-the-normal-equation-for-linear-regression/)。
22Y值是關於變量X(X1,X2….Xn)的線性函數,回歸線如下定義:
Y = β0 + β1 X1 + β2 X2……+ βn Xn
下麵哪種(些)說法是正確的?
如果Xi變化量為∆Xi,保持其他變量不變,那麼Y值變化量為βi ∆Xi,βi是一個常數(通常是一個正數或者負數)
βi不變,無論其他X值如何變化
作用在Y值上的所有X值是其單獨作用的總和。注意:特征值是相互獨立的,沒有相互作用。
A. 1和2
B. 1和3
C. 2和3
D. 1,2和3
答案:D
1. Y是變量X的線性函數,這意味著:
如果X i變化了∆X i,保持其他變量不變,對於特定常數β i, Y值的變化量即為β i ∆X i,β i通常是正數或者負數。
無論其他X的值是多少,β i的值是保持不變的。
作用在Y值上的所有X值是其單獨作用的總和
2. 未經解釋的變量Y是獨立隨機變量,特別地,如果變量是時間序列的話,Y不是自相關的。
3. 他們具有相同的方差(同方差)。
4. 他們服從正態分布。
23在簡單的線性回歸模型中需要估計多少係數(一個自變量)?
A. 1
B. 2
C. Can’t Say 無法估計
答案:B
在一個簡單線性回歸函數中,如果有一個自變量,那就有兩個參數Y=a+bx
24下列圖中顯示了兩組隨機生成數據的回歸線(A和B)現在我要找出A和B的殘差和。
注意:
1. 兩個圖的兩個軸的刻度相同。
2. X軸是自變量,Y軸是因變量。
下麵關於圖A和圖B的殘差和的說法,哪個是正確的?
A) A比B高
B) A比B低
C) 二者相同
D) 以上都不是
答案: C
殘差和始終為0.
25如果兩個變量是相關的,二者是否必然具有線性關係?
A. 是
B. 否
答案:B
二者可以是非線性關係的,不是必然線性的關係。
26相關變量可以是相關係數為0的,對還是錯?
A.對
B. 錯
答案:A
27假設我對數據應用邏輯回歸模型,並得到訓練精度X和測試精度Y.現在我想在數據中添加幾個新特性。請選擇正確的選項。
注意:其他的參數都是相同的。
1. 訓練精度總是下降的
2. 訓練精度總是上升的或者維持不變。
3. 測試精度總是下降的。
4. 測試精度總是上升的或者維持不變。
A. 隻有2
B. 隻有1
C. 隻有3
D. 隻有4
答案:A
向模型添加更多特征將總是會增加訓練準確度,即低偏差。但是測試精度增加,則有賴於特征是否是顯著的。
28下圖表示由X預測Y的回歸線。圖上的值顯示每個預測值的殘差。使用此信息來計算SSE。
A. 3.02
B. 0.75
C. 1.01
D. 以上皆非
答案: A
SSE是預測的誤差平方和,此處SSE= = (-.2)^2 + (.4)^2 + (-.8)^2 + (1.3)^2 + (-.7)^2 = 3.02
29眾所周知,高度和重量是正相關的。忽略繪圖比例(變量已被標準化),兩個散點圖(圖1,圖2)中的哪一個更可能是示出高度(Var1-X軸)和重量(Var2-Y軸)的值的繪圖。
A. 圖2
B. 圖1
C. 二者都是
D. 無法判斷
答案:A
圖2顯然更好地表示了高度和重量之間的關聯。隨著個體越來越高,他們占據更多的體積,這導致重量的增加,因此可以看見是正比例的關係。右圖顯示的是正比例關係,而左圖則顯示了反比例關係。
30假設公司X的工資分配中位數為35,000美元,第25和第75百分位數分別為21,000美元和53,000美元。一個薪水$ 1的人會被視為異常值嗎?
A. 會
B. 不會
C. 需要更多信息才能判斷
D. 以上都不對
答案C
31關於“回歸”和“相關”,下列哪個選項是正確的?
注意:y是因變量,x是自變量
A. 在兩者中,x和y之間的關係是對稱的。
B. 在兩者中,x和y之間的關係不是對稱的。
C. 在相關的情況下,關係在x和y之間不是對稱的,但是在回歸的情況下它是對稱的。
D. 在相關的情況下,關係在x和y之間不是對稱的,但是在回歸的情況下它是不對稱的。
答案:D
1. 相關是一個統計度量,用於測量兩個變量之間的線性關聯。它對稱地處理y和x。
2. 回歸是建立了從x預測y的方法,兩個變量之間的關係是不對稱的。
32我們可以基於平均值和中值計算變量的偏度嗎?
A. 可以
B. 不可以
答案:B
偏度與平均值和中值之間的關係沒有直接的關係。
33假設你有n個數據集,包含有兩個連續變量(y是因變量,x是獨立變量)。我們計算了這些數據集的匯總統計,得到以下結果:
所有給定的數據集是否相同?
A. 是
B. 不是
C. 無法判斷
答案:C
回答這個問題,你需要了解Anscombe的四組數據,請參考該鏈接:https://en.wikipedia.org/wiki/Anscombe's_quartet
34觀察次數對過擬合有怎樣的影響?請選擇正確答案。
注意:其他參數都是相同的。
1. 如果觀察次數比較少,容易產生過擬合。
2. 如果觀察次數比較少,不容易產生過擬合。
3. 如果觀察次數比較多,容易產生過擬合。
4. 如果觀察次數比較多,不容易產生過擬合。
A. 1和4
B. 2和3
C. 1和3
D. 以上皆非
答案:A
特別是,如果我們有的觀察值比較少且值很小的話,那麼我們的模型會快速過擬合數據。因為我們隻有幾個點,如果增加模型的複雜性,如多項式的階,它會比較容易擬合到我們的觀察數據上去。
另一方麵,如果我們有大量觀察數據,即便用非常複雜的模型,也很難過度擬合,因為我們輸入的是高密度觀察數據。
35假設您已在數據集上擬合了一個複雜的回歸模型。現在,您正在使用Ridge回歸與調整參數lambda以降低其複雜性。選擇下麵的描述,哪個表達了偏差和方差與λ的關係。
A. 在λ非常大的情況下,偏差低,方差低。
B. 在λ非常大的情況下,偏差低,方差高。
C. 在λ非常大的情況下,偏差高,方差低。
D. 在λ非常大的情況下,偏差高,方差高。
答案:C
如果λ很大,則意味著模型不是很複雜,這種情況下,會產生偏差高且方差低的結果。
36假設您已在數據集上擬合了一個複雜的回歸模型。現在,您正在使用Ridge回歸,並調整參數λ以減少其複雜性。選擇下麵的描述,哪個表達了偏差和方差與λ的關係。
A. 在λ非常小的情況下,偏差低,方差低。
B. 在λ非常小的情況下,偏差低,方差高。
C. 在λ非常小的情況下,偏差高,方差低。
D. 在λ非常小的情況下,偏差低,方差低。
答案: B
如果λ很小,則意味著模型比較複雜,這種情況下,會產生偏差低且方差高的結果,模型會對數據過擬合。
37關於ridge回歸,下麵哪個(些)說法是正確的?
1. 如果λ為0,模型等同於現行回歸模型工作。
2.如果λ為0,模型不會像線性回歸模型一樣工作。
3. 如果λ趨向於無窮,我們會得到極小的係數,趨向於0。
4. 如果λ趨向於無窮,我們會得到極大的係數,趨向於無窮大。
A. 1和3
B. 1和4
C. 2和3
D. 2和4
答案:A
具體來說,我們可以看到,當lambda為0時,我們得到我們的最小二乘解。當λ達到無窮大時,我們得到非常小的係數,趨向於0。
38下麵的三張殘差圖,哪一張比另外兩張表現更差一些?
Note: 注意:
1. 所有的殘差都已經標準化。
2. 圖示均為預測值vs殘差。
A. 1
B. 2
C. 3
D. 1 、2
答案:C
預測值和殘差之間不應有任何聯係。如果它們之間存在關係,則意味著模型沒有完全捕獲數據中的信息。
39對於下麵的方法,哪些係數是沒有閉式解(closed form solution)的?
A. Ridget回歸
B. Lasso
C. Ridge回歸和Lasso都有
D. Ridge回歸和Lasso都沒有
答案:B
Lasso沒有閉式解。L1懲罰值使得解為非線性,所以需要估算答案。如果需要了解更多閉式解的知識,請參看這個鏈接(https://statweb.stanford.edu/~tibs/sta305files/Rudyregularization.pdf)。
40考察這個數據集
刪除哪個粗體點對擬合的回歸線具有最大的影? 響如上圖虛線所示
A) a
B) b
C) c
D) d
答案:D
線性回歸對數據中的異常值比較敏感。雖然c也是給定數據空間中的異常值,但它是接近回歸線(殘差較小),所以它不會影響太大。
41在一個簡單的線性回歸模型(一個獨立變量)中,如果我們將輸入變量改變1個單位。輸出變量將如何變化?
A: 變化1
B. 不變
C.變化為截距
D. 變化為斜率
答案: D
簡單線性回歸方程表達式為:Y=a+bx。現在我們將x增加1,那麼y值將為a+b(x+1),也就是說y的增加量等於b。
42邏輯回歸的輸出概率在[0,1]的範圍內。邏輯回歸使用以下哪個函數來實現概率轉換?
A. Sigmoid
B. 求模
C. 平方
D. 機率單位
答案:A
Sigmoid函數用於在邏輯回歸中把輸出概率轉換到[0,1]範圍之間。
43關於在線性回歸和邏輯回歸中的成本函數關於權重/係數的偏導數,下麵的陳述是真實的?
A. 兩者不同
B. 兩者相同
C. 無法判斷
D. 以上皆非
答案:B
參看該鏈接。(https://feature-space.com/2011/10/28/logistic-cost-function-derivative/)
44假設我們使用Logistic回歸模型分析n類分類問題。在這種情況下,我們可以使用留一法(One-vs-rest method)。關於這個問題,下麵哪個選項是正確的?
A. 我們需要在n類分類問題中擬合n個模型。
B. 我們需要在n類分類問題中擬合n-1個模型。
C. 我們需要在n類分類問題中擬合1個模型。
D. 以上皆非
答案:A
如果有n項,那麼需要n個單獨的邏輯回歸去擬合,其中每組的概率是需要在剩餘其他組合中去擬合的。例如,對於一個3項(-1,0,1)分類器,那就需要訓練3個邏輯回歸分類器。
1. -1 vs 0 and 1
2. 0 vs -1 and 1
3. 1 vs 0 and -1
45一下是兩個不同的邏輯回歸模型,具有不同的β0和β1值。
下麵關於這兩個不同邏輯回歸模型的β0和β1,哪個(些)說法是正確的?
注意:設Y = β0 + β1*X,其中β0是截距,β1是係數。
A. 綠色模型的β1比黑色的大。
B. 綠色模型的β1比黑色的小。
C.綠色模型的β1和黑色的一樣。
D. 無法判斷。
答案:B
黑色模型:β0 = 0, β1 = 1,綠色模型:β0 = 0, β1 = −1
原文發布時間為:2014-04-24
本文來自雲棲社區合作夥伴“大數據文摘”,了解相關信息可以關注“BigDataDigest”微信公眾號
最後更新:2017-05-17 11:04:49