考察數據科學家數據降維知識的40道題,快來測測吧(附答案)
首發地址:https://yq.aliyun.com/articles/74399
Ankit GuptaIIIT Allahabad
https://www.linkedin.com/in/ankit-gupta
Githubhttps://github.com/anki1909
https://www.analyticsvidhya.com/blog/author/facebook_user_4/
注
PCA
T-SNE
LDA
在處理現實生活中的問題時,數據科學家經常會遇到數百列及以上的數據集,並通過這些大型數據集構建預測模型,這會是一個較複雜的工程。幸運的是有降維技術的存在,降維是數據科學中的一項重要技術,任何數據科學家都必須具備該技能。這項技能測試測試你掌握的降維技術知識,測試PCA、t-SNE在還有更具挑戰性的比賽。
582該測試,以下問題涉及理論到實踐的方方麵麵。
以下是分數的分布,這將有助於評估自己的表現:
平均得分(所有分值的平均值)19.52
得分中位數(按順序排列的中間值)20
模型得分(最常出現的得分)19
1特征1特征,必須根據輸入特征和目標特征100特征。你認為這是減少維數的例子嗎?
A.是
B.是
解答A
2)[
A.真
B.
解答A
LDA有監督降維算法的一個例子。
3
1另外E = A + 3 * B
2
上述步驟可以表示降維方法嗎?
A.真
B.
解答A
1
A.
B.
C.
D.都不是
解答A
99,那麼可以刪除這些列。
5)[降維算法是減少構建模型所需計算時間的方法之一。
A.真
B.
解答A
降低數據維數將花費更少的時間來訓練模型。
6
A. t-SNE
B. PCA
C. LDA
D.都不是
解答D
所有算法都是降維算法的例子。
7
A.真
B.
解答A
有時繪製較小維數據非常有用,可以使用前兩個主要分量,然後使用散點圖可視化數據。
8)最常用的降維PCA,PCA
1.PCA
2.
3.成分<=特征能數量
4.
A. 1
B. 1
C. 2
D. 1、2
E. 1、2
F.
F
9特征,以下哪個聲明是正確的?
A.“k”意味著更正則化
B.“k”意味著較少的正則化
C.不知道
解答B
k因此能夠保留更多的數據特征,從而減少正則化。
10在相同的機器上運行並設置最小的計算能力,t-SNE效果更好?
B.項310特征的數據集
10,000項8
10,000項200
解答:C
t-SNE
11代價函數,以下陳述中的哪一個正確?
A.本質上是不對稱的。
B.
C.代價函數相同。
解答B
SNE代價函數是不對稱的,這使得使用梯度下降SNE代價函數之間的主要區別之一。
12想像正在處理文本數據,Word2vec使用1000
A. t-SNE
B. PCA
C. LDA
D.都不是
解答A
t-SNE。
13
A.
B.
解答A
14的陳述中哪個是正確的?
A.t-SNE
B.t-SNE
C.t-SNE
D.t-SNE
解答D
15
A.維度數量
B.
C.
D.
解答D
選項中的所有超參數都可以調整。
16哪個正確?
A.t-SNE
B.T-NSE。
C.PCA
D.不是
解答A
17iXjYiYjXiXj的表示。
1.XiXjp
2.YiYjq
對於在較低維度空間中的Xi和Xj的完美表示,以下哪一項必須是正確的?
A.p
B.p
C.p
D.Pj | i
解答:C
兩點的相似性的條件概率必須相等,因為點之間的相似性必須在高維和低維中保持不變,以使它們成為完美的表示。
18
A.LDA化之間類別的距離,並最小化類內之間的距離
B. LDA小化類別和類內之間的距離
C. LDA化類內之間的距離,並最小化類別之間的距離
D.LDA大化類別和類內之間的距離
解答A
19哪種LDA
A.有辨識性的信息不是平均值,而是數據的方差
B.有辨識性的信息是平均值,而不是數據方差
C.有辨識性的信息是數據的均值和方差
D.都不是
解答A
20PCA
1. LDA
2. LDA有PCA
3. PCA
A. 1
B. 2
C. 1
D.
E. 1、2
解答E
21
A. PCA
B. PCA
C.不知道
D.都沒有
解答B
當所有特征向量相同時將無法選擇主成分,因為在這種情況下所有主成分相等。
22以下情況中PCA
1. 數據中的線性結構
2.
3. 以同一單元縮放
A. 1
B. 2
C. 1
D. 1、2
解答:C
23PCA特征時會發生什麼?
1. 特征仍然具有可解釋性
2. 特征將失去可解釋性
3. 特征必須攜帶數據中存在的所有信息
4. 特征可能不攜帶數據中存在的所有信息
A. 1
B. 1
C. 2
D. 2
解答D
當獲取較低維度的特征時,大部分時間將丟失一些數據信息,您將無法解釋較低維的數據。
24 。
選擇沿哪個軸捕獲最大變化的角度?
A.
B.
C.
D.
解答B
B
25
1.
2.
3. PCA局部最小問題
4. PCA局部最小問題
A. 1
B. 1
C. 2
D. 2
解答D
PCA
26
以下快照顯示了兩個特征X1X2)與類別信息(紅色、藍色)的散點圖,PCA。
26)以下哪種方法會導致更好的類別預測?
A.
B.
C.不知道
D.都不是
解答B
PCA帶來更多的危害——大多數藍色和紅色點將重疊在第一個主成分上,這樣會混淆分類器。
27
1.
2.
3.
4.
A. 1
B. 2
C. 3
D. 1
解答:C
28SVD
A.當數據為零時
B.當數據均值為零時,
C.兩者總是相同
D.都不是
解答B
當數據具有零均值向量時二者會相同,SVD處理。
29
2維3(-1,-1)。
29這些數據的第一個主成分是什麼 ?
1.[√2/2
2.(1 /√3)
3.([-√2/ 2)
4.(- 1 /√3, - 1 /√3)
A. 1
B. 3
C. 1
D. 2
解答:C
v = [√2/ 2T,請注意,主成分應該被歸一化。
30T將原始數據點投影到1子空間中,他們在1子空間中的坐標是什麼?
A.(- √2)0)、(√2)
B.(√2)、(0)、(√2)
C.(√2)、(0)、(- 2)
D.(- 2)、(0)、(- 2)
解答A
z1 = [-1 T = - √2同理可得z2= 0
31為(( √2),(0),(√2))。現在如果在二維空間中重建,並將它們視為原始數據點的重建,那麼重建誤差是多少?
A. 0
B. 10
C. 30
D. 40
解答A
0;
32
A.LD1
B.LD2
C.
D.都不是
解答A
33
PCA並通常用於數據降維λ1≥λ2≥•••≥λN並畫圖。
f(M)(貢獻率)M,給定兩圖:
33PCA的性能更好?其中M分量D。
A.左
B.
C.任意A
D.都不是
解答A
f到達1;如果第一個特征值較大且其餘PCA
34以下哪個選項是真的?
A. LDA,而PCA
B.
C.PCA而LDA
D.
解答A
35項可以是前兩個主成分?
1.(0.5,0.5,0.5,0.5)和(0.71,0.71,0,0)
2. (0.5,0.5,0.5,0.5)和(0,0)
3. (0.5,0.5,0.5,0.5)和(0.5,0.5,-0.5,-0.5)
4. (0.5,0.5,0.5,0.5)和(-0.5,-0.5,0.5,0.5)
A. 1
B. 1
C. 2
D. 3
解答D
對於前兩個選擇,兩個向量不是正交的。
36
1. 類別分離好,邏輯回歸的參數估計可能不穩定。
2.
A. 1
B. 2
C. 1
D.都不是
解答:C
會考慮以下哪個偏差?
A.
B.正交偏移
C.
D.都不是
解答B
總是將殘差視為垂直偏移,正交PCA
38假設10以下哪個是正確答案?
A. 20
B.9
C. 21
D. 11
E. 10
解答B
39
“特征臉“的訓練圖像樣本
39“臉”
1.
2.
A. 1
B. 2
C. 1
D.都不是
解答:C
40成分的最佳數量是多少?

A. 7
B. 30C. 40
D.知道
解答B
可以在上圖中看到,主成分的數量為30時以最小的數量得到最大的方差。
希望你喜歡參加的這個測試,並參考答案中獲取一些幫助。測試側重於降維的概念和實踐知識。如果有任何關於以上測試題的疑問,可以在評論中注明;如果有任何的建議,可以在評論中讓我們知道你的反饋。
40 Must know Questions to test a data scientist on Dimensionality Reduction techniquesAnkit Guptapdf
最後更新:2017-07-12 22:11:49