閱讀506 返回首頁    go 阿裏雲 go 技術社區[雲棲]


考察數據科學家數據降維知識的40道題,快來測測吧(附答案)

首發地址:https://yq.aliyun.com/articles/74399

https://yq.aliyun.com/cloud

Ankit GuptaIIIT Allahabad

https://www.linkedin.com/in/ankit-gupta

Githubhttps://github.com/anki1909

https://www.analyticsvidhya.com/blog/author/facebook_user_4/

PCA

T-SNE

LDA

在處理現實生活中的問題時,數據科學家經常會遇到數百列及以上的數據集,並通過這些大型數據集構建預測模型,這會是一個較複雜的工程。幸運的是降維技術的存在,降維是數據科學中的一項重要技術任何數據科學家都必須具備技能這項技能測試測試你掌握的降維技術知識,測試PCAt-SNE有更具挑戰性的比賽
582測試,以下問題涉及理論到實踐的方方麵麵 

928d65cd7fb1a12945c1a9227d07cb56a134eb99

如果錯過測試,可以在參加測試

以下是分數的分布,這將有助於評估自己的表現: 

153c921f0e61330ad5e88eab6b9cc912e81ac306

可以並查看自己的分數,以下是關於分配的一些統計數據。


平均得分(所有分值的平均值)19.52

得分中位數(按順序排列的中間值)20

模型得分(最常出現的得分)19 

736456b7b03d92facd1721e93fd7f06aec4855b6


 

R

R-Python 


1特征1特征,必須根據輸入特征和目標特征100特征。你認為這是減少維數的例子嗎?

A.

B.

解答A 

2)[

A.

B.

解答A

LDA監督降維算法的一個例子。

3

1另外E = A + 3 * B

2 

上述步驟可以表示降維方法嗎?

A.

B.

解答A

1 


A.

B.

C.

D.都不是

解答A

99那麼可以刪除這些列

5)[降維算法是減少構建模型所需計算時間的方法之一。

A.

B.

解答A

降低數據維數將花費更少的時間來訓練模型。

6 

A. t-SNE

B. PCA

C. LDA

D.都不是

解答D

所有算法都是降維算法的例子。

7

A.

B. 

解答A

有時繪製較小維數據非常有用可以使用前兩個主要分量,然後使用散點圖可視化數據。 

8)最常用的降維PCAPCA

1.PCA

2.

3.成分<=特征能數量

4.

A. 1

B. 1

C. 2

D. 12

E. 12 

F.

F

9特征,以下哪個聲明是正確的?

A.k意味著更正則化

B.k意味著較少的正則化

C.知道

解答B

k因此能夠保留更多的數據特征,從而減少正則化。 

10在相同的機器上運行並設置最小計算能力t-SNE效果更好

A.300

B.310特征的數據集

10,0008

10,000200

解答C

t-SNE

11代價函數,以下陳述中的哪一個正確 

A.本質上是不對稱的。

B.

C.代價函數相同。

解答B

SNE代價函數是不對稱的這使得使用梯度下降SNE代價函數之間的主要區別之一。 

12想像正在處理文本數據Word2vec使用1000

A. t-SNE

B. PCA

C. LDA

D.都不是

解答A

t-SNE

 13

A.

B.

解答A 

t-SNE獲取更多信息。

14陳述中哪個是正確的?

A.t-SNE

B.t-SNE

C.t-SNE

D.t-SNE

解答D

D獲取說明

15

A.維度數量

B.

C.

D.

解答D

選項中的所有超參數都可以調整。

16哪個正確 

A.t-SNE

B.T-NSE

C.PCA

D.不是

解答A

17iXjYiYjXiXj的表示。
1.XiXjp
2.YiYjq
對於在較低維度空間中的XiXj的完美表示,以下哪一項必須是正確的?

A.p

B.p

C.p

D.Pj | i

解答C

兩點的相似性的條件概率必須相等,因為點之間的相似性必須在高維和低維中保持不變,以使它們成為完美的表示。

18 

68fbad7de725da7216cf5a9ab97a346c4a71c232

A.LDA之間類別的距離,並最小化類內之間的距離

B. LDA小化類別類內之間的距離

C. LDA化類內之間的距離,並最小化類別之間的距離

D.LDA大化類別類內之間的距離

解答A

19哪種LDA

A.有辨識性的信息不是平均值,而是數據的方差

B.有辨識性的信息是平均值,而不是數據方差

C.有辨識性的信息是數據的均值和方差

D.都不是

解答A

20PCA
1. LDA
2. LDAPCA
3. PCA

A. 1

B. 2

C. 1

D.

E. 12

解答E

21

A. PCA

B. PCA

C.知道

D.沒有

解答B

當所有特征向量相同時將無法選擇主成分,因為在這種情況下所有主成分相等。

22以下情況中PCA 

1. 數據中的線性結構
2. 
3. 同一單元縮放

A. 1

B. 2

C. 1

D. 12

解答C

23PCA特征時會發生什麼?
1. 特征仍然具有可解釋性
2. 特征將失去可解釋性
3. 特征必須攜帶數據中存在的所有信息
4. 特征可能不攜帶數據中存在的所有信息

A. 1

B. 1

C. 2

D. 2

解答D

當獲取較低維度的特征時,大部分時間將丟失一些數據信息,您將無法解釋較低維數據。
24 

5dc6c179ff76cbb78c5202290ad2cc6c39c68226

選擇沿個軸捕獲最大變化的角度?

A.

B.

C.

D.

解答B

B

25
1.
2.
3. PCA局部最小問題

4. PCA局部最小問題

A. 1

B. 1

C. 2 

D. 2

解答D

PCA

26
以下快照顯示了兩個特征X1X2)與類信息(紅色藍色)的散點圖PCA

4b7f270a37584e45ec2c03cbd5ca55c0159d74db

26以下哪種方法會導致更好的類預測?

A.

B.

C.知道

D.都不是

解答B 

PCA帶來更多的危害——大多數藍色和紅色點將重疊在第一個主成分上,這樣會混淆分類器。

27
1.
2.
3.
4.

A. 1

B. 2

C. 3

D. 1

解答C

28SVD

A.數據為零時

B.當數據均值為零時,

C.兩者總是相同

D.都不是

解答B

當數據具有零均值向量時二者會相同,SVD處理 

29
23(-1,-1) 

17c6b1524f7aa26f2b9a1fcfe933f072479be2e6

29這些數據的第一個主成分是什麼 

1.[√2/2
2.(1 /√3)
3.([-√2/ 2)
4.(- 1 /√3, - 1 /√3)

A. 1

B. 3

C. 1

D. 2

解答C

v = [√2/ 2T,請注意,主成分應該被歸一化。

30T將原始數據點投影到1子空間中他們在1子空間中的坐標是什麼? 

A.(- √2)0)(√2)

B.(√2)(0)(√2)

C.(√2)(0)(- 2)

D.(- 2)(0)(- 2)

解答A

z1 = [-1 T = - √2同理可得z2= 0

31(( √2)(0)(√2))。現在如果在二維空間中重建,並將它們視為原始數據點重建,那麼重建誤差是多少?

A. 0

B. 10 

C. 30

D. 40

解答A

0;

32

f6c24d18e2536511393ad98e6cea5fa76cfff3bd

A.LD1

B.LD2

C.

D.都不是

解答A

33
PCA通常用於數據降維λ1≥λ2≥•••≥λN並畫圖 

be36df1622935fffddae1ee736edc14f32e55401

f(M)(貢獻率)M,給定兩圖 

c0cead299aefbbd7be8ad3bc513836d83d6a84bd

33PCA性能更好?其中M分量D

A.

B.

C.任意A

D.都不是

解答A

f到達1如果第一個特征值較大且其餘PCA

34以下哪個選項是真的?

A. LDA,而PCA

B.

C.PCALDA

D.

解答A 

35可以是前兩個主成分
1.(0.5,0.5,0.5,0.5)(0.71,0.71,0,0)
2. (0.5,0.5,0.5,0.5)(0,0)
3. (0.5,0.5,0.5,0.5)(0.5,0.5,-0.5,-0.5)
4. (0.5,0.5,0.5,0.5)(-0.5,-0.5,0.5,0.5)

A. 1

B. 1

C. 2

D. 3

解答D

對於前兩個選擇,兩個向量不是正交的。

36
1. 類別分離好,邏輯回歸的參數估計可能不穩定。
2. 

A. 1

B. 2

C. 1

D.都不是

解答C

參考 (需翻牆)

考慮以下哪個偏差?

77180d03550c958888e937df4f5c42e8b1dc8151

A. 

B.正交偏移

C.

D.都不是

解答B

總是將殘差視為垂直偏移正交PCA 

38假設10以下哪個是正確答案?

A. 20

B.9

C. 21

D. 11

E. 10

解答B

LDA可以參考(需翻牆)獲取更多信息。

39
特征臉訓練圖像樣本  

a7453a5310b51689325dddc1752a4b56fe4a2682

39

1. 

2. 

A. 1 

B. 2

C. 1

D.都不是

解答C

40成分的最佳數量是多少?

21596fa168a0d37dfd638bc3ab71e2fb66ff3395
A. 7
B. 30

C. 40 

D.知道

解答B

可以在上圖中看到,主成分的數量30以最小的數量得到的方差。


希望你喜歡參加的這個測試,並參考答案獲取一些幫助。測試側重於降維的概念和實踐知識。如果有任何關於以上測試題的疑問,可以在評論中注明;如果有任何的建議,可以在評論中讓我們知道你的反饋。

@

40 Must know Questions to test a data scientist on Dimensionality Reduction techniquesAnkit Guptapdf

最後更新:2017-07-12 22:11:49

  上一篇:go  通過SketchRNN、PCA和t-SNE從Google QuickDraw數據集中顯示矢量圖的潛在空間|附源碼
  下一篇:go  Top100論文導讀:深入理解卷積神經網絡CNN(Part Ⅱ)