阅读506 返回首页    go 阿里云 go 技术社区[云栖]


考察数据科学家数据降维知识的40道题,快来测测吧(附答案)

首发地址:https://yq.aliyun.com/articles/74399

https://yq.aliyun.com/cloud

Ankit GuptaIIIT Allahabad

https://www.linkedin.com/in/ankit-gupta

Githubhttps://github.com/anki1909

https://www.analyticsvidhya.com/blog/author/facebook_user_4/

PCA

T-SNE

LDA

在处理现实生活中的问题时,数据科学家经常会遇到数百列及以上的数据集,并通过这些大型数据集构建预测模型,这会是一个较复杂的工程。幸运的是降维技术的存在,降维是数据科学中的一项重要技术任何数据科学家都必须具备技能这项技能测试测试你掌握的降维技术知识,测试PCAt-SNE有更具挑战性的比赛
582测试,以下问题涉及理论到实践的方方面面 

928d65cd7fb1a12945c1a9227d07cb56a134eb99

如果错过测试,可以在参加测试

以下是分数的分布,这将有助于评估自己的表现: 

153c921f0e61330ad5e88eab6b9cc912e81ac306

可以并查看自己的分数,以下是关于分配的一些统计数据。


平均得分(所有分值的平均值)19.52

得分中位数(按顺序排列的中间值)20

模型得分(最常出现的得分)19 

736456b7b03d92facd1721e93fd7f06aec4855b6


 

R

R-Python 


1特征1特征,必须根据输入特征和目标特征100特征。你认为这是减少维数的例子吗?

A.

B.

解答A 

2)[

A.

B.

解答A

LDA监督降维算法的一个例子。

3

1另外E = A + 3 * B

2 

上述步骤可以表示降维方法吗?

A.

B.

解答A

1 


A.

B.

C.

D.都不是

解答A

99那么可以删除这些列

5)[降维算法是减少构建模型所需计算时间的方法之一。

A.

B.

解答A

降低数据维数将花费更少的时间来训练模型。

6 

A. t-SNE

B. PCA

C. LDA

D.都不是

解答D

所有算法都是降维算法的例子。

7

A.

B. 

解答A

有时绘制较小维数据非常有用可以使用前两个主要分量,然后使用散点图可视化数据。 

8)最常用的降维PCAPCA

1.PCA

2.

3.成分<=特征能数量

4.

A. 1

B. 1

C. 2

D. 12

E. 12 

F.

F

9特征,以下哪个声明是正确的?

A.k意味着更正则化

B.k意味着较少的正则化

C.知道

解答B

k因此能够保留更多的数据特征,从而减少正则化。 

10在相同的机器上运行并设置最小计算能力t-SNE效果更好

A.300

B.310特征的数据集

10,0008

10,000200

解答C

t-SNE

11代价函数,以下陈述中的哪一个正确 

A.本质上是不对称的。

B.

C.代价函数相同。

解答B

SNE代价函数是不对称的这使得使用梯度下降SNE代价函数之间的主要区别之一。 

12想像正在处理文本数据Word2vec使用1000

A. t-SNE

B. PCA

C. LDA

D.都不是

解答A

t-SNE

 13

A.

B.

解答A 

t-SNE获取更多信息。

14陈述中哪个是正确的?

A.t-SNE

B.t-SNE

C.t-SNE

D.t-SNE

解答D

D获取说明

15

A.维度数量

B.

C.

D.

解答D

选项中的所有超参数都可以调整。

16哪个正确 

A.t-SNE

B.T-NSE

C.PCA

D.不是

解答A

17iXjYiYjXiXj的表示。
1.XiXjp
2.YiYjq
对于在较低维度空间中的XiXj的完美表示,以下哪一项必须是正确的?

A.p

B.p

C.p

D.Pj | i

解答C

两点的相似性的条件概率必须相等,因为点之间的相似性必须在高维和低维中保持不变,以使它们成为完美的表示。

18 

68fbad7de725da7216cf5a9ab97a346c4a71c232

A.LDA之间类别的距离,并最小化类内之间的距离

B. LDA小化类别类内之间的距离

C. LDA化类内之间的距离,并最小化类别之间的距离

D.LDA大化类别类内之间的距离

解答A

19哪种LDA

A.有辨识性的信息不是平均值,而是数据的方差

B.有辨识性的信息是平均值,而不是数据方差

C.有辨识性的信息是数据的均值和方差

D.都不是

解答A

20PCA
1. LDA
2. LDAPCA
3. PCA

A. 1

B. 2

C. 1

D.

E. 12

解答E

21

A. PCA

B. PCA

C.知道

D.没有

解答B

当所有特征向量相同时将无法选择主成分,因为在这种情况下所有主成分相等。

22以下情况中PCA 

1. 数据中的线性结构
2. 
3. 同一单元缩放

A. 1

B. 2

C. 1

D. 12

解答C

23PCA特征时会发生什么?
1. 特征仍然具有可解释性
2. 特征将失去可解释性
3. 特征必须携带数据中存在的所有信息
4. 特征可能不携带数据中存在的所有信息

A. 1

B. 1

C. 2

D. 2

解答D

当获取较低维度的特征时,大部分时间将丢失一些数据信息,您将无法解释较低维数据。
24 

5dc6c179ff76cbb78c5202290ad2cc6c39c68226

选择沿个轴捕获最大变化的角度?

A.

B.

C.

D.

解答B

B

25
1.
2.
3. PCA局部最小问题

4. PCA局部最小问题

A. 1

B. 1

C. 2 

D. 2

解答D

PCA

26
以下快照显示了两个特征X1X2)与类信息(红色蓝色)的散点图PCA

4b7f270a37584e45ec2c03cbd5ca55c0159d74db

26以下哪种方法会导致更好的类预测?

A.

B.

C.知道

D.都不是

解答B 

PCA带来更多的危害——大多数蓝色和红色点将重叠在第一个主成分上,这样会混淆分类器。

27
1.
2.
3.
4.

A. 1

B. 2

C. 3

D. 1

解答C

28SVD

A.数据为零时

B.当数据均值为零时,

C.两者总是相同

D.都不是

解答B

当数据具有零均值向量时二者会相同,SVD处理 

29
23(-1,-1) 

17c6b1524f7aa26f2b9a1fcfe933f072479be2e6

29这些数据的第一个主成分是什么 

1.[√2/2
2.(1 /√3)
3.([-√2/ 2)
4.(- 1 /√3, - 1 /√3)

A. 1

B. 3

C. 1

D. 2

解答C

v = [√2/ 2T,请注意,主成分应该被归一化。

30T将原始数据点投影到1子空间中他们在1子空间中的坐标是什么? 

A.(- √2)0)(√2)

B.(√2)(0)(√2)

C.(√2)(0)(- 2)

D.(- 2)(0)(- 2)

解答A

z1 = [-1 T = - √2同理可得z2= 0

31(( √2)(0)(√2))。现在如果在二维空间中重建,并将它们视为原始数据点重建,那么重建误差是多少?

A. 0

B. 10 

C. 30

D. 40

解答A

0;

32

f6c24d18e2536511393ad98e6cea5fa76cfff3bd

A.LD1

B.LD2

C.

D.都不是

解答A

33
PCA通常用于数据降维λ1≥λ2≥•••≥λN并画图 

be36df1622935fffddae1ee736edc14f32e55401

f(M)(贡献率)M,给定两图 

c0cead299aefbbd7be8ad3bc513836d83d6a84bd

33PCA性能更好?其中M分量D

A.

B.

C.任意A

D.都不是

解答A

f到达1如果第一个特征值较大且其余PCA

34以下哪个选项是真的?

A. LDA,而PCA

B.

C.PCALDA

D.

解答A 

35可以是前两个主成分
1.(0.5,0.5,0.5,0.5)(0.71,0.71,0,0)
2. (0.5,0.5,0.5,0.5)(0,0)
3. (0.5,0.5,0.5,0.5)(0.5,0.5,-0.5,-0.5)
4. (0.5,0.5,0.5,0.5)(-0.5,-0.5,0.5,0.5)

A. 1

B. 1

C. 2

D. 3

解答D

对于前两个选择,两个向量不是正交的。

36
1. 类别分离好,逻辑回归的参数估计可能不稳定。
2. 

A. 1

B. 2

C. 1

D.都不是

解答C

参考 (需翻墙)

考虑以下哪个偏差?

77180d03550c958888e937df4f5c42e8b1dc8151

A. 

B.正交偏移

C.

D.都不是

解答B

总是将残差视为垂直偏移正交PCA 

38假设10以下哪个是正确答案?

A. 20

B.9

C. 21

D. 11

E. 10

解答B

LDA可以参考(需翻墙)获取更多信息。

39
特征脸训练图像样本  

a7453a5310b51689325dddc1752a4b56fe4a2682

39

1. 

2. 

A. 1 

B. 2

C. 1

D.都不是

解答C

40成分的最佳数量是多少?

21596fa168a0d37dfd638bc3ab71e2fb66ff3395
A. 7
B. 30

C. 40 

D.知道

解答B

可以在上图中看到,主成分的数量30以最小的数量得到的方差。


希望你喜欢参加的这个测试,并参考答案获取一些帮助。测试侧重于降维的概念和实践知识。如果有任何关于以上测试题的疑问,可以在评论中注明;如果有任何的建议,可以在评论中让我们知道你的反馈。

@

40 Must know Questions to test a data scientist on Dimensionality Reduction techniquesAnkit Guptapdf

最后更新:2017-07-12 22:11:49

  上一篇:go  通过SketchRNN、PCA和t-SNE从Google QuickDraw数据集中显示矢量图的潜在空间|附源码
  下一篇:go  Top100论文导读:深入理解卷积神经网络CNN(Part Ⅱ)