考察数据科学家数据降维知识的40道题,快来测测吧(附答案)
首发地址:https://yq.aliyun.com/articles/74399
Ankit GuptaIIIT Allahabad
https://www.linkedin.com/in/ankit-gupta
Githubhttps://github.com/anki1909
https://www.analyticsvidhya.com/blog/author/facebook_user_4/
注
PCA
T-SNE
LDA
在处理现实生活中的问题时,数据科学家经常会遇到数百列及以上的数据集,并通过这些大型数据集构建预测模型,这会是一个较复杂的工程。幸运的是有降维技术的存在,降维是数据科学中的一项重要技术,任何数据科学家都必须具备该技能。这项技能测试测试你掌握的降维技术知识,测试PCA、t-SNE在还有更具挑战性的比赛。
582该测试,以下问题涉及理论到实践的方方面面。
以下是分数的分布,这将有助于评估自己的表现:
平均得分(所有分值的平均值)19.52
得分中位数(按顺序排列的中间值)20
模型得分(最常出现的得分)19
1特征1特征,必须根据输入特征和目标特征100特征。你认为这是减少维数的例子吗?
A.是
B.是
解答A
2)[
A.真
B.
解答A
LDA有监督降维算法的一个例子。
3
1另外E = A + 3 * B
2
上述步骤可以表示降维方法吗?
A.真
B.
解答A
1
A.
B.
C.
D.都不是
解答A
99,那么可以删除这些列。
5)[降维算法是减少构建模型所需计算时间的方法之一。
A.真
B.
解答A
降低数据维数将花费更少的时间来训练模型。
6
A. t-SNE
B. PCA
C. LDA
D.都不是
解答D
所有算法都是降维算法的例子。
7
A.真
B.
解答A
有时绘制较小维数据非常有用,可以使用前两个主要分量,然后使用散点图可视化数据。
8)最常用的降维PCA,PCA
1.PCA
2.
3.成分<=特征能数量
4.
A. 1
B. 1
C. 2
D. 1、2
E. 1、2
F.
F
9特征,以下哪个声明是正确的?
A.“k”意味着更正则化
B.“k”意味着较少的正则化
C.不知道
解答B
k因此能够保留更多的数据特征,从而减少正则化。
10在相同的机器上运行并设置最小的计算能力,t-SNE效果更好?
B.项310特征的数据集
10,000项8
10,000项200
解答:C
t-SNE
11代价函数,以下陈述中的哪一个正确?
A.本质上是不对称的。
B.
C.代价函数相同。
解答B
SNE代价函数是不对称的,这使得使用梯度下降SNE代价函数之间的主要区别之一。
12想像正在处理文本数据,Word2vec使用1000
A. t-SNE
B. PCA
C. LDA
D.都不是
解答A
t-SNE。
13
A.
B.
解答A
14的陈述中哪个是正确的?
A.t-SNE
B.t-SNE
C.t-SNE
D.t-SNE
解答D
15
A.维度数量
B.
C.
D.
解答D
选项中的所有超参数都可以调整。
16哪个正确?
A.t-SNE
B.T-NSE。
C.PCA
D.不是
解答A
17iXjYiYjXiXj的表示。
1.XiXjp
2.YiYjq
对于在较低维度空间中的Xi和Xj的完美表示,以下哪一项必须是正确的?
A.p
B.p
C.p
D.Pj | i
解答:C
两点的相似性的条件概率必须相等,因为点之间的相似性必须在高维和低维中保持不变,以使它们成为完美的表示。
18
A.LDA化之间类别的距离,并最小化类内之间的距离
B. LDA小化类别和类内之间的距离
C. LDA化类内之间的距离,并最小化类别之间的距离
D.LDA大化类别和类内之间的距离
解答A
19哪种LDA
A.有辨识性的信息不是平均值,而是数据的方差
B.有辨识性的信息是平均值,而不是数据方差
C.有辨识性的信息是数据的均值和方差
D.都不是
解答A
20PCA
1. LDA
2. LDA有PCA
3. PCA
A. 1
B. 2
C. 1
D.
E. 1、2
解答E
21
A. PCA
B. PCA
C.不知道
D.都没有
解答B
当所有特征向量相同时将无法选择主成分,因为在这种情况下所有主成分相等。
22以下情况中PCA
1. 数据中的线性结构
2.
3. 以同一单元缩放
A. 1
B. 2
C. 1
D. 1、2
解答:C
23PCA特征时会发生什么?
1. 特征仍然具有可解释性
2. 特征将失去可解释性
3. 特征必须携带数据中存在的所有信息
4. 特征可能不携带数据中存在的所有信息
A. 1
B. 1
C. 2
D. 2
解答D
当获取较低维度的特征时,大部分时间将丢失一些数据信息,您将无法解释较低维的数据。
24 。
选择沿哪个轴捕获最大变化的角度?
A.
B.
C.
D.
解答B
B
25
1.
2.
3. PCA局部最小问题
4. PCA局部最小问题
A. 1
B. 1
C. 2
D. 2
解答D
PCA
26
以下快照显示了两个特征X1X2)与类别信息(红色、蓝色)的散点图,PCA。
26)以下哪种方法会导致更好的类别预测?
A.
B.
C.不知道
D.都不是
解答B
PCA带来更多的危害——大多数蓝色和红色点将重叠在第一个主成分上,这样会混淆分类器。
27
1.
2.
3.
4.
A. 1
B. 2
C. 3
D. 1
解答:C
28SVD
A.当数据为零时
B.当数据均值为零时,
C.两者总是相同
D.都不是
解答B
当数据具有零均值向量时二者会相同,SVD处理。
29
2维3(-1,-1)。
29这些数据的第一个主成分是什么 ?
1.[√2/2
2.(1 /√3)
3.([-√2/ 2)
4.(- 1 /√3, - 1 /√3)
A. 1
B. 3
C. 1
D. 2
解答:C
v = [√2/ 2T,请注意,主成分应该被归一化。
30T将原始数据点投影到1子空间中,他们在1子空间中的坐标是什么?
A.(- √2)0)、(√2)
B.(√2)、(0)、(√2)
C.(√2)、(0)、(- 2)
D.(- 2)、(0)、(- 2)
解答A
z1 = [-1 T = - √2同理可得z2= 0
31为(( √2),(0),(√2))。现在如果在二维空间中重建,并将它们视为原始数据点的重建,那么重建误差是多少?
A. 0
B. 10
C. 30
D. 40
解答A
0;
32
A.LD1
B.LD2
C.
D.都不是
解答A
33
PCA并通常用于数据降维λ1≥λ2≥•••≥λN并画图。
f(M)(贡献率)M,给定两图:
33PCA的性能更好?其中M分量D。
A.左
B.
C.任意A
D.都不是
解答A
f到达1;如果第一个特征值较大且其余PCA
34以下哪个选项是真的?
A. LDA,而PCA
B.
C.PCA而LDA
D.
解答A
35项可以是前两个主成分?
1.(0.5,0.5,0.5,0.5)和(0.71,0.71,0,0)
2. (0.5,0.5,0.5,0.5)和(0,0)
3. (0.5,0.5,0.5,0.5)和(0.5,0.5,-0.5,-0.5)
4. (0.5,0.5,0.5,0.5)和(-0.5,-0.5,0.5,0.5)
A. 1
B. 1
C. 2
D. 3
解答D
对于前两个选择,两个向量不是正交的。
36
1. 类别分离好,逻辑回归的参数估计可能不稳定。
2.
A. 1
B. 2
C. 1
D.都不是
解答:C
会考虑以下哪个偏差?
A.
B.正交偏移
C.
D.都不是
解答B
总是将残差视为垂直偏移,正交PCA
38假设10以下哪个是正确答案?
A. 20
B.9
C. 21
D. 11
E. 10
解答B
39
“特征脸“的训练图像样本
39“脸”
1.
2.
A. 1
B. 2
C. 1
D.都不是
解答:C
40成分的最佳数量是多少?

A. 7
B. 30C. 40
D.知道
解答B
可以在上图中看到,主成分的数量为30时以最小的数量得到最大的方差。
希望你喜欢参加的这个测试,并参考答案中获取一些帮助。测试侧重于降维的概念和实践知识。如果有任何关于以上测试题的疑问,可以在评论中注明;如果有任何的建议,可以在评论中让我们知道你的反馈。
40 Must know Questions to test a data scientist on Dimensionality Reduction techniquesAnkit Guptapdf
最后更新:2017-07-12 22:11:49