閱讀257 返回首頁    go 阿裏雲 go 技術社區[雲棲]


2014阿裏巴巴校園招聘數據分析師職位筆試題目(答案版)

  選擇題10道,問答題三道,分析題2道

  一、選擇題

  1、 一下哪個屬於離散變量(汽車變量)

  水稻畝產量 家庭收入 商品價格 汽車產量

  2、 卡方分布的樣本方差分別是(2n)

      n 1 2n 4n

  3、 有個人買彩票,中獎概率為1/10,每次花200元,連續買5次,如果中獎則獎金為1000元,問不賠錢的概率是多少

 1-(9/10)^5

  4、 世界男女比例相當,黃種人比其他人種多的多,其他人種男的比女的多,以下那句是正確的 (B)

   A、黃種人男人比黑種人女人多       B、黃種人女人比黑種人男人多

  5、 關於聚類分析的題目,判斷哪句不正確

  6、 均值>中位數>眾數,問這個分布偏左還是偏右 

右偏

  7、 隨機無放回抽樣跟隨機有放回抽樣比較,哪個方差大,還是相等

有放回的方差更大,它的概率範圍更廣,偏離程度更大

  8、 回歸分析y=a+bx,如果存在自相關,問b的值如何,是正負還是0,還有顯著性如何?

b值是正負,顯著性水平高

  

  二、問答題

  1、SQL語句,表A有member_id, city,表B 有 member_id, price幾項,將A和B鏈接,且指定城市和price>10. Member_id為主鍵.如果不會寫就給出數據分析的思想。

select * from A join B on A.member_id=B.member_id where city='北京' and price>10.

  2、數據清理中,處理缺失值的方法

對於缺失值的處理,從總體上來說分為刪除存在缺失值的個案和缺失值插補。

分為三個步驟:

①為每個空值產生一套可能的插補值,這些值反映了無響應模型的不確定性;每個值都可以被用來插補數據集中的缺失值,產生若幹個完整數據集合。

②每個插補數據集合都用針對完整數據集的統計方法進行統計分析。

③對來自各個插補數據集的結果,根據評分函數進行選擇,產生最終的插補值。

  3、回歸分析中出現的多重共線性問題是什麼,如何處理?

所謂多重共線性(Multicollinearity)是指線性回歸模型中的解釋變量之間由於存在精確相關關係或高度相關關係而使模型估計失真或難以估計準確。

一般來說,由於經濟數據的限製使得模型設計不當,導致設計矩陣中解釋變量間存在普遍的相關關係。

消除多重共線性的方法:
1.增加樣本容量
2.利用先驗信息改變
3.刪除不必要的解釋變量:參數的約束形式
4.其它方法:逐步回歸法,嶺回歸(ridge regression),主成分分析(principal  components ).
這些方法spss都可以做的,你在數據分析的子菜單下可以找到相應的做法。
刪除不必要的方法的時候,最好使用一下逐步回歸法,這樣比較科學一點。
主成分分析的方法使用比較簡單科學,本人建議用該方法。


  三、分析題

  1、對不同價位區間的商品做活動,表A給活動出流連次數與總體瀏覽次數,表B給出活動商品轉換率和總體商品轉換率,分析現象

  2、某電商推出一款新的產品,希望這個產品能大賣,讓你給這個主題取個名字,如果你是數據分析師,設定哪些指標來判斷,給出指標的定義和意義,至少三個。


最後更新:2017-04-03 05:39:57

  上一篇:go Asp.net相關書籍
  下一篇:go [c#]分析器錯誤消息: 發現不明確的匹配。