閱讀257 返回首頁    go 阿裏雲 go 技術社區[雲棲]


2013網易實習生數據挖掘工程師

2013網易實習生招聘 崗位:數據挖掘工程師 
一、問答題 
a) 欠擬合和過擬合的原因分別有哪些?如何避免? 
b) 決策樹的父節點和子節點的熵的大小?請解釋原因。 c) 衡量分類算法的準確率,召回率,F1值。 

d) 舉例序列模式挖掘算法有哪些?以及他們的應用場景。 


二、計算題 

1) 給你一組向量a,b 
a) 計算二者歐氏距離 b) 計算二者曼哈頓距離 2) 給你一組向量a,b,c,d 

a) 計算a,b的Jaccard相似係數 b) 計算c,d的向量空間餘弦相似度 c) 計算c、d的皮爾森相關係數 


三、(題目記得不是很清楚) 

一個文檔-詞矩陣,給你一個變換公式tfij’=tfij*log(m/dfi);其中tfij代表單詞i在文檔f中的頻率,m代表文檔數,dfi含有單詞i的文檔頻率。 

1) 隻有一個單詞隻存在文檔中,轉換的結果?(具體問題忘記) 2) 有多個單詞存在在多個文檔中,轉換的結果?(具體問題忘記) 3) 公式變換的目的? 


四、推導樸素貝葉斯分類P(c|d),文檔d(由若幹word組成),求該文檔屬於類別c的概率,

並說明公式中哪些概率可以利用訓練集計算得到。 


五、給你五張人臉圖片。 

可以抽取哪些特征?按照列出的特征,寫出第一個和最後一個用戶的特征向量。 


六、考查ID3算法,根據天氣分類outlook/temperature/humidity/windy。(給你一張離散型

的圖表數據,一般學過ID3的應該都知道) a) 哪一個屬性作為第一個分類屬性? b) 畫出二層決策樹。


 七、購物籃事物(關聯規則) 

一個表格:事物ID/購買項。 
1) 提取出關聯規則的最大數量是多少?(包括0支持度的規則) 2) 提取的頻繁項集的最大長度(最小支持>0) 3) 找出能提取出4-項集的最大數量表達式 

4) 找出一個具有最大支持度的項集(長度為2或更大) 5) 找出一對項a,b,使得{a}->{b}和{b}->{a}有相同置信度。 


八、一個發布優惠劵的網站,如何給用戶做出合適的推薦?有哪些方法?設計一個合適的係

統(線下數據處理,存放,線上如何查詢?) 




最後更新:2017-04-03 12:54:05

  上一篇:go 公司過度1
  下一篇:go mysql5.6安裝中的一些問題