Hadoop 集群搭建之機器選購
兩個概念:
- #####IO受限 ######在從硬盤或者網絡讀取數據時遇到瓶頸
- #####CPU受限 ######處理數據時遇到瓶頸
- #####帶寬受限 ######寫入數據網絡帶寬不夠,導致無法實施傳遞數據
常見業務劃分
- #####硬盤容量敏感型業務 這類業務對讀寫延遲以及吞吐量都沒有很大的要求,唯一的需要就是硬盤容量。比如大多數離線讀寫分析業務,上層應用一般每隔一段時間批量寫入大量數據,然後讀取也是定期批量讀取大量數據。特點:離線寫、離線讀,需求硬盤容量
- #####帶寬敏感型業務 這類業務大多數寫入吞吐量很大,但對讀取吞吐量沒有什麼要求。比如日誌實時存儲業務,上層應用通過kafka將海量日誌實時傳輸過來,要求能夠實時寫入,而讀取場景一般是離線分析或者在上次業務遇到異常的時候對日誌進行檢索。特點:在線寫、離線讀,需求帶寬
- #####IO敏感型業務 相比前麵兩類業務來說,IO敏感型業務一般都是較為核心的業務。這類業務對讀寫延遲要求較高,尤其對於讀取延遲通常在100ms以內,部分業務可能要求更高。比如在線消息存儲係統、曆史訂單係統、實時推薦係統等。特點:在(離)線寫、在線讀,需求內存、高IOPS介質 ####二:內存需要 #####1. 高峰值計算: 1)假設高峰期有10W個用戶,每個用戶每秒產生一條數據,一年的數據量是10W*3600*24*365=3 W億條 2)假設每條數據200大小,總需內存為600萬億B=573T
二:各項硬件及意義
1.CPU
2.磁盤
3.
最後更新:2017-08-13 22:30:21