316
技術社區[雲棲]
優質論文list(分布式係統/存儲/索引相關)
轉載請注明出處:https://blog.csdn.net/zbf8441372
5. CoHadoop: Flexible Data Placement and Its Exploitation in Hadoop, VLDB, 2011
主要提出了對hadoop的node上進行colorate data的改進。(不知道中文怎麼翻譯= =)與plain hadoop相比,提升了相應data做indexing, grouping, aggregation, columnar storage, joins, and sessionization的效率。主要在於locator和locator table的提出和使用。將HDFS改裝成應用層可以自己控製數據要存放的node集,使相關數據的各分拷貝可以存在同幾個node下。node和locator是多對一的映射關係,locator
table記錄分發信息。每次有新數據和locator對進來,先查詢table中國是否存在,若是新對,則先按HDFS默認的方式存(默認三分拷貝,存兩個機架上,一個是本機架,一個是其他機架),若不是新對,則再去找那個node集中的適合的node存。
4. Multi-dimensional Index on Hadoop Distributed File System, IEEE, 2010
一篇中國人寫的基於HDFS的多位索引的論文。主要是把R-tree建出來的index存在HDFS裏。根據HDFS的特性和不足,增加一些改進,比如給node添加in-memory buffer或cache。
3. HadoopDB: An Architecture Hybrid of MapReduce and DBMS Technologies for Analytical Workloads, VLDB, 2009
HadoopDB是一個混合係統。基本思想是用MapReduce作為與正在運行著單節點DBMS實例的多樣化節點的通信層。查詢語言用SQL表示,並用現有工具翻譯成MapReduce可以接受的語言,使得盡可能多的任務可以被推送到每個高性能的單節點數據庫上。主要思想share-nothing MPP架構和parallel databases。
2. Windows Azure Storage: A Highly Available Cloud Storage Service with Strong Consistency, SOSP,2011
微軟Azure雲平台的存儲機製詳細介紹,很不錯。等仔細讀了再編輯上來。
1. Apache Hadoop Goes Realtime at Facebook, SIGMOD, 2011
介紹了facebook引入Hadoop和HBase技術,怎樣改裝hadoop變得相對實時。hadoop畢竟還是麵向批量數據處理的,Yahoo的Storm是一個實時的項目。論文中還是很好闡述了facebook對數據處理的需求,對比了MySQL集群,HDFS,HBase各種的讀寫特性。給HDFS的NameNode進行了Avator化,主要還是這個Avator之後的NameNode和DataNode的思路,算是他們自己的一種改進。當然,zookeeper還是無處不在。
最後更新:2017-04-02 17:09:25