優質博文list(分布式文件係統/存儲/搜索)
轉載請注明出處:https://blog.csdn.net/zbf8441372
把一些好的,有用的博文搜集在這裏,陸續更新,主題大都是涉及到分布式係統,文件和存儲之類,還有雲計算,包括一些強大的,熱門的open-source,包括NoSQL生態係統,Hadoop家族,lucene全文搜索工具,一些Apache項目等等。另外一些比較好的站點和博客地址,可以拓展閱讀。
20. REST相關
深入淺出REST 對REST的比較通俗,全麵的基本介紹
19. 分布式係統工程實踐
一位淘寶工程師在2010年寫的一篇關於分布式的綜合論述的文檔,對於對分布式感興趣又不入門的我來說,好難消化。 分布式係統工程實踐(open-open地址)
18. MogileFS
傲遊用MogialFS存儲海量文件,據說幾百萬的文件很輕鬆就可以處理。存在的問題是文檔太少,並且有人號稱目前的實現不夠穩定。另外根據一些文檔,MogileFS無法scale到很高的數量級,因為metadata db是瓶頸。
參考:
- https://danga.com/mogilefs/ :官方網站
- https://lxy2330.iteye.com/blog/1225419 :一個分布式文件係統的綜述,認為MogileFS文檔少並且不夠穩定。
- https://hi.baidu.com/noirwinter/blog/item/6d13da1b30a793c5ad6e7514.html :一個MogileFS的實例介紹,號稱可以處理千萬級別文件。
- https://shen2.cn/tag/mogilefs/ :另一個分布式文件係統的的綜述,推薦了MooseFS
- https://www.quora.com/OpenStack-vs-MogileFS:比較了Swift和MogileFS,認為MogileFS無法scale。
17. MongoDB 圖片存儲相關文章
- https://www.frostsky.com/2011/10/mysql-to-mongodb/ :視覺中國網站的實例,他們用MongoDB實現了產品級別的圖片存儲。
- https://groups.google.com/group/mongodb-user/browse_thread/thread/960b49e903bc80f0?pli=1 :一個討論,有回複說1TB級別的圖片數據存在GridFS沒有任何問題,並且有人提到他們用MongoDB存儲了百萬張圖片,延時還在50ms以內。
- https://blog.nosqlfan.com/html/1035.html :一個開源方案
- https://hi.baidu.com/noirwinter/blog/item/19fa98520617e01e0cf3e337.html :作者在TB級別的數據應用成功了MongoDB。
- https://blog.yunchat.net/2034.html :一個簡單的demo
- https://www.mongodb.org/display/DOCS/Production+Deployments: MongoDB官方網站給出的用戶列表,有一些用戶用到它存儲圖片,不過規模貌似都不太大。
16.
麵向文檔的數據庫 CouchDB
15. 案例分析:基於消息的分布式架構
可以關注下文章作者的博客,這隻是他基於消息的分布式架構係列博文中的一篇。另外,逛他的博客我保證會受益匪淺!
14.
架構腐化之謎
好久沒有逛InfoQ啦,來兩片架構的文章滋潤下。
13.
雲計算多租戶最佳實踐
關於雲計算中一個重要的概念:多租戶。有簡單的例子。
12. 集成Lucene和HBase
有關怎麼結合NoSQL做lucene的搜索的思路,也算個啟迪吧。
隻有總結好了應用場景,才能更好把握。總結得挺不錯的。
10. 一致性hash算法
作為分布式的一個最最重要的基礎之一。本文解釋的很清楚明了。
小白表示看完就去改代碼了= =
簡單掃個忙,關於BigTable,列簇式存儲,圖結構存儲,橫向擴展強一致性,最終一致性等。順便再推薦NoSQLFan網站。還看到taobao團隊博客裏的一篇關於Cassandra性能測試的博文也同時發在了NoSQLFan上,可見那是一片很好的土地。測試結果Cassandra的寫性能非常優越,讀性能一般。
這是一本蠻不錯的mini ebook。總結了搜索引擎的一些基礎知識(轉倒排的幾種方法),主要算法(PageRank,HITS,SALSA,Hilltop), 好好看的話收獲還是蠻大的。
6. paxos 實現
zookeeper是基於paxos實現的。paxos算法是一種類似鎖的機製,本質上zookeeper中用它實現的是數據在分布式環境下的一致性。paxos算法的paper感興趣的話可以閱讀下。另外,這是淘寶核心係統團隊博客,無論是list,還是回複,還是相關鏈接的博客,都很不錯。
關於Twitter的Storm,一個非常火的實時計算係統。你可以看到很多開源的東西。在回複裏有個鏈接,有更多更深的內容。值得一讀。
4. HBase入門篇(集錦)
該博主的一係列HBase實踐經驗,給我的感覺非常好,可以跟讀下。就算沒有用過HBase,也能很好體會到HBase這個東西,也許可以啟迪你考慮將它運用到自己的項目中去。
3.
Lucandra / Solandra: A Cassandra-based Lucene backend
lucene與Cassandra的結合。包括之後和Apache solr結合。提供了我lucene與NoSQL結合的實現思路,如HBase。用NoSQL的特性,也許可以彌補無法索引進lucene的數據的讀取方式。存進MySQL去讀,實踐證明可慢了。
2. 如何打敗"CAP"定理
數據庫中的Consistency, Availability, Partition-Tolerance。很多設計都是舍一取二,所謂的三條都滿足也是一定條件下的偽滿足,一定是有取舍的。
1. AWS平台與EC2介紹
關於Amazon平台的產品,關於它的"彈性"。
最後更新:2017-04-02 17:28:38