成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

基于Hadoop云盤系統1:上傳和下載效率優化

大數據 Hadoop
基于任何平臺實現的云盤系統,面臨的首要的技術問題就是客戶端上傳和下載效率優化問題。基于Hadoop實現的云盤系統,受到Hadoop文件讀寫機制的影響,采用Hadoop提供的API進行HDFS文件系統訪問,文件讀取時默認是順序、逐block讀取;寫入時是順序寫入。

 一、讀寫機制  

首先來看文件讀取機制:盡管DataNode實現了文件存儲空間的水平擴展和多副本機制,但是針對單個具體文件的讀取,Hadoop默認的API接口并沒有提供多DataNode的并行讀取機制。基于Hadoop提供的API接口實現的云盤客戶端也自然面臨同樣的問題。Hadoop的文件讀取流程如下圖所示:

  1. 使用HDFS提供的客戶端開發庫,向遠程的Namenode發起RPC請求;
  2. Namenode會視情況返回文件的部分或者全部block列表,對于每個block,Namenode都會返回有該block拷貝的datanode地址;
  3. 客戶端開發庫會選取離客戶端最接近的datanode來讀取block;
  4. 讀取完當前block的數據后,關閉與當前的datanode連接,并為讀取下一個block尋找***的datanode;
  5. 當讀完列表的block后,且文件讀取還沒有結束,客戶端開發庫會繼續向Namenode獲取下一批的block列表。
  6. 讀取完一個block都會進行checksum驗證,如果讀取datanode時出現錯誤,客戶端會通知Namenode,然后再從下一個擁有該block拷貝的datanode繼續讀取。

  這里需要注意的關鍵點是:多個Datanode順序讀取。

  其次再看文件的寫入機制:

 

  1. 使用HDFS提供的客戶端開發庫,向遠程的Namenode發起RPC請求;
  2. Namenode會檢查要創建的文件是否已經存在,創建者是否有權限進行操作,成功則會為文件創建一個記錄,否則會讓客戶端拋出異常;
  3. 當客戶端開始寫入文件的時候,開發庫會將文件切分成多個packets,并在內部以"data queue"的形式管理這些packets,并向Namenode申請新的blocks,獲取用來存儲replicas的合適的datanodes列表, 列表的大小根據在Namenode中對replication的設置而定。
  4. 開始以pipeline(管道)的形式將packet寫入所有的replicas中。開發庫把packet以流的方式寫入***個 datanode,該datanode把該packet存儲之后,再將其傳遞給在此pipeline中的下一個datanode,直到***一個 datanode,這種寫數據的方式呈流水線的形式。
  5. ***一個datanode成功存儲之后會返回一個ack packet,在pipeline里傳遞至客戶端,在客戶端的開發庫內部維護著"ack queue",成功收到datanode返回的ack packet后會從"ack queue"移除相應的packet。
  6. 如果傳輸過程中,有某個datanode出現了故障,那么當前的pipeline會被關閉,出現故障的datanode會從當前的 pipeline中移除,剩余的block會繼續剩下的datanode中繼續以pipeline的形式傳輸,同時Namenode會分配一個新的 datanode,保持replicas設定的數量。

  關鍵詞:開發庫把packet以流的方式寫入***個datanode,該datanode將其傳遞給pipeline中的下一個datanode,知道***一個Datanode,這種寫數據的方式呈流水線方式。

二、解決方案

  1.下載效率優化

  通過以上讀寫機制的分析,我們可以發現基于Hadoop實現的云盤客戶段下載效率的優化可以從兩個層級著手:

  1.文件整體層面:采用并行訪問多線程(多進程)份多文件并行讀取。

  2.Block塊讀取:改寫Hadoop接口擴展,多Block并行讀取。

  2.上傳效率優化

  上傳效率優化只能采用文件整體層面的并行處理,不支持分Block機制的多Block并行讀取。

原文鏈接:http://www.cnblogs.com/hadoopdev/archive/2013/03/07/2947447.html

【編輯推薦】

責任編輯:彭凡 來源: 博客園
相關推薦

2013-03-11 14:42:08

Hadoop

2013-03-08 10:09:30

Hadoop

2011-05-17 17:51:43

SEO網站優化

2022-08-12 22:53:32

HadoopHDFS分布式

2020-08-23 11:48:44

Python云盤updog

2012-05-21 16:08:07

Hadoop云計算

2009-10-23 10:45:33

linux系統文件下載

2012-11-29 09:54:53

移動網絡云計算網絡優化

2016-10-25 13:05:54

360云盤關閉下載

2021-10-12 10:37:58

云計算效率云平臺

2016-09-21 13:17:31

LibreOfficeJava緩沖區

2009-08-27 11:09:52

ibmdw云計算

2011-03-24 10:11:59

Linux虛擬內存優化

2012-07-18 10:11:58

Win 7系統盤

2023-09-19 10:31:09

算法數據

2018-10-18 10:30:50

樹莓派NAS數據庫

2021-03-12 08:35:13

開源Nextcloud私有云

2010-05-24 14:59:29

Hadoop集群

2024-07-02 10:18:18

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 99久久久久国产精品免费 | 一区二区三 | 国产亚洲精品精品国产亚洲综合 | 黄在线| 一区二区三区精品视频 | av中文字幕在线观看 | 久久99精品视频 | 播放一级毛片 | 久久高清亚洲 | 日日夜夜影院 | 中文欧美日韩 | 精品国产一区二区三区观看不卡 | 国产成人精品一区二区三区在线 | 先锋资源网 | 国产情品 | 精品国产乱码久久久久久蜜柚 | 成人免费影院 | 国产乱码精品1区2区3区 | 日本在线黄色 | 在线免费国产视频 | 黄色大片在线 | 久久99国产精品 | 欧美日本高清 | 精品国产一区二区三区久久久蜜月 | 中文字幕精品一区久久久久 | 国产久 | 天堂久久天堂综合色 | 黄色一级大片视频 | 欧美日韩成人在线 | 一区二区三区中文 | 日韩精品1区2区3区 爱爱综合网 | 午夜视频在线 | 欧美一区二区三区一在线观看 | 波多野结衣二区 | 2一3sex性hd | 国产性色视频 | 欧美在线免费 | 久久新 | 中文字幕不卡在线观看 | 四虎影院在线观看免费视频 | 国产精品伦理一区 |