江苏时时彩票开奖结果 www.mxwnaq.com.cn 大數據是客戶獲取業務洞察力的關鍵推動因素,在IT,營銷,財務,安全性和合規性以及業務運營等關鍵業務領域發揮重要作用。
對于大數據平臺,以熟知的Hadoop分布式框架使用并行跨多個服務器和存儲實現分布式數據處理,并且形成了工具和應用的生態系統,幫助使用者了解和處理不斷增長的海量數據,將多種數據源包含結構化、非結構化數據進行統一的數據展示和管理,但是現在基礎設施是否能適用應用的發展?
大數據集群基于物理主機構建,空間占用大,部署速度慢,彈性、可用性和效率低下。Hadoop中的name node和Job Tracker存在單點失效問題,相關非核心Hadoop??槿鏗ive沒有HA保障,Hadoop和非Hadoop負載不能直接共享資源。同時現在硬件服務器,2顆24核CPU,配256G內存,2T的硬盤,這種配置如果簡單地放幾個web應用,顯然是浪費。就算是用來實現單節點的Hadoop,加上業務負載具有波動性,導致物理服務器的資源利用率不高,平均占用10-20%的CPU利用率,對計算資源和機房空間浪費也是非常高的,且物理節點擴容不夠快速靈活。對于這么高性能的計算機,如何有效利用計算資源,通過超融合技術將計算、網絡和存儲資源整合,單個物理服務器上可以部署更多的Hadoop節點,從而提高了業務分析速度和物理服務器資源利用率,采用虛擬機方式擴容節點更加快速和靈活。
vSAN在超融合基礎設施(HCI)領域發展取得了巨大成功,增長的主要原動力與大數據用戶的主要需求大致相似:
vSAN的軟件定義特性消除了對專有硬件的依賴,這是大多數大數據環境的基本特征;
vSAN可以部署在廣泛的X86服務器上,提供大數據用戶在管理和控制環境以滿足其特定需求時所需的選擇和靈活性;
隨著需求的增長,客戶可以從小規??即罱?,并逐部擴展其HCI環境,這與大多數大數據部署所需的靈活性相一致;
將Hadoop 與vSAN相結合對IT組織很有吸引力,因為超融合解決方案可以有效地利用計算和存儲資源以及通過vSphere管理Hadoop簡化了基礎架構管理。
利用vSAN支持大數據部署,用戶可以靈活的選擇部署方式,當用戶需要最高的可靠性時,可以利用vSAN冗余機制,同時也利用Hadoop的HDFS分布式文件系統,當物理節點宕機時為Hadoop大數據平臺提供靈活可靠的基礎架構。
其次用戶也可以利用vSAN的Host Affinity 特性,確保數據和Hadoop 節點保存在同一節點,數據通過Hadoop HDFS多副本得到冗余保證,這樣可以在高可靠和存儲空間利用率之間取得一個更好的平衡。
vSAN主機關聯存儲策略使您可以在VMware的本地主機上存儲單個數據副本。使用此策略時,vSAN會維護數據的單個副本,該副本存儲在運行VMware的本地主機上。此策略作為大數據(Hadoop,Spark),NoSQL和其他此類應用程序的部署選擇提供,這些應用程序在應用程序層維護數據冗余。
使用vSAN部署大數據明顯帶來以下好處:
基礎架構的敏捷性,vSAN分布式架構特性可以快速按需擴展節點,線性擴展基礎架構的資源能力;
簡化管理,整個數據中心無論關鍵應用,VDI,大數據,開發測試,管理容災等全都采用統一的軟件平臺,根據測量調配滿足不同應用需求,只用管理一種基礎架構平臺;
更高的資源效率,可以彈性伸縮,資源充分池化,提高資源利用;
更好的性能,vSAN 廣泛的兼容各種硬件,同時利用SSD做緩存加速,提供更高的性能,提高大數據分析的效率。
為進一步提升底層物理資源利用率,保證資源高可用,某客戶評測了基于Cloudera Express5.3.3版本構建大數據集群,測試將集群各節點部署在虛擬化平臺上的性能表現。通過搭建VMware虛擬化,將底層物理資源池化,按需提供虛擬機資源作為Hadoop集群計算節點,按照裸設備映射(RDM)、VMFS、vSAN三種不同數據存儲方式分別進行測試。
評測的模型一共有6種:
為驗證Hadoop大數據平臺的功能、性能,如ETL數據抽?。òń峁夠頭墻峁夠蕕既氳汲觶?、分布式存儲性能(HDFS吞吐能力),分布式計算性能(如MapReduce、Spark計算)。
經過各種模型測試比較分析,vSAN1副本,HDFS 3副本性能表現最好,即上述第三種部署方式。vSAN有SSD作為緩存層,相比RDM和VMFS 的方式能獲得更好的讀寫性能;而隨著副本數量增加,雖然有可靠性提升,但同時也帶來了性能和容量的損失。所以在部署方案選擇上建議兼顧應用的高可用、性能和有效容量,這個客戶在評估過后最終通過vSAN構建統一基礎架構平臺,承載大數據業務,大數據節點部署和擴展效率明顯提高80%,服務器的平均利用率提升4倍,構建統一軟件架構,簡化了管理。最后隨著大數據和HCI采用快速發展,VMware將持續創新和優化vSAN,以進一步滿足用戶對大數據場景的需求。