最近更新時間:2022-03-31
大數據平臺提供一體化的安裝運維管理界面,通過Web界面化的方式實現一站式安裝部署、監控告警、參數配置、服務管理、日志審計、用戶管理、多集群管理等功能,避免用戶在多個管理界面間切換;對集群的各項服務做集中式管理,提供啟動服務、停止服務、修改屬性和設定運行參數等功能,實現集群各項服務運行狀態(基本信息、告警、運行健康狀態)實時監控,保障集群穩定運行。UniCloud 大數據平臺兼容主流X86服務器(Intel)以及ARM服務器(鯤鵬/飛騰等CPU),操作系統支持Centos、中標麒麟、銀河麒麟等。
數據工廠覆蓋數據采集、存儲、計算、分析、開發、調度等環節的大數據全鏈路處理能力,降低用戶使用大數據的門檻,幫助用戶快速構建大數據處理體系。
文件管理為用戶提供可視化的HDFS操作能力,免去了用戶依靠終端輸入命令行的方式進行HDFS操作,支持可視化上傳、下載、共享等操作。
數據開發以拖拽方式構建任務流,按照時間和依賴關系的對進行任務調度管理,支持對Shell,Java,MapReduce,Spark,HDFS,Hive,SparkSQL等任務調度與編排。
連接管理支持SSH協議主機連接和大數據組件HDFS、Hive、SparkSQL、Impala、Phoenix數據源連接。
UniCloud BDP提供MapReduce、Spark和Flink三種分布式處理框架,分別滿足穩定、高效、快速迭代三類應用場景,同時支持Hive、SparkSQL等SQL on Hadoop工具,簡化計算任務編寫過程,快速進行數據開發工作。
Hive默認執行引擎采用Tez計算框架,將多個具有依賴的作業轉換為DAG作業,避免復雜任務多次讀寫HDFS過程,大幅提升作業運行性能,復雜計算場景下相比MapReduce作業能夠提升10倍以上性能。
提供Spark內存計算框架,通過RDD之間的血緣關系管理算子之間依賴關系,確保數據能夠快速恢復并重新計算,中間結果數據支持靈活選擇內存、SSD等緩存模式,在迭代式計算場景提供更高性能的算力,計算性能可達MapReduce的10-100倍。
采用Flink計算框架統一流批處理,一個計算引擎可同時滿足流計算業務和批處理業務,支持自實現狀態管理和Exactly-Once語義,具有容錯機制,保證數據零丟失,具有極佳的吞吐量及亞秒級延遲性能。同時支持完善Flink SQL語法,快速實現雙流join、流批join等業務場景,降低流式作業開發難度 。
UniCloud 大數據平臺提供自研DLH組件,對外提供統一的SQL訪問服務。兼容通用標準SQL,從數據庫平滑過渡到大數據平臺,提升SQL兼容性,可對接ES、HBase、Hive等數據源,降低平臺使用門檻;提供增強型統一SQL on Hadoop方案,支持圖計算與機器學習SQL,大幅度提升平臺易用性。
為保障用戶的數據信息安全,UniCloud BDP集成了用戶身份認證和權限管理功能,在創建大數據集群時根據實際需求進行啟用安全管理即可。
開啟安全管理的集群統一使用Kerberos認證協議進行安全認證,kerberos認證支持密碼認證和keytab認證兩種模式,集群管理員可在用戶管理模塊為集群使用者分配用戶和設置認證密碼,避免外部用戶登錄集群,提高集群安全性。
由于集群每個特定用戶可能擁有集群資源的不同訪問和使用權限,為保護不同業務數據的信息安全,安全集群利用Ranger進行鑒權,確保認證用戶擁有集群資源的訪問權限。如果用戶權限不足,需要管理員為用戶授予對應資源的權限后才能進行訪問。

基于Hadoop 3.0版本,與開源社區的版本、接口保持一致,不采用私有架構。提供分布式文件存儲、海量數據處理、實時數據分析、交互式查詢、數據檢索、安全認證與權限管理等功能。軟件服務組成及功能描述如下:
服務名稱 | 版本號 | 描述 |
YARN | 3.0.0 | Hadoop資源管理器,是一個通用的資源管理系統,可為上層應用提供統一的資源管理和調度服務,使MapReduce、Spark、Flink等多種計算框架共享資源 |
HDFS | 3.0.0 | Hadoop分布式文件系統,具有高容錯、高吞吐等特點,適用于存儲超大文件 |
MapReduce2 | 3.0.0 | 批處理框架,主要用于離線計算、計算密集型應用。設計思想是分而治之,即將一個大任務分成多個獨立的小任務,最后匯總各個小任務的結果 |
ZooKeeper | 3.4.5 | 分布式應用程序協調服務,為集群提供一致性服務,包括配置維護、名字服務、分布式同步、組成員管理等 |
Spark | 2.4.0 | 一個快速的通用的大規模數據處理引擎,提供批處理、流處理、SQL查詢、機器學習、圖計算、R語言等功能。Spark計算中的中間結果緩存在內存中,在后續計算過程中直接讀取緩存數據,具有高效的計算性能。 |
Storm | 1.2.1 | Storm是一個分布式的、容錯的實時流處理引擎,效率非常高且能保證每條消息都能被處理 |
Tez | 0.9.0 | 一個支持DAG作業的計算框架。Tez將多個有依賴關系的作業轉化為一個DAG作業,大幅提升性能,幫助MapReduce克服在迭代計算和交互式計算方面的不足 |
HBase | 2.1.0 | HBase是一個分布式、面向列的NOSQL數據庫,常用于非結構化和半結構化數據的存儲和查詢。在應用程序開發中,常使用Java API等接口訪問HBase中的數據,也可以借助Phoenix等SQL引擎使用JDBC訪問HBase中的數據 |
Redis | 6.2.1 | Redis是Key-Value型內存數據庫,支持單機和集群兩種運行模式,常用作高速緩存和消息隊列代理 |
Flink | 1.12.2 | Flink是一個批處理和流處理結合的統一計算框架,其核心是一個提供了數據分發以及并行化計算的流數據處理引擎 |
ElasticSearch | 7.4.0 | ElasticSearch是一個基于Lucene的全文搜索服務器,提供了一個分布式的、多用戶全文搜索引擎。對外提供RESTful編程接口,特點是易擴展、實時搜索、穩定可靠,是當前流行的企業級搜索引擎 |
Solr | 7.4.0 | Solr是一個基于Apache Lucene項目的搜索平臺。其主要功能包括全文搜索、命中突出、面搜索、動態集群、數據庫集成和豐富的文檔(如Word、PDF)處理 |
Hive | 2.1.1 | 基于Hadoop的數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,并提供簡單的類SQL查詢功能,具有以下特點: 易于進行數據抽取、轉換和加載 支持多樣的數據存儲格式 能直接訪問存儲在HDFS或其他的數據存儲系統(如HBase)上的文件。多種使用方式,支持Shell交互式命令、JDBC、WebUI等 |
Impala | 3.2.0 | Impala是用于處理存儲在Hadoop集群中的大量數據的MPP(大規模并行處理)SQL查詢引擎,提供了高性能和低延遲查詢分析能力。 |
Kafka | 2.3.0 | 一種高吞吐量的分布式發布訂閱消息系統 |
Infra Solr | 0.1.0 | Infra Solr是一個專門提供給LogSearch服務的企業級搜索應用服務器 |
Sqoop | 1.4.7 | Sqoop是一個用于Hadoop和結構化數據存儲(如關系型數據庫)之間進行高效傳輸大批量數據的工具: Hadoop數據:HDFS文件、HBase表、Hive表 關系型數據庫:MySQL、PostgreSQL、Oracle、SQL Server和DB2等支持JDBC的數據庫 |
Kerberos | 1.10.3.10 | Kerberos是一種不依賴主機地址信任、不要求網絡中所有主機的安全,通過密鑰系統為客戶機和服務器應用程序提供強大的認證服務的網絡認證協議 在Hadoop中,使用Kerberos來安全訪問各個服務 |
HBase Indexer | 1.5 | HBase Indexer是針對HBase開發的索引插件,使HBase支持二級索引 |
Oozie | 5.1.0 | Oozie是用于Hadoop平臺的工作流調度引擎,管理Hadoop作業 |
Flume | 1.9.0 | Flume是一個分布式的、高可靠的、高可用的將大批量的不同數據源的日志數據收集、聚合、移動到HDFS進行存儲的系統 |
DLH | 1.0.0 | 基于Hive的數據湖倉庫服務,融合批處理、交互式及流處理,具備數據協同分析能力 |