94久久国产乱子伦精品免费,丰满熟妇人妻av无码区,精品丝袜人妻久久久久久,亚洲欧美精品伊人久久

首頁 > 數據資產管理解決方案 > 數據資產管理工具

數據湖操作系統


數據湖操作系統主要由GDH(Googosoft Distribution Hadoop Manager)和數據中臺構成。GDH是Googosoft Distribution Hadoop Manager的簡寫,包含整個Hadoop生態體系。主要的組件有HDFS、Yarn、HBASE、Hive、Impala、Spark、Kafka、Sqoop、Oozie、HUE。GDH主要是用來存儲全量的結構化數據、半結構化數據和二進制數據。

數據中臺的作用,主要是驅動GDH,管理多樣化的數據。核心功能包括:創建數據服務接口、界面化定義視圖、應用服務化、數據質量檢測、元數據管理、數據標準維護、數據交換、流程化數據處理。

 

從數據生命周期來看,數據湖對于數據的處理方式涵蓋數據集成、數據存儲、數據治理、數據質量、自助數據發現和安全監管,一個管理完善的數據湖中的數據會保留原始數據,同時過程中數據會不斷地完善、演化,以滿足業務的需要。

1、數據集成:接入不同數據源,自動生成元數據信息,提供統一的接入方式。

2、數據存儲:存儲的數據量巨大且來源多樣,支持異構和多樣的存儲。自動提取元數據信息,建立統一的數據目錄。

3、數據治理:自動提取元數據信息,建立統一的數據目錄;建立數據血緣,梳理上下游的脈絡關系;數據變更影響范圍評估和數據價值評估;提供不同版本的數據,便于進行數據回溯和分析。

4、數據質量:提供數據字段校驗、數據完整性分析等功能;實時監控數據處理任務,避免不完備的數據。

5、自助數據發現:提供一系列數據分析工具,包括:聯合分析,交互式大數據SQL分析,機器學習,BI報表等等。

6、安全監管:對數據的使用權限進行監管;對敏感數據進行脫敏和加密。

數據湖操作系統具備以下特征:

1、保真性

數據湖操作系統對于業務系統中的數據都會存儲一份“一模一樣”的完整拷貝。

2、靈活性

使數據保持最為原始的狀態,一旦需要,可以根據需求對數據進行加工處理。

3、可管理性

提供完善的數據管理能力,包括:數據源、數據連接、數據格式、數據管理、權限安全管理等能力。

4、可追溯性

對數據的全生命周期進行管理,支持對任意一條數據的接入、存儲、處理、消費過程可追溯,能夠清楚的重現數據完整的產生過程和流動過程。

5、豐富的計算引擎

支持各類計算引擎,從批處理、流式計算、交互式分析到機器學習,并支持計算引擎的可擴展、可插拔。

6、多模態的存儲引擎

內置多模態的存儲引擎,以滿足不同的應用對于數據訪問需求,并且在需要時與外置存儲引擎協同工作,滿足多樣化的應用需求。

 


主站蜘蛛池模板: 永福县| 长春市| 东兰县| 武邑县| 南木林县| 蓝田县| 河曲县| 孝感市| 嘉峪关市| 正蓝旗| 茶陵县| 竹北市| 图片| 江孜县| 定陶县| 伊川县| 佳木斯市| 乌拉特前旗| 昌平区| 张掖市| 荆门市| 克山县| 治多县| 百色市| 连江县| 罗山县| 腾冲县| 十堰市| 富源县| 郑州市| 永川市| 闵行区| 永清县| 冕宁县| 绥中县| 黑龙江省| 临高县| 岳池县| 东丽区| 清原| 沿河|