突然资讯网
首页 >> 科技 >> 正文

可以支持结构化,数据库大数据一体化

日期:2020-10-26 13:36:41 来源:互联网 编辑:小狐 阅读人数:295

允中 发自 凹非寺

10月23日数据湖高峰论坛上,阿里巴巴集团副、阿里云智能数据库产品事业部负责人、达摩院数据库与存储实验室负责人 李飞飞表示:“云原生作为云计算领域的关键技术与基础创新,正在加速数据分析全面进入数据库大数据一体化时代”

可以支持结构化,数据库大数据一体化(图1)

阿里巴巴集团副、阿里云智能数据库产品事业部负责人李飞飞

他表示,随着数字化转型进程深入推进,企业的数据存储、处理、增长速度发生了巨大的变化,传统数据分析在成本、规模、数据多样性等方面面临很大的。云计算的发展正在加速推进数据分析进入“ 数据库大数据一体化”时代,以更好得帮助企业加速迈入数字原生时代加速业务数智化。

传统数据分析和技术面临巨大

近年来,企业数据需求呈现出海量、数据类型多样化、处理实时化、智能化等新特点,对数据分析提出了弹性扩展、结构化/半结构化/非结构化海量数据存储计算、一份存储多种计算及低成本等核心诉求。

而传统商业化数据仓库及大数据技术,因存在扩展性、建设维护成本、复杂读等一系列,无法很好得满足业务诉求。例如,大量企业需要对数据进行离线ETL计算、机器学习及度查询分析等多种计算时,使用大数据技术或传统数据仓库,企业需要组合使用多种技术产品,通过复杂的数据集成、数据冗余来满足多样的计算诉求,整个技术架构复杂且数据冗余成本高。

云原生重构数据处理架构,加速向“数据库大数据一体化”演进

针对企业面临的分析困境,是否有一种新型数据分析技术和架构能够高效解决海量数据深度计算分析的业务诉求?答案是肯定的,李飞飞表示,下一代数据分析演进方向是“ 以云原生为基础,在离线一体化技术融合,实现数据库大数据一体化

随着云计算的发展,计算存储解耦、资源池化、Serverless、流批一体等核心基础技术正在加速数据分析向“数据库大数据一体化”演进。“数据库大数据一体化”的云原生数据分析能够很好得弹性扩展、海量存储、多种计算及低成本等能力,有效解决海量数据深度计算分析的业务分析和创新诉求。

其实,“数据库大数据一体化”也是业界近年的发展趋势,Gartner及业界多个产品都在朝这个趋势演进:

Microsoft SQL Server 在2018年9月发布的SQL Server 2019预览版中宣布通过深度集成Spark与Hadoop端到端的数据处理解决方案。

AWS Redshift及Snowflake均离线ETL处理、度交互式分析、实时增删改查的一体化的产品能力。

从技术架构演进过程来看,数据处理发展经历了四个重要阶段:

2003~2006年,Google发表《The Google File System》《MapReduce:Simplified Data Processing on Large Clusters》《Bigtable:A Distributed Storage System for Structured Data》三篇海量数据存储、处理重要论文,促进了大数据技术的飞速发展,诞生了如Hadoop HDFS、Hadoop MapReduce、Tez、HBase、Spark、Flink等为代表的分布式文件、分布式计算框架、分布式宽表存储,加速了大数据应用向5V(Velocity、Volume、Variety、Value、Veracity)方向发展和普及。

李飞飞表示,“数据库大数据一体化”的数据分析应该具备如下特征:

1、云原生,数据分析需要支持强大的弹性扩展能力,根据业务负载动态扩展计算资源,大规模数据处理能力,有效满足数据分析性能诉求的同时,降低分析成本。

2、一份存储多种计算,数据分析必须支持在一份存储数据上兼容多种计算,包括实时增删改查、度交互式分析、离线ETL及机器学习。通过一份存储支持多种计算的特性,避免了数据计算过程中的数据搬迁,简化了数据分析过程,降低分析成本。

3、海量存储,支持结构化、半结构化及非结构化数据库的存储及计算。随着IOT/移动网络的发展,半结构化/非结构化数据占比越来越高,数据分析需要支持这些数据的低成本存储及计算,助力企业充分挖掘并发挥数据价值。

4、全面兼容数据库生态,数据分析需要并兼容数据库接口协议,且支持数据库上下游生态,降低数据分析门槛,让人员会数据库就会大数据。

基于“数据库大数据一体化”的演进趋势,阿里云推出了以云原生数据仓库AnalyticDB及云原生数据湖分析DLA为核心的云原生数据分析。深度融合数据库及大数据技术,为企业一体化的数据接入、数据存储、数据计算及数据分析解决方案,让会数据库的用户就会大数据。

云原生数据仓库AnalyticDB让人员“会数据库就会大数据”

为满足企业计算分析多元化的诉求,阿里云于2013年开始研发并推出云原生数据仓库AnalyticDB。基于云构建,秉承“数据库大数据一体化”的理念,AnalyticDB为用户了新一代的数据分析,有效解决当前企业数据分析痛点。AnalyticDB具备如下优势:

云原生 ,AnalyticDB通过存储计算分离及存储服务化等技术,实现了计算与存储的独立自由弹性。AnalyticDB可以根据业务负载变化动态扩缩计算资源,满足企业数据分析性能诉求的同时,有效控制分析成本。同时,存储服务化后,按存储量付费。

海量存储 ,AnalyticDB通过分布式存储、存储服务化及向量计算等多种技术,可以支持结构化、半结构化及非结构化海量数据的存储。同时,AnalyticDB支持冷热数据分层存储。企业可以根据业务的使用情况,做表/分区级别的冷热分离存储,通过对低频访问的冷数据低价存储,对于频繁访问的热点数据,采用ESSD存储满足高性能访问,进而保障访问性能的同时,优化整体数据存储成本。

兼容数据库生态 ,不同于复杂、高门槛的大数据体系,AnalyticDB高度兼容MySQL、PostgreSQL及Oracle。兼容数据库的客户端及上下游生态,降低数据分析门槛,让人员会数据库就会大数据。

一键建仓 ,AnalyticDB一键建仓功能,企业可以通过一键建仓功能轻松得将数据库及日志数据实时集成至AnalyticDB。

可以支持结构化,数据库大数据一体化(图2)

与传统数据分析最大的不同是,AnalyticDB基于“数据库大数据一体化”的技术架构,为用户一体化的数据分析,满足多样化的数据分析诉求,让人员会数据库就会大数据。

云原生数据湖分析DLA让数据湖分析进入Serverless时代

可以支持结构化,数据库大数据一体化(图3)

近几年数据湖的概念很火,数据湖允许以任意规模存储所有结构化、非结构化及半结构化数据,其中的数据主要用于报告、可视化、增强分析及机器学习等场景。为了实现数据湖的数据可分析,需要解决数据湖构建、元数据构建及数据计算引擎对接等问题。为此,阿里云2018年开始布局并推出端到端的数据湖解决方案:云原生数据湖分析Data Lake Analytics(简称:DLA)帮助企业快速构建并高效挖掘数据。

可以支持结构化,数据库大数据一体化(图4)

云原生数据湖分析DLA,具备四大优势:

数据湖 ,DLA一站式数据湖能力,包括元数据发现、及变更,全量及增量数据一键入湖。元数据功能可以支持OSS/RDS/Hbase/MongoDB等数据源的元数据自动发现、及变更。同时,内置Apache hudi, DLA支持增量数据分钟级入湖,助力企业构建准实时数据湖。

一份存储多种计算 ,DLA了Presto、Spark两种计算引擎,满足度交互式分 析、离线ETL、机器学习等多种计算能力。针对Presto,DLA在资源隔离、高可用及元数据库权限隔离等方面做了极大增强,保障服务稳定性及可靠性。同时,对于Spark计算引擎,DLA实现了数据缓存、元数据访问优化及文件上传优化等,保障计算性能,据,在Spark典型ETL Benchmark Terasort,1TB输入数据量的场景下,相较于自建spark,DLA性能提升163%。

Serverless计算分析 ,DLA基于容器及多租户隔离等技术,完全Serverless的计算能力。DLA可以根据Spark Job或Presto SQL动态扩缩计算资源,一分钟可拉起300个计算节点。用户只需按实际运行作业付费,计费精确至秒级,相较于自建,性价比提升300%,大大提升数据分析性价比。

数据库生态兼容性 ,DLA 完全兼容MySQL的JDBC,兼容MySQL的客户端及上下游生态,降低数据分析门槛,让人员会MySQL就会大数据。到企业中去

未来数据分析将全面进入“数据库大数据一体化”时代,阿里云AnalyticDB及DLA将秉承“数据库大数据一体化”理念,持续打造云原生、一体化的数据分析能力,助力企业加速迈入数字原生时代。

每天5分钟,抓住行业发展机遇

每个工作日,量子位AI内参精选全球科技和研究最新动态,汇总新技术、新产品和新应用,梳理当日最热行业趋势和政策,搜索有价值的论文、教程、研究等。

加入AI社群,与优秀的人交流

վ“ᴗ” ի 追踪AI技术和产品新动态

本文相关词条概念解析:

数据

数据就是数值,也就是我们通过观察、实验或计算得出的结果。数据有很多种,最简单的就是数字。数据也可以是文字、图像、声音等。数据可以用于科学研究、设计、查证等。数据背景是接收者针对特定数据的信息准备,即当接收者了解物理符号序列的规律,并知道每个符号和符号组合的指向性目标或含义时,便可以获得一组数据所载荷的信息。数据作为信息的载体,当然要分析数据中包含的主要信息,及分析数据的主要特征。数据(Data)是载荷或记录信息的按一定规则排列组合的物理符号。

网友评论