邮箱 :news@@cgcvc.com

创·问 | Databend Labs 张雁飞:易用+极致弹性,做世界级的开源云数仓产品

文章来源:   发布日期:2023-03-16

优秀的企业长什么样,成功的牛人都有哪些特质?在他们的奋斗路上,有哪些需要注意的“坑”,最重要的改变是什么?

创·问 向一些优秀的华创派、投资人、业界牛人抛出问题,也希望分享他们的想法给你。


本期主角是 Databend Labs 创始人、CEO张雁飞。Databend Labs 是新一代开源云原生数仓公司,其产品 Databend 从2021年3月开源并开始研发,2023年3月5日,开源版本 Databend v1.0 正式发布;并已于近日允许申请测试 Cloud 版本——基于 Databend 内核打造的 SaaS 云数仓平台。Databend 创始团队成员来自阿里云、青云、Google 等国内外知名云计算公司,在云原生数据库领域有着丰富的工程经验,同时也是 ClickHouse、MySQL(TokuDB) 等知名数据库开源社区头部贡献者。
数据仓库简称数仓,这一概念由来已久。Snowflake 的出现标志着数仓行业进入新时代,其在存储计算分离、云原生等技术概念的基础上,又成功讲了一个更业务化的新概念——数仓 SaaS。2020年,Snowflake 创造了史上规模最大的软件 IPO,成功地佐证了云原生数据仓库的商业价值。
Gartner 预测,得益于托管云服务的推动,到2023年,全球数据库市场有望达到1000亿美元。此外,多云和跨云操作,本地部署模式,开源接口以及高级分析和事务功能等将成为云数据库市场发展的主要趋势。目前使用上一代传统 MPP 数据仓库和 Hadoop 平台的企业普遍存在数据仓库规模有限、弹性能力差、查询效率低、上云困难、数据孤岛等痛点。解决这些痛点,正是云数据库在全球市场中爆发式增长的重要原因。
再看国内,IDC 预测,随着企业数字化转型,到2026年,中国大数据 IT 支出将达到360亿美元,这给数仓带来的巨大的市场机会。如何将阶段性、运动式的数据治理过程转变为主动式、可持续的数据治理,让数据真正成为企业资产,针对现代数仓几点需求,Databend 实现了弹性的完全面向云架构的设计,它强调状态和计算的分离,目前在功能和体验上已经跟 Snowflake 非常接近,用户可以无缝迁移。相比传统数仓,用户使用 Databend 会获得更低成本、更易用、按量付费的体验。作为 Data Infra,Databend 从第一天就开源,张雁飞说,“开源是我们的基因和信仰,我们希望做出世界级的开源产品。”        
华创资本
,赞1
 
全文分享如下:
Q:华创资本
A:张雁飞  Databend创始人、CEO
          
Q1:2021年选择创立 Databend,彼时看到了哪些机遇?
张雁飞:2020年 Snowflake 上市,上市之初市值高达1000亿美金,Snowflake 是新一代基于存算分离架构的数仓,而当时业界大部分还是传统数仓如 Greenplum、ClickHouse 等,也没有开源版的 “Snowflake”,对于海外用户,会发现 Snowflake 越使用成本越高,对于中小类客户来说,成本依然很高。而在国内,数仓产品都是 PaaS 类产品,尚未有 SaaS 模式的产品。这些都是我们看到的机会。

Q2:如果用一句话描述 Databend,你希望是什么?
张雁飞:Databend 名字渊源于相对论。由于物质的存在,时间和空间会发生弯曲,这就是相对论的 Time Bend。我们期望 Databend 的出现可以让用户重新审视数据,从而挖掘数据中存在的更大价值。Databend 是一个使用 Rust 研发、开源、完全面向云架构的新一代云原生数仓,特点是开源、快、节省成本。我们提供极速的弹性扩展能力,致力于打造按需、按量的 Data Cloud 产品。
         
Q3:成立之初,Databend就选择开源的考虑是什么?云原生数仓解决了什么问题,有哪些技术挑战?
张雁飞:如果做 Data Infra,建议从第一天就走开源模式。开源一方面解决了用户的信任问题,另一方面可以快速研发产品,目前我们社区外部活跃贡献者跟公司人数差不多。他们贡献了很多重量级的功能,例如 Hive 的集成等。同时,开源可以帮助提升产品的知名度,我们社区关注者中有一半来自海外,这是跟国内很多开源产品不一样的地方。开源是我们的基因和信仰,我们希望做出世界级的开源产品。
云数仓主要满足用户海量数据的分析和处理需求,进一步可以对接数据湖产品,形成湖仓一体平台,即在一个平台即可以处理结构化、半结构化、非结构化数据。除此之外,Snowflake 还提供数据集市,一份数据可以提供给很多用户使用。例如,一份公开的新冠相关数据,可以供 Snowflake 上多家用户使用。要实现这样的数据集市,必须具备真正的存算分离架构和多租户体系。这对很多传统数仓而言,几乎相当于把现有产品从头再构建一遍。
云原生数仓不仅仅是将数仓部署到云上这么简单,而是一个一体化的方案和生态系统。尽管存算分离是实现云原生数仓的基础,但它只是开始,还有许多其他具有挑战性的功能需要研发。
Databend 定义为云原生的弹性数据库,在设计之初不仅做到计算存储分离,每一层的极致的弹性都是设计主要考量点。Databend 主要分为三层:MetaService Layer、Query Layer、Storage Layer,这三层都是可以弹性扩展的,意味着用户可以为自己的业务选择最适合的集群规模,并且随着业务发展来伸缩集群。  

Databend架构图



Q4:Databend已经开始内测使用,目标客户类型和应用场景是?构想的商业化模式是?

张雁飞:我们产品适用的目标客户类型多样,包括金融、电商、医药、广告等行业,主要做日志分析、用户行为分析、趋势分析等大数据业务。
目前构想的商业模式是通过 Databend Cloud 为用户提供SaaS服务,通过Databend 提供支持服务。
Databend 的目标不会改变,始终追求性能和弹性。随着云基础设施越来越完善,大家对按量付费和弹性的需求非常强烈。同时,Databend 既可以云端部署也可以私有化部署。
Databend 会向着 Serverless 方向持续迭代。Serverless 意味着把资源的调度做到更加精细化,云数据库的计算节点可以和一个函数一样,使用的时候拉起,使用完毕后销毁,只需要按照使用付费,资源调度会非常精确。
我们预计2023年1季度正式推出 Cloud 版本,目前已经开启内测,收到了近百家海内外企业和用户的申请。目前,有一些北美初创企业已经接入生产使用。云是 Databend 商业化战略的重要部分,也是 Databend 这个开源项目的重要用户。Databend Cloud 是围绕 Databend 打造的一款易用、低成本、高性能的新一代大数据分析平台,让用户更加专注数据价值的挖掘。Databend Cloud 上线了国际版和国内版两个可用区,欢迎有需要的小伙伴申请试用。
·https://www.databend.com
·https://www.databend.cn
 
Q5:目前的种子用户主要来自哪些行业?Databend 解决了它们哪些痛点?
张雁飞:目前种子用户主要是来自互联网行业,如:微盟这个用户,将系统日志和数据库日志导入到 Databend 中,利用 Databend 来做合规性检查。Databend 还帮助多点解决数据归档的问题,之前多点每个月初将上个月数据归档到一台 MySQL 数据库中,共有20多台服务器存储归档数据,采用 Databend 后,所有数据存储到对象存储中,只需要2台服务器做查询,帮助多点节省了90%以上的成本。还有一个新加坡客户 Digifinex,之前采用 ClickHouse 做日志分析,由于 ClickHouse 维护和扩容都不方便,且成本较高,采用 Databend 后,维护更简便,成本更低。
根据可统计信息,每天约 700TB 数据在使用 Databend 写入到云对象存储并进行分析,用户来自欧洲、北美、东南亚、非洲、中国等地,每月为他们节省数百万美元成本。
         
Q6:我们注意到 Serverless 技术在海外取得了更进一步的发展,Serverless 对于数据分析领域意味着什么?
张雁飞:Serverless 是一种云计算应用程序开发和执行模型,开发人员能够构建和运行应用程序代码,而无需提供或管理服务器或后端基础设施。Serverless 体现了一种架构思想,对于数据分析型数据仓库,需要基于这种思想去构建,产品需要具备以下特点:第一是弹性伸缩,而为了实现资源的弹性伸缩,就需要将计算资源和存储资源分离开,分别具备弹性伸缩的能力,计算资源无状态,可以随时增加或者减少资源,存储构建在无限量的存储资源池上;第二,用户可以按照资源使用量来付费,即按需付费;第三,运维简便,用户无需关心服务器的状态,只需要关心业务即可。
         
Q7:Databend 的产品技术在过去一段时间实现了快速的迭代,在你看来,做对了哪些事情?
张雁飞:首先,我们团队对数据库内核很熟悉,有着丰富的工程经验,目标很明确,技术路径也很清晰。Databend 是从0代码开始研发,没有历史包袱,出现任何问题,团队成员都可以快速定位并解决问题。
其次,Databend 从第一天就是开源的,培育了一批优质的外部开发者为 Databend 贡献代码,通过开源社区的力量促进了产品的迭代,并快速吸引了第一批种子用户使用。
最后,我们选择了一个好的工具——使用 Rust 语言进行开发,提高了  Databend 的研发效率,极大地缩短了一个庞大复杂的数据库的开发周期。目前, Databend 经过一年多的研发,目前已经有一批用户在生产使用并稳定地支撑业务。
数据库内核,尤其是 Cloud Data Warehouse 研发是一个很酷和充满挑战的工作,因为这块目前还是个荒地,我们也是一边探索一边工程实践,正因如此才充满了乐趣。
在组建 Databend 内核研发团队时,我们把眼光放到了全球,现在中国、美国、新加坡都有我们的内核研发人员,未来可能还会有其它国家的同事参与进来。团队现在主要以 ClickHouse 头部贡献者为基础 ,加上阿里、Google 等公司的朋友组建的内核团队,一个不到20人的“特种兵”团队,且都是在数据库领域摸爬滚打多年的实战老手。

Q8:在一些新的数据分析领域,如Web3,Databend是否也可以应用?
张雁飞:是的,Databend 作为云数仓属于基础设施,基于 Databend 的多租户体系和存算分离架构,结合强大的 Semi-Structured 数据类型处理能力,对这些链上数据进行快速分析,一份数据能够提供给很多用户使用。

Q9:与传统的数据仓库相比,新一代数仓产品有哪些优势?
张雁飞:分享到: