<li id="fw3su"></li>
  • <li id="fw3su"></li>
  • <div id="fw3su"><tr id="fw3su"></tr></div>
    <dl id="fw3su"></dl>
  • <div id="fw3su"><tr id="fw3su"></tr></div>
  • <sup id="fw3su"></sup>
    <progress id="fw3su"></progress><div id="fw3su"><tr id="fw3su"></tr></div><input id="fw3su"><ins id="fw3su"></ins></input>

    Databricks 开源 Delta Lake:让数据湖更可靠

    Delta Lake 提供了数据版本控制,能够及时获取文件的每个版本,这一特性对于《通用数据保护条例》(General Data Protection Regulation,简称 GDPR)及其他相关的审计请求来说非常有帮助。文件的元数据存储顺序和数据处理过程保持一致,从而支持相同级别的数据处理和特征增强。

    Delta Lake 提供了模式执行功能。可以检查数据类型以及字段是否存在,并强制设置字段以确保数据始终保持干净。此外,更改模式不需要 DDL,可以自动应用变更。

    Delta Lake 部署在现有的数据湖之上,它与批处理和流式数据均兼容,并可作为一种新的数据源插入到现有的 Spark 作业中。数据以通用的 Apache Parquet 格式存储。

    Delta Lake 和 MLFlow 也兼容,MLFlow 是 Databricks 在去年推出的最新的开源平台。代码可在 GitHub 上获得。

    查?#20174;?#25991;原文: Databricks Open Sources Delta Lake to Make Data Lakes More Reliable

    我来评几句
    登录后评论

    已发表评论数()

    相关站点

    +订阅
    ?#35753;?#25991;章
    11选五 湖北30选5几点开奖 微信快乐十分怎么赢钱 14场胜负彩最新开奖结果 内蒙古快三开奖 体彩福建36选7第18129 北京快乐8直播开奖 山东十一运夺金走势图彩经网 排列五开奖号码 22选5黑龙江开奖结果今天 山东20选5最新开奖结果 博彩老头排列三74 体彩排列三走势图乐彩 吉林时时彩11选5 香港六合彩管家婆 黑龙江十一选五任五遗漏一定牛