什么是元数据?数据中台建设中有哪些元数据坑?-蜗牛派

什么是元数据?数据中台建设中有哪些元数据坑?

元数据一般被称为“数据的数据”,以元数据为关键展开数据治理,能够帮助企业更好地对数据资源进行管理,理清数据之间的关系,实现更精准高效的分析和决策。本文作者从自身工作出发,对元数据的基本功能展开了介绍说明,与大家分享。

浅谈数据中台元数据建设有哪些坑(1)
本人在一家金融科技公司做B端产品经理,大数据方向的,2019年我们公司轰轰烈烈的启动了数据中台建设,作为数据中台的重要组成部分,元数据自然被提上了日程。在产品建设过程中遇到了很多坑跟大家分享下(第一次分享有错误还请大家多多包涵)。

关于元数据的概念的科普、介绍我这里就不多说了,大家在人人都是产品经理随便搜一下就有。

元数据功能介绍

在做元数据之前本人也做了很多的竞品分析(简单的),像这类产品更多还是乙方比较有经验举例几个亚信、普元信息、网达、星环等等。根据我们的需求现状我们确定任何一家成熟的产品都cover不住我们的需求,对于乙方习惯于标准化,非标的需求都不太愿意做,所以我们干脆就从0到1开始建设,不用他们的产品,只用他们的技术能力。

对于要不要从0到1建设取决于数据量和数仓建设情况,如果数据量不大直接买一个成熟产品即可或者根本不需要元数据产品,毕竟没有元数据也能建立数仓的(扯远了~),每个公司对元数据的需求可能都不太一样,元数据的标准化其实不太好做(对技术要求很高),因为要你能cover住大部分用户的需求,cover不住要么用户妥协、要么你妥协二次开发一些功能给用户使用。

根据我们的需求我们规划了以下功能(简单的介绍下):

1. 数据地图

数据地图分为数据资产、元数据中心,为用户提供元数据资产统计服务。

1)数据资产统计:用户可以通过数据地图清晰的了解数据的使用情况、分布等对整个数据资产情况有个大概的了解(这种分析统计类的需求是无止尽的,做一部分常用的即可,剩下的入库自己用可视化分析工具展示)

2)元数据中心:这是元数据核心功能之一,整个元数据的输出就是数据地图,用户可以通过元数据中心查看表的元数据信息(技术元数据、业务元数据)、任务信息、血缘关系(表级、字段级)血缘分析、使用信息等等(再多就看自己公司诉求了)

3)元模型:元模型是元数据的核心功能之一,主要实现技术元数据和业务元数据的管理、维护;这里说下子模型的概念,考虑场景的多样性比如运维更关注技术元数据、业务更关注业务元数据,针对不同的库、表可以应用不同的元模型,以满足不同人群的需求。

4)管理中心:管理中心主要针对功能权限、数据权限进行管理包括权限申请、审批、实施等。

5)我的数据:为用户提供查看自身权限、建表等功能。

6)数据管理:数据管理包含元模型、数据源管理等功能,用于元数据的手动、自动采集(生产的元数据采集依赖外部平台,大数据侧元数据采集我们自己做的)

7)元数据质量:主要做元数据治理用的,包含库、表元数据治理功能,分多个维度统计元数据完成情况,并可以做相应通知等。

8)其他:还做了一些其他功能如审计等,这里不细讲了。

2. 产品架构

我简单描述下:

  • 存储/计算:元数据使用MySQL进行存储、图数据库,查询使用clickhouse,缓存分布式redis;
  • 服务层:服务层提供基础的平台服务能力,包括元数据管理、元数据地图、管理中心、用户权限管理等。
  • 通知服务:元数据管理系统中通知类消息目前有三种呈现形式,分别为站内信、短信、邮箱;
  • 元数据采集:kafka、hook插件、flume、sftp
  • 安全服务:LDAP认证、kerberos

至此介绍部分基本结束,后续会在补充。

分享到:更多 ()
Copyright © 2015-2024 woniupai.net 蜗牛派 版权所有
皖ICP备18016507号-1 | 本站内容采用创作共用版权 CC BY-NC-ND/2.5/CN 许可协议