登陆

技能共享:数据管理的实质及实践

admin 2019-09-07 177人围观 ,发现0个评论

本篇文章就结合理论研究和实践经历,从以下方面打开描绘,协助咱们揭开数据办理的面纱。

作者:苏槐 拿手容器技能、微服务架构、数据办理及技能办理。

目 录

什么是数据办理?

为什么要施行数据办理?

数据办理的方针是什么?

当时数据办理存在哪些问题和困难?

数据办理包含哪些内容?

数据办理需求哪些东西?

(1)什么是数据办理?

咱们以为,数据办理是指从运用零星数据变为运用共同数据、从具有很少或没有安排流程到企业规模内的归纳数据管控、从数据紊乱状况到数据有条不紊的一个进程。

所以,数据办理着重的是一个进程,是一个从紊乱到有序的进程。从规模来讲,数据办理涵盖了从前端事务体系、后端事务数据库再到事务终端的数据剖析,从源头到终端再回到源头,构成的一个闭环负反馈体系。从意图来讲,数据办理便是要对数据的获取、处理和运用进行监督办理。

详细一点来讲,数据办理便是以服务安排战略方针为基本准则,经过安排成员的协同尽力,流程准则的拟定,以及数据财物的整理、收集清洗、结构化存储、可视化办理和多维度剖析,完成数据财物价值获取、事务方法立异和经营风险操控的进程。

所以,数据办理是一个进程,是技能共享:数据管理的实质及实践逐渐完成数据价值的进程,也正是由于这个进程特性,咱们以为,数据办理是一个继续性的服务,而不是一个有着明晰规模的一锤子买卖。

(2)为什么要施行数据办理?

当时,企业革新已经成为企业习惯剧烈改变的商场环境、完成长时间开展的必经之路。但是,曩昔为安排带来作业功率进步的烟囱式的孤岛式的事务体系已经成为安排革新重组的阻力,这也是从数据层面打通各个安排单元、完成事务单元快速重组的最底子的需求来历。

而且,在互联网的冲击下,各行各业都在寻求事务方法的立异,完成事务自动化向事务继续优化的改变,以求在竞赛中找到一片蓝海。而安排要能完成事务方法的立异,第一步便是对本身的洞悉,以及进步安排的运转功率,方能在互联网布景中立于不败之地。

所以,以下便是企业施行数据办理的底子原因:

1、经过 30 年的信息化建造,企业和政府部分都围绕着事务需求建造了很多的事务体系,然后导致数据的品种和数量大增,看似积累了很多的数据财物,实则在需求运用时,困难重重。

2、由于各个事务体系的建造都是围绕着事务需求来建造的,当事务环境发生改变时,本来的事务体系不能互联互通,不能满意跨部分、跨功用、跨安排的协作需求。

3、各个事务体系所发生的海量数据以杂乱而涣散的方法存储,导致数据之间的纷歧致和抵触等质量问题,然后导致数据在运用进程中的莫衷一是,难以完成数据的深度运用,然后难以完成事务方法立异和经营风险操控。

(3)数据办理的方针是什么?

数据办理本身不是意图,它仅仅完成安排战略方针的一个手法罢了,例如依据需求的智能制作、才智商场监督办理、交融市民服务、一网通办等。

从安排功用和体量巨细方面来看,不同类型安排的数据办理方针大不相同,例如:

集团企业总部和政府大数据办理局的方针是:拟定数据方针、保证数据安全、促进数据在安排内无障碍同享,其要点方针是推动和保证数据技能共享:数据管理的实质及实践战略的顺畅施行。

企业和政府事务部分的方针是:经过进步信息办理才干,进步安排精细化办理水平,进步事务运营功率,增强安排决议方案才干和中心竞赛力,然后为完成安排战略方针供给才干支撑,其要点方针是数据价值获取、事务方法立异和经营风险操控。

(4)当时数据办理存在哪些问题和困难?

数据办理不仅仅技能问题,更是一个办理问题。例如咱们常见的项目办理体系仅仅一个东西,怎么让项目办理东西与项目办理思维相匹配才是项目办理体系施行进程中的最大应战,也才干发挥最大的作用。数据办理也是相同的道理。

安排信息化建造正从以运用为中心向以数据为中心改变的关键时期,安排也逐渐知道到数据的巨大价值,但低质量的数据和杂乱的数据运用手法,让数据价值开掘的作用大大下降,乃至,会让安排决议方案层损失数字化转型的决心。

那么,如果在项目施行的初期能辨认出影响项目施行作用的困难,并找到相应解决办法,就显得反常重要。以下是在作业中总结的最常见的数据办理问题:

1、跨安排的交流和谐问题。数据办理是一个安排的全局性项目,需求 IT 部分与事务部分的倾力合作和支撑,需求各个部分站在安排战略方针和安排久远开展的视角来看待数据办理。因而,数据办理项目需求得到安排高层的支撑,在条件答应的状况下,树立以安排高层牵头的虚拟项目小组,会让数据办理项目事半功倍。

2、投资决议方案的困难。安排的投资决议方案以能够发生可预期的建造成效为条件,但往往归纳性的数据办理的成效并不能立马表现,它更像一个根底设施,是以支撑安排战略和长时间开展为方针,所以,导致此类项目无法界定明晰的鸿沟和方针,然后难以作出明晰的投资决议方案。面临此类状况,咱们的经历是选用“大渠道 + 小方针”的施行方案。“大渠道”指的是数据办理的支撑渠道。“小方针”指的是运用根底支撑渠道和一小部分数据完成某一个详细事务方针。“大渠道 + 小方针”方案的优势是能够快速完成可点评的作业成效,难点就在于根底支撑渠道要能够对未来的归纳办理供给满足的支撑才干,防止重头再来。以才智商场监管为例,悉数的数据包含企业法人监管、质量监督查看、食物监管、药品监管、特种设备监管、主题查看和法律等等,施行归纳性的数据办理项目,则能够对企业法人完成全维度的剖析和预警,而“大渠道 + 小方针”的施行方案则能够完成比如食物药品安全监管这些主题性的建造方针。

3、作业的继续推动。数据办理是以支撑安排战略和久远开展为方针,应当不断吸收新的数据来历,继续追寻数据问题并不断改善,所以数据办理作业不该当是一锤子买卖,应当树立长技能共享:数据管理的实质及实践效的数据改善机制,并在有条件的状况下,尽量自建数据办理团队。

4、技能选型。前几年,跟着大数据的开展,各种名词层出不穷,令人目不暇接,例如:数据仓库、ETL、元数据、主数据、血缘追寻、资源目录、结构化非结构化、Hadoop、Spark、联机事务处理(OLTP)、联机剖析处理(OLAP)、商业智能(BI),等等。这儿面有针对传统数据库的,有针对大数据数据库的,再加上安排对本身数据财物状况没有一个明晰的知道,这也就导致了数据办理的技能选型困难。而当下,依据传统联系型数据库依然契合绝大多数据企业的事务需求,为防止误解,以下内容首要针对的是传统联系型数据库数据办理的介绍。

(5)数据办理包含哪些内容?

从咱们实践经历来看,相关于世界安排和世界企业发布的数据办理结构,以下国家标准 GB/T 34960 发布的数据办理结构比较契合我国企业和政府的安排现状,愈加全面地和精粹地描绘了数据办理的作业内容,包含顶层规划、数据办理环境、数据办理域和数据办理进程。

图:国标 GB/T 34960 的数据办理结构

顶层规划是数据办理施行的根底,是依据据安排当时的事务现状、信息化现状和数据现状,设定安排机构的职权力,并界说契合安排战略方针的数据办理方针和可行的举动途径。

数据办理环境是数据办理成功施行的保证,指的是剖析领导层、办理层、履行层等等利益相关方的需求,辨认项目支撑力气和阻力,拟定相关准则以保证项意图顺畅推动。

数据办理域是数据办理的相关办理准则,是指拟定数据质量、数据安全、数据办理体系等相关标准准则,并依据数据价值方针构建数据同享体系、数据服务体系和数据剖析体系。

数据办理进程便是一个 PDCA(plan-do-check-act)的进程,是数据办理的实践落地进程,包含确认数据办理方针,拟定数据办理方案,履行事务整理、规划数据架构、数据收集清洗、存储中心数据、施行元数据办理和血缘追寻,并查看办理成果与办理方针的匹配程度。

GB/T 34960.5-2018 的详细信息请参阅:

http://www.gb688.cn/bzgk/gb/newGbInfo?hcno=F3B2108863A2292F5AF0FA645CEE047F

(6)数据办理需求哪些东西?

从技能施行视点看,数据办理包含“理”“采”“存”“管”“用”这五个进程,即事务和数据资源整理、数据收集清洗、数据库规划和存储、数据办理、数据运用。

数据资源整理:数据办理的第一个进程是从事务的视角厘清安排的数据资源环境和数据资源清单,包含安排机构、事务事项、信息体系,以及以数据库、网页、文件和 API 接口方法存在的数据项资源,本进程的输出物为分门别类的数据资源清单。

数据收集清洗:经过可视化的 ETL 东西(例如阿里的 DataX,Pentaho Data Integration)将数据从来历端经过抽取 (extract)、转化 (transform)、加载 (load) 至意图端的进程,意图是将散落和零乱的数据会集存储起来。

根底库主题库建造:一般状况下,能够将数据分为根底数据、事务主题数据和剖析数据。根底数据一般指的是中心实体数据,或称主数据,例如才智城市中的人口、法人、地理信息、信誉、电子证照等数据。主题数据一般指的是某个事务主题数据,例如商场监督办理局的食物监管、质量监督查看、企业归纳监管等数据。而剖析数据指的是依据事务主题数据归纳剖析而得的剖析成果数据,例如商场监督办理局的企业归纳点评、工业区域散布、高危企业散布等。那么根底库和主题库的建造便是在对事务了解的根底上,依据易存储、易办理、易运用的准则抽像数据存储结构,说白了,便是依据必定的准则规划数据库表结构,然后再依据数据资源清单规划数据收集清洗流程,将整齐洁净的数据存储到数据库或数据仓库中。

元数据办理:元数据办理是对根底库和主题库中的数据项特点的办理,一起,将数据项的事务意义与数据项进行了相关,便于事务人员也能够了解数据库中的数据字段意义,而且,元数据是后边说到的自动化数据同享、数据交流和商业智能(BI)的根底。需求留意的是,元数据办理一般是对根底库和主题库中(即中心数据财物)的数据项特点的办理,而数据资源清单是对各类数据来历的数据项的办理。

血缘追寻:数据被事务场景运用时,发现数据过错,数据办理团队需求快速定位数据来历,修正数据过错。那么数据办理团队需求知道事务团队的数据来自于哪个中心库,中心库的数据又来自于哪个数据源头。咱们的实践是在元数据和数据资源清单之间树立相相联系,且事务团技能共享:数据管理的实质及实践队运用的数据项由元数据组合装备而来,这样,就树立了数据运用场景与数据源头之间的血缘联系。

数据资源目录:数据资源目录一般运用于数据同享的场景,例如政府部分之间的数据同享,数据资源目录是依据事务场景和职业标准而创立,一起依托于元数据和根底库主题而完成自动化的数据请求和运用。

质量办理:数据价值的成功开掘有必要依托于高质量的数据,唯有精确、完好、共同的数据才有运用价值。因而,需求从多维度来剖析数据的质量,例如:偏移量、非空查看、值域查看、标准性查看、重复性查看、相相联系查看、离群值查看、动摇查看等等。需求留意的是,优异的数据质量模型的规划有必要依赖于对事务的深刻了解,在技能上也引荐运用大数据相关技能来保证检测功用和下降对事务体系的功用影响,例如 Hadoop,MapReduce,HBase 等。

商业智能(BI):数据办理的意图是运用,关于一个大型的数据仓库来说,数据运用的场景和需求是多变的,那么能够运用 BI 类的产品快速获取需求的数据,并剖析构成报表谷子好,比较闻名的产品有 Microsoft Power BI,QlikView,Tableau,帆软等。

数据同享交流:数据同享包含安排内部和安排之间的数据同享,同享方法也分为库表、文件和 API 接口三种同享方法,库表同享比较直接粗犷,文件同享方法经过 ETL 东西做一个反向的数据交流也就能够完成。咱们比较引荐的是 API 接口同享方法,在这种方法下,能够让中心数据仓库保存数据所有权,把数据运用权经过 API 接口的方法进行了搬运。API 接口同享能够运用 API 网关完成,常见的功用是自动化的接口生成、请求审阅、限流、限并发、多用户阻隔、调用计算、调用审计、是非名单、调用监控、质量监控等等。

  • 油价不只创下30多年来最大单日涨幅 成交量也创出前史新高
  • 中芯世界 (0981.HK):给予“买入”评级 目标价13.84港币
  • 极彩登录网址是什么-MarketPulse:黄金、原油日内走势前瞻
  • 请关注微信公众号
    微信二维码
    不容错过
    Powered By Z-BlogPHP