数据域VS主题域

数据域和主题域是数据仓库中两个重要的概念,他们在数据仓库建设和数据分析中扮演着不同的角色,两者有着明显的区别。

数据域:以业务系统的角度,对业务过程进行归纳,抽象出来的数据域。它是自下而上的,通常在完成业务系统数据调研后就可以进行数据域的划分。数据域更侧重于从业务数据的角度进行划分,确保数据的完整性和准确性。
主题域:从数据分析应用的角度进行划分的,通常是联系较为紧密的数据主题的集合。主题域是自上而下的,更侧重于业务分析的视角来划分数据。根据业务需求的特点,可以将从业务系统划分的数据域重新划分至不同的主题域。主题域可以帮助分析人员更好的理解和利用数据,从而做出更准确的业务决策。 
总结:建设数仓就像饭店做菜一样,数据域如同厨房根据采购的食材特点将他们摆放在不同货架区,如肉区、蔬菜区、水果区、调味区等。主题域如同饭店根据不同食客群体的口味需求将食材做成不同的菜系,如鲁菜、川菜等。

数据域
避免数据冗余和冲突:确保统一数据域中的数据是相对集中的,避免不同数据域之间的数据冗余和冲突。

粒度适中:数据域的粒度要适中,不能过大或过小。如果粒度过大,则会造成数据归纳不清晰;如果粒度过小,则会造成数据管理复杂化。

保持数据域的稳定性:数据域的划分应该相对稳定,避免频繁调整,以保证数据分析的稳定性和可靠性。 

举例:
用户域:注册、登陆、购买等
交易域:下单、支付、退款等
营销域:患者报道、分销、推广、优惠券等一切营销相关的数据等
日志域:代码埋点、全埋点、业务埋点、nginx日志等
商品内容域:课程、咨询、商品等一切供给相关的实体等 
主题域
        主题是在较高层次上将企业信息系统中的数据进行综合、归纳和分析利用的一个抽象概念,每一个主题基本对应一个宏观的分析领域。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象。

        简单说,一个主题对应的一个分析对象。分析对象就是决策、分析时重点关注的东西,这个东西是非常主观的,在不同的企业,或者企业不同的发展时期,所关注的点会不一样,从而影响有些主题可能存在或者不存在。数据仓库是面向主题的应用,主要功能是将数据综合、归纳并进行分析利用。数据仓库模型设计除横向的分层外,通常还需要根据业务情况纵向划分主题域。主题域是业务对象高度概括的概念层次归纳,目的是便于数据的管理和应用。

划分方法
按照业务过程划分:一个业务过程抽象出一个主题域,例如业务系统中的商品、交易、物流等;
按照业务部门划分:一个业务部门抽象出一个主题域,例如中台部门、业务运营部门、供应链部门等;
按照业务系统划分:一个业务系统抽象出一个主题域,例如搬家系统、ERP系统;
按照需求划分:长期分析的过程涉及到各种主题,会对数据进行细分、归纳,在这个过程中由需求诞生了主题域;
按照功能划分:软件的不同功能模块也可以归纳为不同的主题域,例如社交软件中的聊天、朋友圈、群聊、发送文件等功能模块;
按照部门划分:现代企业不同的业务部门也会形成各种不同的主题,例如销售域、生产域、财务域等; 
举例
用户行为分析:分析用户在网站或者应用程序上的行为模式,例如浏览历史、购买记录、推荐系统等;
运营数据分析:分析业务运营过程中的数据,例如用户转化率、转化漏斗、成本控制,有助于优化业务流程和提高销量;
用户画像:根据用户的行为和特征,创建用户的画像,以便更好的理解用户需求和行为,并进行个性化的推荐和营销;
市场数据分析:分析市场趋势、竞争对手情况、用户需求等,有助于制定市场战略和开发新的产品和服务;
业务资金分析:分析业务风险。 
主题域的核心
为了保障整个体系的生命力,主题域需要抽象提炼,并长期维护更新,但不轻易变动。划分数据域时,需要满足以下两点:

能涵盖当前所有的业务需求;
能在新业务进入时,无影响的被包含进已有的主题域和扩展的主题域。 
总结:
数据仓库时一套方法论,但并不是一个“定理”,可能不会有完全符合公司实际业务的“公式”,我们需要学习这些方法论,然后结合自己公司实际的业务场景来实现,只要能有序的把数据管控起来,同时又能高效的帮助数据分析,实现业务价值就好了,不必一味的追求“行业标准”,毕竟适合自己的才是最好的。
————————————————

                            版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
                        
原文链接:https://blog.csdn.net/xiayuhaisong/article/details/136244385

你可能感兴趣的:(spark,大数据,分布式)