背景
对于初创企业来讲,都会关心几个问题,包括为何需要一个数据仓库,何时需要建设,以及建设途径的问题。这里专门回答一下这个问题。
需要一个数据仓库(Why)
从世界范围来讲,越来越多的企业认识到数据的价值,以及从数据分析中可以得到更多的洞察,这些洞察可以用来指导运营和商业决策。从字面意思来看,数据仓库是数据存储的一个仓库,通常从不同的数据源进行收集,清洗转化和结构化后进行集中存储,使得数据分析和形成洞察更加容易实现。但是问题在于初创企业是否真的现在就需要一个数据仓库?我们来了解内部支持的原因:
- 数据复杂性。事实证明,从不同数据源引入数据需要支持来自不同数据库、文件、遗留系统、交易型事务系统,这些都是不同类型的。如果人工进行分别处理费时费力,数据仓库可以将这个过程自动化,提取相关的数据进行处理。
- 数据的多样性。多个数据源意味着不同的结果,这导致不同系统以不同方式表达同样的信息。为了能过获得单一正确集(Single Source of Turth),需要将不同的数据转化更为统一的数据,并保持其正确性和相关性。数据仓库的 ETL(提取、转换和加载)过程将使您能够高效地执行此操作。
- 自助数据报表。自助服务能够为组织提供真正的敏捷性,通过适当数据授权让开发可以轻松创建报表回答紧迫的问题,并且支持业务人员快速且自信的做出重要业务决策。一个设计良好的数据仓库将会帮助您的公司和团队。
- 数据策略效率。如果还在犹豫是否值得投资,可能你还没有相关的数据策略,目前还停留在从不同的非结构化数据源进行手动提取,这种情况效率不高。如果已经有了大量的数据,并且希望从中获得洞察力,那么投资数据仓库建设将会使得整个过程更加高效。
- 数据挖掘。良好设计的数据仓库可以支持数据挖掘工作,数据挖掘是识别和发现数据中隐藏信息,获得洞察力。想象一下在竞争对手之前了解市场趋势,或者找到一些货品组合可以得到最大化利润的机会。
组织是否需要一个数据仓库是一个复杂的问题,通常也是非常主观的。如果已经在面对大量复杂且多样性,那么是需要的。如果目前还是比较小数据量,并且数据结构化非常好,那么可以不需要现在就用一个数据仓库。机会成本在于失去可能存在的洞察力。至少有一点可以确定,就是数据仓库已经被证明至少不是一个差的投资决定。
用户场景(What)
案例一:战略决策
使用对象:总裁办
- 高层管理人员的战略报告和仪表板,包括核心kpi实现情况。
- 财务预测和公司绩效数据监控,并下钻到员工和部门绩效评估和规划
- 客户和产品的盈利能力分析。
案例二: 财务
使用对象:CFO
- 多用户角色视角的财务报表和仪表板,并下钻到特定业务领域。
- 预算分配和模拟使用。
案例三:绩效管理
使用对象:商务部门
- 财务和运营绩效报告和管理人员仪表板。
- 组织、部门、员工或流程绩效跟踪,并和展示驱动因素关系。
- 绩效差距情况以及根本原因分析。
- 销售漏斗、营销活动、供应链等的绩效优化策略。
案例四:战术决策
使用对象:业务团队
- 具有不断更新的业务数据战术仪表板。
- 时间敏感的分析查询,以支持生产计划、库存计划、物流管理等。
案例五:运营数据仓库
使用对象:一线员工
- 用于实时快速查询大型和细粒度事务数据的操作仪表板。
- 运营环境中的数据驱动决策(订单输入、银行业务、旅行预订等)。
- 提醒需要立即关注的情况(风险管理、欺诈检测等)。
- 不断更新实时的运营预测和业务成果模拟。
案例六:物联网
使用对象:供应链团队
- 实时或近实时地对特定事件或一系列事件做出反应(例如,触发警报)。
- 基于历史物联网数据分析检测事件模式并预测反应。
- 预测性维护。
- 车辆远程信息处理。
- 智能建筑。
- 智能设备和可穿戴设备。
案例七:在线服务
使用对象:企业客户
- 支持数据负载可扩展性。
- 海量应用数据量的即时分析查询。
- 支持机器学习功能(个性化、聊天机器人等)。
从0开始建设企业数据仓库(How)
数据仓库保留所有原始数据或源数据的副本。这一点至关重要,因为它允许组织:
- 从多个地方收集数据并将其保存在单个数据库和数据模型中;
- 通过保护面向客户的数据库免受大型、长时间运行的分析查询的影响,提高事务处理系统的效率;
- 通过确保来自不同来源的数据得到整合,让利益相关者集中查看您的数据;
- 通过一致的编码和描述、纠正有问题的数据以及排序和减少重复数据,最大限度地提高组织数据的质量和可用性;
- 保持完整的数据历史,即使数据从源交易系统中清除;
- 格式化或重组数据,使其更易于使用并提高查询性能,无论多么复杂,而不会破坏操作系统的有效性;
- 通过维护单一、准确和最新的数据真实来源,提高运营业务应用程序质量,尤其是客户关系管理系统 (CRM)等自动化工具。
自建数据仓库还是采购服务?
既然我们已经知道了数据仓库如何建造,并且可以通过招聘一些资深业界大牛,是否可以走自建的路?还是需要通过独立服务商来搭建?这需要考虑几个方面因素:
- 时间人员配置考虑,数仓建设需要数据工程师,平台运维人员,数据应用开发者,数据分析师等人员,需要花费比较长的时间继续招聘和团队组建工作。
- 开发使用Agile模式逐步建设,先建设好第一个应用版本,再建设报表和仪表盘。通过迭代在增加新的应用场景下需要增加新的字段,数据表需要历史数据补齐,重新进行计算,再更新报表和仪表盘。这个过程需要重建数据表和ETL,并且过程中要数据质量测试保证数据准确性。
- 数据仓库是基础的工作,从广义来讲,需要数据报表或者数据应用才能体现价值,这就需要以终为始,数据仓库建设和数据应用需要协调一致。如果仅仅考虑建设数据仓库,短期内价值没有很好体现。如果要引入前面提到的七大应用场景,项目会变得非常的庞大。厂商有比较齐全的技术和行业方案,可以快速落地。
从现实来讲,数据仓库建设需要短平快打通端到端从数据抽取到数据应用,这样才能快速和应用场景结合,提振信心。在考虑自建0-1还是采购服务策略的时候,需要平衡好出成绩和团队建设的关系。从长远来讲,需要团队内部来真正做到了解业务、服务业务,在初期可以考虑采购由供应商提供的解决方案可以快速落地,并且保持后续系统迭代的能力。
一些用户案例
为何说解决方案比较重要,是因为一开始就可以根据以终为始,比如转化率作为数据团队的核心指标,通过对转化率指标的分解,并且了解趋势可以做出商业判断:
- 指标的相关性分析,比如在教育客户中,发现用户留存率和调音器有强相关性,但是这些工具的路径非常的深,通过统一这些工具到工具箱,可以提升整个留存率和工具使用率。
- 流量漏斗分析,比如在用户整个AAARR模型漏斗中,发现用户在开户环节流失严重,发现是由于身份证上传操作太过复杂,通过引导提示和短信召回,可以拉升开户转化率。
- 精准营销分析,比如对某些线上的转化率不佳且日浮动大的情况,通过对用户分群进行精确营销,对于不同群体用户采取存量留存和增量扩新不同的策略,可以显著提升用户活跃率和转化率。
- 还是精准营销的例子,比如发现访问者活跃率低,通过标签分层,匹配不同的货品,用个性化推荐来引导用户消费,可以实现用户群的跃迁。
服务供应商不仅仅提供了这些用例和方法,而且提供了独立的咨询服务,可以加速企业数据化转型。在此基础上,企业需要加紧修炼内功,通过借鉴服务供应商积累的行业经验,逐步落地和迭代。
|