欢迎user
随着我国互联网、文化产业的快速发展,如今春节7天假期里不只有饺子和春晚,更有三五好友在电影院里共度的欢乐时光。
在刚刚过去的春节档,萌系风格的《捉妖记2》、无厘头搞笑的《唐人街探案2》、场面火爆的《红海行动》都是贺岁档国内影迷的热宠。根据统计,2018年春节 7天全国总票房达到56.8亿,同比增长68%。而在这之中,新华三大数据所支撑的国内著名影视投资公司在7天内实现了3.7亿票房,同样刷新了历史记录。
而作为该著名影视投资公司大数据的供应商,新华三是如何高效保障该公司的大数据挑战的呢?
首当其冲的挑战:
全国近500多家影院数据采集
该公司目前在全国的177座城市拥有近500家影院,3年内将突破1000家。面对数量如此庞大的分支机构及其每日产生的海量数据,如何通过窄带宽实现大面积、远距离的数据采集,如何应对全国高并发的数据入库压力,如何实现海量数据的在线清洗、转换合并,如何快速实现对数据的高效建模分析为业务决策提供支持是该公司大数据工程的首要挑战。因此,该项目中大数据系统首先要满足海量数据的实时采集存储和计算的需求。
与此同时,不同的观影喜好、不同的票价、不同的销售策略亦要求该公司拥有一套高效的大数据分析系统来实现精准用户画像、为影院动态排片,动态调整策略提供支持。
不仅如此,由于电影在春节、暑假、大片档期间观影人数会突发的成倍增长,春节甚至达到了近10倍的增长;因此,大数据系统还要求能应对各种突发观影热潮所带来的数据压力。
新华三大数据平台
助力影视投资公司应对大数据挑战
作为国内顶尖的大数据解决方案提供商,新华三采用新一代DataEngine大数据引擎为该影视投资公司构建了一套高性能、高可靠性的大数据平台。
国内著名影视投资公司大数据平台拓扑图
在数据采集侧,通过分布式的数据集成平台DI,凭借其数十倍于其他数据集成工具的性能,可以在25000个业务并发的情况下实现远距离的数据采集和处理。同时,凭借业界创新的模板功能,只需要创建一家影院的数据ETL模板,剩余的500多家的影院的ETL任务,可直接通过模板复制的方式进行创建,避免了挨个影院手动创建ETL任务的繁琐操作,大大减少了项目实施的工作量,同时还方便客户对500多家影院的ETL任务批量管理。不仅如此,通过构建网络环境判断模板,数据补采模板,可实现在网络故障、设备故障恢复后的影院数据的自动补采,实现“无人值守“的目标,进一步降低用户的管理成本。
而在存储计算侧,新华三为客户搭建了两套大数据存储系统——HDP和MPP,分别满足非结构化和结构化数据的存储需求。同时,为了应对前端数据采集性能和后端数据入库性能之间的差异,新华三还在DI平台及存储平台之间使用优化的分布式消息队列,实现对数据的缓存,有效解决了高并发写入的数据库锁表等问题,大大降低了数据的入库压力。
在数据分析侧,新华三提供的商务智能引擎BI能对接后端的HDP和MPP数据库的海量数据,对数据进行高效的分析和多样化的可视化展现,实现对业务和财务等多个系统的高效支撑。
新华三大数据完美保障了
该影视投资公司2018春节档的大数据处理压力
通过使用新华三DataEngine一体化大数据解决方案,帮助客户在春节期间顺利完成了500多家影院每天2300万笔、网络渠道每天980万笔新增业务数据的采集工作,并将数据的去重、排序、转换和关联工作耗时缩减为原来的30%,快速形成分析结果,为院线排片、产品销售等业务提供了精准的分析支持。