天弘基金大数据中心处理能力百亿级,分分钟计算海量数据

11.07.2014  17:19

  随着互联网浪潮的来袭,大数据正在以不可阻拦的磅礴气势,与当代同样具有革命意义的最新科技进步,如纳米技术、生物工程、物联网等一起,揭开人类新世纪的序幕。在各个行业,大数据均被多次提及,但往往这些大数据还有些“像雾像雨又像风”的感觉,老百姓从中很难体验到“大数据”的内涵,而天弘基金让投资者对大数据的梦想照进了现实,近日其以趣味图说的形式绘制了《余额宝运行一周年数据报告》,针对余额宝1亿多用户的年龄、客单量、地域、使用习惯、交易频率等数据信息,天弘基金通过多个维度以生动、活泼的内容向公众展示了“大数据”的真实魅力。

  业内人士告诉记者,一般的企业数据系统采用传统的IOE架构,处理数据量级为千万级,能处理上亿级的数据就不错了,10亿级别对一般企业来说都很难想象,处理时间更是无法保障,而天弘基金大数据中心可以做到百亿级数据的处理,且分分钟就能计算海量数据。

  所谓IOE,IBM是服务器提供商,Oracle是数据库软件提供商,EMC则是存储设备提供商,三者构成了一个从软件到硬件的企业数据库系统。由这三驾马车构成的数据库系统几乎占领了全球大部分商用数据库系统市场份额,石油、金融行业也广泛地使用这套系统,价格昂贵。而天弘基金云直销系统去年9月份投入使用,成为首个去IOE的金融案例,今年天弘基金建立的大数据中心,也成功上云。

  天弘基金大数据中心主管周卫国告诉记者,截至5月26日那天,我们《余额宝一周年大数据报告》分析应用的基础数据有53亿条,基础数据维度15个,而这15个维护又包含各种排列组合的交叉分析,简单的比如地域和年龄的交叉分析、性别的交易频率的交叉分析,复杂的会涉及许多复杂的模型,因此本次分析应用的基础数据达到96亿条,数据维度35个。正是因为天弘基金大数据中心有百亿级以上的数据处理能力,因此我们有能力去做更多复杂的模型,发散思维,从更多的角度去分析这些海量数据,以达到最真实地分析出客户行为路径,并对业务给予指导。

  比如在对“客户流失”这个专题的分析上,我们除了看简单的客户转出金额、转出次数、周/月度的行为规律、提现和消费占比等等基础数据,还专门建立了一个客户流失LOGIT模型,单这一个模型便使用17个指标变量,包含1个目标变量和16个候选输入变量,使用数据有效记录数9.6亿个,在ODPS上,利用MKW LOGIT工具运行模型运行一次,约需27分钟。

  这样的模型还有多个,从不同角度挖掘、分析,有时候还会用到人口学、社会学、心理学等知识,客户是在生活中鲜活的个体,想要刻画真实的全景图,既需要海量数据的分析处理,也需要科学的方法去定义一些模型。基于鲜活个体的全样本“大数据”,服务于基金投资和业务开展是我们不断努力的方向。

  大数据分析,带来的流动性预测功能,已成为助力余额宝投资的绝门利器,而大数据带来的图说,同样精彩绝伦。从7月7日起,《余额宝运行一周年大数据报告》系列图说以每日一幅的速度,陆续在“天弘基金”官方微博披露,精彩还将继续。