数据猿专访艾漫数据总裁曹永寿:我们是一家最懂“文艺”的大数据公司
来源:数据猿 记者:Kate
如果说美剧《纸牌屋》让大数据开始被影视产业所认可,那么电影《小时代》则是国内影视界在大数据领域取得实质性进展的榜样。《小时代》通过对微博、微信、热门视频网站的大数据进行深度挖掘,挑选出当下人气爆棚演员杨幂、郭采洁等作为主演,抓住年轻观众的“颜控”心理,最终在票房上大获成功。
而为电影《小时代》做幕后数据分析的公司,就是号称国内娱乐大数据第一股——艾漫数据。艾漫数据是一家为影视产业提供大数据服务的公司,比如,利用大数据为电影预测票房,剖析艺人商业价值,评估电视节目等。目前,艾漫数据参与过《小时代》系列电影、《心花路放》、《北京爱情故事》、《深海挑战》、北京卫视《最美和声》等三十多个应用案例。
本次数据猿记者采访的就是艾漫数据总裁曹永寿先生。曹永寿1980年生,给笔者的感受是一位带有些许文艺色彩,且极具创新精神、冒险精神的创业者,由此联想到这可能与他的工作经历有关。曹永寿以前在搜狐视频、QQ音乐担任管理岗位,对娱乐行业有深入理解,他也曾在全球著名的市场研究公司尼尔森担任过中国区总监职位,所以对市场研究及大数据行业也有深刻的认识。
作为一名跨界人士,曹永寿在影视行业和大数据行业都有丰富的工作经验,用他自己的话说就是,“我在文艺圈中懂大数据,在数据圈中懂文艺”。他用坦诚且犀利的表达,告诉了记者很多影视大数据行业的“内幕”。
在国内影视大数据的垂直领域中,艾漫数据一直做的比较领先。近几年市场中也出现过其他同类型公司,但这些公司要么被收购,要么转型做其他行业。对此,曹永寿认为,因为艾漫在数据源、行业经验、大数据技术、生态产品方面的优势比较突出,所以才能屹立不倒,并且成为行业领军者。
大数据公司首要基础是积累数据
作为大数据公司,数据源是基础。而且想要真正做好大数据,还需要动态、连续、完整的全面积累数据,而不是博昙花一现。以艾漫为例,其会持续每天从这些维度全方位海量搜集储存数据:
1、新闻数据:7*24小时不间断抓取所有娱乐实体相关新闻——覆盖全网3200家新闻站点,包括700家纸媒、300家电视台;
2、谈论数据:7*24小时不间断抓取网友有关泛娱乐实体的所有谈论内容——覆盖微博、论坛、社区等社交类网站;
3、行为数据:售票软件卖出电影票的数量、视频网站中同类型片子的点击率、电视节目的收视率;
4、行业内数据:同类型影片在院线的票房、上升率和排片率;
曹永寿告诉记者,艾漫的技术背景为清华大学智能技术与系统国家重点实验室,实验室于1987年7月筹建,作为艾漫的产学研合作单位,其在公司成立之前,就展开了相关研究以及数据的抓取,所以艾漫在2012年成立时,当天即开始回溯实验室2010年的数据,截止到2016年,公司成立四年但已经有六年的数据积累。
目前艾漫的影视知识库收录了2010年以来的全媒体数据,拥有百台服务器,1.9PB数据容量,包括影视剧10万部 ,艺人10万 ,综艺节目1500部 。随着网络数据早已经清空,后进入的对标公司获得的数据要少于艾漫三年,所以其追赶的时间代价会极大。
“艾漫提前购买了很多服务器收集数据,做好了数据储备。当时对标公司不敢在数据方面下成本,没有大数据。而对方发现这点时,已经没有数据了,再想收集已经来不及了。对于这件事,我认为艾漫的做法非常明智。”
做影视大数据的前提是要懂影视
在影视大数据领域,除了做好数据基础以外,行业经验也非常重要。曹永寿认为,对于影视行业,电影票价很低,电视节目甚至可以免费观看,不看影片的主要原因是作品不符合对方的审美,所以做影视大数据关键要抓住大众的情感需求,深度理解大众的生活状态。大数据在里面起到的作用是把行业经验量化,从而做出预测。
举个例子,影视大数据做电影票房预测这一环节时,首先会找出很多对标影片,然后通过行业经验和大数据技术,从影片体裁、编剧、导演、演员、发行时间、发行区域等维度进行分析判断,比如,分析同类型电影的趋势走向如何,影片的故事内核是否契合社会热点,演员能够拉动多少票房等,大数据会对这些行业判断进行量化,最后算出影片票房。
“我看到很多因为缺乏行业经验而死掉的同行,比如做舆情分析的公司转型做影视大数据,由于他们没有拍过片子,不了解影视行业的核心是什么,所以他们认为数据的精准计算最重要,可是数据再准,没有好导演和好的故事核心,一部粗制滥造、各种情节拼凑在一起的影片也不会有人看,所以,归根结底,影视大数据行业拼的是经验,拼的是人对行业的理解。”
因此,做大数据分析的团队除了要会技术以外,必须要懂文艺娱乐。曹永寿告诉记者,艾漫招聘人才时费尽周折,才构建了一支由文艺技术男组成的团队,其实曹永寿自己也是其中之一,通过他在影视行业和互联网行业的跨界背景,可以看出,他和公司配备的整个团队成员与影视大数据行业的气质非常吻合。可以说,艾漫在大数据领域中非常懂文艺,在文艺领域中非常懂大数据。
大数据公司要最大化提高大数据分析技术的准确率
作为影视大数据公司,除了需要有经验的人才以外,对技术要求也非常高。曹永寿告诉记者,由于清华人工智能实验室与艾漫的密切合作,其在技术架构层面也给予艾漫很多帮助,而这一点,是对标公司可望不可及的。目前,艾漫大数据技术分析的准确率已经达到82%,其核心技术包括大数据挖掘技术和自然语言处理技术。
大数据挖掘技术是通过分布式的计算架构,开发适合分布式环境的算法和模型,使之能对全网全媒体(电视台、视频网站、音乐站点、微博、纸媒等)的TB级甚至PB级数据进行高效分类,并根据实际需要进行精准抓取和分析,从而开发相关产品。
对于影视大数据来说,大数据会依据全媒体群众的喜好、消费习惯、行为特点等元素,进行精准预判(结果误差在10%以内),从而完成在影视投资立项、剧本策划与评估、主创筛选及组合、宣传发行等产业链中对电影电视剧、动漫、艺人等娱乐产品的开发和生产。
举个例子,艾漫用大数据挖掘技术做电影《北京爱情故事》的剧本评估环节时,首先利用大数据从全媒体挖掘出 “房子与爱情、爱情如何保鲜”热点话题。然后根据热点话题研究剧本桥段:陈思成与佟丽娅演绎“房子与爱情”的故事,梁家辉和刘嘉玲演绎“爱情如何保鲜”话题。最后大数据挖掘技术会从观众口碑等角度判定剧情主次。
而对于艾漫为卡梅隆电影《深海挑战》在宣发环节所做的预测,其大数据挖掘技术也功不可没。
一开始,客户认为电影画面精美,又是英雄题材,所以女性观众会喜欢观看。但艾漫利用大数据挖掘发现,电影《深海挑战》有很多男性感兴趣的旅行、IT、财经等元素,所以男性观众会更多。
除了为电影做出准确评估的大数据挖掘技术以外,艾漫的自然语言处理技术分析文本信息的准确率同样也很高。
自然语言处理技术是利用人工智能算法、机器学习模型,使计算机可以深入分析和理解文本信息内容。自然语言处理技术除了能够对文本信息进行分类、聚类以外,还可以深度挖掘文本信息的内涵和外延,探索对象之间的语义关联。
举个例子,大数据监测到某社交网站一条数据:“据说电影《北京遇上西雅图》不错,明天情人节,要跟男朋友一起去看”。从这句话中,自然语言处理技术能够挖掘出信息内涵,提取出该用户对《北京遇上西雅图》的情感表达,从而为票房预测提供依据。
“自然语言处理技术在分析文本信息时,最大的挑战是分析有歧义的信息。比如,“小四”是指“排名老四”还是指“郭敬明”,“文章”是指“一篇文章”还是“演员文章”,分析这种复杂场景下的歧义信息,不管是对于BAT企业还是做舆情分析的企业都非常困难,这就需要我们投入大量的时间教育机器,让人工智能学习并积累知识。”
目前,在分析歧义信息方面,艾漫的自然语言处理技术可以从博大精深的汉语中精准的抽取关键词以及观点做出分析判断(这在一般的大数据体系里是做不到的),并自动归档。就是说,其自然语言处理技术分析一篇文章时,大数据系统绝对不会把 “演员文章” 和 “一篇文章” 中的两个词弄混,另外还可以自动给文章内容做出摘要。
打通生态产业链,需要全方位布局产品
对于影视大数据企业来说,如果可以为影视产业链的各个环节提供产品,做到一条龙服务,就可以提升企业的竞争优势。艾漫在这方面看的很透彻。
目前,艾漫为影视行业提供了全方位的产品,打通了产业链的上、下游,其产品包括:
1、电影营销系统产品iFilm:可以通过对影片的互联网热度追踪、投放物料的监测、以及影片口碑和观影期待的深度挖掘,为电影营销提供全程决策评估。
2、明星商业价值挖掘系统产品iStar:基于互联网全媒体海量数据对明星的关注度、影响力、互联网报道曝光、口碑声誉等方面全方位解析,为影视剧选角、广告主挑选代言等提供辅助支撑。
3、电视节目营销产品iTV:可以评估电视剧以及综艺节目营销效果,同时可以为电视台、制作发行方提供基于互联网大数据的综合电视收视评估指标体系。
4、定制化大数据服务(VIP):这项服务基于客户个性化需求,针对性的进行大数据深度挖掘、分析服务。VIP服务区别于在线产品,其更加注重数据广度和精度,能更透彻的解析数据背后的原因。
5、追星服务产品FansBook:可以为追星族提供娱乐热点爆料、真相揭秘,唱反调投票,追星追剧,粉丝交友、组团PK,游戏互动,免费兑换星品等服务。
从上面这些产品中可以看出,艾漫除了做2B的业务,也在做2C的产品,就是上面提到的 FansBook,以消费娱乐新闻 + 游戏化机制为主的八卦产品。随着追星平台的推进,艾漫可以用其积累的粉丝行为数据服务于更多作品,打造B2C2B的商业模式闭环。
另外,艾漫数据除了在电影、电视剧、艺人经纪、粉丝用户四大市场提供服务以外,还以联合出品的方式介入娱乐内容生产。曹永寿告诉记者,目前艾漫已经联合出品了八个项目,未来将继续深耕娱乐产业,完成影视生态圈的整体布局。
要做行业领导者,就要勇于创新性开拓市场
作为行业开拓者,艾漫数据于2015年12月22日成功在新三板挂牌上市。其公司内部公开信指出:艾漫的产品商业化图谱非常清晰,并且已经通过三十多个应用案例逐渐打开了市场。而上市将带给艾漫更多筹码,借助资本的力量推动公司实现跨越式发展。
艾漫上市后,便积极推进转型战略,方向是做产品和项目的加强化。曹永寿告诉记者,艾漫会推出标准化产品,因为热点话题、团队人员搭配、票房预测,这些估算非常高频,所以必须要把产品标准化。另外,艾漫还会把产品做到极简化,因为有些客户不懂影视行业,所以艾漫会做大家都会用的产品,让系统直接告诉客户预测结果,为其带来更好的产品体验。
“而对于无法实现标准化的项目来说,我们会强化项目运营。比如,有些剧本需要不断创新、更改,所以无法为其标准化。另外,有些机器只能做小成本判断,它可以从几个候选演员中挑选一人,但无法从几万候选人中挑选一个演员,这种情况,就需要我们加强项目运营,帮助客户做项目研发。”
据曹永寿透露,今年8月份艾漫就会推出标准化的影视金融产品,可以实现对项目整体的风险控制,包括对主创团队的风险评估,以及对团队组合的优化。
对于客户来说,推出标准化的大数据产品,无疑会大大降低其使用成本。而对于将大数据与娱乐产业结合的企业——艾漫数据来说,其标准化产品的推出,一方面巩固了自己在影视大数据行业的领先地位,另一方面也为整个行业开拓了市场,找到了新的发展方向。(Kate)
编辑:闫志阳