新影数讯 为电影“看病”

访客:45466  发表于:2013-12-12 15:14:48

【导读】电影行业本身的数据都不是“大数据”,引入了社交媒体的用户行为,才是真正的大数据。

有人称他们是为电影“算命”,但刘晗以为,“看病”更准确。刘晗他们创业的新影数讯,就是将数据分析、数据挖掘应用到电影票房的预测上。这是一个创业不到两年的团队,现在是十余人的规模,却掌握了20000部电影、60000名艺人、4000位导演的数据资料,并能对微博80%活跃用户中的影迷约8000万人进行偏好分析。

新影数讯 为电影“看病”

刘晗介绍,新影数讯开发的“iFilm+”系统即通过数据分析,将影视作品和用户的行为关联起来。“我们挖掘用户(影迷)对娱乐产品(影片)的娱乐诉求和价值感知,然后我们精准地计算出某部影片的受众人群的意愿。在知道了什么样的电影会成功之后,我们便能对制片人和导演提出决策建议。”在这一思路下,原本是B2C模式的电影产业,将出现C2B的变化。刘晗说,“iFilm+”预测一部电影的市场表现,在上映前一个月左右,其准确度能达到80%。

这套算法也不是万能的。“iFilm+”能说明白应该怎样做,却不能解释为什么,这也不是“iFilm+”的缺陷,而是因为“大数据只解释相关性的问题,不解释因果”。此外,这套算法只能做到测算商业片的价值回报,却算不出“电影能不能得奖,会不会感人”。

将数据分析、数据挖掘应用到影视领域,刘晗认为能做两件事,预测和推荐。新影数讯选择了toB“预测”,回避了toC“推荐”。因为中国的互联网用户,还没有特别好的付费习惯,而比较常见的电影票抽成的做法,给他们这类服务商留下的利润空间已经很薄。

“手工清洗”数据

事实上,电影行业利用数据,在好莱坞不是新鲜事儿。在好莱坞工业体系下,一部电影从研发、创作生产到发行,都能看到数据的身影。而且,好莱坞在数据库建设方面的基础工作做得很早、很扎实。在中国情况则大不相同。有业内人士曾说,“中国电影产业多数时候都是拍脑门凭经验,过去连每周票房的实际数据都拿不到,很多数据都不靠谱,更不要说其他精确数据了”。

那新影数讯的“iFilm+”,是如何解决数据来源难题呢?影片制作端、影片消费端这两端的信息数据,“iFilm+”是如何完成积累的?

按照新影数讯的理念,电影的名称、阵容、剧本、档期、宣传点、主题曲、互联网版权等30多个参数变量共同决定了一部影片是否能获得成功。他们的设想是,从过往上映的电影抽样中,找到相关数据,然后利用计算机确定出定量和公式。这部分做法类似于好莱坞的票房预测体系。但“iFilm+”不仅如此,还引入了社交网络的数据,将微博等社交网络上涉及到演员、角色、电影结局等内容作为变量。“300个人月”,这是刘晗他们用在电影行业数据收集与整理上的时间。换句话说,如果有20个人手的话,得做15个月。

光有人力和时间的投入还不够,还得有技术手段的介入。刘晗举例说,很多网络数据库对于演员票房贡献度的算法很粗糙,他们则是按照戏份的多少、台词的多少等来计算演员票房贡献度。即便像《十二生肖》这种由成龙编剧、导演、主演的影片,按照刘晗他们的系统计算,成龙的票房贡献度也不到70%。最初的时候,刘晗他们甚至用“最笨”的方法——找人看一遍电影——来核实一些影片基本信息的真实与否。“这些电影行业的原始数据都是我们自己‘手工洗过’的,我们能做到现在这一步,也是因为干了很多苦活累活,所以不怕新浪、腾讯或者百度。”刘晗说。

即便如此,电影行业本身的数据还都不是“大数据”,刘晗认为,社交媒体的用户行为数据,才是真正的大数据。但这部分数据的收集和整理的难题是,如何过滤掉数据的“杂音”?刘晗反倒不认为这是难事。在创业之前,他曾在新浪的无线部门做技术,很熟悉新浪微博的底层技术,他还在中移动旗下的卓望公司工作过,参与搭建了卓望整个的开放平台,卓望当时主要负责中移动“移动梦网”。“抓取数据,识别僵尸粉丝、判定灌水、拦截机器人等,我们相对有得天独厚的条件。”

那么,“iFilm+”获取用户行为数据会否受到微博等新媒体平台的限制?“其实不会。”刘晗解释说,这里只有“懒人和勤快人的区别”。从对方平台的接口抓取数据,是最省事的;如果对方不开放数据接口,则可以用机器模拟一个真实用户看这些网页的行为,也能抓取数据。

在创业早期,因为数据的存储有压力,刘晗他们不得已要“忍痛割爱”删一些相对“老”的数据,或者对现在或者半年一年后的趋势判断没有太大影响的数据;此外,他们还建立了数据存储的分级更换机制,比如9天之内的是热数据,存在机器内存里,老一点的数据放在硬盘上,再老一点的用磁盘、光盘备份等。

刘晗透露,今年新的融资将主要投在硬件设备上,“做大数据需要有存储量大、计算量大的设备,我们现有20多台服务器特别不够,现在基本上每两周就要加差不多小一万块钱的硬盘设备”。

做toB的生意

在数据分析上,刘晗是技术高手,但是对电影,他原本却是个门外汉。新影数讯的“iFilm+”,就像刘晗本人一样,在与电影业界人士、制片方的线下接触中,不断熟悉电影行当,不断丰富对电影票房的计算维度。

在商业模式上,刘晗他们选择了toB,而非toC。这也是刘晗认为的,在把大数据应用到影视领域时,新影数讯与豆瓣电影的不同。他们toB做的是有关电影投资/拍摄的咨询服务建议,也有toC的“推荐”,但是他们没有把toC的结果直接转化成toC的业务模式,而是反向操作,把用户喜欢的东西做成toB的咨询建议。刘晗总结,他们的商业模式/业务模式是针对影片的投资方/出品方/宣传方。在他看来,电影产业不应该是一个“拍脑门凭经验”行当,而应该“需要更加理性的数据来帮助判断”。

大数据让影视界感受到“冲击”的经典案例,当属美国视频网站Netflix推出的电视剧《纸牌屋》,该剧无论是剧情设置还是选择演员、导演阵容,都以用户在网站上的行为和使用数据做支撑,根据官方公布的数据,3/4订阅者都会接受Netflix的观影推荐。

同样都是将大数据应用到影视领域,新影数讯与Netflix的做法不一样。首先,新影数讯收集的是微博等第三方平台的用户数据,Netflix是以自己平台上用户产生的数据为支撑;其次,Netflix的商业模式是用户付费,它有2000多万付费用户,而新影数讯选择的是toB模式。

新影数讯现在有两种收费方式:一是收取固定的服务费;另一种是他们更愿意大规模拓展的,影片票房增值部分的分成。“比如一部影片,投资方认为能有1.5亿元的票房,我们通过数据分析预测票房能到2亿元,如果最后票房超过1.5亿元,那么增值部分投资方每多赚1000万元,我们多抽1%。”如果是第二种业务模式,新影数讯则需要在剧本环节就得介入,包括剧本接不接地气、如何选演员等。刘晗透露,今年新影数讯主要承接的都是此类合作,“开花结果”将集中到明年年底。

期间也有人建议过刘晗他们做艺人经纪,或者从现在做影片的数据分析挖掘,拓展到舞台剧、话剧等,但刘晗都拒绝了,而是坚持把主线放在“对影视行业娱乐数据、用户观影行为、用户对演员的评价等要素的分析整理上”。在他看来,这是资源有限的创业团队,要经得住的“诱惑”,要懂得取舍。

在坚持“主线”的同时,刘晗也在考虑更大效率地商业化“iFilm+”的数据分析挖掘能力。他们已与一些影视投资基金和制片方合作,以代管基金的方式,尝试介入到影片投资环节;他们也在尝试影片植入广告的服务。(原文来自《IT经理世界》375期 “数据社会" 专题,作者贺文)

评论(3)

您可以在评论框内@您的好友一起参与讨论!

    1. 白严岩 大数据的应用真是越来越广了

      回复[0] 2013/12/12 16:03

    1. 梁璧君 iFilm+”是一个很实用的系统,随着电影潜在票房的提升,投资人的热情已经越来越高了。这种系统能帮到他们

      回复[0] 2013/12/12 15:54

    1. 叶正准 “iFilm+”预测一部电影的市场表现,在上映前一个月左右,其准确度能达到80%。我觉得国产片最需要提升的,是质量。在烂片横行的年代,我也能预测

      回复[0] 2013/12/12 15:44

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");