Twitter向科学家开放所有推文数据,你的碎碎念正在成为研究的一部分

标签:大数据Twitter开放数据推文数据

访客:26308  发表于:2014-05-28 10:24:52

没有数据分析支撑的决定将越来越不具有可靠性,这类公司正在改变管理理念和策略制定方式,大部分公司做到了以数据驱动的决策(date-driven decision)。(来自大数据价值49式之序列篇http://www.cio.com.cn/eyan/388301.html)你或许意识不到,自己在Twitter上的吐槽、抱怨和心情分享正在成为科学研究的一部分。

Twitter向科学家开放所有推文数据,你的碎碎念正在成为研究的一部分

人们在Twitter上每天能够发布总数达5亿条的推文,这其中有大部分是关于个人生活的细节的,比如他们对某件事的吐槽,与朋友的互动,或是只是告诉大家自己身体不舒服。而这些碎片化的信息,事实上都可以被科学家用来进行数据分析,指导科学研究。此前,微软的研究人员就通过研究Twitter上的孕妇的推文中透露出的情绪,开发了一种新的算法,来对产后抑郁症进行预测。

Twitter官方当然也意识到了这些研究的价值,并有意识地鼓励科学家把自己平台上的数据作为科研工具之一。根据ScientificAmerican的报道,Twitter宣布,将向科研人员开放从2006年起Twitter上的全部推文数据,而在此之前,研究人员只能通过Twitter开放的API接口获取这些数据,但它们能够获取到的推文只有总量的1%。而在得到Twitter官方的许可之后,研究人员将能够获得存储在Twitter平台上的所有推文。这将大大地扩充待挖掘和研究的数据量,当然也会提高数据研究的精度。

像微软研究人员对产后抑郁症的预测那样,Twitter上的推文已经为不少科学研究做出了贡献。去年,就有美国的计算机科学研究人员对Twitter用户所发布的与流感有关的信息进行汇总分析,以此预测出可能爆发流感的地区,为相关部门的预案提供研究支持。这与Google在2008年上线的流感趋势网站非常相似,Google的做法是通过人们对流感相关信息的搜索来进行统计,以此对流感进行分析、做出预测;而在Twitter上,研究对象就不再是搜索请求了,而是人们发布的推文。研究人员把这些关于流感的推文打上地理标签,以此绘制出了一张“流感地图”,通过这张地图以及研究人员据此建立的动态模型,流感病毒的爆发、转移就能够被大致观测到了。

相似的方法被斯坦福大学的地震研究员使用,研究地震的强度,以及扩散效果。

不过,把自己平台上的用户数据开放给其他人,Twitter也相应地承担了道德风险,因为这关乎隐私——并不是每个人都喜欢让自己说的话暴露在哪怕是科学研究的场景中。而针对这种情况,弗吉尼亚理工大学计算机流行病学家Caitlin Rivers和Bryan Lewis在今年2月份的时候针对Twitter数据的使用方式发布了一个道德规范:他们建议科学家不要披露相关用户的名称,也不要公布研究目的,以此来保护有可能出现的隐私和道德问题。他们认为,科学家需要将保护隐私作为Twitter数据研究的基本原则。

【e点评】

大数据时代,社交网站Twitter因拥有大量的用户注册和运营信息,成为天然的大数据公司。但这种天然的大数据公司开放数据,它能否对相关科研结果享有任何权益自然是它比较关心的问题,但用户未必想将自己的内容贡献给研究人员,因此Twitter的这一工具是否有违道德?当你的碎碎念成为科学家研究的一部分的时候,你是否有被出卖的感觉?继政府开放数据之后,当企业开放数据,你还能如此淡定吗?



评论(2)

您可以在评论框内@您的好友一起参与讨论!

    1. 徐-有伟 引用coobi的话说:“这才是大数据,我认为只有社会化互联网的数据才能叫大数据,只有跨领域的数据使用才能叫大数据应用,否则和数据仓库和BI有什么区别。”

      回复[0] 2014/05/29 10:05

    1. 徐-有伟 大数据时代,以后的平台开放数据会更多。不禁想到,微博会开放数据吗?现在大家觉得twitter离我们太远,但微博如果开放数据,我们该如何面对?数据挖掘能力越强,保护隐私的意识是否越高?

      回复[0] 2014/05/29 10:01

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");