推特是怎样炼成的?

标签:热点推特

访客:42658  发表于:2013-12-03 17:31:59

【导读】推特的革命性不仅在于创造了140个字符的信息交流方式,更重要的这些推文所包含的时间、地点等数据兼具商业和历史的价值。推特的崛起给我们的启示是,用户所感知的信息交换只是冰山一角,底层的数据提供了无限的遐想空间。

推特是怎样炼成的?

推特上市了,这标志着它完成了自己的成人礼。在推特崛起的过程中,最让人叹为观止的还是核心内容:推文,140个字符。它所包含的那些先进、灵活甚至革命性的技术,才是推特改变千万人向世界宣示自己存在方式的根源。

长生不老的推文

让我们来研究一下推文。它很简短(140个字符搞定),却不简单。如果你从系统上打开一则推文,看看里面,你会看到由31个公开备案的数据域构成的、精细复杂如同钟表的一个系统,令人叹为观止。大多数推文只是一时兴起的只言片语,为什么还要带着所有这些数据呢?

当一则推文伴随着其他推文出现之后,它也永远具有了自己的独立特征。任何推文都有可能被嵌入上百万个不同网站;即使在发表多年之后,它依然可能被调取出来重新显示。尽管这些推文被认为是稍纵即逝的文字,但事实上它们拥有真正长生不老的力量。

从出生开始,它们就是孤家寡人,必须找到自己的存世方式,就像一只刚刚孵化的海龟挣扎着爬向拍岸的海浪。幸运的是,它们拥有所有借以生存的必要信息:一则推文知道它的作者身份(无论是机器还是人类)、创作时所处位置、创作的日期和时间,以及其他几十个小细节——这样,无论在哪里发现这则推文,都可以进行复原。就像一位考古学家琢磨一块古代头骨一样,千万年之后的文明只要通过一则推文就能推断出整个文化。

总部位于旧金山的推特(Twitter)今年11月7日首次公开上市,标志着这家公司的成人礼。它完成了在旧金山市场南社区的启蒙与修炼,跻身全球互联网行业市值最高的公司行列——尽管它的业务还没有盈利。推特崛起过程中最让人叹为观止的也许是这项服务核心内容的一成不变:推文,140字符。人们很容易认为,编发推文的行为傻冒且琐碎,认为推特自身被过分夸大、过于高估。但是,推文的背后确有一些先进、灵活甚至革命性的技术。只有明白了推特的技术架构,你才明白这么简单的一个创意是如何改变千百万人向世界宣示自己存在的方式的。

什么是推文的“元数据”

怎么才能看到推文的内部构成?很简单,推文的架构是公开的。作为一家现代网络公司,推特以API方式向全世界公开它所使用的一些技术。API即应用程序编程接口,外部软件开发者据此可以打造基于推特服务的软件工具,使推特得到更广泛使用,并进而对所有人变得更有价值。

所有推文的架构都一样。要想对推文进行开膛检查,你得先向推特公司索要一个“API密钥”。这个流程是自动化的,速度很快。然后你就可以访问特殊网址,在这里,你得到的不是整整齐齐供人阅读的网页,而是一堆供计算机识别的原始数据。这些数据都是用一种计算机语言表达的,看起来全是括号和字符。这其实是一种简化版JavaScript,名为JSON(即JavaScriptObjectNotation)。API基本上就是“讲(和读)JSON”。这种计算机语言包括一系列名称与值的域,其中31个域构成一则推文。例如,如果一则推文被“收藏”25次,其对应的域的名称是“favorite_count”,值是“25”。

你知道美国国家安全局怎么收集美国人打电话的“元数据”吗?没错,这些域就是干这个用的,只不过国安局收集的是电话元数据,这收集的是推文元数据。事实上,一则推文的140个字符还不到其背后数据量的十分之一。推特的元数据由该公司公开备案保存,所有人均可查阅,任何想要注册API密钥的人均可调用。

推文的元数据不仅有“25”这样整齐的数字,更是一套一套名称与值的组合,仿佛硕大而诡异的数据树。一个显著的例子是推文的“coordinates”(坐标)。这个值以GeoJSON格式(描述位置的JSON语言)记录推文的经纬度地理信息。乍看起来可能很复杂,但实际上非常棒,因为这意味着JSON这类简单易懂的格式可以表达一些非常复杂的关于这个世界的信息。

GeoJSON不归推特掌控,它是一个公开发表的开放标准。推特增加了另一个域,名称是“place”(地点)。所谓地点不仅是地图上的点,而是“具体的、有名字的位置”。它们包括多个坐标,实际上是在定义地球表面上的多面体。一则推文因此可以包含一个特定国家的大概轮廓;经过数字调整推演,几篇推文便能构成一种原始的地图集。通过一些稍微复杂的数学运算,它们可以揭示一个用户距离另一个用户有多远。推文还有一个“created_at”(创作于)的域,表示这些推文发布的确切时间。

这事儿从这里就变得很有趣了。仅仅是地点和时间数据,你就可以做一些数据库工作,知道世界每一个角落的人们什么时候处于社交媒体互动的状态。这可能非常有价值!这些信息可能会告诉你,什么时候是更新博客或一次性与多数人沟通的最佳时机,或者什么时候可以释放广告。也许我们知道某些人在下班之前发推文最多,这时候广告商可以给他们发送某种橙汁或者一款新车的广告,让他们在下班路上更愉悦一些。

正是这种组合工作定义了现代网络:如此之多的数据提供了一个很好的机会,让你能够领先于其他人而率先找到某种非常有趣或者始料未及的东西。你找到的东西是否有价值,这是另外一个问题。但作为一个软件开发者,在一个非常小的领域成为专家却是非常容易——在安卓视频方面成为一位全球领先的专家,或者在推特地理方面成为专业人士,然后根据你的服务收取相应费用。

虽然API有所有的可能性,但也有限制。推文的另一个域“withheld_copyright”(版权保留)如果设为“是”,你就知道这篇推文有麻烦——它的内容可能有版权争议。在这种情况下,推文的文字可能会被禁止发表。“withheld_in_countries”(国别保留)域提供了一系列国家名单,在这些国家,相关推文是被禁止的。另一个域则有一个很直白的名字:“possibly_sensitive”(可能敏感),其设置为“是”或“否”。

这个域说明推文是否与潜在具有冒犯性的东西相关联,如“裸体、暴力或医疗程序”。(如果你想要用三个词来了解我们这个世界的焦虑的话,这里就是一例。)作为用户,你可以勾选个人资料栏的一个选项,这样,你链接的媒体就会被自动标记为可能敏感。如果你不勾选,你的医疗程序的照片就有可能被一位对此不爽的读者标为反感,之后就会被放入“审查中”,也就是推特的冷宫。

那些生来具有的困难

类似这样的域,说明管理推特这样的庞大平台具有与生俱来的困难。公司要想生存,唯一的途径就是看它能否安全地忽略推特上发表的大多数推文。如果它不得不动用人力去监控,那一天也坚持不下去。但是为了吸引尽可能多的用户,它必须找到方法避免吓到他们。

“可能”和“敏感”这两个词大有文章可做。最终的结果是,推特将道德责任交给了用户。有的东西,有人可能视若珍宝,有人可能厌恶至极,而推特不会决定谁对谁错,也不会强迫你看这些东西。这个姿态既让它因为容纳广泛的人类表达而受到尊敬,同时也是一个非常骑墙派的处理,将责任推回给用户:我们告诉你这张图片“可能敏感”,你为啥还看它?

推文包含的其他元数据大多不陌生:一则推文被人们“fav'd”(收藏)的次数,被转发的次数等等。“user”(用户)的域值包含一大套信息:用户姓名、头像链接、粉丝数量、关注对象数量、用户是否“认证”、是否可以赋予某种蓝色标记。这是一个相当完整的个人信息,况且这样的信息还附在每一则推文上。

仅靠一则推文,没有其他信息,你也可以感觉到一种社会影响力——个人的声音有多大、推文受众的数量、与这则推文互动的人数。推文自身只是普通的文本。(虽然电脑上的文本稀松平常,但一个“a”能够出现在电脑屏幕上需要几十个抽象功能作支撑。不过,完全可以忽略这一点。)140字符,一小段文字。你可能误以为仅此而已。

这就是推特的天才之处。所有这些架构都是围绕一个非常基本的人类冲动。一则推文就是人类愿望的一个体现:立刻与很多人同时沟通,去施加某种影响,去告知、娱乐或者激怒。当然,人类一直在彼此告知、娱乐和激怒。有人说,推特更像是一种发现,而不是发明。它到底发现了什么东西,使得它的疯狂增长成为可能?

首先,推特发现写博客很难。2006年博客诞生的时候,传统媒体的许多人错误地以为写博客很容易,担心会导致话语权的肆意挥霍,甚至可能导致礼仪社会的堕落。但是,创造并维护一个老式博客既费时又费力,而且需要有人捧场。推特通过重新定义博客,实现了博客的民主化——如今,“微博客服务”这个术语就跟“微电脑”一样毫无意义,但这就是当初的推特。它让千百万人拥有了他们原本可能不知道自己拥有的话语权,现在则拥有了依靠这些话语权向广告商出售广告位的实力。

推特的另一个发现是手机可以充当广播平台。从时机上说,这简直是个奇迹:如今巨大比例的访问流量正是来自移动设备。推文的短小精悍非常适合坐在豪华轿车中的社会名流与成千上万——乃至后来的百万数量级的粉丝进行交流;推文微小的有效载荷可以方便地塞进狭窄的手机数据流,给人们一个实况转播。

推特起步时,是一个非常简单的形式——网页上一个输入框,有字数限制,人们不用输入太多字符;通过千百亿次的重复,它变成了一个以其自身定义的网络。它被深深嵌入了网络文化,但它是如此之大,令它又独立于网络世界的其他部分。今天构建推特的技术,已经有别于我们用来构建普通网站的技术。就跟上世纪90年代中期构建网站的Web网页一样,推文是构建这个社交网络的砖瓦。

推特的创始人们认识到,鼓励人们使用严格控制的极少数格式,几十亿次之后,将创造巨大的、紧密相连的、非常有创意的,并且可能有利可图的新天地。这就如同,如果你有合适的砖瓦,你将可以建造无限高度的摩天大楼。跟它的近亲Facebook一样,推特已经变得如此强大,以至于现在人们会用它登录到其他网站,你的推特身份也成为你网络身份的一个主要组成部分。而今天主要的新闻机构与博客也越来越像推特:无限的数据、标签和语言流。

到目前为止,据我们所知,推特的历史中并没有出现各式各样的毛小子们从自己办公桌上跳起来、裸奔着穿过旧金山市区、高喊着“我发现了”的那一刻。跟多数事物一样,它是在会议中被创造出来的。在某次会议上,推特发现了人类生活中一个从未被如此清晰阐述的潜在方面,并把它变成一个产品,在不同程度上改变亿万人的生活。确实,很多推文傻冒或琐碎,但这不是推特的错。问题在于我们自己。(本文来自商业周刊中文版)

评论(3)

您可以在评论框内@您的好友一起参与讨论!

    1. 温玉良 难得一见的好文,把复杂技术讲得这么易懂,顶一个

      回复[0] 2013/12/04 14:29

    1. 赵英 一则推文知道它的作者身份(无论是机器还是人类)、创作时所处位置、创作的日期和时间,以及其他几十个小细节——这样,无论在哪里发现这则推文,都可以进行复原。网上的言论好可怕呀,

      回复[0] 2013/12/04 14:16

    1. 程宇彤 好文章,推文虽然文字短小,但从出生起,就具备了大数据的识别特征。小应用,大技术,小身材,大味道

      回复[0] 2013/12/04 09:21

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");