数据,才是机器学习中唯一重要的东西

标签:IBM数据微软FacebookGoogle机器学习

访客:20071  发表于:2016-01-11 10:13:41

机器学习领域目前的流行趋势是免费提供软件等产品。科技公司一直提倡建立开源社区,并且非常乐意将其部分代码开源。然而,在过去的一年(2015年)中,机器学习领域的大佬们却将自己完整的代码库贡献出来了:谷歌TensorFlow开源;Facebook也将其经过优化的深度学习模块提供给了开源图书馆Torch;然后,Microsoft推出了免费的分布式机器学习工具包(DMTK);IBM也推出了开源SystemML平台。 这些发展已经明确证实了观察者们已经知道的信息,即科技公司不会再将软件和算法当做私有化的宝贵财产。当今最有价值的资产是数据,而紧随其后的是使用这些数据的天赋。

数据,才是机器学习中唯一重要的东西

2015年是开源年

Facebook:提供给Torch的深度学习模块

在2015年1月,Facebook成为首家将机器学习代码开源的公司。Facebook的人工智能工作是在其人工智能研究实验室FAIR中进行的。在该实验室中,Facebook使用Torch(一种开源开发工具包)来完成机器学习任务。许多公司都使用Torch,包括Twitter、NVidia、AMD和Intel。Torch在深度学习和卷积神经网络领域应用得非常好,而卷积神经网络在深度理解图像和视频等方面很成功。2015年早些时候,Facebook将其经过优化的深度学习模块也开源提供。这些模块的速度远超Torch的默认模块,从而使得开发者可以在更短的时间内训练更大型的神经网络。

IBM:SystemML

IBM几乎是人工智能的代名词,因为它拥有深蓝计算机和沃森系统。2015年6月,IBM将其机器学习平台SystemML提供给了快速发展的开源社区Apache Spark。IBM将继续提供Spark更多的资源,并将其作为更广泛的IBM Bluemix开放云技术平台的一部分。IBM开源机器学习系统SystemML

Google:TensorFlow

2015年11月,Google推出了免费的TensorFlow。TensorFlow是Google的第二代机器学习系统,意在取代DistBelief。该系统将计算以状态化数据流图表的形式呈现,使得在硬件系统不同的多台机器之间运行网络变得更加容易。TensorFlow是由Google大脑研究组(其中有深度学习领域的传奇人物Geoffrey Hinton)开发的,广泛应用于Google的多种产品之中,包括Gmail邮箱和Photos。其最受瞩目的应用是Google的人工智能引擎RankBrain系统,该引擎系统处理着Google大量的搜索查询。Google 开源最新机器学习系统 TensorFlow

微软:分布式机器学习工具包(DMTK)

终于,在Google推出TensorFlow的3天后,微软也将其分布式机器学习的框架和算法进行了开源。DMTK使得机器学习任务很容易进行扩展。该工具包还包括LightLDA(主题模型训练的一种高效算法)和分布式词向量(Distributed Word Embedding,一种自然语言处理工具)。

随着数据价值的提高,软件将会倾向于免费

机器学习工具使得对丰富数据的理解变得更加容易。深度学习技术使得系统可以从非结构化数据中学习。真实世界中的许多情况是混乱而复杂的,现实世界中的数据多是非结构化的数据,和传统的关系数据库系统中的结构化数据(表现为行和列)不一样。视频、未标记的文字和语音现在都可以由能根据上下文进行推断的系统进行分析,从而使得其见解更加准确,且更有价值。

「当行业的落伍者还在辩论自有服务器与云服务的优缺点,并且努力合并大量数据库时,行业的科技领导者们已经在加紧向前推进。」

知识产权正在交付给开源社区,并让他们按照自己的想法来使用。当大多数公司刚开始推出大数据战略时,Google、Facebook、微软和IBM已经践行了他们的战略,建立了大数据和机器学习工具,并且已经开始免费提供。 大多数公司将专有软件视为自身的竞争优势,可为消费者提供相应的价值。当传统硬件公司正在慢慢试图转变为软件和服务公司时,他们赖以存在的基础开始发生转变。 电信运营商正在努力适应以软件定义的、而不是由路由器和交换机定义的网络世界,制造商正在从提供工具和部件的角色向使用分析和预测维护转变。当他们到达软件与服务有望带来丰厚利润的新黎明时,他们会发现这其实是一个海市蜃楼。网络上的软件几乎没有边际成本;软件的价格将会倾向于零。真正有价值的东西是数据。

数据,才是机器学习中唯一重要的东西

使用机器学习工具非常困难

Google、Facebook、微软和IBM并没有免费提供所有的软件。Google、微软和IBM也拥有付费的机器学习平台,通过这些平台,他们可以为付费用户提供机器学习API。这些公司希望吸引更多的开发者来建设他们的平台,从而使得平台更具有价值。他们将其工具进行开源,从而使得开发者可以学习如何使用他们。这对于未来的招聘是非常有益的;同时,这也可以培养一个繁荣的开发者生态系统。 有价值的平台会吸引用户和开发者。开发者拥有的资源有限,因此只会将能产生最大利润的资源提供给平台。这也是为什么小型开发者首先会开发iOS App,然后是安卓App,而永远不会开发Windows 移动平台App。平台技术的经济学就是:胜利者获得一切。公司可以招揽开发者;为他们提供薪水,以便让他们建设该平台;并减少其销售收入的分成。但是如果平台根本就没有用户,那就另当别论了,例如Windows 移动平台。

「对于那些试图为客户建立平台的非软件公司,他们的挑战就是,开源其实并不是他们自身文化的一部分。」

客户价值是随着机器学习应用程序而建立的,这些应用程序来自于第三方开发者提供的新型创新服务。为了吸引开发者,开源是唯一的方法,而数据将会是唯一可持续的竞争优势。 最近对于行业的建议是,从物质产品中抽身,转而制造数字产品。然而,对网络数字产品进行收费比以往任何时候都要困难。对于机器学习,制造数字产品还远远不够。公司需要放弃数字产品,这对于很多正在经历数字化转变的公司的管理层和董事会来说,是一个难以下咽的苦果。

如今,唯一重要的东西是数据。

评论(0)

您可以在评论框内@您的好友一起参与讨论!

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");