从“商业软件”、“开源软件”最终演变自主技术和云计算服务能力,阿里巴巴的IT后台在发生着怎样的变化。
过去的一年间,高调的阿里巴巴赚足了眼球。
从“双十一”191亿元的巨额交易额,到闪电般地拆分成七家公司、25个分支机构,再到在金融业的肆意扩张,和移动互联网领域的大举收购……马云构建的阿里生态圈,正在从城邦成长为“帝国”。
事实上,在阿里巴巴从城邦到“帝国”的这一系列高调动作的背后,实则都与一位低调的人有关,他就是王坚。
2008年,王坚加盟阿里巴巴成为集团首席架构师,即现在的首席技术官。这位前微软亚洲研究院常务副院长被马云定位为:将帮助阿里巴巴集团建立世界级的技术团队,并负责集团技术架构以及基础技术平台搭建。
在加入阿里后,带着技术基因和学者风范的王坚就在阿里巴巴集团提出了被称为“去IOE”(在IT建设过程中,去除IBM小型机、Oracle数据库及EMC存储设备)的想法,并开始把云计算的本质,植入阿里IT基因。
这些工作将阿里IT发展策略从依赖“商业软件”、到拥抱“开源软件”最终演变为拥有强大的自主技术和云计算服务能力,更为2009年“阿里云计算有限公司”的成立埋下伏笔。2011年7月28日,阿里云自主研发的“飞天“云计算平台开始以公共云计算服务的方式对外提供云计算商业服务。灵活的IT支撑起阿里集团的业务闪变,并在淘宝、支付宝等核心业务之外,勾勒出了新的极具潜力的盈利模式——云服务。
2012年10月,阿里云开发者大会上,王坚曾宣称:“阿里云能在24个月内实现收支平衡。”10个月过去了,在接受《商业价值》采访时,他依然坚持这句承诺。作为阿里巴巴在IT领域的触角,“阿里云”的未来充满了想象。
与此同时,王坚最初提出的“去IOE”的想法,一天都没有停止过。甚至,阿里巴巴的“去IOE”运动引发了大型企业IT底层建设的新思潮,也使IBM、Oracle等国外大型厂商在中国倍感转型压力。
“平台、金融和数据”是马云承诺阿里集团的三大业务,阿里集团的IT格局支撑起这三大业务的发展;“阿里云”则成为阿里巴巴延伸向更多中小企业的重要IT触手。带着对阿里巴巴IT布局的探究,《商业价值》出版人刘湘明在杭州阿里云总部与阿里巴巴首席技术官、阿里云总裁王坚展开对话,ITValue将以连载的形式通过四篇文章完整展现。
【连载一】
王坚:我为什么反对有些企业的“去IOE”运动?
在阿里巴巴首席技术官、阿里云总裁王坚的办公室有一面墙摆满了书,《丰乳肥臀》、《史蒂夫·乔布斯传》、《分布式系统原理与范型》这三本被摆放在右侧第三排上。
用这三本书来概括王坚似乎也很合适。工程心理学出身的王坚,用魔幻现实主义色彩带领着团队,所有的阿里云产品在内部被冠以传统神话中神的名字:阿里云的核心技术引擎被命名为“飞天”,一位亲水的神仙;协同调度系统称为“女娲”;“分布式文件系统”叫做盘古等等
从2008年11月加盟阿里集团开始,王坚在集团首席技术官和阿里云总裁角色之间不断转换。办公室里整墙贴满“云OS”效果图,与团队在办公室旁的“钟馗道-争端解决室”开会到深夜已成常态,王坚有着产品经理敏感执着的特质。
在王坚眼里云计算是一场革命,是一场用服务颠覆传统软件硬件时代IT建设旧思维的革命。王坚这样概括“去IOE”运动和阿里云之间的关系:“去IOE”彻底改变了阿里集团IT架构的基础,是阿里拥抱云计算,产出计算服务的基础。“去IOE”的本质是分布化,让随处可以买到的CommodityPC架构成为可能,使云计算能够落地的首要条件。
从“去IOE”到拥抱开源技术,从整个集团的IT支持到阿里云未来发展,这些都使王坚有了几分神秘的色彩。在ITValue社区(中国最大的基于知识分享的CIO人际社区)会员通过发帖和微信交流群对王坚展开提问,王坚认为:“与CIO的交流将成为阿里云竞争力的来源,是中国的用户在把云计算推到一个新高度。”
Q:为什么“IOE”对互联网企业的发展是—个问题?“去IOE”和开源对IT团队的技术储备有多高要求?(by博士伦中国公司ITdirector汪华)
A:不同的人在理解“去IOE”的原因是不一样的。我最怕将“去IOE”的原因归结到两个极端:一是单纯变为企业成本问题,二是简单地变成一个是否用国外产品和技术的问题去讨论。成本降低是“去IOE”最先能够看到的,但最根本的原因是在互联网时代,不只是互联网企业,绝大部分企业对计算需求难以通过IOE提供的技术来满足了,IOE约束了企业长远的发展;技术路径上依赖于专用的硬件设备比较危险,随处可以买到的CommodityPC的架构长远来讲对于阿里和大多数企业则是最安全的。对于成本,我想说今天所有讲的开源技术只解决了软件使用成本的问题,而忽略了开源软件的升级和维护成本。
理论上只要计算能力够,“IOE”就一定能去掉!但实际上“去IOE”这件事有技术挑战和风险。对绝大多数企业,“去IOE”不是简单改变软件和硬件本身,用新的软硬件取代旧的软硬件,而是用新的方式取代旧的方式,是用云计算彻底改变IT基础架构。
“IOE”是软件时代或是“买计算机”时代的产物。在云计算时代,则变成买“计算”的时代,“去IOE”最好的解决方式是采用云计算,而不是买来一台新的机器替代掉原有机器。这是一个行业的变化而不是策略的选择,这件事情的挑战是你心里是否接受所谓的“私有云”的消失,从信任传统软硬件厂商到信任云计算是一种安全的服务。
Q:是否有一天企业都采用开源,而且没有软件供应商只有服务供应商时,IT建设的一些困难才能够解决?(by宁波方太厨具有限公司CIO邴哲)
A:我想从阿里集团自身技术的发展解释这一问题。阿里的技术发展从主要依靠商业软件、到开源再发展到更多的自有技术或是说云计算。
阿里最早依赖商业软件,从拥有20多个节点的OracleRAC数据库集群(当时是亚洲最大),到成为开发使用开源软件MySQL最好的企业之一,到研发自己的关系数据库OceanBase,也已用在了不同的业务场景。从用Oracle做处理数据,到用Hadoop集群(是业内单个机群节点数最多的Hadoop机群),再到用自己飞天平台上的ODPS。这样的演变路径也表明:商业软件、开源软件跟自有技术永远是一个搭档,对于不同企业来说,只是百分比的问题,对于大的互联网企业来说自有技术变得非常重要。阿里巴巴的许多自有技术,如飞天的核心平台通过云计算的方式开放给别人,所以云计算是适合许多企业的另一种方式。我相信在未来,对大多企业来讲,云计算平台+自有技术+开源技术会变得越来越重要。
在很多场合大家习惯性的把开放直接等同于开源,其实开源不是开放的唯一手段,在互联网时代,云计算是一种新的开放形式。在许多业务和应用场景下,与云计算相比,开源未必是最好的手段。开源软件还是软件,开源软件本身是伴随着软件时代的产物,仍然需要较大成本投入在维护和升级。今天云计算的发展得益于开源软件的发展同时云计算的出现对开源软件的应用也会有冲击,例如当云计算提供了关系数据库服务时,你就要考虑是否还要购买或使用商业数据库软件或开源数据库软件。阿里云和CODE.CSDN及开源中国等机构的合作,也是希望开源社区和技术与云计算能更好融合,共同服务好用户。
在互联网时代,运行在数据中心里的软件面临运营的挑战,复杂度很大。从使用软件(包括开源软件)到运营数据中心里的软件是一次根本的变化,大部分企业还没有这种服务能力,社会的分工也不能要求每个企业都去做这种运营。云计算给了企业一个机会,企业不需要买软件,就可以享受最好的服务和计算能力。这就是为什么在互联网时代,云计算平台+开源软件+自有技术会是一个基本格局,传统靠收许可和服务费的商业软件会越来越没有市场。
Q:阿里云、天猫和淘宝的技术体系是怎样的?在去IOE过程中,他们是如何协同?(by中国南方航空公司技术总监龙庚)
A:支付宝、天猫和淘宝、阿里云的实际技术应用确实有所不同,我们也一样会遇到所有公司都会遇到的挑战,但我们很幸运的是阿里巴巴整个技术体系是协同在一起的。
阿里整体技术的协同效率可以用几个关键的事例来说明:第一是在“去IOE”过程中逐渐建立起对技术方向的认同和协作,当淘宝刚开始做这件事的时候,没有技术、产品和业务等各团队的相互协同,这是一件不可能的事;第二是在2011年,阿里集团所有的技术后台运维和运营部门都集中在首席技术官下面,成立统一的技术保障部,原来在不同子公司和事业部的人,从工具到理念都需要融合,结果表明这样对适应集团业务的快速发展和变化是很成功的,并且能够用这样的方法驾驭大型互联网企业对技术服务的挑战。这一过程中,我们经历的技术和组织的挑战与付出的学费可以为其他企业的借鉴。第三则是业务驱动的技术协同,淘宝“聚石塔”、支付宝“聚宝盆”等业务,都是在业务驱使下使得各自客户的IT系统运行在了阿里云“飞天”平台上,它是一种自然协同的结果。
Q:阿里云如何消除用户对云计算安全的忧虑?用户访问速度如何保障?有无简单的退出机制和迁移工具?(by州逸酒店和度假村集团副总裁朱明生)
A:安全忧虑的本质是信任问题,信任问题唯一可以解决的方法是靠透明,阿里云欢迎所有CIO来挑战云安全问题,透明真的是唯一的方式。在一次工信部召开的全国各省通信管理局负责人的会上,我也讲,我们有强烈的需求让政府监管我们!我们可以想一个方法,从你们的CIO俱乐部开始,制定一个很透明的机制,阿里云愿意被监管。
用户访问速度涉及两个方面:一个是互联网本身的速度;另一个是服务响应速度。今天我们的云计算服务解决了不同运营商互通互联的问题,互联网本身的速度是足够满足需求的。但应用服务的架构也会影响到响应时间,这需要技术的改进。很多人把服务和应用搬到云上来,是直接把原来的架构搬上来,这就需要我们和企业一起努力解决的问题。
关于退出机制,今天我们的很多客户是从亚马逊搬来的,同样也有客户因为不满意我们的服务搬到别处去了。云计算是有黏性的,但今天是一个开放竞争的环境,没有人有能力画地为牢。我们也提供相应的迁移工具,只是任何迁移都是有成本的。我认为这可以和信任问题一起讨论,需要大家的共同规范。
2012年的“双十一”,阿里巴巴创造了191亿的日交易额神话。阿里云计算平台处理了淘宝和天猫20%商家的订单,并且实现了流量巨增零故障、零订单遗漏。在云平台上,更有日订单数近60万的天猫商家,其交易量已经达到当时中国除淘宝以外其他B2C市场一天的订单量。
在“双十一”活动前,一些商家并不完全相信阿里云平台,他们仍然部署在自有的IT基础设施上,当活动中交易量暴涨,突然出现服务器能力不够时,阿里立即协助商家在十几分钟内迅速迁移至阿里云计算平台,保证其交易顺利继续,有几家企业就是这样在半夜12点的时间段完成迁移的。
本文是《商业价值》出版人刘湘明在杭州阿里云总部与阿里巴巴首席技术官、阿里云总裁王坚对话的第二篇——阿里巴巴双十一的秘密
Q:淘宝顺利挺过“双十一”的大流量和交易,有哪些关键的问题必须解决?
A:淘宝双十一关键要解决三个问题:支付问题,淘宝自身的问题和淘宝客户的问题。
支付的问题难点在银行,淘宝和天猫的总交易额有191亿,交易笔数是1亿零280万笔,对于淘宝来说,一共有多少笔结算是非常重要的,因为在银行承担不了的前提下,需要尽可能在支付宝完成交易,支付宝的技术能力决定了系统的承载能力。
以前,交易量过大时银行支持会出现问题,支付宝就会对交易进行排队,延迟交易。
但双十一的交易量太大,延迟时间太长会产生很大的用户体验问题,所以支付宝提前做了鼓励用户先充值进支付宝的活动,这笔钱的规模当时达到了几十亿,一定程度上缓解了银行的压力,把对银行系统的压力直接转嫁到了支付宝系统上,使得双十一当天的交易顺利进行。“双十一”表明了支付宝的支付系统是世界一流的。
第二,淘宝自身的挑战在于面对突然出现的并发流量和意外情况发生时,如何保持系统的稳定性并完成天文数字的交易量。就像电影院虽然修了安全通道,但有意外观众仍然可能不按紧急通道的提示行动,而伤到人,紧急情况下用户的行为是没有办法预测的。
淘宝也是一样,在意外情况下,任然无法预测用户行为,本来没有流量的地方,可能会突然跑出一个吓人的流量,任何一个局部的问题都有可能演变成为一个全局的问题,这个就是困难的地方。
“双十一”当天阿里巴巴集团近千名技术和业务人员坐在一层,用一个指挥体系处理问题,准备了近五百种预案,因为现场出现问题再去解决肯定来不及,一个回车键敲错了,可能那个系统就瘫痪了。“双十一”也表明了淘宝和天猫的交易系统是世界一流的。
第三,解决淘宝客户的问题主要是通过阿里自身的技术力量去解决客户面临的问题,比如“聚石塔”项目,将天猫和淘宝卖家的全部交易流程都部署在阿里云计算平台上,保证他们交易系统的稳定性,从而保证他们的交易顺利完成。
过去,交易从淘宝链接到卖家后台系统的过程中,如果卖家IT基础设施薄弱,系统交换数据会因为网络等各种原因不通都可能会使交易失败。“双十一”有一句话是说“20%的交易量是在云上完成”,这其实是说有20%交易量其卖家的后台系统是部署在阿里云上的。
以往买家买一个东西只需要点击购买,然后进行支付,这个动作会指向两条IT路径:一是连接支付宝,保证有钱可以完成支付;另一条则是进入卖家的ERP,卖家需要知道自己是否有库存,并减掉相应的货品数量。
把卖家的ERP系统完全架设在云上,这件事的难度和意义比只解决网站流量扩容要大,因为从发票打印到发货都要通过这个系统,不同的ISV(独立软件开发商)也在其中起了关健的作用,让人们体会到一个生态的价值。
卖家把ERP搬到云上,也证明了对云计算的信任,我们今年的目标是让70%-80%的交易在云上完成,这不仅仅是为客户节约成本,更是帮助卖家提升赚钱的几率。这件事的本质反映了:云计算是一场改革,给客户创造业务价值的意义,远远超过了成本本身。
王坚简介:
王坚博士于2008年9月加盟阿里巴巴集团担任首席架构师一职,帮助阿里巴巴集团建立世界级的技术团队,并负责集团技术架构以及基础技术平台建设。2009年7月,他又被指派为阿里软件的首席技术官。
【版权声明】行行出状元平台欢迎各方(自)媒体、机构转载、引用我们原创内容,但要严格注明来源:;同时,我们倡导尊重与保护知识产权,如发现本站内容存在版权问题,烦请提供版权疑问、身份证明、版权证明、联系方式等发邮件至service@hhczy.com,我们将及时沟通与处理。