治白癜风的办法 http://m.39.net/pf/a_6329464.html
编者按:AI潮已经席卷整个世界,各种AI初创公司遍地开花,但不是所有都能获得成功本文作者RicSzopa是invoo.vc的首席技术官。此前,Ric是MicroscopeIT公司的首席技术官,该公司是一家专门从事计算机视觉、机器人和显微镜图像处理的软件公司。他曾在谷歌(google)从事youtube数据库基础设施工作。他认为,对于以AI为商业核心的企业而言,发展的道路上,有几个很关键的“事故高发地”。本文编译自KDnuggets的原题为“YourAIskillsareworthlessthanyouthink”的文章。
AI热已经热了好一阵子了。机器学习专家的工资开得很高,投资者面对AI企业,也很乐意用心倾听,打开心门,然后打开支票簿。确实,科技革新能带来翻天覆地的变化,每一代人都有这样的机遇,而AI就是我们这一代的大机遇。技术带来的改变是无法逆转的,它会对我们的生活有深远的影响。
但是,这也不是说AI企业要成功就易如反掌。我认为,以AI为商业核心的企业而言,发展的道路上,有几个很关键的“事故高发地”。
我和儿子的照片,图片经过ArtisticStyleTransfer处理。这个技术点燃了我对深度学习的热情。
你的AI技能在不断贬值
年,我还在谷歌上班的时候,开始摆弄DistBelief(后来改名叫TensorFlow),当时它还很差劲,写起来很费劲,主要的抽象过程也和我想的不太一样。想让它在谷歌的开发环境之外独立工作,简直是黄粱美梦。
到了年年底,我在弄一个通过组织病理学图像来发现乳腺癌的POC测试。我的想法是利用迁移学习,拿癌症的数据来训练谷歌最好的图像分类架构Inception。权重就用谷歌提供的训前权重,光换顶层布线层的数据。用TensorFlow不断实验、试错之后,我终于知道怎么操控不同的层,几乎就成功了。这个过程需要很大的耐心,还要读TensorFlow的源,但是至少我不用担心依赖的问题,因为TensorFlow好心提供了docker镜像。
年年初,对于实习生做的第一个项目来说,上述的项目不够复杂。有了Keras(TensorFlow基础上的框架),不需要对项目有什么深层的了解,用Python写几行代码就完事了。不过超参调优还是有点麻烦。如果已经有了深度学习模型,就有好几个参数可以控制,比如多少个层,每层的量等等。但最优参数设置也不简单。有些直觉式算法(比如网格搜索)不是很好用。于是我们就要不停地做实验,与其说这是科学,到更像是一门艺术。
在我写下本文的时候(年年初),谷歌和亚马逊已经提供自动模型调试的服务(CloudAutoML,SageMaker),微软也正有此意,计划在筹备中了。我预计,模型微调很快就不需要人工操作了。
我希望读者能看到事情发展的趋势:原先难做的事情变简单了,知识水平的门槛降低,让懂得不多的用户也可以实现更多。过去的工程壮举,在今天看来也没那么了不起,而我们不能指望未来还不如现在。这其实是好事,是进步的表现。我们应该把功劳记在谷歌这样的公司头上,他们大手笔投资之后,将成果分享给世人。但是他们这么做,也是有两重原因的。
你被商品化之后,你的办公室就是这样。
首先,谷歌的真正商品是云架构,而上述举动是为了将其互补品商品化。在经济学上,如果人们倾向于同时购买互为补充的两种商品,比如汽油和汽车、牛奶和麦片、培根和鸡蛋。如果互补商品组合其中之一价格降低,另一商品的需求就会上涨。而云架构的互补商品就是云端的软件。而且AI相关的项目一般需要很多计算资源。这么以来,将开发的成本降到最低也就十分合理了。
其次,谷歌之所以对AI那么热心,是因为他们在这方面相对于亚马逊和微软有明显的优势。谷歌的起步更早,让深度学习的概念热门起来的也是谷歌。他们也没少招兵买马,招揽了不少人才。他们在开发AI产品上经验更丰富,所以开发相关工具和服务方面也更有优势。
虽然技术进步让人兴奋,但是对于在AI技能方面做出很多投入的企业和个人来说,可不是什么好消息。现在,培养出有AI技能、能胜任工作的机器学习工程师确实能带来很多好处。其成本也是很大的,工程师需要花大量的时间阅读论文,还要有坚实的数学基础。但是,工具变得越好越好用,情况就不一样了。这份工作就会转向阅读教程,而不是看论文了。如果你不快点找到自己的优势,就会有一帮实习生带着数据库来抢粮了,尤其是他们的数据质量可能更高呢...这也引出了我要提的第二点。
数据比高大上的AI架构更重要
假如有两个AI企业创始人,小红和小明,他们的企业创业资金差不多,在同一个市场中竞争。小红把钱投资在最好的工程师上,聘请在AI研究方面成绩不错的博士。而小明请的工程师水平还不错,能胜任工作,她(小明也可以是女性!)把钱投资在更好的数据上。你会把宝押在谁身上?
我会把宝押在小明身上。机器学习的本质救灾与将信息从数据集中提取出来,然后按权重处理。好的模型在处理的过程中效率(就时间和整体质量而言)会更高,但是在模型差不多的前提下(也就是说,模型真的能得出有用的结果),数据的质量会比好的架构更重要。
为了说明这一点,我们来做个快速粗略的小测试。我创造了两个卷积网络,一个“好”,一个“差”。较优模型最后的全连接层有个神经元,而较差模型凑合着用了64个。我用MNIST数据集的子集训练这两个模型,然后用测试集得出两个模型的准确度,与他们受训的样本数量对比。
蓝色的是较优模型,绿色是较差模型
数据集的规模有明显的积极作用(至少在模型开始过度拟合和准确率平台之前)。较优模型用蓝色表明,显然比绿色标明的较差模型表现更好。但是,我想之处的是,在如果较差模型的训练样本数达到4万时候,就比用3万样本训练的较优模型更优秀了!
在我闹着玩举的例子里,我们面对的是一个相对简单的问题,我们的数据集也比较全面。但是现实生活中就没有这样的好事了,问题往往复杂得多。很多情况下,扩大数据集也得不到这么巨大的效果反转。
而且,和小红的工程师竞争的不是小明手下的人。由于AI社区的开放文化,以及他们对知识共享的执着,工程师的竞争对象是科技企业巨头和世界各地科研机构里的研究人员。如果你的目标是解决问题,而不是为科学做贡献的话,那么使用现有文献里表现最好的架构,用自己的数据来训练它,这是在实战中无数次得到验证的方法。如果眼下没有好的解决方案,常常就得等几个月,等到有人提出解决方案来。而且,你还可以征集解决方案,比如,利用Kaggle大数据竞赛平台,将数据、问题描述、期望的指标发布到Kaggle上,以竞赛的形式向广大的数据科学家征集解决方案,解决自己具体的问题。
好的工程技能当然是重要的,但是如果你从事的是AI行业,数据是可以带来相对优势的。不过,最关键的问题在于你能不能守住自己的优势。
在AI行业,保持竞争优势很难。
小明的数据集质量比较好,所以能和小红竞争,企业表现也不错。她的产品投入市场之后,市场份额不断增加。她现在还能请水平更高一点的工程师,因为企业在市场上的口碑和名气也不错。
小黄要追赶大部队,自然少不了花功夫。但是他的创业资金比小明多很多,资金的优势在建数据集的时候就凸显出来了。工程项目不是砸钱就能跑得快。而且,有时候新人越多,开发反而越受阻碍。但是创造数据集就不一样,通常对人力的需求比较大,请的人多,规模也就上去了。有时候,数据已经有了,你只需要砸钱买权限。总之,有了经济基础,过程还是能快很多。
小黄为什么能比小明筹到更多钱呢?
创始人在筹集资金的时候,他们试着在两个相对的目标之间找平衡。一方面,他们得筹到足够多的钱,才能在市场竞争中领先;另一方面,钱也不是越多越好,钱一多,股份就被摊薄了。找一个新股东,就意味着公司又被卖出一部分。创始团队必须守住企业中一定的股份,这样他们才不会失去创业的动力(创业是真的很难)。
另外,投资者想投资的是有巨大潜力的项目,但是他们也要把握好风险。如果他们觉得风险越来越大,每给一块钱,他们就会要更多的股份。
小明在筹钱的时候,她确实冒了个险,相信AI能提升自己的产品。不管她作为创始人的能力如何,团队的能力如何,他们都不知道自己眼前的这个问题能不能解决。但是小黄的情况就不同,市场上已经有了小明的产品,一个活生生的例子,说明这个问题是能解决的。
小明面对这样的情况有一个潜在的应对方法:发起新一轮融资。她目前的情况还不错,市场竞争中还处于领先地位。但是,情况可能越来越复杂。如果小黄能通过战略合作关系取得数据权限呢?比如,他们做的是癌症筛查行业,小黄本来就是干这一行的,在一家重要的医疗机构工作,那他可能利用自己在圈子里的关系,想办法签下了对自己公司很有利的合同。而小明没有同等的条件,就做不到这一点。
想守住自己的产品,那“护城河”越深越好
那么,你会怎样打造出一款具有竞争优势的AI产品,并且守住自己的优势呢?不久之前,我很荣幸和微软研究的AntonioCriminisi聊了聊。他认为,项目的“秘方”不应该只有AI。比方说,他自己的项目InnerEye就是利用AI和经典的计算机视觉(而不是基于机器学习)来分析影像学图像。某种程度上说,这或许与你创立AI企业的目的是对立的。把数据喂进一个模型里,看看有没有用,这样的想法自然很有吸引力。但是,需要编程人员思考算法、运用长久积累的域知识的传统的软件是更难被复制的。
把AI当杠杆用
在做生意的时候,将资源分门别类时,可以看看它是直接增加了价值,还是能帮助你得到其他有价值的资源。我们用一家电商公司举例。如果你创造了一个新的产品线,就是直接增加了价值。本来什么都没有,有了产品线,就有了产品,有了愿意为它买单的消费者。建立新的分销渠道就不一样了,它是你的杠杆:在亚马逊上卖产品能把销量翻倍;降低成本也是一种杠杆,如果你能和生产方达成更好的协议,降低成本,那利润就可能翻番。
有了杠杆,你就有了“四两拨千金”的潜力,同样的力气,直接上不如巧用力。但是,杠杆只有在和直接价值源相结合的时候才用得上。要是价值本来就低,翻一倍、翻两倍,量还是上不去。如果你没有产品可以买,费心找分销渠道也是白费心思。
在这样的背景下,我们该如何看待AI呢?有很多企业都想吧AI作为直接产品(比如图像识别API)。如果你是AI专家,那这样的想法确实很有诱人。但是这个点子糟透了。首先,你是和谷歌、亚马逊这样的大公司直接竞争。其次,做一个真正有用的原生AI实在是太难了。举个例子,我一直很想用谷歌的VisionAPI。但不幸的是,光用API,需求恰好得到匹配的用户,我们一个也没见过。我们提供的产品和服务要么是有余,要么是不足。与其拿驴子当马使,倒不如做定制,一个萝卜一个坑呢。
面对AI,最好就是把它当作一个杠杆。你可以沿用现有的商业模式,用AI助助力。例如,你的商业过程中有一个环节是通过人类认知完成的,如果用AI自动化,毛利润会提高很多的话,就大胆用起来。我能想到的几个例子包括ECG分析、工业检测和卫星图像分析。最激动人心的是,由于AI是在后端,你可以在其他方面下工夫,保持住自己的竞争优势。
结论
AI确实是改变时代的技术。但是,如果你把它作为自己初创企业的中心,你会面临很大的风险。因为市场发展的大方向决定,AI技能会不断贬值,所以你不能光依靠自己的AI技能。建立AI模型的过程固然很有趣,但重要的是数据质量要比对手的高。维持竞争优势确实很难,尤其是在竞争对手财力比你雄厚的情况下。如果你是靠AI技能发家的,那很有可能出现多金的对手后来居上的情况。你应该把精力放在创造可规模化的数据收集过程上,这是对手不容易复制的。对于依赖水平不高的人类认知的行业,AI的破坏力最强,因为他们的工作是可以自动化的。
编译组出品。