花甲AI:从小作坊到工业化

摘 要

作者:高斯编辑:生煎算力说很多人并不知道,人工智能诞生至今已超过60年。但年逾花甲的AI直到近几年才突然火爆,这得益于算法的提升以及互联网时代的数据红利。...

很多人并不知道,人工智能诞生至今已超过60年。但年逾花甲的AI直到近几年才突然火爆,这得益于算法的提升以及互联网时代的数据红利。人工智能从一个有趣话题,变为一项有用技术,经历的是从小作坊到工业化的飞跃。未来,人工智能还将基于更多应用场景创造更大价值。


人工智能是一个热门话题,对很多人来说也是一个新话题。但对于业界而言,这其实是一个很古老的话题。从1956年提出学术概念,至今已经过去60多年的时间。

“过去60年的人工智能研究,从产业到政府、资本、企业界,投入了巨大资金,但直到近几年才成为热点,人工智能在很长一段时间内给人们的直观感受就是很有趣”,商汤科技集团副总裁柳钢近日在演讲中说道,“但遗憾的是,正是因为它长期停留在有趣的阶段,在产业的价值创造阶段没有更新突破,导致了数轮兴衰。”

他表示,自2012年深度学习广泛应用后,人工智能在一些特定领域开始比人做的更好,终于从有趣开始变成了有用。

1

AI 60年:终于从有趣变有用

柳钢认为,这样的变化是由于人工智能的研究发生了根本的改变。

以前,人工智能的表现可以用有趣、模拟和接近来描述。而今天,人工智能在一些领域的表现已经完全赶上,甚至大大超越人类。人工智能可以完成人类完全不可能完成的任务,主要原因就在于,当今的人工智能已经从过去的作坊式、实验室式、学术团体式的研究,迈入了工业化的研究。

众所周知,提起人工智能就会想到训练和学习。人工智能的算法就像人一样,需要通过学习才能训练出算法。必须看到的是,从人工智能诞生至今,数据量、计算能力、集群规模等关键元素的规模之大,已经完全超出了人们的想象,也就形成了所谓的工业化研究。

那么,人工智能的工业化研究到底有哪些含义?

在训练平台方面,工业化意味着强大的基础设施。柳钢以商汤科技为例表示,公司自己搭建的训练平台拥有超过12000块GPU卡,平均单价在40000元,这就意味着数以亿计的投资。唯有如此大的工业化运作,才有可能会突破极限。

从数据来看,工业化意味着大规模的数据采集。以往长期困扰人工智能突破的痛点就是难以获得符合要求的大量数据。而随着互联网时代的到来,特别是移动互联网的蓬勃,给人工智能带来了数据的红利。

柳钢透露,2012年商汤科技创立之初,做算法训练所用的数据量为20万张图片,而现在的数量已是当时的10倍以上。而在智慧城市级别的算法训练中,所用的数据量更是以千万计。

当训练数据量达到千万级时,必然是工业级的研究方式,这显然已经超出了个人或小团体的研究方式所能达到的成果。正是有了海量的数据,加上工业级的训练平台,才有可能让人工智能真正面对产业应用。

在业务系统层面,工业化意味着强大业务系统支持真实场景。真实场景有多大?柳钢表示,一般生活中身处一个1000人的场合,可以说是大场面了。如果在这样的场合里,人脸识别可以认对990人,那么准确率就是99%。但这一听起来很大的数字,对一个数千万人口的大城市,却是远远不够的。

也就是说,大规模的业务场景,对准确率的要求是极高的。这也就意味着,新产生的每一个算法,每一套人工智能系统,其规模已经不再是小作坊式的产出了。

在硬件层面,工业化意味着算法与硬件的联合优化。如今,人工智能之所以达到了大规模、工业化,是由于算力的改善。硬件意味着资金投入,算法意味着数据的输入和输出。当数以千万计的图片在一个分组内,传统的计算架构就无法支撑,而需要集群化的架构了。

以前述商汤科技的12000块GPU卡训练平台为例,其中最大的集群是1000块GPU卡进行并行集群计算。也就是说,硬件的架构和人工智能的训练已经完全融合在一起,这样才有可能实现超大算力处理海量数据

在测试评估层面,如今的测试规模也是工业级的。柳钢表示,商汤科技在与国内几大手机厂商合作中,把算法植入新一代手机里,其中最重要的环节就是测评测试。

一旦和手机厂商合作,每年的出货量都是数以千万计甚至是数以亿计的。在此规模下,除了算法的准确率和效果之外,更重要的指标就是稳定性,确保数以亿计的设备稳定、高性能地运行。唯有这样的海量工业级测试,才有可能使质量和效果得到保证。

柳钢认为,如果把人工智能比作水,那么获取水的方式已经今非昔比。过去人们获得水的方式是打一口井,但现在一定是要建立一个工业级的自来水系统。身处2019年初,人工智能的研究已经远远超出了启蒙阶段和观念探讨阶段,未来的人工智能研究一定是工业级的产业推进方式。

花甲AI:从小作坊到工业化

商汤科技集团副总裁柳钢

2

未来AI:平台化驱动发展

柳钢同时指出,目前人工智能,特别是视觉人工智能应用研究的一个新的趋势是平台化,许多独具特质的平台已经兴起。

AI超算平台。以前述商汤案例来说,过去20万张图片的算法迭代花费了3周时间,而现在用公司自有的超算平台来训练同样数量级,仅需6小时。此外,算法的提升不仅是速度的提高,更是对应用有更高的要求,如支持不同架构的训练以及实战模型。

AI传感器平台。以人工智能视觉为例,其突破首先源自图片识别,通俗来说就是刷脸。然而,当研究从图片识别转入更深层次的视觉链时,研究者们发现传统的传感器并不是为人工智能,也不是为深度学习设计的。因此就要求传感器的信号处理、成像逻辑、信号编码等都要面向人工智能和深度学习,理解并实施这样的平台化改良和设计。

增强现实AR平台。AR(增强现实)可以把一个虚拟的效果放到现实的场景中实现互动,一般通过个人手机实现。这就要求虚拟现实的效果能够在极其广泛、无处不在、计算能力相对较弱的智能设备里得到通畅实现。换言之,在性能强大的计算集群或PC机里实现AR并没有很大挑战,也不是能效比最好的方式。难点在于要基于成本低廉的硬件实现良好的效果,还要具备良好的开放性,给开发者提供较好的接口体验。

身份认证平台。与前述案例类似,如今实现人工智能对1000人的身份认证在算法上并不具挑战。但如果面对千万人口的城市、10亿人口的大国、甚至是全球70亿人,如何做到在不影响安全性和准确性的前提下,用公开的生物特征与身份一一匹配,难度可想而知。

值得一提的是,在这方面已经有许多落地应用出现在了人们的生活中。比如,许多需要身份验证的银行业务已经不必去柜台亲自办理,酒店入住不必出示身份证,在一些先行先试的机场可以用非人工干预的方式完成安检。

智慧城市平台。与身份识别类似,智慧城市平台的关键点也在于处理海量数据。以视觉人工智能技术为例,未来广泛应用所要处理的是数以亿计,甚至十亿计的人。据商汤科技粗略统计,一个城市大脑每年所要处理的图片数量大约高达3千亿张,而这只是整个智慧城市提供智能化服务的基础。

此外,在智慧医疗、智慧教育、自动驾驶等平台上,人工智能创造的价值都已经超出了想象。

可见,与其他许多新技术一样,人工智能的发展离不开场景,技术的价值终究需要体现在应用场景中。资本也好,产业也好,最终都是价值驱动。今天,人工智能之所以能够获得这么大的价值体现,也是因为价值的创造。


花甲AI:从小作坊到工业化

    A+
发布日期:2019-01-24 19:54:11