云论坛精华回顾(七) | 潘天佑博士:人工智能驱动的数字化转型

2020年8月4日 | 学院新闻

非常荣幸今天有机会与大家分享“人工智能驱动的数字化转型”的相关主题。

首先简单介绍下微软研究院的历史。美国总部成立于1991年，六年后英国剑桥成立了第二个研究院。位于北京的微软亚洲研究院成立于1998年，目前拥有300位研究员，规模仅次于美国总部。

过去21年，微软亚洲研究院进行了很多基础科研工作，总共发表了5000多篇学术论文，不管是顶级学术会议还是期刊。我有时开玩笑，如果把5000多篇论文平均到21年，每年以200个工作日计算，微软亚洲研究院每天大概会发表一篇论文，每一篇论文都可以毕业一个博士生。从这个角度来看，微软亚洲研究院很像一所大学。

微软亚洲研究院主要聚焦与计算机相关的基础研究（Fundamental Research），我们的追求是做全球最领先的技术研究。同时，与大学不同的是，我们是微软的一环，如果研究成果非常好，能够快速应用到微软产品中。如今，微软几乎所有主要产品或是服务，都有微软亚洲研究院提供的技术支持与贡献。

最近几年，人工智能很火。不过微软亚洲研究院有一点不同的地方。1991年设立全球研究院时，比尔·盖茨提出计算机有一天要能看、能听、能说，并且能够了解人类。我们可以看到，目前已经基本实现了。

第一点，如何让计算机能看。首先，要让计算机能看不是一件简单的事情。Computer Vision（计算机视觉）是计算机科学领域中研究了非常多年的课题，很多Computer Vision的教授可能努力一生都无法写出一个Program，辨别一张桌子和一张椅子的差别。对计算机来说，它所看到的东西是百万级以上的点，有不同的亮度，不同的颜色。但是以点所集合成的图片，对计算机来说是无意义。我们无法让计算机理解照片显示的东西。人可以看，因为我们是万物之灵。刚才程校长提到有关人跟机器的关系，我感触颇深。人是万物之灵，可以做很多事情，但对机器来说做如此简单的一件事情非常困难。

伴随深度学习的发展，这些年我们在Computer Vision方面已经有较多突破，几位斯坦福教授收集了上百万帧的图像，由全世界最好的Computer Vision团队提出算法。他们随机从百万帧照片里面取样出来，让算法判断照片显示的是什么。刚开始计算机做的非常差，因为让计算机判别本身就是绝对困难的，更何况是几千个项目，更加难以判别。

事实上，随机选取照片来判别东西，就算是人也容易犯错。数据显示，人眼判别的犯错机率大概是5.1%。2015年，微软亚洲研究院首次提出的算法ResNet，包含152层神经网络，将错误率降低到3.57%。这是计算机视觉首先在一定条件下超过人类。诸如刷脸等很多技术，现在我们都觉得好像习以为常。其实回头来看，这一类技术原则上都是不成熟的。今天习以为常的这些技术，都是2015年以后实现的。尤其这方面的技术，中国公司是比较领先的，而且其中多少都跟微软亚洲研究院有关系。

第二点，如何让计算机能听。计算机视觉技术方面，我们已经做到了一定程度。2017年，我们开始语音识别的研究。如何让耳朵能听且听懂是什么意思。再次强调，人是万物之灵。要让机器理解语言含义则是极度困难，也是几十年来很多教授做了很多研究，穷其一生无法做到合理识别正确率。2017年，微软亚洲研究院在语音识别方面产生重要突破，首次实现和专业速录员相当甚至更低的词错率（WER）5.9%，亦是当时行业标准 Switchboard 语音识别任务中的最低记录。

第三点，如何让计算机能说。大家都觉得这点比较容易实现。因为我们经常会在电梯间听到，非常呆板且只有单一音频调机器的声音，进行乘坐电梯的相关提醒。因此，能否让计算机说出我的声音，相对是比较困难的。几个月前，我被几个做语音识别的同事骗进录音间。我用二十分钟录了三百个英文句子。从此以后，他们就可以用我的声音讲任何话。因为机器已经将声音特性全部捕捉。如果需要我讲任何话，只要把文字输入，播放出来就是我的声音。我讲话有时候比较激动，有点中气不足，有些句子讲到中间要喘口气，机器甚至连这种习惯都能模拟出来。

计算机能够看、能够听、能够说，大家都已经做到一定程度。但是刚才提的第四点，我觉得非常困难，就是计算机要了解人类。

我跟太太结婚三十年，我都不了解她。要了解人，第一步要了解人的语言。人能沟通，能思考，都是因为语言。所以首先要让计算机了解人的语言。机器阅读理解是人工智能领域中的关键挑战。而SQuAD是机器阅读理解领域的顶级赛事，竞赛目标就是让机器阅读一篇文章，然后回答关于文章的任何问题。2018年1月3号，由斯坦福大学发起的SQuAD（Stanford Question Answering Dataset）文本理解挑战赛中，微软亚洲研究院自然语言计算组以82.650的高分获胜，并首次超越人类分数82.304，这是非常了不起的里程碑。后来我们将这种技术应用在聊天机器人小冰身上。聊天机器人不负责回答正确的问题，主要目的是陪你聊天。因此它需要一定程度上更加理解人的语言。后来，我们还希望能够更进一步，不只是理解语言，还要表达的更加文雅，例如让小冰做诗。

因此，我们了解人类的时候，光靠语言了解是不够的。就像我太太常说，我讲了以后你才懂，不算真的了解我。如果你真的了解我，还没开口就要能懂。由此可见，了解一个人不光是语言沟通，有时候背后隐藏的东西变得非常重要。比如中国的国粹麻将，比围棋还要复杂。围棋虽然复杂，但事实上围棋所有东西都是明的，没有暗的东西。

机器与人下棋已经拥有很长的历史。1994年，国际跳棋方面，机器已经能够下赢人类。1997年，IBM深蓝打败国际象棋棋王。至于围棋，大概是棋类中最复杂的一种，2015年，AlphaGo才打败世界棋王。还有，AI曾经将日本麻将打到十段，全世界十段高手总共27人，当时在日本引起很大反响。目前来看，比尔·盖茨当时提出的愿景，能看、能听、能说、能够了解人类，基本上实现了。虽然对了解人类还有一段路要走，起码这些东西都在可用范围内。

接下来谈到数字化转型，大家普遍在讲如何将AI技术应用到真实生活场景。关于驱动中转型的力量，伴随上一个互联网时代，整个世界已经慢慢改变了。当世界变到某一个情况的时候，客户所需要的跟以前有所不同。那么在满足客户需求方面，我们需要思考AI如何能够让客户所需得到更大满足。世界改变的如此迅速，我们怎么样让新的技术能够切实应用，让客户需求得到更多满足，是数字化转型中很重要的功课。

两年前，微软CEO萨提亚·纳德拉出版《刷新》一书，提到数字化转型。他表示，数字化转型不是终点，而是一个旅程。很多百年企业转型时都非常痛苦。但是这种破坏性的刷新中，利用技术是非常必要的。那么AI在数字化转型中究竟起到什么作用。这里呼应程校长提到的，是机器做决定，还是人做决定，人的价值在哪里。

对于微软亚洲研究院而言，我们一向相信的是，人工智能结合人的智能。人工智能研究的越深入，就更加尊敬人的智能。因为人的智能其实是非常惊人的，那么人是怎么样去做决策的？第一先看物理世界。机器世界中的物理世界与实际世界是一样的，机器世界里面有传感器和执行器。以前我们的机器只局限在传感器跟执行器，与人的配合不包含分析决策的部分。事实上，人工智能透过传感器之后，可以把大量数据上传到云端进行分析决策。这里提到的分析和决策事实上是AI（Artificial Intelligence）和HI（Human Intelligence）一种比较广的结合，帮助我们拥有更好的决策模式。

我们相信AI不是取代人，而是成为更有力量的工具，让人变得更具有生产力，起码这是目前微软思考的核心方向，增强每个人的生产力，让大家省下时间，跟家人多在一起，让思想更开放，更有想象力。另外可以帮助更多的企业与组织。

最后总结，人工智能虽然进步非常快，但本质上还是一种工具。我们要善于运用这样的工具，让人类能够变得更聪明，更有生产力。妥善的使用人工智能会帮助我们解决更多的问题，甚至于拯救更多生命，改善整个世界。

（本文仅代表作者个人观点）

香港大学中国商业学院

云论坛精华回顾(七) | 潘天佑博士:人工智能驱动的数字化转型