加拿大金管局：数据科学与金融监管的未来

2018-08-01 09:35:30 来源：金融界网站 作者：亚太未来金融研究院

摘要

像审慎监管这样严重依赖判断和经验的行业，往往会抵制这样的想法，即算法能够改善人类专业知识本身所能完成的任务。这种抵制是一个错误，我们不能再犯这个错误。

　　来源：加拿大金融机构监管局 2018年6月25日

　　本文为加拿大金融机构监管局官员Jeremy Rudin在加利福尼亚州旧金山举行的第11届亚洲银行和金融研讨会上的演讲

　　本文由亚太未来金融研究院研究团队编译

　　【摘要】数据科学将对如何监管金融机构有重大影响。希望监管者们认识到：数据科学太重要了，不能仅仅留给数据科学家来处理。作为监管者，需要了解数据科学可以做什么，不能做什么。如果监管者不明白如何明智地使用数据科学，将无法获得这些强大技术带来的全部好处。

　　以下为演讲全文：

　　下午好，很高兴能参加第11届亚洲银行与金融研讨会。也要感谢旧金山联邦储备银行和新加坡金融管理局的邀请。

　　在研讨会的这一部分，组织者要求监管人员考虑是否适当地改善监管工具和提高监管能力，以便适应金融体系的不断发展、跟上不断变化的理由。

　　我们都看到了技术变革是如何重塑金融服务行业的。在我看来，这些发展中最重要的是，收集和分析数据的能力的惊人的增强。现在可用的数据集非常大，因此需要采用新的方法来分析它们；通过更广泛地使用机器学习和人工智能，来利用不断增长的计算能力的方法。

　　当人们把这一新领域称为“数据科学”时，它不仅仅指市场营销：应用于大规模数据集的分析技术，代表对传统统计和计量经济学的重大突破。

　　众所周知，金融服务业已经“拥抱”数据科学，并正在进一步投入这一领域。金融机构在保险承销、信贷判定、反洗钱和许多其它领域使用数据科学技术。

　　这对监管者来说是一个非常重要的主题，但这不是我今天的话题。我不会讨论数据科学将如何改变金融机构的行为，而是讨论数据科学将如何改变其监管机构的行为。

　　数据科学及其对监管的影响

　　在我看来，数据科学将对监管者监管金融机构的方式产生重大影响。

　　我给其它监管者传递一个信息：数据科学太重要了，不能只留给数据科学家。作为监管者，需要了解数据科学可以帮助我们什么，不能帮助我们什么。如果不了解如何明智地使用数据科学，将无法获得这些强大技术带来的的全部好处。此外，我们可以把注意力从一些重要的风险上转移开；这是一个只能责怪自己的错误。

　　为了让大家信服：数据科学太重要了，不能单独留给数据科学家。我将考虑它如何适用于两个不同的监管者。第一位监管者从事行为监管工作——专门侦查和起诉非法内幕交易。我将把这个监管者称为“她”。第二位监管者从事大型复杂银行的审慎监管工作。我将把这个监管者称为“我”。

　　数据科学与行为监管：监测内幕交易

　　请先允许我的行为监管的同事介绍工作。

　　作为行为监管者，她有许多目标。包括阻止（如果不能防止）非法内幕交易。她的工作还要求她检测过去非法内部交易的案例，以便她可以起诉。

　　她掌握着大量的数据；关于各种金融工具的市场交易的高频数据，包括追溯到几年前的数据。她有理由相信，她的数据集中有迹象表明非法内幕交易案件，只要她知道在哪里寻找数据集。

　　她向数据科学求助。她能做什么？

　　让我们假设，她在整个职业生涯中已经发现并起诉了一些内幕交易案件。她使用该信息标记其数据集中的已知内幕交易。然后，她编写了一个机器学习算法来查看整个数据集，以找到最符合这些标记的内幕交易案例的交易模式。然后该算法可以在数据的其它地方查找这些模式。

　　她得到的是一份最有可能的交易清单，用于调查潜在的非法内幕交易，如算法所示。她在调查这些案件时会发现什么？

　　如果她一开始就有少数经过证实的内幕交易，她可能会发现算法的预测并不完全可靠。具有讽刺意味的是，与已经证实的内幕交易数量相比，数据太多了，这是真实存在的问题。该算法可以查看具有不同特征的列表：交易的利润有多高；有多少人进行了类似的交易；交易的速度有多快；同一批交易员在相关衍生品中做了些什么；等等。在这个非常长的列表中，任何一笔交易都可能有一些共同特征，哪怕只是偶然。机器学习算法将发现许多（如果不是全部）共性指标。其中一些是可靠的内幕交易指标，而另一些只是巧合。

　　这个问题称为“过度拟合”，在计量经济学中很常见。在机器学习练习中非常常见，而且当我们试图检测到的事件的识别数量相对较少时，“过度拟合”问题更加突出。

　　过度拟合是一个问题，但在她的案例中并不是致命的问题。她并没有使用数据科学来得出特定交易是内幕交易的结论。她正在使用数据科学来识别可疑的交易，以便进一步调查。一旦她有一份合适的清单，她就可以收集其它证据，并决定算法确定的哪些可疑交易是可以起诉的。实际上，她有义务收集其、它证据；仅基于数据科学，她无法制裁进行内幕交易的人。

　　数据科学和审慎监管：可能带来的好处

　　现在轮到我了。

　　作为一个谨慎的监管者，我的工作是将我国大型复杂银行倒闭的可能性降低到可以接受的低水平。我该怎么做呢？

　　审慎监管有许多方面。银行的审慎监管者通常审查或检查银行的风险管理做法，查明弱点，并要求采取补救行动来克服这些弱点。我们还设定了超出最低监管要求的资本和流动性要求。

　　为了支持审慎监管，监管者寻找指向风险过大的银行的指标，或指出银行中风险过大的具体活动。然后，可以采取措施，将风险降低到可接受的低水平。

　　我和我的同事已经做了大量的数据分析。通过将计算能力与更多精密数据结合起来，我们可以提高现有数据分析的速度、准确性和详细程度。这是向前迈出的一小步；也许这将是向前迈出的一大步。

　　但这不是我要找的成果。我必须相信，在这些数据中有更强大、更有洞察力、更有用的指标可以发现。我将尝试使用数据科学来找到这些指标。

　　我使用的数据集来自一个国家的信息，因此它涉及有限数量的大型、复杂的银行。然而，追溯到前几年，数据集有很多关于这些银行的细节。

　　如果我像许多审慎的监管者一样，我的数据集中只会出现一些大而复杂的银行倒闭。为什么呢？因为没有那么多大型复杂的银行，而且它们不会经常倒闭。像我的行为监管同事一样，我的结果也很容易出现过度拟合。

　　然而，我不能用同样的方法来减轻她使用的过度拟合问题。我不期待发现过去发生的事情；我期待预测未实现的未来。我没有其它证据可以最终确认或反驳算法所作的识别。

　　在我的情况下，要求确凿的证据是一种过分的要求。我可以决定对算法选择的银行进行特别审查。这是可行的，但我只有一些大而复杂的银行、已经密切关注这些银行，但是这并不是很有帮助。

　　如果我可以使用算法的预测，来告诉我在哪里可以看得更近，那就更有用了。这里我将有两个问题，我的行为监管同事将不会有的问题。

　　第一个问题是，对算法的预测不可能有一个清晰或直观的解释。该算法将利用一系列可能分散在多个银行活动中的指标，找出它认为风险最大的银行，并在不同的时间倒闭。这不会告诉我要去哪里找什么。这是我应该预料到的，机器学习算法通常不是用来解释为什么他们预测他们所预测的。

　　第二、由于我是审慎监管机构，我不从事预测工作，我从事预防工作。该算法确实可以找到预测未来倒闭的最佳因子。我需要知道的是最有可能导致未来失败的原因。这可能是两种不同的东西。如果某件事不导致倒逼，那么采取监督行动来改变预测的银行倒闭的事是没有意义的。更简单地说：让公鸡不打鸣不会阻止太阳升起。

　　我的监管同事没有这个问题。一旦她发现了一个可疑的交易，她就能够确认是否可以起诉。任何能指引她去调查的有可能的交易，都隐藏在她数据集中的数百万笔交易中，对她都是有用的。不管是机器发现了火，还是只发现了烟，对她来说都无关紧要。

　　我们的实践如何影响数据

　　但是，我们分享了另一个问题。我们都必须面对这样一个事实，即监管方式会影响正在使用的数据。

　　用一个审慎监管的例子来说明这一点。假设数据显示，从事特定业务的银行很容易在以后倒闭。由于审慎监管从事的是预防业务，可以决定禁止从事特定业务，除非银行采取一些批准的措施来抵消倒闭风险。再假设这可以防止由这种冒险做法引起的失败。这种新的监督做法将反馈到数据中。

　　在新制度下收集数据时，观察银行特定的风险的做法，将不再能够预测该银行未来是否倒闭。监管实践将使数据掩盖潜在风险。

　　此外，我们的监管实践，可能还有另一种更有害的方法掩盖真正的风险。假设我们错误地禁止了并非真正危险的做法。数据将永远不会揭示这一错误，因为我们不会允许这种做法出现在数据中，从而证明它是无害的。

　　我的监管同事她也面临着同样的问题。潜在的内幕交易者可能会弄明白她用来识别内幕交易的指标。这些不法分子随后可以学会如何在不触发这些指标的情况下进行内幕交易。如果她的算法标记的案例数量下降了，她不应该自满，这一点很重要。这种下降可能表明她在检测内幕交易方面做得越来越好，而改进的检测具有威慑作用；或者这可能意味着，这些不法分子能更好地避免被发现。

　　利用无监管的机器学习的力量

　　到目前为止，在我的例子中，我一直将审慎监管者称为“我”，但这并不完全准确。目前，我不能尝试上述方法，因为我的数据集中没有出现任何大型和复杂银行的故障。

　　数据科学能为我做些什么吗？的确有。当无法在数据集中标记感兴趣的案例时，我们可以使用一种无监督的机器学习的方法。在无监管学习中，该算法寻找数据中的异常。算法不知道这些情况有什么问题；算法只知道它们在某种程度上与其它的不一样。也就是说，这些情况可能是进一步研究的候补选项。

　　例如，如果我的行为监管同事没有证实有内幕交易的案例，她可以利用无监督的机器学习来确定异常情况，以便进一步调查。

　　我怎么处理其异常案例？我当然可以进一步研究它们，看看它们是否指向风险过大的活动。与我的监管同事不同，我无法证明发现的异常是过度危险的；毕竟，在我的数据集中没有问题。相反，我将利用我作为审慎监管者的判断和经验，努力确定哪些异常（如果有的话）表明存在过度冒险行为。当我这样做的时候，我必须意识到两个可能的陷阱。

　　首先，在投入时间和精力寻找异常现象之后，我将倾向于找到理由相信，发现的异常现象确实是过度风险的指标。偏见形成之后，即认为自己已经找到了自己想要找到的东西的倾向，以后是很难改变的。

　　如果我们现在屈服于这种偏见，以后将无法纠正它。通过阻止银行做任何造成异常的事情，我们将确保这种异常指标不会再次出现在数据中。正如我们先前讨论过的，它将没有机会证明自己的清白。

　　其次，当我逐步消除数据中的异常时，我将使其庞大而复杂的银行彼此更加相似。如果我正在取缔过度危险的活动，这可能是好的。这就是所寻求的相似性。但如果它降低了银行间的分散化程度，让所有银行都容易受到同样的冲击，问题就会出现。

　　有一种不太具野心的，但也许更可靠的方式，我可以在没有银行倒闭的数据集上使用无监管机器学习。我可以对银行提交的监管文件进行无监管机器学习，然后调查算法发现的异常是否指向了不正确或欺诈的提交的监管文件。这是我可以独立核实的东西，尽管经过一些努力，而且肯定是有用的。不正确、更坏的、欺诈性的监管报告肯定会引起相关银行的警惕。

　　结论

　　短短的几分钟，我们只是触及了问题的表面。还可以考虑其它一些案例，并通过数据科学提供更多的技术。我想在大家的耐心达到极限之前、在自己的知识达到极限之前结束我的讲话。

　　所以让我带着这个想法结束本次演讲。像审慎监管这样严重依赖判断和经验的行业，往往会抵制这样的想法，即算法能够改善人类专业知识本身所能完成的任务。这种抵制是一个错误，我们不能再犯这个错误。

　　数据科学在金融监管中发挥重要作用。它是如此重要，不应该只留给数据科学家。

关键词阅读：加拿大金管局数据科学金融监管

责任编辑：Robot RF13015

机会情报