《基于区块链的联邦学习应用研究》-工学论文，通信论文-论文范文参考-科学狗论文网

标题

基于区块链的联邦学习应用研究

范文

邵俊蔺静茹

【摘要】? ? 当前人工智能的应用离不开大数据，而由于隐私保护、数据监管政策以及行业竞争态势导致的数据孤岛现象严重制约了大数据能够产生的价值。联邦学习是一种可以打破数据孤岛存在，致力于在多个参与方互不公开数据集的情形下，协同完成模型训练的方法。然而由于中心依赖、激励机制不足以及存在隐私泄露风险等问题，基于区块链的联邦学习方法已经走入人工智能前沿研究的领域范畴。本文通过详细论述联邦学习的概念和当前存在的痛点，对将区块链与联邦学习技术结合进行了展望。

【关键词】? ? 联邦学习? ? 区块链? ? 数据

联邦学习致力于解决多用户在不公开各自数据集的情形下，协同完成模型训练的问题。例如在银行风控场景中，各家银行拥有不同的客户样本数据。由于各家拥有的数据量有限，如果仅仅基于自身的数据来训练模型，受样本规模的限制，模型效果难以达到预期。如果能将各家数据聚合来训练，则可以大幅提升模型精度。然而出于机构间的竞争以及对数据隐私的监管要求，银行不可能将自身的客户数据向任何第三方发布，直接将各家数据聚合到一起建模是行不通的。因此，联邦学习技术应运而生，给金融机构在不泄露自身原始数据的情形下，共同训练机器学习模型提供了可能。

根据交易方拥有的数据，联邦学习一般可分为横向联邦学习、纵向联邦学习和联邦迁移学习。横向联邦学习指的是参与方拥有的用户数据具有近乎相同的特征，而几乎完全不同的样本;纵向联邦学习指的是参与方拥有几乎相同的用户群体，而拥有近乎完全不同的特征;联邦迁移学习指的是用户群体和用户特征都近乎完全不同的场景。下图展示了横向联邦学习的数据融合场景。

以银行欺诈客户识别问题结合横向联邦学习的场景为例，模型需要通过构建逻辑回归模型来识别银行用户是否为欺诈用户。模型训练的最终目的是需要找到合适的参数，使得总损失函数最小。通常会使用梯度下降方法来更新模型参数，即在给定了模型初始参数后，通过梯度信息一步步更新参数，直到损失函数的值达到最小。通过联邦学习，参与方之间不需要共享原始数据，而只需要基于自身数据建模，并将梯度信息传送出去，通过各家梯度信息更新参数即可完成模型训练。传统的联邦学习方案中会有一个协调方来负责收集各个参与方的梯度并进行汇总，再将汇总后的结果分发给各个节点。但是这样的方案有以下几个弊端：

1、中心依赖

成员间的协作非常依赖这个协调方（中心节点），一旦中心节点出现故障，或者中心节点出现恶意行为，将对整体的协同训练造成阻碍;

2、激励不足

数据体量小的机构往往对参与联邦学习有非常浓厚的兴趣，而那些本身数据体量大的机构则往往没有足够的动力投入到联邦学习中，因为参与联邦学习对于前者有较大的收益，而对后者而言收益甚微。出于投入產出比以及行业竞争考虑，大机构往往没有意愿加入到协同训练，导致联邦学习的生态无法良好的建立起来;

3、单点欺诈

基于2中的考虑，联邦生态会允许各参与方申报数据量、数据成本和数据收益等信息，根据各方对模型的使用情况收取相对应的费用，并依据各方对生态的贡献将收益进行分配，以激励大机构参与到联邦学习中。然而，对任何参与方以上信息的真伪都无法公开验证，参与方之间存在着信息不对称。在没有合理机制设计的情形下，各方都存在虚报自身数据信息的动机，通过报高数据体量、报高数据使用成本、报低数据收益等方式来使得自身利益最大化，而损害其他参与方的利益，导致合作失败;

4、隐私泄露

虽然各个参与方仅仅交换梯度信息，不会将自身的原始数据对外暴露，然而仅仅依据公开的梯度更新过程，仍然存在被反推出原始数据的风险。

下面我们来看看如何使用区块链技术巧妙解决联邦学习中遇到的以上痛点。

在这之前，我们先回顾一下什么是区块链技术。

在当前社会，人们如果要完成一笔转账支付，是需要通过一个第三方机构-银行才可以实现的。银行依托国家信用作为背书，管理我们的账本，记录我们的交易，在交易时对双方的身份进行确认，并根据交易信息对双方账号的余额进行修改，完成交易结算。

2008年一位化名中本聪的神秘人发布了《比特币白皮书-一种点对点的电子现金系统》，在白皮书中，设计了一种不需要任何第三方便能够进行交易的数字货币系统，而这个系统中的货币就是大家耳熟能详的比特币。

2009年初，比特币主网上线。起初比特币无人问津，仅仅在一些极客的圈子里被小范围使用。然而随着比特币逐渐用于某些秘密和公开交易，便开始慢慢走进人们的视野，燃起了大家对它的热情。越来越多的机构和个人参与到比特币挖矿中，比特币挖矿也渐渐形成了一个产业。

而比特币的底层技术和设计机理，就是区块链。区块链是一种融合了密码学、博弈论以及点对点通信等前沿技术的一个分布式账本。拥有账本副本的各个节点在没有中心节点的情况下，通过预先设置的共识机制实现点对点的交易。该共识机制的巧妙设置使得所有节点在保持自身“正直”的情形下能够获得最大的利益，从而没有动力去作恶，损害区块链生态。

随着比特币价格节节走高，区块链成为越来越多开发人员的研究对象。由于比特币系统缺乏图灵完备性，其交易脚本只能够支持有限的运算，除了支付场景以外并不能够支持其他应用，年仅19岁的程序员Vitalik创建了被誉为第二代区块链应用平台的以太坊。

以太坊的最大特性在于其支持智能合约，这是一种可以不经过任何第三方而约定权利义务，并可以保证在触发某些预先设定的条件下合约会被程序自动执行。于是人们可以通过在以太坊上创建智能合约，约定权利义务，以完成更加复杂的协作。

在以太坊之后，各式各样的区块链的变种开始出现了。这些变化基本围绕着共识机制、交易速率、可扩展性、鲁棒性和隐私保护等核心性能的改良，并试图支撑越来越多的应用场景。

提取区块链的几个核心特征作为这部分的总结，这些特征将为我们解决联邦学习的困境提供支持。

1.节点之间通过点对点通信，没有第三方参与

2.每个参与方保留一份账本的副本，以对交易合法性进行验证

3.运用非对称加密算法，进行链上身份的识别。通过公钥进行数据加密，通过私钥对交易进行签名

4.通过哈希指针实现区块链的可追溯

5.通过比特币奖励鼓励矿工参与挖矿

6.通过工作量证明进行区块的确认

7.通过最长链机制保证区块链的安全

8.以太坊之后的区块链通过智能合约建立去中心化的信任系统

回到联邦学习的问题中来，我们先看看上面提到的第一个中心依赖的问题。

通过建立联盟链，使得每个参与方成为联盟链上的节点。节点们在该点对点网络下进行通信，摆脱了对中心节点的依赖。

第二个是激励不足的问题。

区块链的共识机制依赖于激励机制的良好设计。激励机制会奖励对生态良性运转做出贡献的节点，而试图不按照共识机制活动的节点，则会遭受生态的惩罚。通过区块链共识机制的设计，联邦学习的参与方能够依据其对联邦生态的贡献获得相应的回报，从而实现生态的良性运转。

第三个问题，单点欺诈。

通过设计一种合理的多方博弈机制，使得各参与方只有在如实报告自身数据信息的情况下，才能够获得最大收益。通过将这些依据用户的行为而制定的奖惩措施提前写入智能合约中，使得区块链可以通过透明公正的规则对用户行为进行审计。此外，除了预先设定规则的审计，任何节点也可以对其他节点的行为进行监督，并对发现的恶意行为节点发起投票。由于区块链的不可篡改特性，所有中间数据上链，参与方的一切恶意行为可以被事后追索。

联盟链一般会使用如PBFT（实用拜占庭容错机制）等这样的共识机制来保证链不受少量恶意节点操控。在PBFT的情形下，只要坏节点小于总节点数的1/3，则区块链的正常运行将不会受到影响，同样任何投票，在获得超过2/3的票数则可以获得通过，实现生态的联邦自治。

第四个问题，隐私保护。

通过使用安全多方计算和同态加密技术来保证每个节点在不获取其他任何节点梯度明文信息的情形下，完成协同计算。节点可以将梯度加密后发送到区块链上，而同态加密技术保证加密后的密文运算能够与明文运算的结果相对应。然而在这个场景中同态加密技术难以直接使用，因为系统中没有管理私钥的第三方机构。如果让每个节点都使用相同的支持同态加密运算的密钥，则起不到保护隐私的作用。通过自主研发设计密钥管理算法，能够克服在没有中心节点的情况下密钥分发和管理的难题，实现同态加密技术在梯度运算中的運用和隐私保护。

参? 考? 文? 献

[1] 杨强，刘洋，程勇，康焱，陈天健，于涵，《联邦学习》，电子工业出版社，2020年5月.

[2]? 杨庚，王周生，《联邦学习中的隐私保护研究进展》，南京邮电大学学报（自然科学版），2020.10.30

[3]? 杨强，AI与数据隐私保护：联邦学习的破解之道，信息安全研究，2019.11.5

随便看

科学优质学术资源、百科知识分享平台，免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。