• 中国壁挂炉网
  • 您的位置:首页 >> 壁挂炉价格 >> 正文

    李宏宇:知识联邦,用知识共创实现数据的可用不可见

    发表时间:2020-08-19 信息来源:www.bgl168.com 浏览次数:1400

     

    作者 | 蒋宝尚、周蕾

    8月7日-8月9日,2020年全球人工智能和机器人峰会(简称“CCF-GAIR 2020”)在深圳如期举办!CCF-GAIR由中国计算机学会(CCF)主办,香港中文大学(深圳)、雷锋网(公众号:雷锋网)联合承办,鹏城实验室、深圳市人工智能与机器人研究院协办,以“AI新基建 产业新机遇”为大会主题,致力打造国内人工智能和机器人领域规模最大、规格最高、跨界最广的学术、工业和投资领域盛会。

    8月9日上午,在「联邦学习与大数据隐私专场」上,同盾科技人工智能研究院首席专家李宏宇博士做了题为「同盾智邦-知识联邦平台:打造数据安全的人工智能生态系统」的演讲。

    李宏宇:同盾科技人工智能研究院首席专家,师从国际模式识别学会会士、芬兰模式识别协会主席Jussi Parkkinen教授,相继获得复旦大学以及东芬兰大学计算机科学博士学位。曾任同济大学软件学院副教授、博导。李宏宇博士在图像处理和分类、生物特征识别、OCR、机器学习和深度学习等人工智能的多个领域有着深厚造诣和应用成果,在国际权威学术期刊和一流的国际会议上发表了近80篇学术论文,发明专利20余项,出版专著1部。

    以下是李宏宇在大会的演讲实录,AI科技评论作了不修改原意的整理和编辑:

    今天演讲主题是《同盾智邦-知识联邦平台:打造数据安全的人工智能生态系统》。那么什么是知识联邦?作为一个新的概念,它背后代表着知识共创可共享。具体而言,通过知识的共创和共享,从而实现数据的可用不可见。

    从知识的形成的过程来看:从数据到信息,再到知识,最后到利用知识形成决策,知识联邦的目的是希望能够利用各种知识,包括训练出来的模型知识以及逻辑规则等已有的先验知识。

    我下面将从背景、相关概念和应用的场景分别探讨知识联邦。

    背景:各种技术融合统一

    人工智能的发展离不开数据的支撑,但是现在数据孤岛是普遍存在的现象。例如,机构间存在数据孤岛,企业内部也存在数据孤岛。更有研究表明,现在有92%的企业内部存在非常严重的数据孤岛的现象。

    其实,解决数据孤岛不仅是简单地把数据汇集起来,还需要考虑数据安全问题。从最近两年的数据泄露事件就能看出问题的严重性。所以,每一次产生重大社会影响的数据泄露事件都意味着数据安全和隐私保护的确是需要更严格的监管。

    在此大背景下,我们也看到在国内一系列法规的进展,例如在今年3月份,最新版本的《个人信息安全规范》,以及央行的个人金融信息的保护技术规范,都能看出数据安全法规的进化明显。

    尤其是7月初的时候,《数据安全法》草案已经开始在征求意见,标志着一系列宏观的政策在不断地演变,国内对于数据的管控将会更加严格、更加全面。

    相关概念:层次化的框架体系

    “数据安全”的大环境下,数据隐私的各种问题催生了联邦学习,其实,在过去的这些年来,无论是大数据还是人工智能,每个领域都有一些关于隐私计算的研究,这些研究虽然路线不同、技术方法不同,但是已经逐渐呈现融合统一的趋势,也就是打造数据安全的人工智能。在这里我们叫它知识联邦。

    如上图所示,知识联邦包含了两层意思,一层是知识,一层是联邦。其中,知识不仅包括模型、也包括逻辑规则或者模式。同时,知识也不是单纯通过训练学习出来的,它还包括经验知识、先验知识,这些可能是常识和行业领域知识,不需要再训练学习。

    如何把分散在不同的行业或领域里的知识,充分地利用起来?这就是知识联邦所要做的事情,简单而言是通过数据安全交换协议,利用多个参与方的数据,进行知识的共创、共享和推理。最终的目标是要实现数据可用不可见。

    注:不同于密码协议,数据安全交换协议定义了如何在多个参与方之间进行数据交换的过程。

    知识联邦不是一个单纯的技术方法,它是一套框架体系。这个框架体系可以根据联邦发生的阶段,划分为四个层次。第一是信息层的联邦,在数据转换为信息的时候,把这些信息进行计算或者处理,涉及的技术是安全多方计算。然后通过某些先验的知识,通过某些规则直接提取出有价值的信息,最后形成联邦。

    第二个是模型层的联邦。也就是通常提到的联邦学习,涉及到模型参数的更新。

    第三个是认知层上的联邦。对已有的模型训练、学习,形成了一些浅层的知识,我们再将这些浅层知识联合在一起,进行集成学习,从而得到更优、更好、符合特定应用场景的知识。

    第四个是知识层上的联邦。在不同的行业、不同的领域之间有很多知识库,在不同领域、行业的知识库上进行知识推理,就是知识层联邦。所以知识联邦不是单纯的某一种应用方法,它统一支持了所有的安全多方应用,包括安全多方计算,安全多方学习,安全多方数据共享,以及联邦推理、联邦预测等一系列的综合体。

    应用介绍:隐私保护相关行业

    知识联邦在很多行业里有广泛应用的价值。例如金融领域,做为一个数据监管非常强的行业,知识联邦在此领域的应用更为全面。知识联邦的信息层可以用来解决多头共债的问题,在模型层解决智能风控的问题,反欺诈和企业征信可以分别在认知层和知识层解决。

    先看多头共债的问题。通常一个用户可能会与多个平台发生一些借贷关系,这时候就陷入了共债。一旦这个用户发生资金的问题,就有可能导致系统性的风险,甚至导致金融行业的大波动。解决多头问题,通常的方式是能够多头评估个人真实的收入。换句话说,就是得到此人的累计的授信和实际已经发生的借贷。但是这样有可能会泄露很多查询隐私。

    利用知识联邦的查询方式是:提出需求之后第三方向各方查询,查询的时候每家参与机构分别计算他已经得到的授信或风险,把风险通过密文的方式传送给第三方,第三方再把所有的密文结构汇总,汇总之后返还给主动查询方,如此便能保证数据隐私的安全。当然,在这个过程中需要进行一些加密或者同态加密的算法,但是现有很多同态加密的算法耗时非常大,如果能融合知识联,就能够使它的效能大大提高。

    再看智能风控的问题。在解决这个问题的时候,知识联邦方案中采用的是一种不经意传输的方案,让没有标签一方的数据通过多种标签组合的方式,然后形成多种结果,再把中间结果返还给有标签的一方,让它进行筛选,从而挑选有用的信息使用。

    如上图真实场景当中的数据示例。假定在数据对齐之后有20万条70维的特征和标签,以及180维的B方的数据,这时如果只使用单方的数据,其KS值相对比较低,如果使用联邦学习,哪怕是性能一般的方法,也会有明显提升的。

    下面介绍一个工业级的应用产品:智邦平台。随着人工智能的演进,在过去每隔30年,人工智能都有一个非常大的变化,我们是处于AI2.0的时代,如果说这时的AI已经“稍微”有点感知,那么未来知识联邦会是AI3.0的必由之路,帮助AI获得、使用更多的知识。

    为了迎合未来的“趋势”,我们打造出了智邦平台,做为知识联邦的参考实现,目的是解决真实应用当中遇到的几个问题:

    首先是提供数据安全交换的协议,这是非常重要的一环,因为想知道联邦到底安不安全,一种验证方式是开源,另外一种方式就是需要非常清楚数据交换过程中发生了什么事情。

    第二个是解决了多方参与的数据问题,因为每家机构的数据都是有异构存在的,多元异构的问题是打通所有参与方,形成数据联盟的痛点。

    第三个是一站式产品闭环的问题。从特征选择、特征预处理、数据预处理,到算法管理、安全保护,以及最后的模型发布,这一系列产品流程的闭环。

    总体上来讲,智邦除了通用的功能和场景化的应用算法之外,底层包含了FLEX协议和数据沙箱,做为支撑平台的两条腿,非常重要。 

    简单看一下FLEX协议。第一个内容是特征选择,在特征选择的过程当中,都希望不要进行单方的特征选择,否则对方的特征无法发挥它的价值。平台提供了两种特征选择的方式,性能明显是要比只使用单方的数据进行特征选择的效果好很多。

    另一个内容是样本的安全对齐。样本对齐要求保护交集外的数据,平台提供的方式能够做到这一点。而在真正的应用当中,还有更严格的要求:参与方都希望保护交集内的数据,所以平台提出一种方案叫做双盲对齐。

    除了FLEX协议,平台的另外一条“腿”是数据沙箱。它解决的问题是如何把多元异构的数据标准化,然后将统一的数据进行接入。面对“不同的参与方有不同的结构数据,甚至字段定义、命名规则”的问题,可以通过沙箱可以快速实现标准化的处理。另外,沙箱里面也实现了数据分类分集,即根据不同的类型、不同的应用场景的数据,赋予其不同的脱敏加密方式,然后统一加密脱敏的方式,最后保证输出的所有参与方数据都保持一致。

    同时,沙箱是一个独立的组件,它能够对多个参与方之间的数据进行虚拟的融合,从而实现安全的多方数据共享。

    回过头来看联邦生态中涉及到的角色,有两大类。首先是数据提供者,其次是数据的使用者,包括模型的设计者和模型的使用者。一个真正的联邦生态会兼顾数据的提供者和数据的使用者两方,即不会让数据的提供者担心数据的真正使用方是谁,模型的设计者是谁。

    联邦如何激励参与方加入生态呢?其实所有不同的参与方都有自己的需求,例如数据提供者的原始动力是通过数据进行价值变现、价值最大化。模型的使用者的原动力来自于提升核心竞争力的渴望,同时希望扩大行业影响力。

    同盾科技成立于2013年,总部位于杭州。是一家专注于做智能分析与决策的公司,目前已经为金融、保险、互联网、政务等行业服务了上万家企业客户。

    同盾科技一直作为独立第三方的角色,持续在人工智能、云计算、大数据分析等方面做了很多的创新。

  • 热门标签

  • 日期归档

  • 友情链接:

    Copyright ©1999- 2020 www.bgl168.com. All Rights Reserved 中国壁挂炉网 备案:京ICP备52006305号 | 网站地图