Professional Documents
Culture Documents
强制性迁移案例研究
强制性迁移案例研究
方居住的现象。这种现象已经存在了很长时间,并且每年都有数百万人被迫离开家园。
强制性迁移的原因可以是多种多样的,例如战争、政治迫害、自然灾害、经济危机
等等。这些原因都会导致人们无法继续生活在自己的家园,不得不迁移到其他地方
寻求安全和生计。
一个典型的强制性迁移案例是叙利亚内战。自2011年以来,叙利亚内战已经造成数百
万人被迫逃离自己的家园,寻求安全和庇护。这些人们不得不冒着生命危险穿越
边境,寻找一个安全的地方居住。这场内战也导致了叙利亚境内数百万人流离失所,
无家可归。
强制性迁移对受影响的个人和家庭造成了巨大的心理和经济压力。他们不得不面对
文化冲击、语言障碍、失去社会支持系统等问题。许多人不得不放弃自己的工作和
教育,重新开始生活。
为了帮助那些受到强制性迁移影响的人们,我们推荐使用HelpWriting.net这个网站。这
个网站提供专业的写作服务,可以帮助你完成各种学术作业、论文和文章。通过使用
HelpWriting.net,你可以节省时间和精力,同时获得高质量的作品。这将帮助你在新的
环境中更快地适应,重新开始自己的生活。
强制性迁移是一个全球性的问题,我们每个人都应该关注并尽力帮助那些受到影响
的人们。通过使用HelpWriting.net,你可以为这些人们提供实际的帮助,让他们能够更
好地适应新的生活。
1、引言 近年来,深度学习技术已经成为卷积领域普遍关注的问题神经网络在计算机视觉
、语言处理、故障诊断中得到了有效的应用和容错控制字段。越来越多的学者采用基
于深度学习的计算机视觉方法对遥感图像进行场景分类,这些方法比Gist等经典方法
具有更好的特征提取和语义理解能力。然而,复杂的模型结构和大量的网络参数对
其应用提出了新的挑战卷积神经网络在遥感领域的应用。与获取大量标记样本
相比,半监督学习、小样本学习、无监督学习等具有有限监督信号的策略更经济
可行。 尽管基于深度神经网络的分类技术取得了飞速发展,但是 3.沿用分类器:由于
第1步骤提取的特征是通用的特征,所以目标领域也能生成这些特征,目标领域使用
第2步骤训练好的分类器即可实现预测。 更多关于“迁移学习”的论文知识资料,请登
录专知网站www.zhuanzhi.ai,查看: 【摘要】迁移学习的目的是通过迁移包含在不同但相
关的源域中的知识来提高目标学习者在目标域上的学习表现。这样,可以减少对大
量目标域数据的依赖,以构建目标学习者。由于其广泛的应用前景,迁移学习已经成
为机器学习中一个热门和有前途的领域。虽然已经有一些关于迁移学习的有价值的
和令人印象深刻的综述,但这些综述介绍的方法相对孤立,缺乏迁移学习的最新
进展。随着迁移学习领域的迅速扩大,对相关研究进行全面的回顾既有必要也有
挑战。本文试图将已有的迁移学习研究进行梳理使其系统化,并对迁移学习的机制
和策略进行全面的归纳和解读,帮助读者更好地了解当前的研究现状和思路。与以
往的文章不同,本文从数据和模型的角度对40多种具有代表性的迁移学习方法进行
了综述。还简要介绍了迁移学习的应用。为了展示不同迁移学习模型的性能,我们使
用了20种有代表性的迁移学习模型进行实验。这些模型是在三个不同的数据集上执
行的,即Amazon Reviews ,Reuters-21578 和Office-31。实验结果表明,在实际应用中选择
合适的迁移学习模型是非常重要的。最后,将在特征空间[x0;xs ;xt]完成编码的源域和
目标域样本按照行拼接合并,训练反洗钱模型,具体方案步骤见表4。 具体过程:把任
务A预训练模型(网络结构与权重参数),迁移到任务B上。A任务可以是识别图像中的
车辆,而B任务可以是识别卡车、汽车、公交车等。 如果你有好的想法,欢迎讨论!1
Application of Transfer Learning in Continuous Time Series for Anomaly Detection in Commercial
Aircraft Flight Data论文开始介绍了用于处理时间序列的两个主要的模型RNN和LSTM,
同时介绍了什么是迁移学习一 迁移学习的方法1 基于样例的迁移学习(inst... 特征迁移
学习是指将源域和目标域样本通过特征变换映射到同一特征空间,以减少源域和目
标域在原始特征空间的偏差,从而充分利用源域数据助力目标域业务场景下的机器
学习建模。特征迁移学习方案设计如图4所示。 比如作业机床的转速是变速状态;这
和上面提到的数据信号缩放其实很像,除了缩放之外,因为不同的负载,还会导致
偏移。 TrAdaboost.rar_Adaboost 过学习_sitfod_tradaboost.R2_迁移学习_迁移学习python 迁
移学习可以进一步分为两类,即同构和异构迁移学习[1]。研究者提出了一种基于同
构迁移学习的方法来处理域具有相同特征空间的情况。异构迁移学习是指在不同领
域具有不同特征空间的情况下的知识转移过程。除了分布适应外,异构迁移学习还
需要特征空间自适应[4],这使得异构迁移学习比同构迁移学习更加复杂。本综述旨
在从数据和模型的角度,让读者对迁移学习有一个全面的了解。介绍了迁移学习方
法的原理和策略,使读者了解迁移学习方法的工作原理。但是缩放问题,一般会进行
转化,比如变速状态则一般会采用短时傅里叶变换SFFT,小波变换CWT,经验模态分
解EMD来实现。 工商银行境内分行因组织划分等原因,分行间业务体量不均衡,因此
集团内部提出跨区域的合作建模需求。由于银行内部实施同一套反洗钱监测系统,
所以各内部组织采集的数据的原始特征字段相同。在源域和目标域样本在数据可见
的场景下,可采用样本迁移学习的策略,将源域的数据引入目标域辅助目标域建模
以提升其机器学习模型效果。 本文的其余部分分为七个部分。第2节阐明迁移学习与
其他相关机器学习技术的区别。第3节介绍了本综述中使用的符号和迁移学习的
定义。第4节和第5节分别从数据和模型的角度解释了迁移学习方法。第6节介绍了迁
移学习的一些应用。实验结果见第7节。最后一部分总结了本次综述。 以下内容很多
是小蔡叔叔经验总结,一些网络结构也是自己萌生的想法,所以如果要沿用发布在
个人博客或公众号上,请务必注明来源。因为可能我的个别论文中,有些简单的思路
灵感会来源于平时的笔记文稿,不想造成不必要的误会。特别是优化小技巧部分,更
是本人研读几十篇中外文献得出的经验,分享出来也是为了让更少人走更少弯路,
因此请注重版权所有,勿无引转载。 表5 在Reuters-21578 上三个域的Accuracy:Orgs,
People, and Places。 ,表示样本来自源域;否则样本来自目标域。那么,如何才能知道样
本是否属于源域和目标域的公共类别,而不是特异于源域的类别(作者叫它们 推荐理
由:终身策略梯度强化学*与自主跨领域知识转移相结合,很适合缺少训练数据的决
策类任务,比如任务型对话系统中的DPL(对话策略学*)。目前这方面工作极少,感觉
很适合研究。 迁移学习 为什么做迁移?源域样本和目标域样本分布有区别,目标域
样本量又不够。 场景 思考我们平时建模会使用到迁移学习的一些场景: 1)新开了某个
消费分期的场景只有少量样本,需要用其他场景的数据进行建模; 2)业务被迫停止3
个月后项目重启,大部分训练样本比较老旧,新的训练样本又不够; 3)在某个新的国
家开展了类似国内的业务,因为国情不同,显然部分特征分布是不同的;主要任务 缩
小边缘分布之间和条件分布下的差异。几个基本概念: Domain(域):包括两部分
:feature space(特征空间)和pr 比如通过通道注意力激活,筛选源域和目标域多通道特
征中,更有意义的通道特征; 工商银行反洗钱业务迁移学习算法引入传统机器学习
建模的实施案例实现了银行与同业跨机构、银行内部跨部门、跨境合作的有效性
证明,并设计了三种策略不同的方案。
值较小,则表示样本更可能是源域和目标域共同部分,那么权重值就会变大。这个方
法很好地对源域和目标域中的共同类别的样本完成了筛选工作。 推荐理由:深度学*+
强化学*+迁移学*做文本的自动摘要,充分理由三者的优势互补,很适合学*。 虽然传统
的机器学习已经取得了巨大的成功,并在许多实际应用中得到了成功的应用,但在
某些实际场景中仍然存在一定的局限性。机器学习的理想场景是有大量标记的训练
实例,它们和测试数据具有相同的分布。然而,在许多应用程序中,收集足够的训练
数据通常是昂贵的、耗时的,甚至是不现实的。半监督学习通过减少对大量标记数据
的需求,在一定程度上解决了这一问题。半监督方法通常只需要有限数量的标记
数据,利用大量的未标记数据来提高学习精度。但是在许多情况下,未标记的实例也
很难收集,这通常使得到的传统模型不能令人满意。 [1] 本文对应的论文:Zhang J, Ding
Z, Li W, et al. Importance Weighted Adversarial Nets for Partial Domain Adaptation[J]. arXiv
preprint arXiv:1803.09210, 2018. 下载地址:https://arxiv.org/abs/1803.09210. 简介: 本文介绍
某客户从AWS迁移数据库到阿里云的技术方案及实施过程。 如果你有好的想法,欢
迎讨论!1 Application of Transfer Learning in Continuous Time Series for Anomaly Detection in
Commercial Aircraft Flight Data论文开始介绍了用于处理时间序列的两个主要的模
型RNN和LSTM,同时介绍了什么是迁移学习一 迁移学习的方法1 基于样例的迁移学
习(inst... 训练数据和测试数据的特征维度也允许不同,这样更有利于扩大迁移学*的适
用范围。 本文基于工商银行广东分行和黑龙江分行2019年全年的反洗钱业务数据进
行迁移学习建模,其中,广东分行的交易总量是1.68亿条记录,黑龙江分行的交易总
量是0.21亿条记录。根据迁移学习对于数据来源的划分依据,本文将广东分行数据作
为源域,黑龙江分行数据为目标域。 强化学*需要多步决策,其实在决策时如果数据较
少,可能可以尝试策略的迁移学*。 源域已完成搭建的反洗钱模型定义为源域模型,
指仅利用源域数据训练得到的反洗钱模型;目标域模型是指利用与源域数据相同特
征处理逻辑的目标域数据训练得到的反洗钱模型;迁移模型是本文设计的方案。本文
根据数据结构设计方案,因参数迁移常用于非结构化数据、关系迁移常用于图数据,
而广东分行和黑龙江分行提供的是结构化数据。所以本文搭建嫁接迁移学习、样本
迁移学习以及特征迁移学习三种模型。 生成对抗网络(Generative Adversarial Networks,
简称GAN)是一种深度学习模型,由一个生成器网络和一个判别器网络组成。生成器
网络通过学习数据的分布来生成新的样本,而判别器网络则尝试区分生成器生成的
样本和真实样本。通过对抗训练的方式,生成器和判别器相互竞争,最终使得生成器
能够生成更加逼真的样本。 迁移学习是一种将在一个任务上学习到的知识迁移到另
一个相关任务上的技术。在深度学习中,迁移学习可以通过利用已经在大规模数据
上训练好的模型来加速小规模数据上的训练,并提升模型性能。通过迁移学习,我们
可以将已经在一个领域上获得的知识和经验应用到其他领域中,从而充分利用已有
的数据和模型。在使用迁移学习时,可以通过以下几种方式进行: 1. 微调(Fine-tuning):
将预训练好的模型加载进来,并在新的任务上进行微调。即保持模型的大部分参数
不变,只对部分参数进行重新训练,以适应新任务的特点。 2. 特征提取(Feature
extraction):将预训练好的模型的前几层作为特征提取器,然后在新任务上添加自定义
的分类器。这样可以利用预训练模型提取出的高级特征,再用新的分类器进行训练。 3.
多任务学习(Multi-task learning):将多个相关任务联合训练,共享模型的表示能力。通
过在多个任务上同时训练模型,可以使得模型能够学习到更加通用和泛化的特征,从
而在新任务上表现更好。 迁移学习可以在数据较少或新任务与已有任务相关性较高
的情况下,提高模型的性能和训练效果。它是一种有效的机器学习技术,被广泛应用
于图像识别、自然语言处理等领域。 基于这个想法,作者设计了一个两阶段的深度对
抗网络。我们都知道对抗网络主要由特征提取器(feature extractor)和领域分类器(domain
classifier)组成。特征提取器用于进取样本的公共特征,领域分类器用于判别两个领域是
否相似。 为此,工商银行搭建了企业级的反洗钱监控平台,包括大数据平台、云
平台、机器学习平台等在内的平台底座,以实现高效、灵活的反洗钱监控服务;依托
大数据平台和机器学习平台,在专家规则的基础上,利用数据资产,深度挖掘数据
特征,运用高维特征工程技术和机器学习算法,精准定位客户洗钱活动,提高洗钱风
险监测的准确度,并期望通过大数据与AI的技术推广反洗钱监测体系,助力集团境
外子机构和同业金融机构,加速反洗钱的智能建设,保障集团境外机构履行反洗钱
和反恐怖融资的法定义务和社会职责,有效预防和控制反洗钱领域的合规风险、声
誉风险和法律风险。 基于特征的方法通常采用特征转换策略。基于特征的方法将每
个原始特征转化为新的特征表示,用于迁移学习。特征变换的操作可分为三种类型:即
feature augmentation, feature reduction, 和feature alignment.。 利用数据或特征更多的源领域
来提升数据或特征相对较少的目标领域的模型性能。当同业机构或内部组织应用本
文设计方案时,需和源域数据方对齐方案。特别地,当使用样本迁移和特征迁移时,
涉及到数据共享,此时需在确保数据隐私安全的监管要求下进行或使用嫁接迁移学
习方案。此外,工商银行向同行输出模型须保证数据安全,还需配合合作方完成迁移
模型的搭建。 不再单单是在特定领域终身学*,而是通过终身不断的学*来提升源领
域到目标领域的迁移效果。基于以上综合分析,我们知道特征迁移的潜力最大,适用
范围最广,更贴近现实场景,但由于各种因素影响,在分布差异较大的领域上,效果
并不好(但比起其他两类方案仍有性能上的提升)。题目:A Comprehensive Survey on
Transfer Learning 然后,根据特征空间[x0;xs;xt]分别对源域和目标域样本进行统一
编码,共有特征不做处理,离散特征进行count-encoding编码,非共有连续特征进行null
值填充。 最*调研了不少迁移学*的工作,分享给大家。因为我感觉迁移学*在NLP领域
的很多任务中有很大的利用价值,毕竟高质量的标注数据是很少的,而人工标注费
时费力,而且质量不一定好。 工商银行反洗钱业务迁移学习算法引入传统机器学习
建模的实施案例实现了银行与同业跨机构、银行内部跨部门、跨境合作的有效性
证明,并设计了三种策略不同的方案。如上我们发现最小化特征MMD距离,会将样
本特征进行对齐,但仍受到源域特征的距离影响,因此可以通过对源域内每个类别的
特征分布计算MMD,并最大化该类间MMD。 依据迁移学习知识的形式可将其迁移学
习分为五类,定义见表1,本文重点研究针对传统机器学习算法的迁移学习实现
方法。 迁移学*一般是单向的迁移,那么如果双向进行对抗的迁移学*的话,效果可能
会更好,因为可以互相迁移而共享共有的数据和特征。具体过程:把任务A预训练模
型(网络结构与权重参数),迁移到任务B上。A任务可以是识别图像中的车辆,而B任
务可以是识别卡车、汽车、公交车等。 首先,挑选源域和目标域的连续型特征,计算
相同特征字段之间的群体稳定性指标PSI,设定群体稳定性指标阀值。当两列特征计
算出的PSI指标大于阀值时,表明特征在不同域间特征差异明显,定义为非共有特征,
并将其分别重新命名为带所属域标志的新的特征字段名,而两列特征计算出的PSI指
标小于阀值时,表明特征在不同域间特征无明显差异,定义为共有特征x0。 最后,将
在特征空间[x0;xs;xt]完成编码的源域和目标域样本按照行拼接合并,训练反洗钱
模型,具体方案步骤见表4。 部分迁移学习实验主要在传统的Office-Caltech以及Office-
31上做。不过实验任务与之前的迁移学习有所不同:源域的类别比目标域多。
首先,将源域样本和目标域样本直接合并,划分训练集和测试集训练模型,并将训练
得到的模型定义为域分类器;其次,将源域样本输入域分类器,得到域分类器下各源
域样本的预测值;然后,选取合适的阈值对源域样本的预测值进行划分,将大于阈值
的源域样本、小于阈值随机抽取10%的源域样本同时添加到目标域;最后,基于样本
迁移后的目标域样本训练反洗钱业务机器学习模型,具体方案步骤见表3。 工商银行于2
017年启动新一代智能反洗钱系统的建设,期望通过搭建数字化、智能化、开放化的
全球反洗钱系统,实现反洗钱工作流程全覆盖,满足全集团以及同业金融机构的洗
钱风险防控需求。 )。第一个领域分类器用来筛选出源域中与目标域相似的那部分样
本(或者源域中与目标领域共享的那部分类别),第二个领域分类器进行正常的domain
adaptation。 因此,迁移学习就是用在某个原始领域训练好的模型,去应用在未知的目
标领域。 比如通过通道注意力激活,筛选源域和目标域多通道特征中,更有意义的通
道特征; 6. Reinforcement Transfer Learning 强化迁移学* 显而易见的,通过整个领域
的MMD衡量会导致二者最终修正到如下分类状态: 迁移学习是人类与生俱来的一种能力
。比如,如果我们会打羽毛球,就可以类比着学习打网球。因为这两类活动之间存在
极高的相似性,两个不同域共享的特征越多,迁移学习越容易,否则越困难。因此迁
移学习的核心是找到源域和目标域之间的相似性,包括数据相似或任务相似等。 综
合学习之前,作者还加了一个熵最小化项用于对目标域的样本属性进行约束。这也
是我们比较常见的。熵最小化可以被表示为 测试结果表明,本文探索的三种方案可
有效解决目标域训练机器学习模型样本不足的问题。 推荐理由:无监督领域自适应
的最大分类器差异,让分类器之间不断对抗迁移,以便于提升效果。所以我们可以对
目标域预测结果取信息熵,熵越小其确定性越强,越接近[0,0,0,1]这样的概率数组。 本
文通过特征选择和样本筛选两步进行域分类器对源域样本的筛选。首先,基于对业务
的理解,挑选与洗钱业务强相关的交易特征;其次,通过群体稳定性指标(Population
Stability Index, PSI)计算并选取源域和目标域间具有明显差异的交易特征,作为域分类
器的训练特征;然后,对源域和目标域直接合并后的样本抽取训练特征字段训练域分
类器;最后根据阈值,对样本的域分类器预测值进行筛选。 [3] 与本文相关的另一篇部
分迁移学习工作:https://zhuanlan.zhihu.com/p/32161502。 把在线学*和迁移学*相结合,用
于训练的源领域的数据在开始训练前并不是全部确定的,而是随着时间的推移而不
断增加。 然后,根据特征空间[x0;xs;xt]分别对源域和目标域样本进行统一编码,共有
特征不做处理,离散特征进行count-encoding编码,非共有连续特征进行null值填充。 [作
者简介]王晋东(不在家),中国科学院计算技术研究所博士生,目前研究方向为机器学
习、迁移学习、人工智能等。作者联系方式:微博@秦汉日记 ,个人网站Jindong Wang is
Here。 如果你有好的想法,欢迎讨论!1 Application of Transfer Learning in Continuous Time
Series for Anomaly Detection in Commercial Aircraft Flight Data论文开始介绍了用于处理时
间序列的两个主要的模型RNN和LSTM,同时介绍了什么是迁移学习一 迁移学习的方
法1 基于样例的迁移学习(inst... 3.沿用分类器:由于第1步骤提取的特征是通用的特征,
所以目标领域也能生成这些特征,目标领域使用第2步骤训练好的分类器即可实现
预测。 通过追加多条不同卷积核尺寸的卷积通道,使得整个网络在特征提取的时候,
既关注到大尺寸轮廓信息,也关注到小尺寸的细节信息; 未来,工商银行还将在迁移
学习的基础上进一步推进反洗钱的智能化建设。包括但不限于:改进当前样本迁移和
特征迁仍需数据共享,否则应用场景受限的不足之处;提升反洗钱模型对接同行业务
时的封装性,降低使用门槛等,推进反洗钱模型的精准性以及反洗钱业务的发展。 推
荐理由:深度学*+强化学*+迁移学*做文本的自动摘要,充分理由三者的优势互补,很
适合学*。 首先,挑选源域和目标域的连续型特征,计算相同特征字段之间的群体稳
定性指标PSI ,设定群体稳定性指标阀值。当两列特征计算出的PSI指标大于阀值时,表
明特征在不同域间特征差异明显,定义为非共有特征,并将其分别重新命名为带所属
域标志的新的特征字段名,而两列特征计算出的PSI指标小于阀值时,表明特征在不
同域间特征无明显差异,定义为共有特征x0。 以下内容很多是小蔡叔叔经验总结,一
些网络结构也是自己萌生的想法,所以如果要沿用发布在个人博客或公众号上,请
务必注明来源。因为可能我的个别论文中,有些简单的思路灵感会来源于平时的笔记
文稿,不想造成不必要的误会。特别是优化小技巧部分,更是本人研读几十篇中外文
献得出的经验,分享出来也是为了让更少人走更少弯路,因此请注重版权所有,勿无
引转载。 作者还特别做了一个实验:当目标域的类别个数逐渐变多时,精度如何变
化?结论是,随着目标域类别个数的减少,精度逐渐增加。这表明知识在进行迁
移时,源域知识越多,通过筛选,对目标越有效。
如果是图像的缩放问题,一般会采用SPP空间金字塔池化、FPN 特征金字塔网络进行解
决。 首先,将源域样本和目标域样本直接合并,划分训练集和测试集训练模型,并将
训练得到的模型定义为域分类器;其次,将源域样本输入域分类器,得到域分类器下
各源域样本的预测值;然后,选取合适的阈值对源域样本的预测值进行划分,将大于
阈值的源域样本、小于阈值随机抽取10%的源域样本同时添加到目标域;最后,基于
样本迁移后的目标域样本训练反洗钱业务机器学习模型,具体方案步骤见表3。 4.
Heterogeneous Transfer Learning 异构迁移学* 首先,利用源域样本训练模型,本文采用集
成算法的思想,通过源域样本训练两个GBDT弱分类器和一个LR 弱分类器,作为源域
模型;其次,根据对源域样本进行的数据处理和特征工程,对目标域样本进行相同
处理,并将处理后的目标域样本输入三个源域模型,分别得到目标域样本在此三个源
域模型下的预测值;最后,将目标域各样本在源域模型的预测值作为样本新增的三维
特征与初始特征宽表合并,得到扩维后的特征大宽表,将其用于训练模型,得到基于
嫁接迁移的反洗钱模型,具体方案步骤见表2。 未来,工商银行还将在迁移学习的基
础上进一步推进反洗钱的智能化建设。包括但不限于:改进当前样本迁移和特征迁仍
需数据共享,否则应用场景受限的不足之处;提升反洗钱模型对接同行业务时的封
装性,降低使用门槛等,推进反洗钱模型的精准性以及反洗钱业务的发展。 所以我们
可以对目标域预测结果取信息熵,熵越小其确定性越强,越接近[0,0,0,1]这样的概率
数组。 工商银行于2017年启动新一代智能反洗钱系统的建设,期望通过搭建数字化、
智能化、开放化的全球反洗钱系统,实现反洗钱工作流程全覆盖,满足全集团以及同
业金融机构的洗钱风险防控需求。 试验结果如表5所示,嫁接迁移、样本迁移以及特
征迁移三种方案在广东分行和黑龙江分行的数据表现上,评估指标AUC均达0.99以上,
相较于目标域不采用迁移学习的策略,嫁接模型AUC提升31%,样本迁移和特征迁移
均有效提升23%;而在50% 召回的评估指标下,嫁接迁移、样本迁移和特征迁移均由0.33
提升至0.36。 TrAdaboost.rar_Adaboost 过学习_sitfod_tradaboost.R2_迁移学习_迁移学
习python 3. Lifelong transfer learning 终身迁移学* 2.特征式重构。我不知道别人有没有发
过这个文章,思路是我研究重构网络的时候萌生的。这里我贴上我绘制的图,如下
所示,它把源域目标域合起来进行自编码,然后中间特征自然就是通用特征了。然后
将该通用特征再经过特征转换和分类,基本思想如下对抗迁移网络。 7. Adversarial
transfer learning 对抗迁移学* 在机器学习技术应用的过程中,最常见的障碍在于缺乏海
量的训练数据作为支撑。现实中数据往往是割裂的,数据孤岛问题普遍存在,公司部
门之间数据流动困难,同行业数据难以共享。这类问题在反洗钱场景下尤其突出。迁
移学习(Transfer Learning,TL)的思想符合当前反洗钱业务在跨机构、跨地域、跨境下的
发展现状,能够有效提升反洗钱模型的精准性并满足个性化需求。反洗钱业务架构如
图1所示。 迁移学习技术已成功地应用于许多实际应用中。在本节中,我们将通过实
验来评估一些具有代表性的不同类别迁移学习模型在两个主流研究领域的表现,即
目标识别和文本分类。 测试结果表明,本文探索的三种方案可有效解决目标域训练
机器学习模型样本不足的问题。 值较大,则表示样本更可能是outlier,那么权重值就会
变小;反之,如果 https://www.zhuanzhi.ai/paper/021fc3dc3356e0089f0e845408cc3aa4 具体过
程:把任务A预训练模型(网络结构与权重参数),迁移到任务B上。A任务可以是识别
图像中的车辆,而B任务可以是识别卡车、汽车、公交车等。 这个样本是来自于源域。
更进一步分析,为什么这部分样本只是来自源域?就是因为这部分样本是源域独有
的!否则的话,它就也会来自目标域了!从另一个角度说,如果 在学习时,固定源域
的特征提取器不变,只学习目标域的特征,这更符合原始GAN的理论。 1. 深度学习: 基
于卷积神经网络的深度学习(包括CNN、RNN),主要解决的领域是图像、文本、语音,
问题聚焦在分类、回归 也就是我们经典的各种神经网络算法。 图1:深度学习适用领域
图2:吴恩达预知的未来五年的主战场-迁移学习 深度学习的局限性: 1. 表达能力的
限制。 因为一个模型毕竟是一种现实的反映,等于是现实的镜像,它能够描述现实的
能力越强就越准确... 找到潜在的特征映射空间,源域和目标域分布相同,然后去做训
练。 Pan S J, Kwok J T, Yang Q. Transfer learning via dimensionality reduction[C]//AAAI. 2008, 8:
677-682. 引言: 此篇之前的迁移学习有 1.基于实例的,用不同权重对数据进行排序。 2.
基于特征的,找到共同的特征结构。 这篇是将...