机器学习型网络防御面临的问题

slime2022-05-06 00:05

即使是最复杂的机器学习型系统,也常常容易受到欺骗。攻击者可以通过将恶意软件伪装成正常软件来规避基于机器学习的恶意软件分析,或者通过模仿正常的用户行为来欺骗入侵检测系统。因此,基于机器学习型防御必须具有抵抗能力,这意味着它们在面对这种欺骗时仍能可靠地执行,与此同时,机器学习应用于网络防御也会面临诸多问题。

机器学习型网络防御面临的问题

机器学习中的漏洞

机器学习型系统会在数据中寻找对预测有用的模式或统计规律。为了最大限度地提高其预测的准确性,系统将寻找任何有用的模式,不管它们是否会导致错误。例如,一种图像分类器可根据图像中是否有雪来学习如何区分狼和哈士奇。准确分类训练数据集的最有效方法就是在数据集中纳入许多有雪的狼图像和没有雪的哈士奇图像。但是,当遇到更具代表性的训练集或蓄意欺骗时,这种关联性可能会导致系统出错。攻击者可以发现此漏洞,从而创建一个欺骗性输入项,例如,在哈士奇图像中添加像雪一样的图像以混淆识别。在机器学习的研究中充满了这样的“对抗性样例”,研究人员为了改变模型的预测结果而创建欺骗性输入项。越来越多的文献证明这类攻击蔓延到了垃圾邮件过滤器、恶意软件及入侵检测系统等一系列网络安全应用程序。

机器学习型系统易受到写入代码中的错误、软件漏洞等欺骗。更准确地说,机器学习型系统依赖于识别关联性,而不是理解因果关系,但在数据中常常充斥着虚假关联(例如“雪”和“狼”之间的关联),这些关联虽然源于有用的经验法则,但并不总是准确的。事实上,一些研究人员将对抗性示例描述为机器学习的“特性而非漏洞”,因为它们证明了系统已经学会了一种可供预测的模式。即使被攻击者利用的图像可以欺骗机器学习型系统,系统也在做它应该做的事情——根据关联进行预测。

由于某种程度上,基于识别关联性进行预测是机器学习型系统的固有特性,因此,当前还未研究出容易的方法来防止这些漏洞的出现。在实践中,很难看出机器学习型系统何时学会了虚假关联(例如“雪”和“狼”之间的关联),但可能欺骗系统的输入项组合数不胜数,因此也不可能通过测试每一组合来找出漏洞。这些挑战促使人们寻找可靠的方法来抵御“对抗性样例”,但收效甚微。

准确性与稳固性之间的取舍

研究人员找到了各种方法来清除虚假关联,从而产生一个更能抵御攻击的模型。然而,这样做是以牺牲模型的总体准确性为代价的。这似乎是因为前述特性有助于在不确定的情况下进行预测。对于机器学习型系统来说,像区分狼和哈士奇这样的任务是艰巨的。开发者可以专门制作数据让训练系统不要依赖雪作为指标,但如果没有这个指标,系统就很难识别狼和哈士奇。换句话说,这个系统可能不太容易受到欺骗,但在执行主要任务时其效率也较低。

为了稳固性牺牲一些准确性可能是值得的,但在某些情况下,这会造成两难的局面。设想一个与自动驾驶汽车有关的案例,开发人员需要在两套系统之间做出选择,一套是每百万英里(在正常情况下)发生一次事故的系统,另一个是每十万英里发生一次事故但更能抵御网络攻击的系统。后者可能更稳固,因为它避免依赖某些模式,使攻击者更难实施欺骗,但同时也增加了系统在这些条件下出错的风险。鉴于此,如果开发人员评估认为,某一威胁行为体不太可能有高明的手段和充分的动机发动攻击,那么开发人员可能会合理地选择前一套系统;如果在面临严重的恶意攻击威胁时,那么为了提升稳固性而牺牲一些准确性也未尝不可。

但如果模型所要预测的正是对手的反预测行为呢?在这种情况下,在准确性与稳固性之间取舍相当于对不同类型的恶意威胁进行优先级排序。例如,负责检测恶意软件、恶意命令和控制服务器之间的通信的机器学习型系统可能容易受到恶意软件流量攻击,而这些恶意软件流量经过攻击者更改可以规避模型预测。开发人员可以通过对抗性样例来训练系统,使其不受此类攻击的影响,但这实际上可能会使系统在检测未更改的恶意软件流量方面表现得更加糟糕。

最大限度地提高防病毒系统的准确性可能会提高其总体检出率,同时又难免使其更容易受到欺骗性攻击(例如试图将恶意软件伪装成合法文件的攻击)。研究人员成功演示了对高度准确、部署了机器学习功能的防病毒系统进行攻击,同时对该防病毒系统进行了逆向工程研究,结果发现该模型已经学会了将某些字符序列与良性文件牢牢关联到一起的强烈关联。他们只需将这些序列附加到恶意文件中,就可以欺骗系统将其归类为良性文件。为消除此类盲点而精心设计的系统可能不易受到此类欺骗,但通常也更容易发生漏报(系统未检出某一恶意软件)或误报(系统将良性文件错误标记为恶意文件)。

机器学习型网络防御的持续平衡

即使在有利的条件下,也很难在不同的系统风险之间做出足够平衡的取舍。面对不断演变的网络威胁,这将成为一个特别棘手的问题,原因如下文所述。

第一,攻击者可以不断地试探防御,以搜索机器学习型系统中的漏洞。如果进行多次尝试,他们很可能利用漏洞成功地避开高准确度的机器学习型系统。此外,网络安全领域有许多攻击者会相互观察和学习彼此的成败经验。由于针对某一机器学习模型的欺骗性输入项通常也能欺骗为执行同一任务而训练的其他模型,因此,攻击者可能对一个机器学习型系统进行反复攻击,并从中吸取有用的经验教训,进而研究出能欺骗其他系统的手段。换句话说,防御者不能仅仅因为攻击者没有试探过他们的机器学习型系统,就认为攻击者无法对其进行欺骗和攻击。

第二,攻击者塑造了用于训练系统以检测恶意行为的数据。攻击者可以通过输入数据来“毒害”机器学习型系统,这些数据将导致机器学习型系统学习某种关联,而这种关联会使该系统在日后难以抵御相应的攻击。例如,攻击者可能试图通过使机器学习型系统习惯于网络中存在攻击者,以此来误导入侵检测系统。在部署中不断学习的机器学习型系统必须既能适应对手的行为,又能识破对手的欺骗。

第三,不断变化的进攻能力等因素使得环境变得更加复杂。就像识别狼和哈士奇一样,用于描述正常网络行为或常见恶意软件的数据很快就会过时。为应对持续威胁而部署的大规模网络防御系统可能需要在部署时进行不断学习和适应,这意味着要通过不断地接受新的培训数据来动态更新模型,达到应对持续威胁的效果,同时攻击者也在试图智取此类系统或积极扰乱其适应过程。

以上就是小编为大家整理的“机器学习型网络防御面临的问题”一文,更多相关信息尽在开课吧广场人工智能资讯频道。

免责声明:本站所提供的内容均来源于网友提供或网络搜集,由本站编辑整理,仅供个人研究、交流学习使用。如涉及版权问题,请联系本站管理员予以更改或删除。
有用
分享
全部评论快来秀出你的观点
登录 后可发表观点…
发表
暂无评论,快来抢沙发!
AI项目实战精讲