装修甲醛 | 联系我们

合丰甲醛服务平台

当前位置:主页 > 甲醛知识 > 装修甲醛 >

杭州净化器租赁智能威胁检测:基于Spark的SOC死板

基于Spark的SOC ML检测平台是为企业平安运营人员打造的一站式死板学习检测供职平台,为用户提供从数据预处置惩罚、特征转换、特征提取、模型训练、模型预测、异常效果可视化到用户实时反馈的全流程可配置(无需编写代码)可直接运用于出产环境的智能威胁检测供职。SOC ML检测平台内置了多种适用于企业平安环境的数据预处置惩罚/特征提取举措和算法组件,同时检测平台融入了最新的行为阐发检测思想,满足用户直接在出产环境实验及摆设平安检测场景发现未知威胁的需求。拖拽式任务流设计及提供的默认模型参数(沉西安办公室除了甲醛淀了平安阐发经验)让平安运营人员能轻松快速上手。

一、布景

1. 行业挑战

在过去,IDS、SOC/SIEM等年夜多数网络平装置备中的威胁检测身手次要依赖于各类规则。但随网络平安形势改观、攻防对抗的升级,传统的规则检测方式存在两方面的挑战:1)滞后的经验规则很难跟上继续多变的黑客的进攻脚步,不足对未知威胁的发现身手;2)此外,趋于复杂的进攻很难再用规则来定义检测模式,限制了威胁检测身手的扩展。因此,如何利用企业的各类日志、流量等数据来继续继续提升未知威胁发现身手,缩短MTTD,构建defense-in-depth的威胁检测框架成为SOC/SIEM等平装置施的要办理的重要问题之一。

除威胁检测的问题以外,随着企业数据源越来越丰富,数据量也越来越年夜,譬喻流量数据, 日志数据等等,非论是存储还是阐发单机性能没法满足。所以为了应对上述问题,我们构建了基于Spark的SOC死板学习检测平台,在提升检测身手的同时确保高性能、易摆设和灵活易用的特性。

2. 基于Spark的SOC死板学习检测平台定位

①检测内部威胁

②提供年夜数据处置惩罚身手

Spark是专为年夜规模数据处置惩罚而设计的快速通用的计算引擎,我们基于Spark构建死板学习检测平台对企业内年夜量的流量及日志数据进行阐发检测,一方面适应用户企业不竭增年夜的数据规模。另一方面,分布式并行阐发减少了威胁阐发检测的时间,缩短了威胁发现周期,必然水平上为企业低落风险和损失。

③死板学习检测异常发现未知

利用死板学习从行为上对实体可能用户进行学习及预测,一方面提供发现未知的身手,从Know Knows到 Know Unkonws/Unkown Unknown;

另一方面对历史或同类行为等上下文信息阐发挖掘增补单点检测问题。

企业里的威胁检测次要针对细分平安场景进行检测,,场景多且分歧企业存眷场景也许分歧。

撑持SOC内置场景检测:构建妥当于SOC场景的死板学习检测框架,撑持SOC内置的众多场景的威胁检测,丰富UEBA模块,增强SOC平安检测身手。

满足客户自定义场景发现未知需求:提供多种异常检测算法模块,及端到端的检测流程,以画布拖拽形式便利用户快速利用死板学习检测异常,提供用户自定义场景检测发现未知的身手。

下面分袂先介绍我们基于SOC ML平台的内置的检测场景,然后再详细介绍提撑持内置场景检测及供给用户使用的SOC死板学习平台。

二、SOC ML平台撑持的内置智能威胁检测场景

SOC ML平台从进攻链的视角构建威胁检测身手,测验考试覆盖各个阶段中的进攻场景。

下面以Data Exfiltration阶段为例,简要介绍阶段场景及我们基于SOC死板学习做的一些检测场景。

Data Exfiltration:

数据泄漏是APT进攻链的最后一个阶段,当重要数据被进攻者获取当前,一般会将重要数据汇聚到某一台失陷主机上,然后进攻者通过各种方式将数据传回。数据传回的方式有也许通过隐蔽地道进行传输,也也许通过其他举措直接将文件数据外发传出。

我们基于SOC死板学习检测框架对每台资产进行继续监控,检测数据汇聚行为,检测隐蔽通道传输行为和直接文件数据传输行为。

数据汇聚检测:基于TCP/UDP全流量,继续监控每个资产的数据汇集行为。

DNS地道外发检测:基于DNS协议,继续监控所有资产的DNS造访行为,检测可疑的DNS地道外发。

数据外发检测:基于TCP/UDP全流量,全面检测每个资产的外发流量,检测可疑的数据外发行为。

三、基于Spark的SOC死板学习检测平台

1.与其他死板学习平台的区别

与其他死板学习平台和框架比拟,SOC死板学习检测框架聚焦在企业平安运营中的威胁发现身手构建,适用于企业平安环境。次要特性如下:

次要采取无监督+战略的举措检测威胁UEBA的检测思路检测效果具有可评释性可视化便于用户运营追溯

2. SOC死板学习检测框架

下面分袂从检测思路,任务调度,特征提取,检测算法,战略几个方面介绍SOC死板学习检测框架:

1)检测思路-UEBA

什么是UEBA(用户实体行为阐发):UEBA是一种检测思想,基于用户实体的行为阐发挖掘检测关联威胁,目前业内的UEBA被看成一款产品可能产品中的一个模块,实际上是根据这种检测思想+关联+用户实体排序构建的产品形态。目前御见SOC ML框架借鉴UEBA最新的检测思路,去快速覆盖更多E和U相关的威胁场景(由于御见的数据源多数为实体数据,所以场景多以E为主),最终沉淀为御见SOC的UEBA模块。

UEBA检测思路的特点:

继续监控每一个U/E:ML检测框架的pipeline基于Spark构建,借助于Spark阐发引擎的年夜数据处置惩罚身手继续并行监控每一台供职器和用户的历史行为。

基于行为阐发:基于U/E的历史行为和同类行为进行阐发检测。分歧于规则检测,ML检测框架次要基于U/E行为(历史或同类)去检测U/E产生在分歧进攻阶段上的威胁;基于行为阐发检测的思路使得威胁检测具有发现未知的身手,同时突破规则的单点检测,结合用户历史和同类行为最年夜水平上低落误报。

2)任务调度

场景检测任务调度有两种:

① 手动当即调度

用户可手动运行画布中的整体任务流,或独自某一个模块上运行后续任务流,如果系统有资源,则调度办法将调用任务流上相关任务提交spark执行。

② 定时调度

当用户设置了定时调度,检测任务将根据算法训练周期,预测周期,数据周期等自动调度检测并输出效果。

3)特征提取模块

特征提取模块分为两类:

① 其他任务已提取的特征数据,可复用

用户修改任务类型和检测举措,可以选择特征值。

② 从原始数据新建特征提取

平台提供统计间隔,数据过滤,特征转换函数,统计算子等举措。

任务类型/检测举措:用户首先必要选择任务类型和检测举措,目前平台提供时间序列历史,行为阐发历史,行为阐发同类三种组合。

检测目标:然后必要选取此次任务必要检测的目标,即主key和辅key。譬喻src_ip/ username等等。

统计间隔:选取特征统计间隔,1min-1hour,即对每个key隔多久利用统计算子统计特征。

转换函数选择:当字段值非数值型时,我们必要将它转换成算法必要的数值型,可能做特征直接转换。平台提供length, add,entropy,one_hot等30+种特征转换函数。

统计算子选择:基于统计间隔,统计计算特征值,平台提供Sum, Count, Avg, Max等6种计算算子。

4) 算法模块

算法库特点:

无监督 + 可评释性

时间序列建模(历史) + 行为阐发建模(历史/同类)

无监督+可评释:

无监督:次要基于无监督而不是有监督,一方面企业中威胁检测场景众多,且年夜多数场景难获取充足量的真实的歹意样本做威胁检测,而模拟的样本数据无法代表真实数据样本空间覆盖有限,招致模型发生年夜量漏报;另一方面白样本更难获取,分歧企业或同一企业分歧网络环境都不同较年夜,白样本无法覆盖年夜多数情况,较容易发生年夜量误报。基于SOC威胁检测的这些特点,我们次要基于无监督做异常检测,同时通过战略低落误报。

可评释性:企业SOC场景下,为了用户客户快速定位威胁,检测效果必须具有可评释性。即模型既要有规则没有的发现未知的身手同时要像规则一样有较好的可评释性。

时间序列建模(历史) +行为阐发建模(历史/同类):

基于数据及检测场景特点,我们算法模块提供了数十种异常检测算法并将算法分为两类:时间序列异常检测;行为异常检测。

时间序列异常检测算法

目前时间序列异常检测算法库内已实现封装了部门算法,后续将进一步丰富,而且测验考试增加自动选择算法功能。时间序列建模加上异常检测可实现离群点检测,拐点检测,异常序列检测等功能。因分歧特点的时间序列数据没法在同一个算法上达到最好的成绩,所以这里的时间序列算法纳入了分歧特点算法以适应分歧类型的应用。譬喻:心跳检测运用FFT算法;数据汇聚/文件数据外发运用离群点检测SHESD算法等。

时间序列异常检测的可评释性:时间序列有天然的可评释性,将时间序列数据及异常点可视化展示便可,如下图示例可见。

离群点

拐点

行为异常检测算法

目前行为异常检测算法库内已实现封装了部门算法,譬喻基于保举算法初次造访,基于重构的maha_svd算法等。

算法的可评释性要么模型自己有可评释性由算法模型直接给出,要么获得异常效果后回溯评释。

下面分袂介绍基于保举算法初次造访和maha_svd及其可评释性。

基于保举算法可疑初次造访检测:

基于用户行为阐发从流量数据中检测失陷主机或用户威胁场景检测是SOC ML框架的次要检测思路。而初次造访具有很好的可评释性,可是初次造访很容易引起年夜量误报。基于保举算法初次造访的思路是将用户和同类的历史造访行为及用户上下文信息考虑进去,利用保举算法FM给每个用户保举它最有也许造访的供职器,当用户造访了保举以外的供职器时,发生异常初次造访的告警。

这里次要运用的保举算法是FM(Factorization Machines),FM的二阶多项式回归模型如下:

模型采取Markov Chain Monte Carlo(MCMC)举措训练优化。

基于保举算法可疑初次造访检测的过程如下所示:

* 构建历史造访行为矩阵,行为每个用户,列为每个供职器,造访过值为1。

* 基于FM 训练优化,发生新的重构矩阵,之前未被造访供职器的地位填充数值,值越年夜暗示供职器越有也许被用户造访。

* 用户初次造访的供职器如果模型预测值年夜于必然阈值暗示很有也许被用户造访,则不生成异常变乱,不然生成用户可疑初次造访变乱。如图中赤色地位0.8,暗示模型预测用户很也许会造访这个供职器。

可评释性:初次造访自己就具有良好的评释性,初次造访便可疑。

maha_svd 异常检测算法:

算法思想:异常样本将偏离年夜多数白样本集,本算法通过计算单个样本和矩阵之间maha距离来判断异常,maha距离越年夜异常水平越高。

maha距离:

svd分解:

maha_杭州净化器租赁svd:

算法流程如下:

* 获取N天的流量数据,提取检测场景相关的特征,构成正常流量矩阵

* 去噪:通过RPCA 过滤噪声数据

* 通过SVD矩阵分解计算马氏距离

* 基于马氏距离归一化打异常分值(0-100)

* 基于z-score 输出重要特征集

可评释性:maha_svd通过z-score输出重要特征作为异常效果评释,

maha_svd 计算maha距离基于均值协方差和z-score天然一致,在此模型中异常效果能获得很好的评释。

5)战略模块

战略模块对算法模型检测出的异常效果进行降误报,平台目前提供5种战略举措:

Ensemble: 多个模型集成对每个异常key(host或用户)综合打分,提高精度。静态战略:基于异常效果构造战略。白名单: 定制白名单,用户可通过页面交互,增减白名单内容。TopN:根据用户必要,对每个异常key打分排序,只展示TopN的效果。置信度:平台会对每个检测的key打一个置信度的分值,可调整置信度分值。四、实践tricks

当我们过去在客户环境下做威胁场景检测碰到了一些问题,比方离线测试具有较低的误报率,但客户环境对照复杂,会引起更多误报。我们结合死板学习框架做了一些调整,被将这些经验融入到了SOC死板学习框架中去,下面举几个例子:

模型更新:ML检测框架是在客户环境下基于客户数据训练,客户环境下的数据并非固定不变而是动态改观的,所以我们的场景检测必要动态适配客户环境,就要求我们依照必然战略动态更新模型。

训练数据更新机制:基于滑动时间窗口将最近的数据纳入到训练数据中。比方:行为异常检测模型必要x天数据进行训练,每次训练使用最近的x地利间窗口的数据。

模型更新机制:时间序列异常检测我们根据任务调度间隔获取x周最新特征数据做训练同时检测。行为阐发异常检测必要根据x天历史或同类行为数据训练,一般训练时间较长,我们根据反馈数据误报升高时动态更新模型。

动态评价:内置场景检测在上线之前我们会对检测身手进行离线评价;然而真实客户环境对照复杂,往往会招致误报增加,如安在分歧的客户环境下进步履态评价变得尤为重要。对一部门检测场景,我们可以离线拿到多量的歹意样本或在线反馈歹意数据。

我们将歹意样本作为测试样例上传到对应的场景检测作为我们模型输入的一部门,检测模型会根据测试样例和每次的训练数据动态调整置信度参数控制误报情况。

模型鲁棒性:客户环境复杂,一般模型发生好的成绩往往有预先设定的条件。譬喻一些异常检测算法必要正常数据做训练,而且复杂场景必要提取多维特征,我们期望模型检测出的异常是基于多维特征综合的效果,而非被单个极端异常特征带偏。真实环境复杂进攻者也许会对数据噪声污染影响模型训练,进而绕过检测。也也许通过特征干扰影响检测,使得真正歹意数据暗藏在年夜量误报中。

数据噪声污染:数据噪声在全部训练数据占小部门,我们通过rpca等异常检测举措过滤掉噪声数据再进行训练;数据噪声在全部训练数据占年夜部门,普通的异常检测举措曾经没法过滤掉。我们会通过测试用例获得的动态评价成绩来决定是否这次训练有效,动态评价没有达到标准,此次训练无效,直到下次训练滑动窗口内的训练数据获得的模型使得动态评价满足条件为止。

特征干扰:特征截断。为了防止单个特征数值过年夜招致模型仅受单个特征影响,干扰检测成绩,我们根据训练数据中每维特征的均值方差做特征截断,限制单个特征对模型的影杭州净化器租赁响。

五、总结

本文首先简单介绍了构建基于Spark的SOC死板学习检测平台的布景及定位,着重点介绍了SOC ML撑持的内置智能威胁检测场景及平台自己的介绍,最后举了几个客户侧碰到的问题以及将相关经验融入到SOC ML框架中去。由于篇幅有限,后续将继续更新基于SOC ML框架的内置场景检测的具体做法,比方如何检测DNS地道,数据汇聚,可疑登录等场景。

目前越来越多的平安厂商在智能平安上规划,但业界尚未有开放给用户使用的适应于SOC平安场景的死板学习检测平台。我们不停以来继续的在智能平安上不竭探索测验考试,并将积累的经验融入到SOC平安检测中构建了SOC死板学习检测平台。它一方面支持我们SOC内置的平安场景检测,撑持打造UEBA模块。另一方面,赋能企业提供给企业平安运营人员快速上手,自定义场景发现未知威胁。(郭豪、陈嘉豪)

声明:本文来自腾讯平安智能,版权归作者所有。文章内容仅代表作者独立观点,不代表平安内参立场,转载目的在于传递更多信息。如有侵权,请联系 anquanneican@163.com。

Copyright © 2002-2020 合丰甲醛服务平台 版权所有 备案号:ICP备********号  百度地图