BotConf2023会议-威胁情报挖掘

概述

Botconf 是一个致力于了解恶意软件生态系统和僵尸网络的会议。 它是由一群朋友于 2012 年构思出来的,他们认为有必要召开一次会议,从各个角度关注这个主题,包括恶意软件本身、它背后的人,以及防范它的方法。 Botconf 背后的团队由女性和男性组成,他们的日常生活致力于保护他们的组织、了解网络威胁和培训他人 1。

该会议通常会聚集来自世界各地的 400 名来自不同背景的人,包括执法部门、学术界、CSIRT、威胁分析团队、防病毒开发人员等。 他们都有一个共同的目标,那就是打击恶意软件。 会议的第一天专门用于小型研讨会,主要会议将在接下来的三天内举行。 有很多机会交流思想和知识,享受美食 。

数据挖掘基本概念

在关联规则挖掘中,Support、Confidence和Lift是三个重要的概念,它们分别用来衡量规则的有效性和关联性。

  1. Support(支持度):表示项集(itemset)在总事务中出现的频率。例如,如果我们有100个事务,其中有15个事务包含了我们关注的项集A,那么项集A的支持度就是15%。
  2. Confidence(置信度):表示在包含项集A的事务中,也包含项集B的概率。例如,如果我们有15个包含项集A的事务,其中有10个事务也包含了项集B,那么“项集A导致项集B”的置信度就是66.67%。
  3. Lift(提升度):用于衡量项集A的出现对项集B的出现的影响。Lift值等于1表示A和B没有关联;大于1表示A和B有正相关性;小于1表示A和B有负相关性。

这三个指标之间的关系是:

  • Support是关联规则的基础,它告诉我们规则涉及的项集在数据中的普遍程度。但是,支持度不能告诉我们规则的方向,也就是说,它不能告诉我们项集A的出现是否会导致项集B的出现。
  • Confidence在支持度的基础上加入了规则的方向,它告诉我们在项集A出现的情况下,项集B出现的概率是多少。但是,置信度有一个问题,就是它可能会被项集B的普遍性所影响。例如,如果项集B在大多数事务中都出现,那么即使A和B之间没有关联,”项集A导致项集B”的置信度也可能会很高。
  • Lift就是为了解决这个问题而引入的。提升度考虑了项集B的普遍性,它告诉我们在考虑了项集B的普遍性之后,项集A的出现对项集B的出现的影响是增加还是减少。因此,提升度可以被看作是对置信度的一种校正。

“Lift”是关联规则挖掘中的一个重要概念,用于衡量两个事件(或物品)之间的关联性。在关联规则中,我们通常说“如果发生了事件A,那么也会发生事件B”,并用Lift值来衡量这种关联性的强度。

Lift值的计算公式是:Lift(A→B) = P(A∩B) / (P(A) * P(B)),其中P(A)和P(B)是事件A和事件B的概率,P(A∩B)是事件A和事件B同时发生的概率。

[

这个公式的由来可以从条件概率和独立性的角度来理解:

  1. 条件概率:在统计学中,条件概率是一种衡量在给定某个事件发生的情况下,另一个事件发生的概率。例如,P(B|A)表示在事件A发生的情况下,事件B发生的概率。根据条件概率的定义,我们有P(A∩B) = P(A) * P(B|A),即事件A和事件B同时发生的概率等于事件A发生的概率乘以在事件A发生的情况下,事件B发生的概率。
  2. 独立性:在统计学中,如果两个事件A和B是独立的,那么事件A的发生不会影响事件B的发生,反之亦然。对于独立的事件A和B,我们有P(B|A) = P(B),即在事件A发生的情况下,事件B发生的概率等于事件B本身发生的概率。

结合以上两点,如果事件A和事件B是独立的,那么我们有P(A∩B) = P(A) * P(B)。这就是Lift值为1时的情况,表示事件A和事件B是独立的,没有关联性。

然而,在实际情况中,事件A和事件B可能并不是独立的,它们之间可能存在某种关联性。这时,我们可以通过比较P(A∩B)和P(A) * P(B)的大小来判断这种关联性的强度。如果P(A∩B) > P(A) * P(B),那么Lift值大于1,表示事件A和事件B有正相关性;如果P(A∩B) < P(A) * P(B),那么Lift值小于1,表示事件A和事件B有负相关性。

因此,Lift值的计算公式:Lift(A→B) = P(A∩B) / (P(A) * P(B)),就是用来衡量事件A和事件B的关联性的。

]

Lift值的解读:

  • Lift值等于1,表示事件A和事件B是独立的,没有关联性。
  • Lift值大于1,表示事件A和事件B有正相关性,即事件A的发生会增加事件B发生的概率。
  • Lift值小于1,表示事件A和事件B有负相关性,即事件A的发生会降低事件B发生的概率。

BotConf 2023

https://www.botconf.eu/past-editions/botconf-2023/

利用网络操作约束原则、自然语言理解和关联规则进行网络威胁分析

从HTML文章中提取内容

索引文章URL – 收集文章原始HTML – 解析文本信息 – 数据库 – 解析文本信息 – 收集原始HTML – 索引文章URL

串行过程允许适应每个源的数据结构,并在可预测的位置搜索特定元素。这是受到将NLP应用于医学研究文献的成功故事的启发。

数据分析

“恶意软件”和“威胁行动者”有几个名称。我们需要一个键来聚合他们在别名和文章中的引用。我们还需要处理与日常语言或彼此之间的冲突。

MITRE ATT&CK (v6.3)技术的描述和过程不足以匹配或训练模型。我们用同义词扩充数据。

使用引用的数据,我们将它们与文本数据库进行匹配。与机器学习相比,这种方法减少了错误的数量,增强了可解释性、可重复性和便于诊断。结果存储在EntityDB中。

结果是一个稀疏数组,其中每个条目都是一个事务。我们可以将其原样用于图形分析,也可以将其转换为密集数组用于统计方法。

举例

在你下次去杂货店的时候,留意你的购买习惯。观察那些时刻,你拿起某样东西并说:“哎呀,我也需要这个,这个会和那个完美搭配。”这句话强调了在购物时的冲动购买和搭配选择。

目标是发现隐藏的模式。n个项目集的最高频率通常很明显,或者只是非常常见的项目的“偶然关联”。必须用度量来检查这些组合。

目标是发现隐藏的模式。n个项目集的最高频率通常很明显,或者只是非常常见的项目的“偶然关联”。

该测试在2007-2020年的17153篇文章数据集上运行。我们使用两项集来增加可解释性。服务器: 英特尔 W3520-4C/8T 2.66GHz-32GB DDR3 ECC 1333MHz

  • 在这个数据集中,有12808篇文章与一个威胁行为者和至少两种技术有关
  • 有1434个关联规则分布在73个独特的威胁行为者上
  • 有901个关联规则的提升度(lift)大于1
  • 整个过程的持续时间为5小时51分钟
  • 全数据集的”Winning Combo”(胜利组合)是:命令行界面 → 网络连接发现,虚拟化/沙箱逃避 → 进程空洞化,命令行界面 → 隐藏窗口

审查

APT28的顶级关联规则

Lift 前期技术 后续技术 观察
5,44 自定义加密协议 (T1024) 登录脚本 (T1037) 持久化防病毒逃避(打包)或加密数据泄露
5,23 修改注册表 (T1112) 注册表运行键/启动文件夹 (T1060) 两阶段维持
4,59 Rundll32 (T1085) 登录脚本 (T1037) 这是两阶段持久化操作第一阶段的实现
4,59 软件打包(T1045) Windows 管理规范 (T1047) 通过 WMI 内部传送打包的恶意负载以避免检测,以实现特权升级或持久性。
3,5 流程发现 (T1057) 外围设备发现 (T1120) 主机侦察和监视操作的常见任务。

Sandworm的顶级关联规则

Lift 前期技术 后续技术 观察
4,59 驾车妥协 (T1189) 浏览器中的人 (T1185) 水坑或通信拦截加上有效载荷注入(类似 PRISM)
4,59 远程访问工具 (T1219) 输入捕捉 (T1417) 键盘记录器
4,59 剪贴板数据 (T1115) 输入捕捉 (T1417) 监视某些输入(如 CTRL+C)以触发对剪贴板内容的检查。
3,94 外部远程服务 (T1133) 远程服务 (T1021) 在 VPN、RDP 或外部可访问服务上使用有效帐户。
3,94 系统信息发现 (T1426) 系统固件 (T1019) 用于持久性或特权升级的信息收集(类似于 Rootkit)。

EQUATION的顶级关联规则

Lift 前期技术 后续技术 观察
3,74 输入捕捉 (T1417) 剪贴板数据 (T1115) 监视某些输入(如 CTRL+C)以触发对剪贴板内容的检查。
3,59 远程访问工具 (T1219) 文件和目录发现 (T1420) 攻击者正在使用 RAT 执行其主机侦察。
3,19 凭据转储 (T1003) 剪贴板数据 (T1115) 窃取通过剪贴板的凭据。
3,16 软件打包(T1045) 通过模块加载执行 (T1129) 两阶段持久性操作的第一阶段
2,98 通过 API 执行 (T1106) 通过模块加载执行 (T1129) 防御规避使用低级 Windows API(例如:“CreateProcessA”)加载外部负载。

关联规则签名

Jaccard和Sørensen-Dice相似性指标显示,顶级威胁参与者关联规则之间的重叠程度非常低。

经验教训

历时性和共时性的语言学分析是关键的挑战。由于现代冲突部分是通过0和1进行的,我们谈论的是后代回忆和书写历史的能力。