概述
Botconf 是一个致力于了解恶意软件生态系统和僵尸网络的会议。 它是由一群朋友于 2012 年构思出来的,他们认为有必要召开一次会议,从各个角度关注这个主题,包括恶意软件本身、它背后的人,以及防范它的方法。 Botconf 背后的团队由女性和男性组成,他们的日常生活致力于保护他们的组织、了解网络威胁和培训他人 1。
该会议通常会聚集来自世界各地的 400 名来自不同背景的人,包括执法部门、学术界、CSIRT、威胁分析团队、防病毒开发人员等。 他们都有一个共同的目标,那就是打击恶意软件。 会议的第一天专门用于小型研讨会,主要会议将在接下来的三天内举行。 有很多机会交流思想和知识,享受美食 。
数据挖掘基本概念
在关联规则挖掘中,Support、Confidence和Lift是三个重要的概念,它们分别用来衡量规则的有效性和关联性。
- Support(支持度):表示项集(itemset)在总事务中出现的频率。例如,如果我们有100个事务,其中有15个事务包含了我们关注的项集A,那么项集A的支持度就是15%。
- Confidence(置信度):表示在包含项集A的事务中,也包含项集B的概率。例如,如果我们有15个包含项集A的事务,其中有10个事务也包含了项集B,那么“项集A导致项集B”的置信度就是66.67%。
- Lift(提升度):用于衡量项集A的出现对项集B的出现的影响。Lift值等于1表示A和B没有关联;大于1表示A和B有正相关性;小于1表示A和B有负相关性。
这三个指标之间的关系是:
- Support是关联规则的基础,它告诉我们规则涉及的项集在数据中的普遍程度。但是,支持度不能告诉我们规则的方向,也就是说,它不能告诉我们项集A的出现是否会导致项集B的出现。
- Confidence在支持度的基础上加入了规则的方向,它告诉我们在项集A出现的情况下,项集B出现的概率是多少。但是,置信度有一个问题,就是它可能会被项集B的普遍性所影响。例如,如果项集B在大多数事务中都出现,那么即使A和B之间没有关联,”项集A导致项集B”的置信度也可能会很高。
- Lift就是为了解决这个问题而引入的。提升度考虑了项集B的普遍性,它告诉我们在考虑了项集B的普遍性之后,项集A的出现对项集B的出现的影响是增加还是减少。因此,提升度可以被看作是对置信度的一种校正。
“Lift”是关联规则挖掘中的一个重要概念,用于衡量两个事件(或物品)之间的关联性。在关联规则中,我们通常说“如果发生了事件A,那么也会发生事件B”,并用Lift值来衡量这种关联性的强度。
Lift值的计算公式是:Lift(A→B) = P(A∩B) / (P(A) * P(B)),其中P(A)和P(B)是事件A和事件B的概率,P(A∩B)是事件A和事件B同时发生的概率。
[
这个公式的由来可以从条件概率和独立性的角度来理解:
- 条件概率:在统计学中,条件概率是一种衡量在给定某个事件发生的情况下,另一个事件发生的概率。例如,P(B|A)表示在事件A发生的情况下,事件B发生的概率。根据条件概率的定义,我们有P(A∩B) = P(A) * P(B|A),即事件A和事件B同时发生的概率等于事件A发生的概率乘以在事件A发生的情况下,事件B发生的概率。
- 独立性:在统计学中,如果两个事件A和B是独立的,那么事件A的发生不会影响事件B的发生,反之亦然。对于独立的事件A和B,我们有P(B|A) = P(B),即在事件A发生的情况下,事件B发生的概率等于事件B本身发生的概率。
结合以上两点,如果事件A和事件B是独立的,那么我们有P(A∩B) = P(A) * P(B)。这就是Lift值为1时的情况,表示事件A和事件B是独立的,没有关联性。
然而,在实际情况中,事件A和事件B可能并不是独立的,它们之间可能存在某种关联性。这时,我们可以通过比较P(A∩B)和P(A) * P(B)的大小来判断这种关联性的强度。如果P(A∩B) > P(A) * P(B),那么Lift值大于1,表示事件A和事件B有正相关性;如果P(A∩B) < P(A) * P(B),那么Lift值小于1,表示事件A和事件B有负相关性。
因此,Lift值的计算公式:Lift(A→B) = P(A∩B) / (P(A) * P(B)),就是用来衡量事件A和事件B的关联性的。
]
Lift值的解读:
- Lift值等于1,表示事件A和事件B是独立的,没有关联性。
- Lift值大于1,表示事件A和事件B有正相关性,即事件A的发生会增加事件B发生的概率。
- Lift值小于1,表示事件A和事件B有负相关性,即事件A的发生会降低事件B发生的概率。
BotConf 2023
https://www.botconf.eu/past-editions/botconf-2023/
利用网络操作约束原则、自然语言理解和关联规则进行网络威胁分析
从HTML文章中提取内容
索引文章URL – 收集文章原始HTML – 解析文本信息 – 数据库 – 解析文本信息 – 收集原始HTML – 索引文章URL
串行过程允许适应每个源的数据结构,并在可预测的位置搜索特定元素。这是受到将NLP应用于医学研究文献的成功故事的启发。
数据分析
“恶意软件”和“威胁行动者”有几个名称。我们需要一个键来聚合他们在别名和文章中的引用。我们还需要处理与日常语言或彼此之间的冲突。
MITRE ATT&CK (v6.3)技术的描述和过程不足以匹配或训练模型。我们用同义词扩充数据。
使用引用的数据,我们将它们与文本数据库进行匹配。与机器学习相比,这种方法减少了错误的数量,增强了可解释性、可重复性和便于诊断。结果存储在EntityDB中。
结果是一个稀疏数组,其中每个条目都是一个事务。我们可以将其原样用于图形分析,也可以将其转换为密集数组用于统计方法。
举例
在你下次去杂货店的时候,留意你的购买习惯。观察那些时刻,你拿起某样东西并说:“哎呀,我也需要这个,这个会和那个完美搭配。”这句话强调了在购物时的冲动购买和搭配选择。
目标是发现隐藏的模式。n个项目集的最高频率通常很明显,或者只是非常常见的项目的“偶然关联”。必须用度量来检查这些组合。
目标是发现隐藏的模式。n个项目集的最高频率通常很明显,或者只是非常常见的项目的“偶然关联”。
该测试在2007-2020年的17153篇文章数据集上运行。我们使用两项集来增加可解释性。服务器: 英特尔 W3520-4C/8T 2.66GHz-32GB DDR3 ECC 1333MHz
- 在这个数据集中,有12808篇文章与一个威胁行为者和至少两种技术有关
- 有1434个关联规则分布在73个独特的威胁行为者上
- 有901个关联规则的提升度(lift)大于1
- 整个过程的持续时间为5小时51分钟
- 全数据集的”Winning Combo”(胜利组合)是:命令行界面 → 网络连接发现,虚拟化/沙箱逃避 → 进程空洞化,命令行界面 → 隐藏窗口
审查
APT28的顶级关联规则
| Lift | 前期技术 | 后续技术 | 观察 |
| 5,44 | 自定义加密协议 (T1024) | 登录脚本 (T1037) | 持久化防病毒逃避(打包)或加密数据泄露 |
| 5,23 | 修改注册表 (T1112) | 注册表运行键/启动文件夹 (T1060) | 两阶段维持 |
| 4,59 | Rundll32 (T1085) | 登录脚本 (T1037) | 这是两阶段持久化操作第一阶段的实现 |
| 4,59 | 软件打包(T1045) | Windows 管理规范 (T1047) | 通过 WMI 内部传送打包的恶意负载以避免检测,以实现特权升级或持久性。 |
| 3,5 | 流程发现 (T1057) | 外围设备发现 (T1120) | 主机侦察和监视操作的常见任务。 |
Sandworm的顶级关联规则
| Lift | 前期技术 | 后续技术 | 观察 |
| 4,59 | 驾车妥协 (T1189) | 浏览器中的人 (T1185) | 水坑或通信拦截加上有效载荷注入(类似 PRISM) |
| 4,59 | 远程访问工具 (T1219) | 输入捕捉 (T1417) | 键盘记录器 |
| 4,59 | 剪贴板数据 (T1115) | 输入捕捉 (T1417) | 监视某些输入(如 CTRL+C)以触发对剪贴板内容的检查。 |
| 3,94 | 外部远程服务 (T1133) | 远程服务 (T1021) | 在 VPN、RDP 或外部可访问服务上使用有效帐户。 |
| 3,94 | 系统信息发现 (T1426) | 系统固件 (T1019) | 用于持久性或特权升级的信息收集(类似于 Rootkit)。 |
EQUATION的顶级关联规则
| Lift | 前期技术 | 后续技术 | 观察 |
| 3,74 | 输入捕捉 (T1417) | 剪贴板数据 (T1115) | 监视某些输入(如 CTRL+C)以触发对剪贴板内容的检查。 |
| 3,59 | 远程访问工具 (T1219) | 文件和目录发现 (T1420) | 攻击者正在使用 RAT 执行其主机侦察。 |
| 3,19 | 凭据转储 (T1003) | 剪贴板数据 (T1115) | 窃取通过剪贴板的凭据。 |
| 3,16 | 软件打包(T1045) | 通过模块加载执行 (T1129) | 两阶段持久性操作的第一阶段 |
| 2,98 | 通过 API 执行 (T1106) | 通过模块加载执行 (T1129) | 防御规避使用低级 Windows API(例如:“CreateProcessA”)加载外部负载。 |
关联规则签名
Jaccard和Sørensen-Dice相似性指标显示,顶级威胁参与者关联规则之间的重叠程度非常低。
经验教训
历时性和共时性的语言学分析是关键的挑战。由于现代冲突部分是通过0和1进行的,我们谈论的是后代回忆和书写历史的能力。