PSIN 谣言检测——《Divide-and-Conquer: Post-User Interaction Network for Fake News Detection on Social Media》( 五 )


其中 $f_{V}: \mathbb{R}^{d} \rightarrow \mathbb{R}$ 是一个MLP分类器,$\mathrm{z}_{i}$ 是第 $i$ 个新闻事件的特征,$y_{i}^{V} \in\{0,1\}$ 是相应的准确性标签,$N_{t}$ 是训练集中的实例数 。
4.6.2 Topic Classifier Loss主题分类器损失 $\mathcal{L}_{C}\left(\mathrm{Z}, \mathrm{Y}^{C}\right)$ 要求不同主题的特征提取过程后的表示是相似的 。为了实现这一点,我们学习了一个由 $\theta_{C}$ 参数化的主题分类器 $f_{C}\left(\mathrm{Z} ; \theta_{C}\right)$ 和一个对抗性训练方案 。一方面,我们希望 $f_{V}$ 能够将每个新闻事件分类为正确的准确性标签 。另一方面,我们希望来自不同主题的特征相似,这样主题分类器不能区分新闻事件的主题 。在我们的论文中,我们使用梯度反转层(GRL)来进行对抗性训练 。数学上,GRL 被定义为 $Q_{\lambda}(x)=x$,具有反转梯度 $\frac{\partial Q_{\lambda}(x)}{\partial x}=-\lambda I$ 。$\theta_{C}$ 通过最小化交叉熵主题分类器的损失来进行优化:
$\mathcal{L}_{C}\left(\mathrm{Z}, \mathrm{Y}^{t}\right)=-\frac{1}{N_{t}} \sum_{i=1}^{N_{t}} y_{i}^{C} \log \left(f_{C}\left(\mathbf{z}_{i}\right)\right)$
其中,$y_{i}^{C}$ 表示第 $i$ 个新闻事件的主题标签 。对 $\mathcal{L}_{V}\left(\mathrm{Z}, \mathrm{Y}^{V}\right)$ 和 $\mathcal{L}_{C}\left(\mathrm{Z}, \mathrm{Y}^{C}\right)$ 进行联合优化,并采用标准的反向传播算法对所有参数进行优化 。
5 Experiments5.1 Baselines

  • PPC_RNN+CNN [23]: A fake news detection approach combining RNN and CNN, which learns the fake news representations through the characteristics of users in the news propagation path.
  • RvNN [25]: A tree-structured recursive neural network with GRU units that learn the propagation structure.
  • Bi-GCN [4]: A GCN-based rumour detection model using bi-directional GCN to represent the propagation structure.
  • PLAN [17]: A post-level attention model that incorporates tree structure information in the Transformer network.
  • FANG [28]: A graphical fake news detection model based on the interaction between users, news, and sources. We remove the source network modeling part for fair evaluation.
  • RGCN [33]: The relational graph convolutional network keeps a distinct linear projection weight for each edge type.
  • HGT [13]: Heterogeneous Graph Transformer leverages nodeand edge-type dependent parameters to characterize the heterogeneous attention over each edge.
  • PSIN : Our proposed Post-User Interaction Model.
  • PSIN(-T): PSIN without the adversarial topic discriminator. We compare it with other baselines to demonstrate the superiority of our network architecture.
5.2 Settings对于PPC_RNN+CNN、RvNN、Bi-GCN和PLAN,我们将post特征与相应的用户特征连接起来,生成节点特征,以适应它们的架构 。
对于 RGCN 和 HGT,我们将 post 和用户视为两组节点,这与 PSIN 是相同的 。
我们在两种设置下评估这些方法:主题内分割和主题外分割 。
在主题内分割设置中,我们将数据集分成训练集、验证集和测试集,比例为 6:2:2,进行了三次分割以追求稳定结果 。
在主题外分割设置中,我们根据 Table 2 所示的主题分割数据集,我们将数据分割为训练和验证集,比例为 8:2,以构建训练集和验证集 。
PSIN 谣言检测——《Divide-and-Conquer: Post-User Interaction Network for Fake News Detection on Social Media》

文章插图
由于数据集中的标签是不平衡的,我们采用广泛使用的 AUC 和 F1 评分作为评价的评价度量 。
我们将每个事件的帖子数限制在 2000 个,优化器选择 Adam,学习速率从  $\left\{10^{-3}, 10^{-4}, 10^{-5}\right\}$  中选择 。
batch_size 设置为 $32$,词向量维度和网络 hidden size 大小设置为 $100$,dropout 从  $0.1$  到  $0.9$  之间选择,每个部分的神经网络层数从  $\{2,3,4\}$  中选择, $\gamma$  从  $\{0.01,0.1,0.5,1.0\}$  中选择, $\lambda$  从  $\{0.01,0.1,1.0\}$  中选择 。

经验总结扩展阅读