互联网资讯 / 人工智能 · 2023年11月3日

AI如何评估自媒体文章质量

自媒体时代,每个公众号都在思考一个问题:如何让我的文章被更多人看到?其实,除了运营之外,本章本身的质量才是最根本的。在这篇文章中,腾讯微信数据质量团队解读了他们的自媒体在线文章质量自动评估算法,告诉你模型眼中的好文章都是什么样的。

移动阅读时代涌现了许多用户生成内容模式下的自媒体平台,每个用户都可以作为内容生产者,这种开放性同时也导致了自媒体在线文章的质量参差不齐。自动评估自媒体在线文章质量对在线推荐、搜索和广告等应用场景都具有重要意义,然而当前几乎没有针对该任务的研究工作。

不同于格式良好的传统文章(例如学术论文和WikIPedia文档),自媒体在线文章主要由用户创建,没有统一的格式、布局和写作规范,包含文本、图像和视频的多模态混合编辑,以及内容丰富、风格多样、语义跨度大的潜在特征。同时,评估过程需要充分考虑读者的阅读体验。此外,影响文章质量的因素包括内容,排版布局,写作风格等不同方面下的多种影响因素。这些都使得自媒体在线文章质量的自动评估变得更加复杂和具有挑战性。

为了解决这些挑战,在ACM MM2020中,腾讯微信数据质量团队建立了一个统一的框架来有效地学习和整合在线文章质量评估的不同因素,结合排版布局、写作风格和深度语义建立了一个联合模型CoQAN,设计了不同的表示学习子网络,特别是考虑了交互特征学习过程和移动终端上的交互阅读习惯,这与人类对文章质量评价的认知方式更为贴合。作者还构建了一个大规模的真实世界评估数据集。充分的实验结果表明,所提出的方法有效地学习和整合了在线文章质量评估的不同因素。

自媒体文章质量如何AI知道,这是微信的自动评估算法

论文链接:https://arxiv.org/pdf/2008.05658.pdf

考虑到自媒体平台的性质,作者将自媒体在线文章质量合理地定义为文章带给用户的阅读体验水平,即文章的可读性,反映在文章的信息内容、写作规范、用户感知等方面。

高质量文章需要满足布局工整美观,有清晰的版块和段落划分,图片和文字排列整齐; 内容具有连贯性和高聚合度,具有良好的写作逻辑和丰富的信息。相反,低质量的文章往往布局或写作逻辑令人困惑,内容不完整或无意义,甚至可能是一片拥挤的文本或混乱的纯图片或视频。

图1展示了两篇报道同一新闻「绑架和谋杀中国学者张莹颖事件」的微信公众号文章,我们可以很容易地分辨出它们之间的区别:右侧低质量的文章包含不相关的广告图片,并且它在很少的文本行数中使用了多种文本格式,这给读者的眼睛带来了不必要的负担,而且在表达上使用了更多口语和情感词。相反地,左侧的高质量文章具有更好的写作逻辑和表达方式并传达了更丰富的内容。

自媒体文章质量如何AI知道,这是微信的自动评估算法

图1:高质文章(左)与低质文章(右)示例

我们知道人类阅读自媒体在线文章时的认知过程是由浅入深的。

读者点开文章时,首先感受到的是排版外观,即读者的表层认知。精美的视觉布局和丰富的呈现形式可以使读者对文章产生兴趣,并为读者带来更好的阅读体验。

然后,读者通过浏览词汇、句法、文章组织和图片来获得内容的主要印象,这是读者的浅层认知。

最后,读者需要对文本语义和写作逻辑有深度的理解,才能领略到文章的意义和价值,这是读者的深层认知。

受上述认知过程的启发,本文建议结合布局组织、写作特征和文本语义,交互地进行特征表示学习并整合到统一框架中以评估自媒体在线文章的质量。不同于传统的文档质量评估大多只考虑文本要素,本文所提方法将图片用作建模页面布局的关键单元,并提取重要的图片特征以反映视觉观感水平和文章的可读性。

该工作的主要贡献包括:

据了解,这是解决自媒体在线文章质量自动评估的第一项研究工作。所提出的方法可以很好地模拟人类专家的评分要素和阅读习惯。

作者提出了一个结合了不同特征空间子网络的联合认知表示学习模型,并构建了自媒体在线文章质量评估的端到端框架。

作者构造一个大规模的现实世界数据集。充分的实验结果表明,提出的模型明显优于以往的文档质量评估方法。

具体方法

本文将自媒体在线文章质量评估视为一项分类任务,即给定一篇文章,预测其为高质量文章或是低质量文章。

图2展示了本文提出的自媒体在线文章质量评估的CoQAN网络架构,其中设计了三个子网络来解耦布局组织、写作特征和文本语义的建模。

对于布局建模,研究者考虑了人们在终端上阅读自媒体文章时从上到下滑动浏览的顺序阅读习惯,将文章划分为内容块序列,显式地学习文章图文标题等要素的排版布局,并同时捕捉整体的页面布局和局部的排版模式。

写作特征子网络考虑到了多模态元素特征,并且能够通过深层次的特征交互关系的学习进行不同特征子空间的特征选择和特征融合,实现高阶非线性的特征融合。

文本语义子网络从不同语义层次深入捕获篇章级长文本内容中的语义和内聚关系,深入学习复杂的语义空间中词间和句间的依赖以及文章整体的写作逻辑。在融合层,每个子网络都经过一个全连接层以调整各神经元在输出向量中的权重,级联后经过输出层预测得到质量类别。

自媒体文章质量如何AI知道,这是微信的自动评估算法

图2:本文提出的自媒体在线文章质量评估的CoQAN网络架构

布局组织子网络

为了显式学习外观布局的组织排列,作者首先通过页面解析将文章划分为一序列的内容块,内容块可以是标题、段落、图片或视频。

之后,为每个内容块提取页面布局相关特征,例如类型(文本 / 图片 / 视频)、在文章中的位置、内容块自身高度、距页面顶部的距离等。将这些特征值进行聚合构成每个内容块的排版特征向量,其可以表达多个重要的布局特征。

自媒体文章质量如何AI知道,这是微信的自动评估算法

图3:布局组织子网络中内容块提取和输入特征向量的构建

在内容块排版特征向量序列上应用GRU网络来建模内容块之间的序列依赖并捕获文章的全局排列模式。同时,作者在输入排版向量上应用了一维卷积神经网络以学习关键的局部布局,设定多个尺寸的卷积核来捕获不同比例的布局模式。两个网络进行级联产生该子网络的输出向量。

写作特征子网络

写作特征子网络可以捕获在线文章的编辑风格。作者提取和计算了包括标题、正文、图片和视频、篇章组织等方面的特征。

为了允许不同类别特征和数值特征之间的交互,写作特征子网络首先通过嵌入层将所有特征投影到相同的特征空间中,旨在在嵌入空间中对高阶组合特征进行建模。在本文中,作者通过应用多头自注意力层同时在多个特征子空间中学习不同特征之间的相互依赖关系,并进行特征空间的融合。多头使得一个特征域可以包含在不同组合特征中。

作者在网络中添加了残差连接以保留之前学习到的更低阶的组合特征,包括原始的单特征。网络堆叠多层多头自注意力层,从而可以同时建模多阶组合特征,实现不同空间的深度特征融合。

文本语义子网络

作者改进BERT,设计Hi-BERT作为文本语义子网络。依靠强大的预训练技术,BERT具有很强的建模上下文关系的能力。由于BERT中的自注意力机制的时间复杂度为O(n^2),BERT目前仅用于处理句子级文本,并不适合用于文档级长文本输入。考虑到文档固有的层次结构,即单词构成句子、句子构成文档,作者将BERT改进为层次结构称为Hi-BERT,其包含两个层级的编码器依次对文档进行编码,分别应用于句子级别和文档级别。

由于标题是对文章的高层概述,这里将标题也作为输入句子。在句子级别,网络以迁移学习的方式使用预训练的BERT。在文档级别,作者采用了文档级双向Transformer层学习句子之间的深层依赖关系得到最终的文章语义向量。Hi-BERT可以深入学习单词和句子之间的交互关系,并在面对不同的写作风格时可以学习到鲁棒的文章语义表示。

实验结果

由于尚无公开数据集可用于自媒体在线文章质量评估任务,作者从微信公众号平台上收集处理在线文章数据,构建了一个自媒体在线文章质量分类数据集。该数据集包含38,248篇在线文章,涵盖了44种文章类别,涵盖新闻,金融,技术,民生等。实验在该数据集上进行评估。

对比实验结果显示,所提方法CoQAN在各项指标上均显著达到最佳。实验中,基线模型与本文所提模型使用相同的特征,因此模型的优越性能受益于作者提出的联合网络表示学习架构,可以完备性地学习到更多有价值的信息。

自媒体文章质量如何AI知道,这是微信的自动评估算法

消融实验结果证明了每个子网络的架构以及联合学习的有效性。去除文本语义子网络时,网络性能下降最大,这说明建模好复杂的写作知识是非常必要的。另外,文本语义子网络的性能超过了仅对文本输入建模的所有基线模型,并且写作特征子网络的性能超过了所有基于特征的基线模型,对文章布局的建模可以有效提升文章质量评估的性能。从实验结果来看,任何两个子网络联合后的性能都优于单一子网络,并且联合了三个子网络的整体网络CoQAN是最优的,这证明每个子网络对于自媒体在线文章质量评估都发挥

OpenMagic API

Need more than content? Move into the product flow.

If you are here for model access, pricing, developer docs, or the future API console, the dedicated product path now lives on api.openmagic.ai.