面向语义缺失的骨签释文分类算法
创始人
2025-11-22 19:31:56
0

摘要陕西省西安市汉长安城遗址出土的骨签为西汉历史的研究工作提供了丰富资料,受长期埋藏和人为开采影响,大量骨签存在断裂现象,造成语义信息缺失,影响骨签分类归置效率。为提高骨签分类归置效率,本文提出了一种面向语义缺失的EWRCA骨签释文分类模型。该模型利用ERNIE8层编码器捕获文本的深层语义信息,学习断裂和不完整的骨签释文信息;通过融合ERNIE多层编码器的输出与Word2Vec生成的词向量,提高对骨签释文独有词汇的理解能力;将文本向量融合模块与TextRCNN-MHAtt模型结合,有效捕获文本的上下文依赖,增强文本的语义表示能力,提升分类准确性;引入融合注意力机制提高模型在处理骨签释文时的准确性。实验结果表明,该模型对汉长安城骨签释文的分类精度和准确率达到95.62%95.2%,能够有效提高骨签释文的分类精度。

汉长安城骨签出土于未央宫遗址西北部,将动物骨骼加工成长条形骨片,分为正面和背面,大多数正面刻有文字,故称为“骨签”。古西汉时期的官方文献承载了大量关于行政管理、经济活动和社会生活的详细记录。它们详细记载了车马、衣物、器械、兵器等多方面的登记情况,反映了西汉时期手工业的水平和行业分布,以及不同年代的进贡物品在数量、品种和质量上的变化。这些信息不仅对研究汉代的经济发展具有重要的参考价值,还可以深入了解当时的社会结构和政治情况。但由于长时间的埋藏以及人工挖掘的影响,使得许多骨签出现了断裂现象,导致骨签释文内容部分缺失,为骨签的分类带来了挑战。传统的碎片分类方法主要依赖于考古学家的经验和直觉,这种方法不仅耗时长,且容易出错。由于骨签碎片出土约60000多片,其中有文字的骨签有57000余片,故利用骨签释文进行骨签分类极其必要。骨签释文,即篆刻在骨签表面的文字(如图1),其记载内容覆盖整个西汉时期,对于研究西汉历史具有深远意义。对骨签释文进行自动分类,不仅能将骨签碎片更好地分类归置,实现西汉文化遗产的保护,还可以促进相关历史文献的整理与研究,帮助学者们更准确地理解西汉文化和社会生活。

图1 刻字骨签

1相关工作

1.1 文本分类相关工作

文本分类旨在将给定文本自动归类到预定义类别。随着深度学习和自然语言处理技术的发展,文本分类得到广泛应用,如垃圾邮件过滤、情感分析、话题检测等。早期文本分类方法主要依赖于传统的机器学习算法,如支持向量机(SVM)和朴素贝叶斯(naiveBayes),通常结合词袋模型(bag-of-words)或TF-IDF等特征表示。虽然在处理低维特征方面表现良好,但在面对复杂语义和高维数据时,需要在高维特征空间进行操作,计算成本较高。近年来,基于深度学习的方法取得显著进展,许多学者开始将深度学习应用于文本分类任务。尤其是卷积神经网络(CNN)、循环神经网络(RNN)和基于注意力机制的Transformer模型,显著提高了文本分类的准确性和鲁棒性。但这些模型依然面临语义理解不够精确、对上下文关系建模能力不足等问题。

2019年Devlin等人提出的BERT(bidirectional encoder representations from Transformers)标志着一个重大突破,引领了自然语言处理领域的新方向。BERT基于双向Transformer结构,通过在大规模语料上进行预训练,能够捕获句子中深层次的语义关系和上下文依赖,显著提升了对复杂语义的理解能力。之后,不同研究者将BERT及BERT变体应用于各种领域的文本处理任务,效果得到显著提升。这些BERT变体通过在更具针对性的领域语料库上进行预训练,增强了模型对专业领域的理解和分类效果。Yu等人将BERT模型应用于政策文本分类,通过提取政策书中句子级的特征向量,学习文本的关键特征,显著提升了政策文本数据集分类任务的准确性。Cui等人通过结合BERT预训练模型与卷积神经网络(CNN)提取文本特征,有效利用了BERT的深层语义理解和CNN的局部特征提取能力,对中文文本实现了有效分类。此外,郝婷等人提出了一种结合BERT和Bi-LSTM模型,利用BERT的深层语义分析和Bi-LSTM解决句子中长距离依赖问题,提高了新闻短文本的分类精度。在BERT系列模型的启发下,百度提出ERNIE(enhanced representation through knowledge integration)预训练模型,进一步增强了预训练模型在中文自然语言处理任务中的表现。ERNIE通过引入知识图谱和更丰富的语言知识,能够更有效地捕获汉语中复杂的语义关系和上下文信息,从而弥补了BERT在中文语义理解上的不足。ERNIE的多层次知识融入策略,使其在文本分类任务中表现更加优异。此外,ERNIE的不同变体也相继推出,它们在数据规模和知识丰富度上进行了扩展,适应了更广泛的任务类型。Wang等人将ERNIE预训练模型与TextRCNN模型相结合,显著提升了中文新闻标题的分类准确率,但其复杂性也相应增加,在数据量有限情况下会导致模型过拟合。杨文阳等人利用ERNIE和Bi-LSTM模型对社交网络文本进行情感分析,增强了模型在处理情感复杂的社交媒体上的分类性能。

1.2 古文本分类相关工作

文本分类技术已在多个领域得到广泛应用,如情感分析、医疗文本分析、新闻分类等。然而在古文本分类领域的应用却相对较少。这主要是由于古文本具有语言结构复杂、字词异形多样、语义理解困难等特点,给文本分类模型的构建带来了很大挑战。在古文本分类领域,Tian等人利用上下文嵌入模型对中国历史文本进行时期分类,在古文本分类方面具有良好表现,但该模型面临着解释性不足和训练测试数据分布不均衡的问题,限制了其分类性能。史沛卓等人采用TextCNN模型对中国古诗文进行分类,有效地实现了唐诗、宋词等不同类别的自动分类。但TextCNN模型主要关注文本的局部特征,未能充分理解整体语义。汉长安城骨签释文属于古文本,并且记载着西汉时期的历史信息,数据繁多,类别多样并且具备古文本的普遍特点,但其内容和结构复杂,包含特殊的语法、词汇和文化背景,传统方法难以满足准确分类的需求。近年来的研究揭示了预训练模型与其他文本分类模型结合的巨大潜力,但在骨签释文的语言结构和用词习惯等方面缺乏足够理解,并且在面临语义缺失的环境下表现欠佳。为解决这一问题,本文提出了一种EWRCA骨签释文分类模型,将文本分类方法应用于汉长安城骨签释文,有助于深入挖掘和理解这些古代文献的内容。通过文本分类方法,可以将释文按照内容进行自动分类。这不仅提高了古文整理和分析的效率,还为后续的骨签碎片匹配及文化研究提供了精准的数据支持,使得对汉长安城历史文化的探索更加系统和深入,便于实现文物归置及保护。本研究的主要贡献包括:

1)针对关键信息缺失、类别数量较少的骨签释文进行数据预处理与数据增强,平衡数据类别分布,增强训练模型的泛化能力;

2)针对模型在处理骨签释文语义特征过程中因语义信息丢失所导致的文本表示不充分的问题,通过选取ERNIE模型的8层编码器堆叠输出,融合不同层次的语义特征,弥补语义信息丢失的影响,从而增强文本表示的丰富性;

3)针对ERNIE模型在处理骨签释文中特有词汇时的局限,引入Word2Vec模型训练的词向量来弥补,并将ERNIE模型的8层编码器堆叠输出与Word2Vec模型生成的词向量构建文本向量融合模块,为骨签释文特定词汇建立稳定的语义表示,提高分类精度;

4)针对TextRCNN模型无法聚焦骨签释文中最具代表性的字符和句子,从而影响分类精度的问题,引入融合注意力机制。其中,利用多头注意力机制捕捉释文的多层含义和复杂依赖;在词级和句子级别上利用层次注意力机制的精确加权,提升关键信息的提取能力,提高分类准确性。

2基础理论

2.1 ERNIE模型

ERNIE是百度开发的一款高级预训练语言模型,通过融合大规模知识图谱和深度学习技术,增强了对语义和语法的理解能力。在短句子级文本分类中,将句子作为初始输入,将词嵌入编码为以词为单位的静态词向量。将句子嵌入和相应的位置嵌入一起作为ERNIE层的输入。ERNIE层的输入向量形成过程如图2所示。

图2 ERNIE模型词嵌入过程

2中,[CLS]代表一个句子开头的占位符,它包含整个句子的信息;[SEP]表示用于区分不同句子的分隔符。静态词向量{ e0e1e2…,e7}是通过将词嵌入表示中的输入句子、整句表示和位置表示向量相加作为“甲一千一百五”的输入向量,然后传递给ERNIE层表征生成的。ERNIE层从输入向量中提取底层的词法和语义信息,最后生成一个集成上下文的动态词向量表示。

ERNIE类似于BERT,都是基于Transformer架构,利用深度学习技术来理解语言的复杂语义关系,并采用无监督学习方法在大规模文本数据上进行预训练。主要区别在于BERT的掩码机制采用的MLMmasked language model),而ERNIE在此基础上引入了知识掩码机制(knowledge masking)。除了像BERT那样进行随机词汇的掩码,ERNIE还利用大规模知识图谱,将知识单元(如实体、关系等)作为掩码对象,不仅使模型学习到词汇的语境关系,还能够捕捉到更深层次的知识结构和语义关联。骨签释文具有较多的历史背景和专业术语。因此,ERNIEBERT更适用于骨签释文分类。BERTERNIE的不同掩蔽策略比较如图3所示。

图3 BERT和ERNIE掩码策略的比较

ERNIE模型采用多头自注意力机制,通过并行计算多个注意力头,在不同子空间中捕捉输入序列的多种特征。注意自我注意的计算公式如下:

其中,Q是查询向量,K是键向量,V是值向量,dk是键向量的维度。注意力得分通过点积计算并除以进行缩放,然后通过Softmax函数归一化得分,最后加权求和值向量。多个头的输出拼接在一起,经过线性变换,生成最终的多头注意力输出。这一机制使模型能够同时考虑序列中的多种特征和长距离依赖关系,增强对复杂语义的理解能力。前馈神经网络子层包括两个线性变换和GELU激活函数,对每个词向量进行非线性变换,进一步丰富表示能力。每个子层后包含残差连接和层归一化,缓解梯度消失问题并加速收敛。

2.2 多头注意力机制

多头注意力机制(multi-head attention mechanism)是深度学习中广泛应用的注意力机制变体,最早由Vaswani等人Transformer模型中提出。其主要作用在于增强模型捕捉不同位置间依赖关系的能力,能够有效提升模型对文本的全局建模能力。通过多个注意力头从不同角度捕捉词与词之间的远程依赖,丰富词的全局语义表示。Bi-LSTM生成的上下文语义在经过多头注意力后,可以动态调整权重,突出文本中的关键信息,尤其在处理复杂的长文本时表现尤为出色。

2.3层次注意力机制

层次注意力机制(hierarchical attention mechanism是一种用于处理文本数据的深度学习方法,通过对文本进行分层处理,从而捕捉文本中的重要信息,具有更强的上下文理解能力。首先在词级别应用注意力机制,计算每个词对句子语义的贡献,通过加权求和得到句子的表示;接着在句子级别进行类似的操作,计算各句子对整篇文本的贡献,从而生成文本的全局语义表示。该机制不仅能够提高模型对长文本的处理能力,还增强了对不同层次信息的捕捉与理解能力。

2.4 Bi-LSTM

长短期记忆网络(LSTM)能够有效处理长序列数据,克服传统RNN在长距离依赖问题上的不足,既捕获了输入骨签释文文本特征中的长序依赖关系,又更好地掌握了输入特征的全局关系。由于部分骨签释文因断裂而丢失关键信息,而双向长短时记忆网络(Bi-LSTM由两个方向相反的LSTM组成,既能获取正向语义特征信息,又能获取反向语义特征信息,通过整合来自文本两端的信息,模型能够在面对空白或不明确信息时,完整地重建断裂文本的语义内容。Bi-LSTM由输入层、前向LSTM层、后向LSTM层、连接层、输出层组成。数据被输入到输入层,按照时间顺序和逆序分别传递到前向和后向LSTM层中,计算每个时间步的隐藏状态,这意味着输入数据由两个相反方向移动的LSTM网络同时处理,输出层产生的序列受到两个LSTM的影响。LSTM的网络结构如图4所示。

图4 LSTM网络结构图

对于给定时间步t和输入xtLSTM的计算过程为:

其中,ftitot分别为遗忘门、输入门、输出门,

表示候选记忆单元的状态,Ct-1Ct分别表示时间步t–1和时间步t的记忆单元状态,ht-1ht分别表示时间步t–1和时间步t的隐藏状态,W表示权重矩阵,b为偏置,σSigmoid激活函数。

Bi-LSTM通过前向和后向两个独立的LSTM层同时处理输入序列,在每个时间步将前向和后向的隐藏状态进行拼接或合并,全面捕捉序列中的前后文信息,从而提高模型在应对输入序列的变化和噪声时的稳定性和鲁棒性。Bi-LSTM网络结构的表达式为:

在每个时间步t

分别表示前向LSTM和后向LSTM在时间步t的隐藏状态向量;HtBi-LSTM在时间步t的输出;表示向量拼接操作。

3模型构建

图5 EWRCA 模型结构图

3.1 数据集构建

表1 汉长安城骨签释文数据集(部分)

3.1.1数据预处理

原始的骨签释文文本数据,包含了许多无用信息,如标点符号和字符等,给后续释文分类带来了较大干扰,故在进行骨签释文分类前对释文进行预处理至关重要。对骨签释文原始语料库进行数据清洗来获取比较规范的数据集,数据清洗主要包括以下两部分。

1部分:对骨签释文进行清洗过滤,删除/”“”和“”等对骨签释文文本分析无意义的符号和语句,以此来减少数据噪声。

2部分:对骨签释文进行去停用词处理,删除诸如“驠”等意义不大的词汇,减少文本的冗余度。

3.1.2数据增强

本文所使用的汉长安城骨签释文数据集类别分布存在不均衡性,类别数量分布如图6所示。如果直接在数据集上应用文本分类算法,分类精确度会难以提升,所以需要对骨签释文数据进行增强。然而,由于骨签释文具有古文字的独特性,使用EDA、回译等数据增强方法容易破坏其语法和语义特性,造成语义损失或变异。故采用基于骨签释文规则及模拟骨签断裂方式对弓弩名称类、计量单位类和“中央官署”及其属官类进行数据增强。骨签释文规则表如表2所示。在模拟骨签断裂过程中,参考大量真实的断裂骨签,通过模拟不同断裂位置的骨签表面释文存留情况对释文数据集进行数据增强。数据增强后的具体数量见表3。由于弓弩名称类经过数据增强后的数量依旧少于工官类,因此采用迭代欠采样的方式将各类数据数量平衡化。随后将平衡后的骨签数据进行人工标注,并按6:2:2的比例划分为训练集、验证集和测试集。

图6 汉长安城骨签释文类别分布

表2 弓弩名称类、计量单位类骨签释文规则

表3 数据增强后的类别及其数量

3.2 文本向量融合模块

3.2.1 ERNIE多层编码

骨签释文具有独特的语言特征,包括一些与现代汉语意义相同的词汇和大量现代语料中较少出现的专有词汇。ERNIE模型通过在大规模的现代语料上进行预训练,学习到语言的通用表示,在与现代汉语意义相同的骨签释文方面具有出色的理解能力。ERNIE模型的多层编码器由12层相同的结构堆叠而成,在训练中展现出了强大的语义捕捉能力,然而常规的编码方式通常只利用最后一层的输出作为文本向量表示,而骨签释文由于骨签断裂现象造成语义缺失的问题,仅使用最后一层的输出作为文本向量表示,会导致在堆叠过程中一些与分类相关的文本语义信息被忽略,从而影响模型的分类性能。故本文使用多层编码拼接输出作为文本的向量表示。多层编码拼接输出是指在多层编码器不断堆叠的同时,把每一层编码器堆叠得到的[CLS]向量拼接在一起作为最后的输出,表示最终的文本特征向量。这种多层编码器拼接输出的方法在面对断裂文本时,即使某一层的部分信息丢失,其他层次的信息仍可补充关键语义,提高模型分类准确性。但堆叠过程中过多的层数拼接会产生冗余特征,导致训练数据的过拟合,影响分类性能。因此,本文选用8层编码器的输出[CLS]向量拼接输出,模型编码器结构如图7所示。

图7 ERNIE模型编码层

假设输入序列长度为n,每个词向量的维度为d,则每一层的输出为n×d的词向量矩阵:

为捕捉不同层次的表示信息,将第1–8层的输出拼接在一起,使低层关注局部和表层特征,高层捕捉全局和抽象特征,拼接后的词向量矩阵表示为:

其中,i是序列中词的索引。这种拼接方式生成的词向量表示维度为原来的8倍,综合了多层编码器的特征信息,形成更丰富的特征表示。

3.2.2 Word2Vec词向量

ERNIE模型在处理骨签释文中的特有词汇和表达时表现出一定的局限性,为弥补这一不足,引入了Word2Vec模型训练的词向量,Word2Vec是一种基于局部上下文预测的词向量生成方法,其功能是将文本中的词语映射到一个连续的向量空间。这种向量表示法能够揭示词语之间的语义相似性及其语法关系。Word2Vec主要包含两种模型:CBOWcontinuousbagofwords)和Skip-gram。在CBOW模型中,模型预测目标词语基于其上下文词语,其结构如图8所示。而在Skip-gram中,模型则基于目标词语来预测其上下文词语。本研究采用CBOW方法训练词向量,向量维数为768,训练后得到的词向量表示为:

图8 CBOW模型结构图

3.2.3 文本向量融合

结合ERNIE预训练模型和Word2Vec模型的特点,采用文本向量融合策略,通过对ERNIE多层编码器堆叠生成的[CLS]向量和Word2Vec生成的词向量进行维度扩展与降维处理,并采用特征融合操作,将两种嵌入整合为统一的文本表示向量,有效增强了模型对骨签释文中独有词汇和整体文本语义的表达能力,从而显著提升了分类和语义分析的性能。融合后的词向量表示为:

其中,hi为使用ERNIE模型的第1–8Encoder的输出向量,wi为使用Word2Vec模型的词向量表示,

表示向量的拼接融合。

3.3 TextRCNN-MHAtt文本分类模块

3.3.1 TextRCNN模型

TextRCNN模型,结合了循环神经网络(RNN)和卷积神经网络(CNN)的优势来处理文本数据。该模型利用Bi-LSTM和池化层作为核心组件,有效捕捉骨签释文中的长距离依赖和局部特征。TextRCNN模型结构图如图9所示。

图9 TextRCNN模型结构图

9中使用clvi)来定义词vi左边的文本,crvi)来定义词vi右边的文本。其中,clvi)和crvi)表示长度为|c|的稠密向量。

定义词vi的向量表示:

经过线性变换与tanh激活函数后,得到潜在的语义向量y i(2),将每一个语义因素分析,以确定代表文本的最有用的因素。

3.3.2融合注意力机制层

在骨签释文文本中,短语的不同组成部分可能具有不同意义,从而对词组含义产生不同影响。TextRCNN模型难以考虑每次输出的权重,容易受到全局依赖建模不足的限制,因此,本文通过融合多头与层次注意力机制,增强TextRCNN在解析骨签释文数据时的全局依赖建模和局部信息提取能力。融合注意力机制结构如图10所示。

图10 融合注意力机制结构图

为了提升对全局依赖的建模能力,本文引入融合注意力机制。首先通过多个平行的注意力头,分别从不同的子空间计算词与词之间的相关性,输出更加丰富的上下文表示,能够有效应对骨签释文数据中字形复杂、信息分散的情况,通过全局建模能力捕捉远距离的语义关联,从而进一步提高模型对复杂文本的理解能力。引入多头注意力机制不仅弥补了Bi-LSTM在长距离依赖建模方面的不足,还能使模型在文本分类任务中更加精准地提取重要信息,提升整体性能。多头注意力机制的计算公式为:

其中,WQWKWV是查询、键和值的线性变换矩阵,dK是键向量的维度。多个注意力头并行执行上述步骤,形成多头注意力。通过不同的线性变换,每个头可以专注于不同维度或位置的信息,并捕捉到序列中不同部分之间的依赖关系。然后将所有注意力头的输出拼接在一起,并通过线性变换得到最终输出:

其中,head是注意力头的数量,每个注意力头独立计算,最后拼接;WO是线性变换矩阵。

在多头注意力输出的基础上计算词级别的注意力权重,对字符上下文表示进行加权求和,得到句子表示:

其中,uW是可学习的全局上下文向量,αi表示每个字符的重要性权重。

在每个句子的表示XW基础上,应用句子级注意力机制计算句子的权βi,并对句子表示进行加权求和,得到整个释文的全局表示Sd

其中,vs是可学习的全局上下文向量,βi表示每个字符的重要性权重。

对全局文本表示进行非线性变换,增强模型的表达能力,使其能够捕捉复杂的非线性关系,并且在一定程度上减少梯度消失的问题。

3.3.3 池化层

经过池化层对Bi-LSTM层输出的文本特征序列进行下采样来降低序列长度和简化数据结构,从而减少整体模型的计算复杂度并增强模型对骨签释文文本数据中局部特征的捕捉能力。目前,最大池化和平均池化是两种最流行的池化技术。最大池化通过突出最强激活的特征,强化了模型的判别能力,这在捕捉关键词或短语时极为有效。为强化关键特征序列,通过池化层保留最显著的特征,增强模型对骨签释文数据中局部特征的捕捉能力,通过接收的特征序列中提取最重要的特征,来降低特征的空间维度。有助于减少序列长度,简化后续处理流程,并通过最大值操作确保关键信息的保留。池化层的表达式为:

3.3.4全连接和分类层

为增强模型在处理未知数据时的泛化性并减少过拟合的可能性,通过随机丢弃一部分神经元,防止模型过拟合,提高模型的泛化能力,确保骨签释文分类结果的可靠性和精确性。

其中,p是保留的比例。

全连接和分类层负责将通过池化层提取并转换的高级特征映射到最终的输出类别上。对经过Dropout正则化的特征进行分类或预测。全连接层将提取的特征转换为最终的输出概率分布。全连接层执行如下操作:

其中,Wfcbfc分别表示全连接层的权重矩阵和偏差向量。Softmax用于计算每个类别的概率。可以确保所有输出概率的和为1,公式如下:

使用交叉熵损失函数来衡量预测值和真实标签之间的差异。通过反向传播算法,模型根据损失函数的梯度来更新权重和偏差,以此最小化损失:

其中,L是损失函数,ci为实际标签,pi为模型预测的概率。

4实验结果与分析

4.1 实验环境

实验环境采用64Windows 10操作系统,CPUAMD Ryzen 9 5900X 12-Core Processor@3.70 GHzGPUNVIDIA GeForce RTX 309032GB内存。文本处理软件应用环境为Python 3.8.16,并使用PyTorch作为深度学习开发框架。

4.2 评价指标

通过准确率、精确率、召回率、Micro-F1以及Macro-F1分数完成模型性能评估。

准确率(Accaccuracy):是一个全局评估指标,表示所有分类正确的预测数量与总预测数量的比例。

其中,TP为正确预测为正类的样本数;TN为正确预测为负类的样本数;FN为错误地将正类预测为负类的样本数;FP为错误地将负类预测为正类的样本数。

精确率(Pprecision):是在所有正类预测中,实际为正类的比例,反映模型在预测正类时的准确性。

召回率(Rrecall):是在所有实际正类中,被正确预测为正类的比例,反映了模型捕获正类样本的能力。

Micro-F1分数:是在整个数据集上计算F1分数,不区分不同类别。

Macro-F1分数:首先对每个类别单独计算F1分数,然后计算这些F1分数的平均值。不考虑每个类别的样本数,因此每个类别被赋予相同的重要性。

其中,N为类别数,F1i为第i个类别的F1分数。

4.3 实验参数设置

参数的质量将直接影响模型的训练效果,因此对参数进行调整以优化模型性能。实验采用ERNIE-3.0-base-zh的预训练模型,损失函数采用交叉熵损失,模型参数的设置如表4所示。

表4 模型参数设置表

4.4 ERNIE编码层数对比分析

为验证本文选取ERNIE8层编码器输出堆叠的[CLS]向量对骨签数据集分类精度的优越性,将ERNIE不同编码层数的输出用于骨签释文的分类任务进行对比,实验结果如表5所示。其中,编码层数为1是仅利用最后一层编码器的[CLS]向量作为文本表示,其他情况则是采用多层编码器的[CLS]向量进行堆叠,以此作为骨签释文分类任务的输入。随着编码层数的增加,模型在准确率、精确率、召回率、Micro-F1Macro-F1各项评价指标上均显示出显著提升。当编码层数增至8层时,各项评估指标均达到最优,其中准确率提升至95.20%,精确率和召回率分别达到95.62%95.20%。使用多层编码拼接输出向量表示相对于单层编码能够更全面地捕捉文本上下文语义信息,从而有效提高模型分类学习能力和整体分类精度。

表5 编码层数实验数据表 (%)

如图11所示,在骨签释文数据集上,模型采用8层编码器拼接输出时分类效果最佳,之后随着层数增加,性能有所下降。这是由于过多编码层引入了冗余信息,从而产生噪声干扰,影响了分类的准确性。所以本文模型在经过多次对比实验后选择使用8层编码器的拼接输出作为文本向量表示。

图11 不同编码层数结果对比图

4.5 消融实验与分析

图12 混淆矩阵图

表6 消融实验数据表 (%)

4.6 骨签释文分类对比实验与分析

为验证提出的EWRCA模型的优越性,以骨签释文数据集作为实验数据集,与结合BERT几种变体的分类模型BERT+TextCNNBERT+DPCNNBERT+Bi-LSTMBERT+TextRCNN以及结合ERNIE的变体分类模型ERNIE+TextCNNERNIE+Bi-GRU进行对比分析。实验结果如表7所示。

表7 对比实验数据表 (%)

7数据表明,本文方法在一定程度上提高了文本分类的精确度,分类效果均优于其他算法。在骨签释文特殊文本分类任务中,EWRCA模型能更好地捕捉和理解文中的深层语义。由于骨签释文的特性,ERNIE-Softmax模型在各项性能指标上均优于BERT-Softmax,且结合ERNIE预训练模型的ERNIE+TextCNN模型与结合BERT变体的BERT+TextCNN模型相比在准确率和精确率上分别提高了1.7%2.78%,显示了使用ERNIE预训练模型在增强模型对骨签释文特征理解和提取方面的有效性。EWRCAMacro-F1值上相较ERNIE+TextCNNERNIE+Bi-GRU分别提高了5.69%6.97%,表明其在处理复杂文本时的优越性能。

为进一步直观地展示EWRCA模型在骨签释文分类任务的优越性,分析每个模型的训练过程,各模型训练过程Loss曲线如图13所示。

图13 Loss曲线对比图

结果显示,EWRCA模型的损失值在训练的前5个周期内迅速下降,并在第5个周期之后趋于平稳,表明该模型具有较快的收敛速度。与BERT+TextCNNERNIE+Bi-GRU等模型相比,尽管这些模型在初期损失值下降较快,但在随后的训练周期中,其损失值表现出较大的波动,显示出这些模型在骨签释文数据集上的长期稳定性不足。同时,ERNIE+TextCNN模型在第10个周期之后才开始表现出稳定的下降趋势,其收敛速度显著较慢。总体而言,EWRCA模型的表现优于其他模型,不仅在初期损失降低速度上更为显著,而且在后续训练中保持了更高的稳定性。通过实验验证了本文模型在性能上具有更优异的表现。

5结论

相关内容

多赛事同天上演!11月21...
11月21日的体育赛事和活动特别精彩,有好几个项目呢,吸引了很多体...
2025-11-22 02:06:53
原创 ...
在你阅读这篇文章之前,请先点击一下“关注”,这样你不仅可以方便地进...
2025-11-22 02:03:03
读杜建玲、姜熙《AI时代商...
❄《中国绍兴·第七届范蠡思想大会暨人工智能赋能千行百业发展大会研究...
2025-11-22 02:01:47
阿里巴巴承办COP30中国...
第30届联合国气候变化大会(COP30)于11月10日至21日在巴...
2025-11-22 02:00:02
原创 ...
事情从 2025 年 11 月 19 日下午传出,消息称 xAI ...
2025-11-22 01:59:57
精准施策打通独角兽企业成长...
长城咨询发布的《GEI世界独角兽企业发展报告2025》显示,我国独...
2025-11-22 01:59:47
原创 ...
前几天和朋友们聊天,大家都在讨论最近的汇率变化。有朋友拿着手机问我...
2025-11-22 01:58:24
临商银行布局方城
11月21日上午,临商银行方城支行举行开业仪式。临商银行党委书记、...
2025-11-22 01:58:02
达利欧:AI热潮虽现泡沫迹...
关于人工智能(AI)热潮是否已进入泡沫区间的讨论在华尔街不断发酵。...
2025-11-22 01:57:45

热门资讯

“马”上见文明!快来看看虎门半... · 2025虎门半程马拉松(11月23日)即将鸣枪开跑、燃动全城!各位市民是否已经蓄势待发,准备让脚...
原创 没... 清晨六点,街边的早餐铺还没开火,天色灰蒙蒙,却已经有人踩着节奏往前跑。你有没有发现,每次你觉得“口袋...
原创 最... 15世纪初,随着美洲、非洲和欧洲之间的贸易往来,黑奴贸易开始盛行。这一贸易行为堪称历史上最为血腥、最...
原创 朱... 朱祁钰和朱祁镇是兄弟俩。原本皇帝是朱祁镇,但由于他年轻气盛,决定亲自出征,结果在土木之变中被敌人俘虏...
吉林省新雪季今日“开板” 长白... 11月22日,吉林省2025—2026新雪季开板暨第31届吉林雾凇冰雪节开幕式在中旅松花湖滑雪度假区...
原创 为... 如果说英宗朱祁镇的土木堡之变被俘以及杀害了谦,是他一生的最大失败,那么他在临终时废除明朝的人殉制度,...
原创 为... 1935年某一天,广东南雄的游击队队长曾彪带领一队人马突然闯入了当地保安团团长的家中,保安团长一家人...
面向语义缺失的骨签释文分类算法 摘要:陕西省西安市汉长安城遗址出土的骨签为西汉历史的研究工作提供了丰富资料,受长期埋藏和人为开采影响...
原创 杨... 在1974年,四川都江堰的二王庙修缮工地上,考古学家在一些宋代壁画的残片中发现了一个令人震惊的细节:...