基于BERT模型的文本分类研究 TensorFlow2实现(内附源码)【自然语言处理NLP-100例】


大家好,我是K同学啊!

在上一篇文章中讲解了BERT是什么,这一篇文章中我应用BERT进行一个文本分类的实战,使用的是THUCTC数据集,实现了财经房产股票教育科技社会时政体育游戏娱乐等10类文本的高效分类,最后的分类准确率达到了83.3%,项目情况如下:

@toc

一、导入并整理数据

data_path = "./5-data/data.txt" 
model_path = "bert-base-chinese"

max_length       = 32
batch_size       = 128
learning_rate    = 2e-5
num_classes      = 10 # 类别数

# 准备数据
df_raw = pd.read_csv(data_path,sep="\t",header=None,names=["text","label"])    

class_names = ["财经","房产","股票","教育","科技","社会","时政","体育","游戏","娱乐"]
# 标签数字化
df_label = pd.DataFrame({"label":class_names,"y":list(range(10))})

df_raw = pd.merge(df_raw,df_label,on="label",how="left")
df_raw.head(3)
复制代码
text label y
0 中华女子学院:本科层次仅1专业招男生 教育 3
1 两天价网站背后重重迷雾:做个网站究竟要多少钱 科技 4
2 东5环海棠公社230-290平2居准现房98折优惠 房产 1
© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享