- ? 运行环境:python3
- ? 作者:K同学啊
- ? 精选专栏:《深度学习100例》
- ? 推荐专栏:《自然语言处理NLP-100例》
大家好,我是K同学啊!
在上一篇文章中讲解了BERT是什么,这一篇文章中我应用BERT进行一个文本分类的实战,使用的是THUCTC数据集,实现了财经
、房产
、股票
、教育
、科技
、社会
、时政
、体育
、游戏
、娱乐
等10类文本的高效分类,最后的分类准确率达到了83.3%
,项目情况如下:
@toc
一、导入并整理数据
data_path = "./5-data/data.txt"
model_path = "bert-base-chinese"
max_length = 32
batch_size = 128
learning_rate = 2e-5
num_classes = 10 # 类别数
# 准备数据
df_raw = pd.read_csv(data_path,sep="\t",header=None,names=["text","label"])
class_names = ["财经","房产","股票","教育","科技","社会","时政","体育","游戏","娱乐"]
# 标签数字化
df_label = pd.DataFrame({"label":class_names,"y":list(range(10))})
df_raw = pd.merge(df_raw,df_label,on="label",how="left")
df_raw.head(3)
复制代码
text | label | y | |
---|---|---|---|
0 | 中华女子学院:本科层次仅1专业招男生 | 教育 | 3 |
1 | 两天价网站背后重重迷雾:做个网站究竟要多少钱 | 科技 | 4 |
2 | 东5环海棠公社230-290平2居准现房98折优惠 | 房产 | 1 |
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END
喜欢就支持一下吧
相关推荐