多文本分类|(1)数据集预处理
1.数据集简介🛴 THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。我们在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。
完整数据集压缩包下载
2.数据预处理🚲 在进行特征提取之前,需要对原始文本数据进行预处理,这对于特征提取来说至关重要,一个好的预处理过程会显著的提高特征提取的质量以及分类算法的性能。 中文文本预处理一般包括以下步骤:
(1)分词:把文本切分成词或者字。
(2)去停用词:文本中大量出现但对分类没有多大作用的词。
(3)噪声移除:去除文本中的特殊符号,如特殊标点符号等。这些符号对分类没有太大意义。
(4)词频统计语过滤:对文本训练集预处理后,统计剩余单词的词频,并过滤低频词,由剩余的单词构建词典。
3.Code ...