中文分词

一、简介

基于机器学习的中文分词实现，包括双向最大匹配算法、HMM、CRF、双向GRU、Transformer-Encoder，数据集采用MSR。

Dict-Base包含双向最大匹配，直接运行bi-mm.py即可。
Sequence-Labeling-Base包含剩余的算法与模型，同样直接运行对应名字的py文件即可，其中Transformer分为了多个py文件，但文件名已说明。

Model	Precision	Recall	F1
crf	0.9937	0.9945	0.9941
bi_gru	0.9878	0.9943	0.9910
bi_mm	0.9701	0.9676	0.9688
HMM	0.9831	0.9232	0.9486
Transformer	0.9889	0.9916	0.9903

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
Dict-Base		Dict-Base
Sequence-Labeling-Base		Sequence-Labeling-Base
README.md		README.md