为什么BERT后面接了CNN / LSTM效果更好呢?是因为BERT encode能力不够吗?(显然不是)这其中有什么原理吗?谢谢
为什么BERT后面接了CNN / LSTM效果更好呢?是因为BERT encode能力不够吗?(显然不是)这其中有什么原理吗?谢谢