数据集用户id、商品id等cutoff问题 #36

shuDaoNan9 · 2019-12-06T10:37:54Z

运行DCN模型跑下面这个数据集时候有些疑问：
http://labs.criteo.com/2014/02/download-kaggle-display-advertising-challenge-dataset/
Kaggle Display Advertising Challenge Dataset
我看里面数据格式是：
The columns are tab separeted with the following schema:
<integer feature 1> ... <integer feature 13> <categorical feature 1> ... <categorical feature 26>
并没有区分用户id、商品id，那这样如何给用户做推荐呢？而且我看get_criteo_feature.py处理的时候，很多categorical 类型数据直接被截断没了，那如何区分开用户呢？
parser.add_argument(
"--cutoff",
type=int,
default=200,
help="cutoff long-tailed categorical values"
)

谢谢！

Ethan199111 · 2020-03-23T06:31:46Z

切断是为了控制ids类特征做embedding的长度, 让长尾的ID都索引到0的位置，如果你知道怎么用参数服务器处理大规模稀疏ID特征，也可以所以的都加入训练

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

数据集用户id、商品id等cutoff问题 #36

数据集用户id、商品id等cutoff问题 #36

shuDaoNan9 commented Dec 6, 2019

Ethan199111 commented Mar 23, 2020

数据集用户id、商品id等cutoff问题 #36

数据集用户id、商品id等cutoff问题 #36

Comments

shuDaoNan9 commented Dec 6, 2019

Ethan199111 commented Mar 23, 2020