Мастерская №2
В рамках проекта мы поработали с реальными сырыми данными от одного из крупнейших маркетплейсов страны. Была поставлена задача сопоставления и поиска наиболее похожих товаров.
Цель проекта: Подобрать и обучить модель на исходных данных, способную найти 5 похожих товаров для валиадационной выборки из датасета base, основываясь на метрики accuracy@5.
Задачи:
- Загрузка датасетов и предварительный обзор;
- EDA;
- Построение Baseline-моделей и выбор наилучшего варианта;
- Предобработка данных перед обучением;
- Обучение модели и анализ результатов
Интерументы: В проекте использовались алгоритмы реализованные в библиотеки FAISS, обучение происходило на GPU.
Исследованы модели FlatL2
IVF
и HNSW
.
Показатели метрик для валидационной выборки:
FlatL2
- Accuracy@5
13.286
- Accuracy@5
IVF
- Accuracy@5
13.155
- Accuracy@5
HNSW
- Accuracy@5
11.431
- Accuracy@5
Далее использовалась модель FlatL2
Итоговые результаты для валидационной выборки:
FlatL2
- Accuracy@5
69.569
- Accuracy@5