- Objetivo é implementar e avaliar um modelo Personalized PageRank para Continuação Automática de Playlists
- O dataset utilizado vem do desafio ACM RecSys: http://www.recsyschallenge.com/2018/
- Baixar dados do desafio no site
- Dataset completo:
spotify_million_playlist_dataset
- Dataset de Desafio:
spotify_million_playlist_dataset_challenge
- Dataset completo:
- Extrair dados do desafio para dentro da pasta
dados/
.- Ficarão duas pastas:
spotify_million_playlist_dataset_challenge/
espotify_million_playlist_dataset/
- Ficarão duas pastas:
- Criar ambiente virtual com
python -m venv env
- Ativando ambiente virtual
- Windows:
env\Scripts\Activate.ps1
- Linux:
source env/bin/activate
- Windows:
- Instalando dependências com
pip install -r requirements.txt
- Rodar
implementacao-nova/0_processa_dados.ipynb
: Assim ocorrerá a geração dos dados preparados na pastadados-processados/
- Rodar
implementacao-nova/1_treinamento_personalized_pagerank.ipynb
: Para gerar os pesos do modelo na pastadados-processados/
- Rodar
implementacao-nova/2_avaliacao_personalized_pagerank.ipynb
: Para avaliar o modelo isoladamente no conjunto de teste.
- Modelo: Personalized Page Rank
- Referências:
- "Pixie: A System for Recommending 3+ Billion Items to 200+ Million Users in Real-Time"
- "Random Walk with Restart for Automatic Playlist Continuation and Query-Specific Adaptations"
- Referências: