Skip to content

Commit

Permalink
Merge pull request #88 from madewild/textract
Browse files Browse the repository at this point in the history
proposition pour l'installation de textract sous windows
  • Loading branch information
madewild authored Nov 19, 2024
2 parents 7d50ee4 + d899df9 commit e3c285d
Showing 1 changed file with 17 additions and 0 deletions.
17 changes: 17 additions & 0 deletions module6/s1_extraction.ipynb
Original file line number Diff line number Diff line change
Expand Up @@ -7,6 +7,23 @@
"# Extraire le texte dans des documents \"riches\""
]
},
{
"cell_type": "markdown",
"metadata": {},
"source": [
"Si vous êtes sous windows, vous aurez besoin d'installer certains programmes que vous pouvez trouver ici : \n",
"- **tesseract** télécharger le fichier depuis [github](https://github.com/UB-Mannheim/tesseract/wiki) et placez le dans un dossier (i.e `C:\\Programmes Files`)\n",
"- **unrtf** : télécharger depuis [sourceforge](https://sourceforge.net/projects/gnuwin32/)\n",
"- **sox (mp3)** \n",
" - télécharger l'exécutable depuis [sourceforge](https://sourceforge.net/projects/sox/) et exécutez-le\n",
" - télécharger la dll depuis [dllme](https://www.dllme.com/dll/files/libmad-0) et copiez le fichier libmad.dll dans le dossier 'sox'\n",
"- **antiword** : télécharger l'archive depuis [softpedia](https://www.softpedia.com/get/Office-tools/Other-Office-Tools/Antiword.shtml) et extrayez la dans le dossier `C:\\` \n",
"\n",
"### Ajoutez les différents chemins (path) vers ces programmes à la variable d'environnement `Path`\n",
"\n",
" "
]
},
{
"cell_type": "markdown",
"metadata": {},
Expand Down

0 comments on commit e3c285d

Please sign in to comment.