Skip to content

mp2i-thiers/pdf-to-md

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

25 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Scrp PDF

Ce sript est fait pour convertir partiellement un fichier pdf (préférablement fait via Beamer) en un autre format de fichier plus lisible (comme le Markdown pour être affiché sur un site internet Mkdocs ou en fichier LibreOffice pouvant être imprimé).

C'est un convertisseur partiel étant donné qu'il recopie tous les titres, l'ensemble des textes et des images dans un nouveau fichier mais est incapable de recopier les parties Latex des documents. Il a d'autres limitations comme être utilisable sur sur le thème Cambridge de Beamer (seul que l'on ait testé), ou tout ce qu'on peut reprocher à un scraper PDF. Ce script avait pour seul but de convertir nos cours et pas d'avoir vocation à convertir tous les pdf, et de simplifier le travail déjà existant de réécriture des cours pour l'apprentissage par la classe. Ce convertisseur est le projet prémisse du projet latexToMkdocs

La raison qui a motivé ce script fût des cours d'informatique écrits pour être présentés comme un diaporama Beamer et non comme des cours papiers, ce qui rendait l'apprentissage à la maison moins commode. Le script était utilisé pour transformer partiellement les cours Beamer en fichier Markdown pour être compilé automatiquement sur le site https://mp2i-thiers.github.io.

Exemple de rendu

De Image d'une slide Beamer

En Image du rendu par Mkdocs du fichier Markdown

Installation

Création d'un environnement de développement et installation des dépendances :

python -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt

Utilisation

Utilisation : python main.py [-h] [-o OUTPUT] [-p PAGES] [-s SELECT] [-f] [-m {libreoffice,markdown}] file

Lors de la première utilisation, le programme demandera de selectionner les différentes textes utiles sur le pdf (comme où se trouve le titre, le sous titre, le titre de section, le numéro de page et les textes qu'on ne veut pas dans le fichier de sortie du programme)

Arguments

  file                  PDF file to parse

Options :

options:
  -h, --help            show this help message and exit
  -o OUTPUT, --output OUTPUT
                        output file
  -p PAGES, --pages PAGES
                        number of pages to skip at the beginning of the pdf
  -s SELECT, --select SELECT
                        page index to ask informations about title/subtitle/section
  -f, --force           forces the program to ask informations for the pdf and recreate a config file
  -m {libreoffice,markdown}, --module {libreoffice,markdown}
                        choose the module for the exported file (libreoffice or pdf)

About

Convertisseur pdf en .md / .odt

Resources

Stars

Watchers

Forks

Contributors 3

  •  
  •  
  •  

Languages