Sicuramente, almeno na volta nella vita, avrete avuto a che fare con un file PDF con delle tabelle all'interno. Tabelle, che avreste voluto convertire ad Excel senza dover trascrivere manualmente i dati investendo un'enorme quantità di ore nel processo.
Ci sono diversi modi per risolvere il problema:
- Utilizzare un OCR, un sistema di riconoscimento dei caratteri, per estrarre le informazioni dal PDF e inserirle in un altro documento. Questo è possibile, ad esempio, inviando il PDF a onlineocr.net. È sufficiente indicare la lingua del file originale e il formato di destinazione desiderato. Non è molto efficace con le tabelle, ma estrae i numeri o i testi all'interno di ogni cella, e sappiamo già che è sempre più facile copiare il contenuto da un file che scriverlo a mano...
- Usare gli strumenti di ilovepdf. Si tratta di una piattaforma online, con una versione installabile, che permette di trasformare i file PDF. Uno di questi cambia da PDF a Excel, così le tabelle saranno convertite perfettamente.
- Utilizzare Excalibur, un'applicazione open source che possiamo installare sul nostro computer per estrarre le tabelle direttamente in Excel. Il codice applicazione è in github.
Esistono strumenti di tipo open source (Tabula, pdf-table-extract) e closed source (Smallpdf, Docparser) che sono ampiamente utilizzati per estrarre tabelle di dati da file PDF. In questo caso Excalibur utilizza Camelot, che è una libreria Python creata dallo stesso utente per dare agli utenti un controllo completo sull'estrazione delle tabelle. È possibile installare Excalibur utilizzando "pip install excalibur-py" o semplicemente scaricare ed eseguire l'eseguibile Windows/Linux dalla pagina precedente.
Come potete vedere, non mancano le opzioni, ora dovete solo cercare quella che meglio si adatta al vostro caso.