Forum >> Principianti >> Problema con la lettura di file in formato pdf

Pagina: 1

Messaggio annotato da Daniele aka Palmux :
Questa discussione è stata spostata dalla categoria Blog.
Buonasera,
Vorrei chiedervi come posso caricare un file pdf su python, leggere le stringhe con un ciclo while che elabora il file fino a che non trova una stringa vuota e nello stesso tempo copia il contenuto di ogni riga in un formato di testo?

Vorrei sapere che modulo devo scaricare affinche posso fare cio e soprattutto, sapendo che il pdf e' un file binario, come si puo' codificare il contenuto x visualizzarlo come testo?




Vi ringrazio in anticipo
Ciao caro, come da tuo titolo che tipo di problemi hai avuto? Non indichi su che piattaforma sei e con quale versione del linguaggio, ma sappi che esistono diverse librerie che ti permettono di farlo.

Scusa se non sono preciso e non ti fornisco link ma sono in una condizione precaria di connessione, mi ricordo comunque che quando ancora utilizzavo Python 2.7 ho usato diverse volte PyPDF2 non so poi se l'hanno adeguata per Python 3, controlla. Esiste poi sicuramente textract ed anche questa l'ho usata, non più di un paio di volte, ma fa comunque il suo mestiere.

Esisterà anche altro che in questo momento non mi viene in mente, prova a farti aiutare dall'amico Google.

Cya
ALLORA DICIAMO CHE STO USANDO PYTHON 3.7... IL PROBLEMA E' NATO DAL FATTO CHE UN MIO AMICO AVEVA UN FILE PDF SUL COMPUTER E VOLEVA MODIFICARLO, MA SICCOME NON POTEVA FARLO, L'ALTERNATIVA SAREBBE STATO DUNQUE RISCRIVERE DA CAPO IL FILE IN FORMATO WORD E POI CAMBIARE L'ESTENSIONE IN PDF… ONDE EVITARE CIO' VOLEVO CAPIRE SE ESISTESSE UN METODO COME readline() PER I PDF PER LEGGERE OGNI SINGOLA RIGA DEL CODICE TRADURLA IN LINGUAGGIO DI TESTO COPIARE QUESTA RIGA POI IN UN NUOVO FILE IN MODALITA' SCRITTURA DI TIPO WORD… IN MODO TALE CHE QUINDI TUTTI I DATI VENISSERO QUINDI SALVATI IN UN FILE MODIFICABILE
Allegati
Mai e poi mai devi scrivere un messaggio in maiuscolo, per la netiquette (che esiste ancora) equivale a strillare e non è proprio il caso.

Per il tuo caso specifico il nome di alcune librerie le hai avute, ora fai prove su prove fino ad ottenere un buon risultato. Devi comunque sapere che il PDF non è un file di Word, non sempre otterrai un risultato perfetto, ma ci puoi appunto lavorare per arrivare il più vicino possibile al risultato sperato. Oltretutto non si sa ancora il contesto in cui ti muovi, compreso il tipo di file che tenti di manipolare, magari questo contiene altro e non solo testo, di certo dovrai prestare molta attenzione alle varie operazioni da svolgere.

Torna ad informarci dei tuoi successi.

Cya
Innanzitutto mi scuso per prima x aver scritto il mio messaggio in maiuscolo.... il file comprende anche un immagine effettivamente


Pagina: 1



Esegui il login per scrivere una risposta.