Forum >> Programmazione Python >> Files e Directory >> Manipolare files PDF

Pagina: 1

Buongiorno a tutti,

Ho cercato qua' e la' ma non sono ancora riuscito a trovare una soluzione per la mia richiesta..

Ho la necessità di splittare un singolo file .pdf contenente un centinaio di pagine in vari files .pdf, ma non mi interessa lo split per numero di pagina, bensì per stringa Es "dividi file .pdf al presentarsi di questa stringa <stringa di esempio>". In questo modo in output mi aspetterei dei .pdf sia a pagina singola, sia con n pagine (in relazione al ripresentarsi o meno della stringa di input).


Successivamente mi servirebbe rinominare i file .pdf così divisi con un nome da andare a ricercare direttamente nel .pdf splittato



Secondo voi è fattibile una cosa del genere?



Grazie mille a tutti in anticipo
Jacopo




--- Ultima modifica di jacopo in data 2019-01-24 16:26:32 ---

--- Ultima modifica di jacopo in data 2019-01-24 16:26:45 ---



--- Ultima modifica di jacopo in data 2019-01-24 16:27:12 ---
Mah, a prima vista la risposta è "dipende". Intanto bisogna che il pdf sia "cercabile", ovvero che il testo sia codificato come testo, appunto (non sempre è così... e poi ci sono problemi di encoding... ma sorvoliamo).


A questo punto, ci sono un bel po' di librerie python che consentono di cercare/estrarre testo da un pdf (googla "python pdf library" per dire). Direi che hai due possibli approcci:

- il primo è "me ne frego dell'impaginazione originale": estrai tutto il testo dal pdf, cerchi la stringa, splitti il testo di conseguenza, e ricrei tanti pdf quanti sono i "pezzi" che hai ottenuto. Il vantaggio è che sicuramente tutti i pdf risultanti cominciano (o finiscono, come desideri) con la stringa voluta. Lo svantaggio è che puoi perdere l'impaginazione del pdf originale.


- il secondo è "cerco di mantenere l'impaginazione originale". Allora devi trovare una libreria che ti dice a quale pagina del pdf si trova la stringa... non so se è una feature standard, ma penso di sì. A quel punto, splitti il pdf a quella pagina (anche questa è una feature abbastanza standard) e ne ricavi due (o più) pdf che mantengono la stessa impaginazione dell'originale. Lo svantaggio è che se la stringa compare a metà pagina (per dire)... che cosa vuoi fare? Se il resto della pagina dopo la stringa vuoi tenerlo comunque, ok. Se vuoi metterlo nel pdf successivo, allora devi reimpaginare il tutto.



Pagina: 1



Esegui il login per scrivere una risposta.