# PDF to TEXT conversion sotto linux

## lsegalla

Sapete se c'è qualche programma per linux che converte i PDF in DOC o comunque in un formato testo ?

----------

## riverdragon

Prova con pdf2ps e poi ps2ascii.

----------

## lsegalla

 *riverdragon wrote:*   

> Prova con pdf2ps e poi ps2ascii.

 

pdf2ps e ps2pdf funzionano e fanno il loro lavoro (ovvero convertono in ps e mi permettono di tornare a pdf) - fin qui tutto bene

ps2ascii non funziona, del resto dentro c'è un minimo di celle, caselle e grafica di quel tipo

ad ogni modo vorrei riuscire ad andare su un formato word alla fine     :Confused: 

----------

## lordalbert

magari potresti importare il pdf in openoffice (forse richiede un plugin, ma la versione 3 può importare/modificare i pdf) e poi da openoffice lo salvi nel formato che vuoi

----------

## lsegalla

 *lordalbert wrote:*   

> magari potresti importare il pdf in openoffice (forse richiede un plugin, ma la versione 3 può importare/modificare i pdf) e poi da openoffice lo salvi nel formato che vuoi

 

se sapessi come importarlo.... come si fa ?

----------

## djinnZ

Dipende da come è fatto il pdf, se gli elementi grafici sono inseriti come immagini raw puoi fare molto poco a parte sovrascrivere.

http://extensions.services.openoffice.org/project/pdfimport , scarichi la versione corrispondente e da strumenti->gestone estensioni->aggiungi apri il pacchetto scaricato.

Non attenderti miracoli, ovviamente.

----------

## lsegalla

 *djinnZ wrote:*   

> Dipende da come è fatto il pdf, se gli elementi grafici sono inseriti come immagini raw puoi fare molto poco a parte sovrascrivere.
> 
> http://extensions.services.openoffice.org/project/pdfimport , scarichi la versione corrispondente e da strumenti->gestone estensioni->aggiungi apri il pacchetto scaricato.
> 
> Non attenderti miracoli, ovviamente.

 

Mi aspettavo che almeno caricasse l'estensione, ahaha...!!

Mi esce questo messaggio in una finestra appena cerco di importare il file da GESTIONE ESTENSIONI: 

 *Quote:*   

> 
> 
> loading component library failed:
> 
> file:///home/luca/.ooo3/user/uno_packages/cache/uno_packages/RkGyof_/pdfimport.oxt/pdfimport.uno.so
> ...

 

Io gli do' quindi ok e non succede niente...     :Sad: 

----------

## djinnZ

Usi OOo compilato o binario? Pare che sia necessario compilare...

Tanto per curiosità qualcuno ha capito come scaricare i sorgenti?

----------

## lsegalla

 *djinnZ wrote:*   

> Usi OOo compilato o binario? Pare che sia necessario compilare...
> 
> Tanto per curiosità qualcuno ha capito come scaricare i sorgenti?

 

Ho fatto il solito emerge.... vuoi dirmi che per sta stupidaggine devo compilarmelo tutto a manina ??    :Shocked: 

----------

## lordalbert

 *lsegalla wrote:*   

>  *djinnZ wrote:*   Usi OOo compilato o binario? Pare che sia necessario compilare...
> 
> Tanto per curiosità qualcuno ha capito come scaricare i sorgenti? 
> 
> Ho fatto il solito emerge.... vuoi dirmi che per sta stupidaggine devo compilarmelo tutto a manina ??   

 

intendeva se hai usato openoffice-bin  :Smile: 

Io ho usato la versione da compilare (con emerge) e funziona...

----------

## mack1

Per convertire un pdf in formato testo puoi usare pdftotext lo trovi in:

```

root@Hell_in_a_Shell:22:06:0:~>qfile `which pdftotext`

app-text/poppler (/usr/bin/pdftotext)

```

E' velocissimo nella conversione  :Shocked:  , però non converte ancora le immagini in ascii art, peccato  :Crying or Very sad:  .

Ciao

----------

## lsegalla

 *lordalbert wrote:*   

>  *lsegalla wrote:*    *djinnZ wrote:*   Usi OOo compilato o binario? Pare che sia necessario compilare...
> 
> Tanto per curiosità qualcuno ha capito come scaricare i sorgenti? 
> 
> Ho fatto il solito emerge.... vuoi dirmi che per sta stupidaggine devo compilarmelo tutto a manina ??    
> ...

 

Io non ho usato openoffice-bin... per usarla secondo voi è sufficiente che io disinstalli il vecchio con 

```
emerge -C openoffice
```

 e poi installi il bin con 

```
emerge openoffice-bin
```

 oppure ci son altri problemi strada facendo? Flag da avere abilitate invece ?

Attendo consigli....

----------

## lordalbert

 *lsegalla wrote:*   

>  *lordalbert wrote:*    *lsegalla wrote:*    *djinnZ wrote:*   Usi OOo compilato o binario? Pare che sia necessario compilare...
> 
> Tanto per curiosità qualcuno ha capito come scaricare i sorgenti? 
> 
> Ho fatto il solito emerge.... vuoi dirmi che per sta stupidaggine devo compilarmelo tutto a manina ??    
> ...

 

da quello che ha detto djinnZ è meglio avere la versione "non binaria". Ad ogni modo, io ho la versione compilata (semplicemente opeoffice, come la tua) e non da problemi. Quindi è strano...

Quello che ho fatto io, è cliccare sulla versione da scaricare da questa pagina http://extensions.services.openoffice.org/project/pdfimport e poi ho fatto "apri con... OpenOffice" e l'ha installato senza problemi

----------

## lsegalla

Io vedo che con ARK si riesce ad aprire il file OXT e che dentro c'è appunto il file che da me genera quell'errore... magari è sputtanato quello...

Ho provato a rifare il download e a reinstallarlo, ho provato anche a modificare i diritti di quel file... tutte operazioni con improbabile successo e infatti

Tutto come prima!

Comunque di fatto mi basterebbe anche un programma che aggiunge dati a un PDF esistente (come PDFPEN che vedo sotto osx ad esempio)

Ho provato pdftk ma non sembra faccia al caso mio.

Poppler/PDFtoText funziona e mi converte tutto in formato testo pero' avrei bisogno dello stesso form.

Mi basterebbe appunto scrivere sopra al PDF che già ho a sto punto...

--- EDIT ---

Sotto Windows ne ho trovato uno, si chiama FOXIT READER, quello riesce a modificare solo alcuni campi (in stile FORM per intenderci)

http://www.foxitsoftware.com/pdf/reader_2/down_reader.htm

Esisterà qualcosa anche per linux ? Funzionerà con wine ? Tutto da provare per ora, vi fo sapere magari

----------

## mack1

Googolando ho trovato pdftoedit, anche se in portage non è presente:

http://www.cyberciti.biz/tips/open-source-linux-pdf-writer.html

La home del progetto:

http://pdfedit.petricek.net/index_e.html

Ciao

----------

## djinnZ

Non lo so io ho problemi sia con la compilata che con la binaria (ma non ho indagato più di tanto ho altre rogne al momento).

Parlavo di compilare il plugin non openoffice, pare che funzioni per una build specifica (o richiderà dbus/mono od una versione specifica di java, non ho idea) al punto che per ubuntu hanno predisposto un pacchetto apposito.

Pdftoedit mi pare che dovrebbe essere in un overlay o sul bugzilla da un pezzo.

----------

## lsegalla

 *mack1 wrote:*   

> Googolando ho trovato pdftoedit, anche se in portage non è presente:
> 
> http://www.cyberciti.biz/tips/open-source-linux-pdf-writer.html
> 
> La home del progetto:
> ...

 

Questo sembra essere decisamente interessante, sembra che faccia un po' tutto quel che mi serve ora.

La riconversione verso .doc per ora la lascio perdere, non mi incasino oltre...

Che ci sia anche una versione per windows di questo PDFedit ? Giusto per sapere... non mi sembra di averlo visto in giro....

----------

## mack1

Pdfedit c'è solo per il pinguino.... lo trovi nel Sunrise Overlay:

http://overlays.gentoo.org/proj/sunrise

Prova a dare un'occhiata alla lista di programmi fatta da wikipedia:

http://en.wikipedia.org/wiki/List_of_PDF_software

Ciao

----------

## lsegalla

Sì sì, nel pinguino l'ho già installato e funzionante.... è che sotto terminal server son vincolato e devo far lavorare l'utente di turno sotto windows senno' mi tocca ogni volta fargli tutto io     :Smile: 

Sperem che la cosa non sia molto ripetitiva che non ho proprio tutto sto tempo      :Evil or Very Mad: 

----------

## Ic3M4n

in alternativa acroread permette di esportare in txt, il risultato è simile a pdftotext, almeno per le poche volte che mi è servito. Il problema è che entrambi non interpretano correttamente alcuni caratteri, per esempio è viene trasformato in 'e e cose del genere. Inoltre ogni tanto vengono visualizzati i caratteri unicode codificati, rettangolino con dentro i numeri etc etc.

----------

