# [pdftotext]Sonderzeichen werden nicht korrekt dargestellt

## Finswimmer

Hi!

Text.pdf: PDF document, version 1.3

pdftotext -raw -eol dos -nopgbrk Text.pdf

Wandele ich diese Datei mit pdftotext um, so zerschießen sich die Sonderzeichen.

s.Ã¶.ö.g

s.ÃŒ.ü.g

s.Ã€.ä.g

s.Â».".g

s.Â«.".g

s.Ã.ß.g

Damit kann ich per sed die meisten Zeichen fixen. Leider hat das Ü und das ß das gleiche Zeichen, sodass oft "ßberschrift" statt "Überschrift" zu lesen ist.

-enc: Da weiß ich leider nicht, welche Encodings ich testen könnte. 

UTF-8 bringt nichts. 

Latin-1 gibt es nicht..

Habt ihr eine Idee?

Danke

Tobi

----------

## think4urs11

erste blöde Idee:

ein ß kann niemals am Anfang eines Wortes stehen, d.h. wenn ein ' ' direkt davor steht ist es sehr wahrscheinlich ein Ü und umgekehrt, sollte daher trivial sein die sed-statements entsprechend anzupassen.

... jedenfalls solange bis Unicode 5.1 wirklich greift *g*

----------

## Knieper

 *Finswimmer wrote:*   

> 
> 
> -enc: Da weiß ich leider nicht, welche Encodings ich testen könnte. 
> 
> UTF-8 bringt nichts. 
> ...

 

"Latin1" aber oder ASCII7, Symbol, ZapfDingbats, UTF-8 und UCS-2. Du kannst auch selbst eine Kodierungsdatei angeben.

----------

## Finswimmer

 *Knieper wrote:*   

>  *Finswimmer wrote:*   
> 
> -enc: Da weiß ich leider nicht, welche Encodings ich testen könnte. 
> 
> UTF-8 bringt nichts. 
> ...

 

Ach..Ich bin zu müde.

Latin1 haut natürlich super hin.

Danke!

Tobi

----------

