# [Script] Website2Pdf

## ZeLegolas

Pourquoi faire d'un site web un PDF ? 

Dans mon cas c'est tout simplement parce que j'ai pas nécessairement le temps de lire en ligne certaines documentations qui sont fournis seulement sous forme HMTL. En le mettant sous forme d'un PDF je peux le lire tranquillement pendant mes trajets.

Les outils

Vous avez besoin d'installer les outils suivants :

```
# emerge httrack htmldoc
```

Le script

Voici le script :

```
#!/bin/bash

if [[ $# -eq 0 ]]

then

 echo "Syntaxe : "

 echo " ${0:2} [URL] [Nom du PDF] [options pour httrack]"

 exit

fi

mkdir "$2"

cd "$2"

httrack --update "$1" $3

gawk '{ if ($0 ~ /.*\.htm.*/ && $0 !~ /.*index.htm.*/) print $0 }' hts-cache/new.lst | sed "s/\[\(.*\.htm.*\)\]/\1/" > Files.lst

cat Files.lst | xargs htmldoc --webpage --embedfonts -t pdf14 -f ../"$2.pdf"

```

Exemple d'utilisation :

```
./Website2Pdf "http://www.gnu.org/software/libc/manual/html_node/index.html" "The GNU C Library"
```

Vous allez obtenir "The GNU C Library.pdf"

----------

## kopp

Arrête moi si je dis une bêtise, mais tu perds la navigation par hyperlien dans ce cas-là, non ?

Ce serait pas plus facile de juste aspiré la partie du site qui t'interesse et la garder en html ?

----------

## ZeLegolas

 *kopp wrote:*   

> Arrête moi si je dis une bêtise, mais tu perds la navigation par hyperlien dans ce cas-là, non ?
> 
> Ce serait pas plus facile de juste aspiré la partie du site qui t'interesse et la garder en html ?

 

Non on ne perd pas la navigation hyperlien. C'est d'ailleurs très pratique car quand je recherche quelque chose dans GNU C Library je cliques sur le sujet qui m'intéresse et je vais automatiquement sur la bonne page, et ainsi de suite jusqu'à celle qui m'intéresse. Il y a même un "Content". Avec KPDF sous Kde ca marche vraiment bien  :Smile: .

Et si tu veux seulement garder le html tu as le repertoire créé avec le même nom que celui de ton fichier PDF qui contient tous le html

Une petite remarque :

Ce script fonctionne bien avec des sites du type de la GNU C Library. Par contre avec des sites pleins de javascript (site de type Web 2.0) y a des grandes chances que ca donne pas grand chose. Dans ce cas la vaux mieux effectivement garder le répertoire (celui portant le même nom que le pdf) avec tous le html. Il faudra sans doute aussi affiner la selection des pages (voir [options pour httrack]) si l'on ne veux pas, par exemple, télécharger tous messages du forum du site. Pour plus d'info pour le filtrage lire la doc de httrack.

----------

## kopp

Ok, si tu gardes la navigation, ça a du sens. Et c'est alors effectivement plus pratique, vu qu'on n'a plus qu'un unique fichier  :Smile: 

----------

## SanKuKai

Ah il est bien chouette ce petit script.   :Smile: 

Moi qui me tappe plus de deux heures de transport en commun quotidiennement (mon dieu que j'aime Paris...), je saurai en faire bon usage.   :Wink: 

Merci beaucoup.

----------

## Temet

Ah ben il le fait mieux que Konqueror alors, vu qu'il garde la navigation (énorme ça).

Merci tout plein, si j'en ai besoin un jour (ça arrivera), je saurai ou le trouver  :Wink: 

----------

## ZeLegolas

Bonjour a vous,

Si vous etes interesse par une tablette eInk il y a deux fournisseurs principaux : Sony ou Amazon. Le pb c'est qu'ils ont tendance a vouloir faire des produits fermes avec DRM ou formats proprietaires.

J'en ai trouve un autre le Hanlin eReader qui semble interessant car il est base sur un noyau linux et supporte pas mal de formats. De mon cote je suis en train de me tater si je vais pas en commander un. Voici le lien : http://www.jinke.com.cn/Compagesql/English/embedpro/index.asp

Ils sont associe a un projet OpenSource : http://openinkpot.org/

Autres liens interessants :

 - format open ePub : http://en.wikipedia.org/wiki/Epub

 - Dans wikipedia : http://en.wikipedia.org/wiki/Hanlin_eReader

Si vous avez deja une tablette eInk regardez dans le site de Openink.org sur le materiel supporte. Vous pourrez peut etre installer la version opensource.

L'avantage de ce genre de materiel avec sa version opensource c'est de pouvoir lire des formats sans avoir a les convertir a un format propritaire qui generalement empeche de lire les fichiers dans ces formats sur un autre appareille de meme type ou sur un autre ordinateur (cas des DRM) que celui ayant servi a telecharger les documents sur la tablette eInk.Last edited by ZeLegolas on Thu Mar 19, 2009 3:38 pm; edited 1 time in total

----------

## SanKuKai

 *ZeLegolas wrote:*   

> 
> 
> Tu devrais te prendre un truc comme le Sony Reader pour lire tes pdf. J'ai un ami qui en a un et c'est pas mal , pas lourd, fatigue pas les yeux, bonne autonomie, on lit aussi bien qu'un livre. A mon avis ce genre de périphérique peut remplacer les livres. Faire attention à prendre des produits sans DRM et sans formats de fichiers propriétaires. 
> 
> 

 

Ouaip, j'avais déjà entendu parler de ces petites bêtes, mais je ne m'étais pas penché dessus plus que ça.

Effectivement, ça me semble être un bon investissement particulièrement bien adapté à mes besoins.  :Smile: 

Merci du tuyau.

----------

## Enlight

C'est bon ça!!!!

----------

## kwenspc

Sympa en effet  :Very Happy: 

(hum faudrait juste rendre le script plus propre avec la gestion des options via getopt et gérer les erreurs aux commandes via $?)

----------

