# [0916更新]pdf2htmlEX: 高保真PDF至HTML转换器

## coolwanglu

[0916 更新]

新增两个demo

http://coolwanglu.github.com/pdf2htmlEX/demo/cheat.html

http://coolwanglu.github.com/pdf2htmlEX/demo/geneve.html

* 完全去掉了boost

* 降低了C++11的依赖，GCC最低支持至4.4.6

* 支持超链接（文内链接精确到页）

* 解决了一部分字体编码问题

先上Demo:http://coolwanglu.github.com/pdf2htmlEX/demo/demo.html

还有大家可能会关心的CJK http://coolwanglu.github.com/pdf2htmlEX/demo/chn.html

项目主页: https://github.com/coolwanglu/pdf2htmlEX

传统pdf2html有两种：

一种相当于pdf2text加一些比较弱的格式，基本跟pdf2text也差不了多少

另一种是把所有渲染成图片然后嵌到一个html,结果是文字信息都丢失（不能选择，拷贝），生成的文件还巨大。

pdf2htmlEX结合二者优点，既保留了文字，又保留了格式。

具体来说有如下特性

1.从pdf提取字体

2.保证渲染准确性，针对web进行优化（包括减少文件大小，文字行合并，（为HTML文字选择）字体重编码等等）

3.其他内容用图片显示

4.单文件输出，一个HTML搞定一切

下载编译安装：

依赖：

较新的poppler (0.20.3)，自己编译时记得加参数--enable-xpdf-headers

fontforge，需要git版本 https://github.com/fontforge/fontforge，因为有一些功能/bug是我开发pdf2htmlEX时提交的

boost c++库，具体依赖的组件见项目主页

cmake和支持c++11的gcc

如果哪位觉得这个小工具还不错，愿意为gentoo打包，请联系我，不胜感激！

欢迎各种意见，建议，fork，bug reportLast edited by coolwanglu on Sun Sep 16, 2012 2:12 pm; edited 1 time in total

----------

## Bezetek

效果不错， 支持一下

----------

## microcai

gentoo-zh 已收录 ：）

----------

## coolwanglu

 *microcai wrote:*   

> gentoo-zh 已收录 ：）

 

Thanks!

那我在主页上应该怎么引用呢？

----------

## microcai

 *coolwanglu wrote:*   

>  *microcai wrote:*   gentoo-zh 已收录 ：） 
> 
> Thanks!
> 
> 那我在主页上应该怎么引用呢？

 

gentoo-zh overlay 已经收录。

添加 gentoo-zh overlay (如果还没添加的话) 

layman -a gentoo-zh

然后安装  pdf2htmlEX

emerge pdf2htmlEX

----------

