24小时热门版块排行榜    

查看: 2205  |  回复: 28
当前主题已经存档。
当前只显示满足指定条件的回帖,点击这里查看本话题的所有回帖

mabaolin

木虫 (正式写手)

[交流] pdf如何转word[求助成功]

我的pdf文件用adobe reader打开,我选中了几行英文,如何才能把被选的贴到word上呢?谢谢!

[ Last edited by mabaolin on 2006-3-25 at 21:42 ]
成木虫啦
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

xiayum

铜虫 (初入文坛)


小狗(金币+1):多谢参与
PDF文件转DOC方法
方法一:使用Adobe reader 6.0。对于某些pdf的文件,可以选择“文件”——“另存为文本”来实现将pdf文件转化为txt格式的文件。然后粘贴到word里面就可以生成doc格式的文件了。
方法二:利用中文简体版的office2003中自带的一个插件工具Microsoft Office Document Imaging,这个方法网上介绍得很多,兹引述如下;
信息来源:http://article.pchome.net/2004/09/22/27039_3.htm
[PDF变身DOC]
实现工具:Office 2003中自带的Microsoft Office Document Imaging
应用情景:目前国外很多软件的支持信息都使用PDF方式进行发布,如果你没有Adobe Reader,无法查看其内容,如果没有相关的编辑软件又无法编辑PDF文件。我们对微软的DOC文档的编辑最为熟悉,那就转换为DOC格式吧。尽管有些软件也可以完成PDF转换为DOC的工作,但很多都不支持中文,我们利用Office 2003中的Microsoft Office Document Imaging组件来实现这一要求最为方便。
使用方法:
第一步:首先使用Adobe Reader打开待转换的PDF文件,接下来选择“文件→打印”菜单,在打开的“打印”设置窗口中将“打印机”栏中的“名称”设置为“Microsoft Office Document Image Writer”,确认后将该PDF文件输出为MDI格式的虚拟打印文件。
编辑提示:如果你在“名称”设置的下拉列表中没有找到“Microsoft Office Document Image Writer”项,那证明你在安装Office 2003的时候没有安装该组件,请使用Office 2003安装光盘中的“添加/删除组件”更新安装该组件,如图4所示。
第二步:运行Microsoft Office Document Imaging,并利用它来打开刚才保存的MDI文件,选择“工具→将文本发送到Word”菜单,并在弹出的窗口中勾选“在输出时保持图片版式不变”,确认后系统提示“必须在执行此操作前重新运行OCR。这可能需要一些时间”,不管它,确认即可。
编辑提示:目前,包括此工具在内的所有软件对PDF转DOC的识别率都不是特别完美,而且转换后会丢失原来的排版格式,所以大家在转换后还需要手工对其进行后期排版和校对工作。
苦冰案:(1)这种转化方法很方便而且由于是微软自己的,兼容性应该会很好,而且速度也是挺快的,另外在第一步的时候将文件输出为高品质的TIFF文件效果会更好。
(2)但是这种方法仅仅对于文字内容为简体中文的pdf文件有效,对于我们搞文史工作的人来说,这种方法局限性太大。不过我总觉得应该能够对繁体中文转化的,由于我自己机子里面装的简体中文的office,所以在Microsoft Office Document Imaging这个工具的OCR语言选项只有简体中文和英文两种选项,即使把office2003的系统语言换成繁体中文,OCR语言选项里面依然只有简体中文和英文的选项,还是无法实现识别繁体中文的任务。上网寻找微软有没有提供识别繁体中文的插件,只是在台湾微软的下载页面下找到微软为繁体中文版office提供的一个简体中文OCR的辨认引擎,没有能够找到繁体中文的辨认引擎。就此推断,是不是繁体中文版的office2003会有这个繁体中文引擎自带,由于没有找到能用的繁体中文版office2003下载,留待以后再试。
方法三:微软简体中文版office2003没有自带繁体中文的OCR辨认引擎,但是由于它的虚拟打印机提供了TIFF文件的输出(在“打印机”旁边的“设置”里有个“高级”的选项卡可以设置文件输出格式),所以对于一部份繁体中文内容的pdf文件,我们可以采取先将其打印成TIFF格式的文件,然后通过其它OCR软件来进行识别,这些软件中我试用了几种,还是清华文通的OCR9.0比较好,相对识别率比较高,这个软件下载地址为ftp://ftp.math.nankai.edu.cn/pub/win32/tools/ocr/
(可能只有教育网用户才能连接,端口21,匿名就可以访问,用ftp工具下载最好,),还需要一个破解补丁OCR9.0補丁地址:http://www.ihdown.com/soft/2252.htm 。(最下面一個“清华OCR--TH-OCR9.0完全破解”的鏈接有效。不過這個補丁可能是不完全補丁,所以有些功能还是有限制。)[另外网上也有很多地方提供下载这个软件的破解版的,可以用Google去找找]。安装好这个软件以后,就可以用这个软件打开刚才我们保存的TIFF格式的文件,选择好正确的识别语言(我们选着繁体多体)识别就可以得到txt格式的文件了。
苦冰案:(1)这个软件比较好,你还可以对照原文进行校对,比较方便。需要注意的就是要选好识别语言,并且这个软件识别繁体pdf文件后出来的文本存在较多的错误,需要比较精细的校正一下。
(2)这个软件也有不足的地方,尤其是繁体中文,似乎和原始文件的分辨率有关系,比如益智斋主人给我发的几个文件,怎么也不能识别出来,还需要进一步研究一下。
方法四:这可能是最简单的方法了,就是网上有个免费识别的网站 http://www.netocr.com/ 可以帮你免费识别,具体可以去那里看看。
23楼2006-04-22 18:45:52
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
查看全部 29 个回答

dong7220

银虫 (小有名气)

★ ★
哲舟(金币+1):A多谢参与!!
mabaolin(金币+1):谢谢
呵呵,很简单,在pdf中选中后,按ctrl+c键,之后到word文档中按ctrl+v键就可以了
论坛中有关于pdf转word的帖子,搜索一下看看
有关的软件也很多,这里不详细介绍了
2楼2006-03-19 21:49:21
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

hks1976

木虫 (正式写手)

pdf专业转 直接可以将全文存为word格式
3楼2006-03-19 21:55:41
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

sbttmxk

金虫 (著名写手)


哲舟(金币+1):A多谢参与!!
用Adobe Acrobat 7.0 Professional打开pdf文档,在pdf中选中->复制->到word文档中粘贴。
Do one thing, do it well. http://www.nanost.net/bbs/index.php
4楼2006-03-19 21:55:57
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
普通表情 高级回复(可上传附件)
信息提示
请填处理意见