24小时热门版块排行榜    

查看: 988  |  回复: 12
当前主题已经存档。

snail462

铜虫 (小有名气)

[交流] 关于google print下载方法的讨论与总结(原创体会)

最近为了找本外文书,在netlibrary上没有找着,于是投向风头正旺的google print,第一次与之亲密接触。研究了几天,在接下来几天把一些收获说一下吧
什么是google print
google print是Google近来增加了新的搜索引擎,其中包含相当数量的图书,据说是和多家大型图书馆合作,目标是在10年内建成世界上最大的网络图书馆。但是google的目的并不是给人下载,而是供读者简单检索以向出版商和书店购买该书,因此也没有任何收费项目。其图书目前采取的是图片的方式,大部分图书均包含所有页面。

在打开 google print的页面输入查找的关键字,搜索。得到包含该关键字的ebook,选择一本书进入。(感觉google pring十分不错,同一关键字在google pring里的书比netlibrary多,至少在偶查的这一领域,也可能是偶的netlibrary的权限问题吧 :p)
因为版权问题,google print的书并不是每一页都能看,它只允许你浏览一部分(官方说法是20%多吧)。而且书中的每一页均是gif图片,在一般的浏览器中受到保护,只能看,不能下载。
所以对每个找书的人来说,现在的问题就是:先:能看到的页能下载下来吗?进而:不能看到的页能通过什么方法看到吗?

对于第一个问题,可以说是已经解决(在这里,顺便感谢网络,感谢网络中的hacker们,他们的所作为多数人创造了极大的便利,当然google和那些图书公司不爽的说),方法用很多,试用后,感觉最方便的还是用firefox及几个java插件的方法了。
步骤:
1.安装firefox;
2.用firefox打开网址
http://ftp.mozilla.org/pub/mozil ... monkey-0.3.5-fx.xpi
选择信任站点,安装
3.重新打开浏览器firefox,打开地址
http://diveintomark.org/projects/butler/
右击链接Download version 0.3 of April 14, 2005,选择install user script
4.重新打开浏览器firefox,检索http:// print.google.com/
打开电子书。右击图片,可以选择保存了。yeah!!!(有人说用my ie的viewpage插件,偶用过,远没有这个方便)


接下来解决第二个问题:

如何看完整本书

因为goole print限制了上下只能看三页,达到三页后,到下一页的按钮会失效。

一个相当笨却行之有效的方法是在所能达到的最后一页搜寻某单词检索,在结果中找到该页,打开可以继续向下看。亦即:

一开始打开第一页,于是可以达到第三页,在第三页搜寻某单词,检索后返回若干结果,找到第三页,打开,于是可以到达第五页,以此类推。

但这样的方法都太费时费力。

通过偶的仔细揣摩,偶发现可以通过组合关键字利用左边的search in the book来解决这个问题。search in the book这个工具可以在在书内检索,把符合关键字的页面给出链接,所以,我们可以找几个这个书的常出现的词,组合起来,来达到覆盖所有页面的目的。
比如:market mircostructute theory这本书
常用的关键字有:market,stock,information,spread,volatility等,其实有个窍门,如果这本书定量的东西比较多,大可用数字来作关键字覆盖书,经实验,用1 2 3 4 5就可以覆盖大半本书(好像现在数字也被屏蔽了,真可惜啊)(这里有个问题,不能采用太常见的英文单词,如:is the a 等,google会忽略它们的)
这样,我用market OR 1 OR 2 OR 3 OR 4 OR 5就把288页的整本书全覆盖了,这样就克服了google的上下三页的限制。(令人汗的是,在国外一个讨论google print的论坛上,看到别人发现一个非常好玩的bug:只要在search in the book工具栏里输入200,不管任何书,都可以把页面链接全显示出来。我已经检验过,绝对管用,不知道是不是google内部人故意留的)

找到每页的链接,但这时也很难把书看完,大概看个10页左右,会提醒你输入你的google帐号(包括gmail等服务的帐号均可),输入后,又可以看个20 左右。然后会再跳出页面限制你继续看。这时就没有办法了。因为其中涉及到goole的cookie,如果不更改cookie,你将只能等待24小时,以使得其失效。相关的google cookie原理可参见http://www.kuro5hin.org/story/2005/3/7/95844/59875,据该文作者说,他通过软件修改cookie等方法可以下载google的整本书。可是没有给出相关软件。
但是经过偶一下午的努力,歪打正着,发现一个几乎可以看全部允许页面的方法(不知是否别人早已发现,否则,就见笑了)。即:通过使用不同的google的帐号。为此,我注册了10个以上的gmail,当一个帐号下载受限时,注销,换另外一个上,每个帐号可下20左右,于是,这样基本可把google允许下的所有页面下载完,如那本market microstructure theory,共288页,偶下了能下的250多页(为什么说是google允许下的全下了呢,因为google的每本书都有一部分页面是怎么也不让浏览的,页面链接提示为Sorry, this page's content is restricted.每本书大概10%-15%左右)
好了,到这里,基本就把偶的google print的下载方法说完了,很可惜每本书最终不能完全下载,如果那位高手能攻克,那可是偶们这些穷人的福音了,期待那一天的到来  

--over

[ Last edited by snail462 on 2005-10-24 at 16:16 ]
回复此楼
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

steincat

荣誉版主 (知名作家)

天啊,小木虫

1

难题还是没解决  
Lifeisdifficult.
2楼2005-08-16 16:35:11
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

zhanliuson

金虫 (小有名气)

0.5

造福论坛,支持支持!!
3楼2005-08-16 23:06:31
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

buyiyijie

木虫 (著名写手)

1

希望大家继续讨论。
花明柳暗绕天愁,上尽重城更上楼。欲问孤鸿向何处,不知身世自悠悠。——【夕阳楼】李商隐
4楼2005-08-17 07:51:48
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

raindrop12

木虫 (小有名气)

楼主和我目前的能力同步了。
5楼2005-08-18 19:08:26
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

ydl58

金虫 (初入文坛)

1

通过使用不同的google的帐号的方法是不是失效了,第一天行,第二天就不行了.
6楼2005-08-23 01:16:51
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

snail462

铜虫 (小有名气)

没有失效啊,一个帐号在24小时之内只能下载20多页左右,到第二天又可以使用(cookies里面决定了的)
7楼2005-08-24 11:10:09
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

1

8楼2005-08-24 12:31:17
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

hy518880

捐助贵宾 (小有名气)

1

非常感谢楼主分享!
9楼2005-08-24 23:45:34
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖

gable

金虫 (小有名气)

一开始打开第一页,于是可以达到第三页,在第三页搜寻某单词,检索后返回若干结果,找到第三页,打开,于是可以到达第五页,以此类推。

上述方法,打不开第4页
10楼2005-08-26 15:02:13
已阅   回复此楼   关注TA 给TA发消息 送TA红花 TA的回帖
相关版块跳转 我要订阅楼主 snail462 的主题更新
普通表情 高级回复 (可上传附件)
信息提示
请填处理意见