返回列表 发帖

[帮助] 小说有关工具.v2011.6

本帖最后由 马丁 于 2011-6-25 21:10 编辑

I will continue updating it as long as you love me...


建议用模式,1280x900 以上的窗口阅读本文

【简介】
起点vip图片,晋江vip文本,去除隐藏文字,通用网页截图,小说下载工具,其它
这里所列的和工具方法,今日确定有效。


【局限】
仅以今日的起点晋江为例,方法不一定适用于所有网站,和日后技术升级的qd和jj


【起点vip图片】

Firefox + addon::NoScript (Copy不能复制的文字,直接下载vip图片)

这是个 打开/关闭 指定网站 javascript 的开关。起点的script一方面在网页中禁止右键功能,防止复制文字,另一方面enable键盘上的箭头键来辅助浏览 (eg. → 下一章;Enter 回到目录页),使用这个开关,可以随时打开/关闭script,网页会随之刷新。

关掉起点的script后,vip图片直接可以另存为,注意重命名的时候加上gif后缀就行,小心四个角上的数字id,应去掉或打上马赛克。


单击右键,选择“save image as...” (图片另存为)





【晋江vip文本】
1. 或 2. 任选
1. Opera
2. Firefox + addon::User Agent Switcher (记住user agent switcher 这个插件吧,如果你也爱玩手机的话。)



在浏览器里访问 http://wap.jjwxc.net

登录后,依次访问“我的晋江”,“收藏”等找到要下载的书,点击进入章节浏览

在阅读页面的顶部,可以点选“设置”,然后把显示字数设为“全章”,就可以一次性看到所有的文字内容,可以轻松复制、转贴。



【去除隐藏文字】

晋江、起点,和很多论坛为了防止转贴,在纯文本里夹杂了很多隐藏的不规则字符,当复制、转贴的时候就会显示出来,很干扰阅读,丫丫也是哦

方法1. (感谢 thisummer) Opera v11.11.build2109 复制时可以直接去除一些网站的隐藏字符,但对于晋江的“的[a-z,0-9]+?”无效。

方法2. Firefox + addon::CleanHide



方法3. Firefox + addon::FoxReplace 这个工具的作用远远不止这一点儿,有兴趣可以自己琢磨
例如去除yayabay文本段落里的隐藏字符:
replace(RE): <span style="display: none;">.+?</span>
with:

replace(RE): <font style="font-size: 0px; color: rgb\(238, 255, 238\);">.+?</font>
with:


处理后再复制,就没有干扰字符了。

【通用网页截图】
Firefox + addon::Abduction!

* 晋江vip特例:晋江最近的一次升级,在vip中引入flash,直接拍屏会有问题,所以需要辅以先前提到的 addon::User Agent Switcher,将 Firefox 的 user agent 设为 iPhone 再刷新书页。

* 起点截屏,需要配合Firefox + addon::NoScript 以开启网页右键功能,参见前面的说明。

可以直接截取选定区域的网页内容。在网页内部单击右键,选择save page as image... (网页另存为图片...),则出现截屏框和页面顶部的存储按钮,调整截屏框位置后点 save selection 按钮保存。





【小说下载工具】

1. 魔爪 (适合晋江自动订阅的用户)

可以下载所有章节的文本内容并自动生成为整本的txt文件,想在txt连载区挣分的同学可以采用。
a. 如下图:先按照步骤 1-4 进行网站的cookie设置

b. Ctrl+N,新建下载任务,把要下载的书的目录页网址填入



图中的 5. 处可以设置是否下载作者有话说

* 这个软件对于晋江vip文本的整本下载特别方便,但如果隔章购买,操作很不友好,所以适合全部订阅的用户

2. 小说阅读下载器
这个软件很有用,整本或单章下载操作都很方便,使用方法也是Ctrl+N新建下载任务,填入 目录页地址 和 书名 开始下载

a. 如果在丫丫看到没有脱水的起点小说想快速看,可以去 sodu.org 查一下哪儿有,然后在 小说阅读下载器 里下载,可以快速全本阅读

b. 晋江、起点的非v章节,用它下载很方便,适合想搬文挣分的同学。注意它的阅读快捷键:→ 下一章,下载后连续转贴很方便

c. 它可以制作txt,pdf等文件 (题外话:结合iPhone,把txt生成目录设为dropbox的共享目录,一键生成txt,拿起iPhone用goodreader就可以看)

* 它的字符过滤有少许问题,遇到比较喜欢用文字表情符号的文,有时候会被截断,eg. 《微微一笑很倾城》中的某章,但这个问题不严重。


【脱水贴转txt】
使用的工具是powergrep,利用regular expression (正则表达式) 对文本进行处理,它可以保存一系列的动作,所以可以连续处理。
a. 把脱水贴 去除隐藏字符(参见前面介绍的方法)、 Ctrl+a、Ctrl+c、Ctrl+v 到一个文本文件里 (所以俺在知否楼里贩卖的文本文件还是有很多汗水的)

b. 打开powergrep,在左侧的目录树中找到这个文本并勾选,在右侧选择sequence,载入此处的pgsa文件,再点excute,就可以去除大部分无关内容,只需整理首帖 (比如知否有很多如何看脱水的说明) 就可以了
* 06/06/2011论坛升级,该方法可能失效,俺如果找到需要处理的书,会更改此附件




【图片转换文本】
这里要写的是废话,俺只想说:汉字的识别还有很长的路要走,所以对付起点,还是等待热情的手打团吧

俺试过的ocr软件:Office自带的Document Imaging,Acrobat,CAJ Viewer,Abbyy,还有一个R开头的想不起名字的。


【语音朗读文本】

英文朗读引擎有很多,小说下载阅读器 里就带了一个,有朗读英文的功能

中文的据说 科大讯飞 的做得最好,我试过它的PC版和手机版,心脏不好的同学就不要肖想了,该断不断该连不连,听了只觉一口气吊在喉咙口,气若游丝命悬一线。

附件: 您需要登录才可以下载或查看附件。没有帐号?注册
1

评分人数

    • binky: 这么好的帖子我竟然才看到……金钱 + 20 鲜花 + 10
生当做明狼,死亦葬墨香
鲜花鸡蛋赠送记录

谢谢版主介绍的工具,关于中文语音朗读引擎,我有更好的,如果有意,希望合作。为了证实我所言不虚,特地把版主帖子中的最后一段话(如下)转换成mp3并附上,请您听听效果。

--------------------------------
【语音朗读文本】

    英文朗读引擎有很多,小说下载阅读器 里就带了一个,有朗读英文的功能

    中文的据说 科大讯飞 的做得最好,我试过它的PC版和手机版,心脏不好的同学就不要肖想了,该断不断该连不连,听了只觉一口气吊在喉咙口,气若游丝命悬一线。
--------------------------------
附件: 您需要登录才可以下载或查看附件。没有帐号?注册
感觉和 文语通 合成的效果差不多,anything special?
生当做明狼,死亦葬墨香
本帖最后由 小神童 于 2011-6-11 14:06 编辑

根据版主建议,把原来的内容编辑了一下,换成一个播音主持专业绕口令练习的mp3,以测试声音朗读引擎的效果,有兴趣的可以听一下。
播音主持专业绕口令练习.mp3
本帖最后由 小神童 于 2011-6-4 15:00 编辑

补充一下,AnySpliter是一个文件分割、合并工具,这个工具是绿色软件,下载后就可以使用,不需要安装,体积非常小,只有56K,以下是截图。
附件: 您需要登录才可以下载或查看附件。没有帐号?注册
谢谢你的推荐,有时间会去试试,俺不喜欢学英语只喜欢看小说
有点儿好奇,你是这个软件的 创作/经营 人员吗?还是间接的推介者?纯属好奇
1. 文件放在fileserve上,不是公司自己的网站上 ,好吧,俺从copyright角度理解
2. 文件拆得这么细小,你不拆也可以的呀,为啥要这么麻烦呢
3. 拆分文件用很奇怪的方法,如果不用winrar,7zip也是免费的呀
所以建议重新上传整个儿文件,并编辑原帖,也许对你的推广计划会有帮助。
继续好奇,有手机版么?还有说了半天这个软件叫什么名字呀?
生当做明狼,死亦葬墨香
谢谢你的推荐,有时间会去试试,俺不喜欢学英语只喜欢看小说
有点儿好奇,你是这个软件的 创作/经营 人员吗 ...
马丁 发表于 2011-6-5 11:18


回版主:我是这个软件的作者,而且这个软件是免费的。
1。我自己没有个人网站,所以文件放在网盘上是为了方便大家下载。
2。文件拆的细小是方便大家下载,因为有些网友所在地方的带宽有限制,下载较大文件时会卡。
3。这个文件拆分工具同这方便,只需要填上把整个文件分成多少份就可以了,而winrar和7zip需要先算拆成多少字节,麻烦。

目前还没有手机版,软件在测试收尾中,软件的名称还没有最终确定。
你可以 finalise 下,然后发到 it 数码版,最好能有可以用的东西。

我曾经用 文语通 给我妈听小说,听长一点还是难受,最后只好放弃……

期待你有好作品出手

===========
0day 规范,15M1个压缩包带sfz校验,你让俺这种没买V又带宽15MB/s的情何以堪哪π_π
另外 google code 也有挺大的 space
生当做明狼,死亦葬墨香
我想问问,我用小说下载阅读器为什么只能下载作者有话说啊,VIP的正文部分还是没有。章节买了的。
我想问问,我用小说下载阅读器为什么只能下载作者有话说啊,VIP的正文部分还是没有。章节买了的。
axurui 发表于 2011-6-15 20:37



    我一般只拿它下载起点晋江的非v部分,和其他书库的图片部分,主要用于阅读,不用于保存。
回复 10# 马丁


    恩,非VIP章节都是正常下载的,VIP的就只有作者有话说部分,比较奇怪。
好强大的帖子.太感谢楼住了
马丁,原来尼是技术型人才,IT小白膜拜ing。。
楼主的帖子看得俺云山雾罩,俺这电脑小白只能飘过
【去除隐藏文字】

晋江、起点,和很多论坛为了防止转贴,在纯文本里夹杂了很多隐藏的不规则字符,当复制、转贴的时候就会显示出来,很干扰阅读,丫丫也是


举手,俺发现“55ab综合社区 -- 蚂蚁手打团官方论坛”的即时更新文字版,如用opera访问,复制、转贴时没有隐藏文字,不用另行处理哈
别忘了领取每日红包哈, 有2~10金说    如喜欢此文,请帮忙去 1 楼顶一个吧 ^^
返回列表