本帖最后由 马丁 于 2011-6-25 21:10 编辑
I will continue updating it as long as you love me...
建议用模式,1280x900 以上的窗口阅读本文
【简介】
起点vip图片,晋江vip文本,去除隐藏文字,通用网页截图,小说下载工具,其它
这里所列的和工具方法,今日确定有效。
【局限】
仅以今日的起点晋江为例,方法不一定适用于所有网站,和日后技术升级的qd和jj
【起点vip图片】
Firefox + addon::NoScript (Copy不能复制的文字,直接下载vip图片)
这是个 打开/关闭 指定网站 javascript 的开关。起点的script一方面在网页中禁止右键功能,防止复制文字,另一方面enable键盘上的箭头键来辅助浏览 (eg. → 下一章;Enter 回到目录页),使用这个开关,可以随时打开/关闭script,网页会随之刷新。
关掉起点的script后,vip图片直接可以另存为,注意重命名的时候加上gif后缀就行,小心四个角上的数字id,应去掉或打上马赛克。
单击右键,选择“save image as...” (图片另存为)
【晋江vip文本】
1. 或 2. 任选
1. Opera
2. Firefox + addon::User Agent Switcher (记住user agent switcher 这个插件吧,如果你也爱玩手机的话。)
在浏览器里访问 http://wap.jjwxc.net
登录后,依次访问“我的晋江”,“收藏”等找到要下载的书,点击进入章节浏览
在阅读页面的顶部,可以点选“设置”,然后把显示字数设为“全章”,就可以一次性看到所有的文字内容,可以轻松复制、转贴。
【去除隐藏文字】
晋江、起点,和很多论坛为了防止转贴,在纯文本里夹杂了很多隐藏的不规则字符,当复制、转贴的时候就会显示出来,很干扰阅读,丫丫也是哦 。
方法1. (感谢 thisummer) Opera v11.11.build2109 复制时可以直接去除一些网站的隐藏字符,但对于晋江的“的[a-z,0-9]+?”无效。
方法2. Firefox + addon::CleanHide
方法3. Firefox + addon::FoxReplace 这个工具的作用远远不止这一点儿,有兴趣可以自己琢磨
例如去除yayabay文本段落里的隐藏字符:replace(RE): <span style="display: none;">.+?</span>
with:
replace(RE): <font style="font-size: 0px; color: rgb\(238, 255, 238\);">.+?</font>
with:
处理后再复制,就没有干扰字符了。
【通用网页截图】
Firefox + addon::Abduction!
* 晋江vip特例:晋江最近的一次升级,在vip中引入flash,直接拍屏会有问题,所以需要辅以先前提到的 addon::User Agent Switcher,将 Firefox 的 user agent 设为 iPhone 再刷新书页。
* 起点截屏,需要配合Firefox + addon::NoScript 以开启网页右键功能,参见前面的说明。
可以直接截取选定区域的网页内容。在网页内部单击右键,选择save page as image... (网页另存为图片...),则出现截屏框和页面顶部的存储按钮,调整截屏框位置后点 save selection 按钮保存。
【小说下载工具】
1. 魔爪 (适合晋江自动订阅的用户)
可以下载所有章节的文本内容并自动生成为整本的txt文件,想在txt连载区挣分的同学可以采用。
a. 如下图:先按照步骤 1-4 进行网站的cookie设置
b. Ctrl+N,新建下载任务,把要下载的书的目录页网址填入
图中的 5. 处可以设置是否下载作者有话说
* 这个软件对于晋江vip文本的整本下载特别方便,但如果隔章购买,操作很不友好,所以适合全部订阅的用户 。
2. 小说阅读下载器
这个软件很有用,整本或单章下载操作都很方便,使用方法也是Ctrl+N新建下载任务,填入 目录页地址 和 书名 开始下载
a. 如果在丫丫看到没有脱水的起点小说想快速看,可以去 sodu.org 查一下哪儿有,然后在 小说阅读下载器 里下载,可以快速全本阅读
b. 晋江、起点的非v章节,用它下载很方便,适合想搬文挣分的同学。注意它的阅读快捷键:→ 下一章,下载后连续转贴很方便
c. 它可以制作txt,pdf等文件 (题外话:结合iPhone,把txt生成目录设为dropbox的共享目录,一键生成txt,拿起iPhone用goodreader就可以看)
* 它的字符过滤有少许问题,遇到比较喜欢用文字表情符号的文,有时候会被截断,eg. 《微微一笑很倾城》中的某章,但这个问题不严重。
【脱水贴转txt】
使用的工具是powergrep,利用regular expression (正则表达式) 对文本进行处理,它可以保存一系列的动作,所以可以连续处理。
a. 把脱水贴 去除隐藏字符(参见前面介绍的方法)、 Ctrl+a、Ctrl+c、Ctrl+v 到一个文本文件里 (所以俺在知否楼里贩卖的文本文件还是有很多汗水的)
b. 打开powergrep,在左侧的目录树中找到这个文本并勾选,在右侧选择sequence,载入此处的pgsa文件,再点excute,就可以去除大部分无关内容,只需整理首帖 (比如知否有很多如何看脱水的说明) 就可以了 * 06/06/2011论坛升级,该方法可能失效,俺如果找到需要处理的书,会更改此附件
【图片转换文本】
这里要写的是废话,俺只想说:汉字的识别还有很长的路要走,所以对付起点,还是等待热情的手打团吧
俺试过的ocr软件:Office自带的Document Imaging,Acrobat,CAJ Viewer,Abbyy,还有一个R开头的想不起名字的。
【语音朗读文本】
英文朗读引擎有很多,小说下载阅读器 里就带了一个,有朗读英文的功能
中文的据说 科大讯飞 的做得最好,我试过它的PC版和手机版,心脏不好的同学就不要肖想了,该断不断该连不连,听了只觉一口气吊在喉咙口,气若游丝命悬一线。
|