现在做Heritrix抓取,由于java版本之类的,我选择用了3.1,可是大部分的资料都是介绍1.14的,太让人生气,尤其一个最简单的功能:让保留的文件是和这个域名下有关的文件,不要被js那些抽取的链接又访问到其他站点抓取。在1.14版本,已经非常多的扩展代码等,可是完全和3.1不同。
在这个前提下,我感觉是可以写个扩展替换的,我这里直接再源码中修改了,所改动的文件是 org.archive.crawler.postprocessor.CandidatesProcessor
写道
protected boolean shouldProcess(CrawlURI puri) {
//return true;
String uris;
uris=puri.toString();
//System.out.println("======>2"+uris);
if (uris.contains("**域名 关键字等")){
return true;
}
return false;
}
//return true;
String uris;
uris=puri.toString();
//System.out.println("======>2"+uris);
if (uris.contains("**域名 关键字等")){
return true;
}
return false;
}
我也搞不清true false具体代表什么,代码结果显示false是不执行抓取,true是执行抓取
相关推荐
heritrix3.0/3.1官方手册 原版为英文 在此基础做了部分翻译
heritrix3.1的默认配置,类之间的关系。
heritrix3.1.0网络爬虫源码包,包含src和dist
heritrix-3.1.0 最新官网jar包。包括heritrix-3.1.0-dist.zip包与heritrix-3.1.0-src.zip包。是爬虫神器
Heritrix 3.0 and 3.1 User Guide Heritrix 3.x API Guide 3.X发布包括一个新的基于Spring-container的设置系统和仅针对web service的浏览器和远程控制界面。 3.X移到新的模型,在单一作业目录下的单一作业...
heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置
Heritrix是按多线程方式抓取的爬虫,主线程把任务分配给Teo线程(处理线程),每个Teo线程每次处理一个URL。Teo线程对每个URL执行一遍URL处理器链。URL处理器链包括如下5个处理步骤。整个流程都在图2.1中。 (1)预取链...
在/Heritrix1/src/org/archive/crawler/Heritrix.java启动之后,访问https://localhost:8089登录admin密码admin直接用
按照这个步骤安装绝对会让你安装成功的。步骤非常的清晰。Heritrix是一个不错的选择。网络爬虫,更快更好的帮你捕捉到你想要的网页
Heritrix是IA的开放源代码,可扩展的,基于整个Web的,归档网络爬虫工程 Heritrix工程始于2003年初,IA的目的是开发一个特殊的爬虫,对网上的 资源进行归档,建立网络数字图书馆,在过去的6年里,IA已经建立了400...
heritrix系统使用、一个ppt 介绍heritrix的基本概念、以及原理知识
包含: heritrix-3.1.0-dist.zip heritrix-3.1.0-src.zip 官网下载地址。
heritrix1.14.4的源码包,包含heritrix1.14.4.zip和heritrix1.14.4-src.zip。heritrix是一种开源的网络爬虫,用于爬去互联网中的网页。如何配置和使用heritrix爬虫,请移步:...
Heritrix使用详解与高级开发应用 Heritrix开发应用详细
爬虫时我们会使用heritrix,搭建工程时要导入这些jar包,该jar包是1.14.0版本的。
介绍了heritrix爬虫安装和部署,以及运行示例和常见错误
heritrix-1.14.2.zip是一个开源项目
heritrix学习源码和资料
heritrix heritrix heritrix heritrix heritrix heritrix
Heritrix 是一款基于JAVA的开源的网络爬虫框架,亲自动手记录