`

Heritrix3.1 过滤url

阅读更多

现在做Heritrix抓取,由于java版本之类的,我选择用了3.1,可是大部分的资料都是介绍1.14的,太让人生气,尤其一个最简单的功能:让保留的文件是和这个域名下有关的文件,不要被js那些抽取的链接又访问到其他站点抓取。在1.14版本,已经非常多的扩展代码等,可是完全和3.1不同。

 

在这个前提下,我感觉是可以写个扩展替换的,我这里直接再源码中修改了,所改动的文件是 org.archive.crawler.postprocessor.CandidatesProcessor

 

写道
protected boolean shouldProcess(CrawlURI puri) {
//return true;
String uris;
uris=puri.toString();
//System.out.println("======>2"+uris);
if (uris.contains("**域名 关键字等")){
return true;
}
return false;
}

 

我也搞不清true false具体代表什么,代码结果显示false是不执行抓取,true是执行抓取

0
1
分享到:
评论

相关推荐

    heritrix3.1 官方指导手册

    heritrix3.0/3.1官方手册 原版为英文 在此基础做了部分翻译

    heritrix 3.1

    heritrix3.1的默认配置,类之间的关系。

    heritrix3.1

    heritrix3.1.0网络爬虫源码包,包含src和dist

    heritrix-3.1.0 最新jar包

    heritrix-3.1.0 最新官网jar包。包括heritrix-3.1.0-dist.zip包与heritrix-3.1.0-src.zip包。是爬虫神器

    Heritrix3手册翻译

     Heritrix 3.0 and 3.1 User Guide  Heritrix 3.x API Guide 3.X发布包括一个新的基于Spring-container的设置系统和仅针对web service的浏览器和远程控制界面。 3.X移到新的模型,在单一作业目录下的单一作业...

    heritrix正确完整的配置heritrix正确完整的配置

    heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置

    web爬虫Heritrix.zip

    Heritrix是按多线程方式抓取的爬虫,主线程把任务分配给Teo线程(处理线程),每个Teo线程每次处理一个URL。Teo线程对每个URL执行一遍URL处理器链。URL处理器链包括如下5个处理步骤。整个流程都在图2.1中。 (1)预取链...

    网络爬虫Heritrix1.14.4可直接用

    在/Heritrix1/src/org/archive/crawler/Heritrix.java启动之后,访问https://localhost:8089登录admin密码admin直接用

    Heritrix安装详细过程

    按照这个步骤安装绝对会让你安装成功的。步骤非常的清晰。Heritrix是一个不错的选择。网络爬虫,更快更好的帮你捕捉到你想要的网页

    Heritrix部署直接能运行的项目

    Heritrix是IA的开放源代码,可扩展的,基于整个Web的,归档网络爬虫工程 Heritrix工程始于2003年初,IA的目的是开发一个特殊的爬虫,对网上的 资源进行归档,建立网络数字图书馆,在过去的6年里,IA已经建立了400...

    heritrix系统使用.ppt

    heritrix系统使用、一个ppt 介绍heritrix的基本概念、以及原理知识

    Heritrix(windows版)

    包含: heritrix-3.1.0-dist.zip heritrix-3.1.0-src.zip 官网下载地址。

    heritrix1.14.4源码包

    heritrix1.14.4的源码包,包含heritrix1.14.4.zip和heritrix1.14.4-src.zip。heritrix是一种开源的网络爬虫,用于爬去互联网中的网页。如何配置和使用heritrix爬虫,请移步:...

    Heritrix使用详解与高级开发应用

    Heritrix使用详解与高级开发应用 Heritrix开发应用详细

    heritrix1.14.0jar包

    爬虫时我们会使用heritrix,搭建工程时要导入这些jar包,该jar包是1.14.0版本的。

    heritrix爬虫安装部署

    介绍了heritrix爬虫安装和部署,以及运行示例和常见错误

    heritrix-1.14.2.zip

    heritrix-1.14.2.zip是一个开源项目

    heritrix源码

    heritrix学习源码和资料

    heritrix的绿色配置包

    heritrix heritrix heritrix heritrix heritrix heritrix

    Heritrix安装和配置流程

    Heritrix 是一款基于JAVA的开源的网络爬虫框架,亲自动手记录

Global site tag (gtag.js) - Google Analytics