Heritrix3.1 过滤url - 应用程序员 - ITeye博客

`

阿浊I

浏览: 197498 次
性别:
来自: 北京

最近访客更多访客>>

xiaoran99

jjj000123

dongskjava

schappy

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

xiaoyao3857：这是什么原理呢？还有，为什么我设好之后，运行appletvie ...
警告：不能读取 AppletViewer 的属性文件解决
阿浊I： I think so,this work had done a ...
How to change max_allowed_packet value in mysql?
zhuorulin：丁林.tb 写道 If you don't use globa ...
How to change max_allowed_packet value in mysql?
丁林.tb： If you don't use global or use ...
How to change max_allowed_packet value in mysql?

Heritrix3.1 过滤url

博客分类：

Heritrix

阅读更多

现在做Heritrix抓取，由于java版本之类的，我选择用了3.1，可是大部分的资料都是介绍1.14的，太让人生气，尤其一个最简单的功能：让保留的文件是和这个域名下有关的文件，不要被js那些抽取的链接又访问到其他站点抓取。在1.14版本，已经非常多的扩展代码等，可是完全和3.1不同。

在这个前提下，我感觉是可以写个扩展替换的，我这里直接再源码中修改了，所改动的文件是 org.archive.crawler.postprocessor.CandidatesProcessor

写道

protected boolean shouldProcess(CrawlURI puri) {
//return true;
String uris;
uris=puri.toString();
//System.out.println("======>2"+uris);
if (uris.contains("**域名关键字等")){
return true;
}
return false;
}

我也搞不清true false具体代表什么，代码结果显示false是不执行抓取，true是执行抓取

0
顶

1
踩

分享到：

XML文件要有根标签（Extra content at the ... | h5py的安装

2016-06-28 10:54
浏览 1308
评论(0)
分类:Web前端
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

heritrix3.1 官方指导手册: heritrix3.0/3.1官方手册原版为英文在此基础做了部分翻译

heritrix 3.1: heritrix3.1的默认配置，类之间的关系。

heritrix3.1: heritrix3.1.0网络爬虫源码包，包含src和dist

heritrix-3.1.0 最新jar包: heritrix-3.1.0 最新官网jar包。包括heritrix-3.1.0-dist.zip包与heritrix-3.1.0-src.zip包。是爬虫神器

Heritrix3手册翻译:  Heritrix 3.0 and 3.1 User Guide  Heritrix 3.x API Guide 3.X发布包括一个新的基于Spring-container的设置系统和仅针对web service的浏览器和远程控制界面。 3.X移到新的模型，在单一作业目录下的单一作业...

heritrix正确完整的配置heritrix正确完整的配置: heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置

web爬虫Heritrix.zip: Heritrix是按多线程方式抓取的爬虫，主线程把任务分配给Teo线程(处理线程)，每个Teo线程每次处理一个URL。Teo线程对每个URL执行一遍URL处理器链。URL处理器链包括如下5个处理步骤。整个流程都在图2.1中。 (1)预取链...

网络爬虫Heritrix1.14.4可直接用: 在/Heritrix1/src/org/archive/crawler/Heritrix.java启动之后，访问https://localhost:8089登录admin密码admin直接用

Heritrix安装详细过程: 按照这个步骤安装绝对会让你安装成功的。步骤非常的清晰。Heritrix是一个不错的选择。网络爬虫，更快更好的帮你捕捉到你想要的网页

Heritrix部署直接能运行的项目: Heritrix是IA的开放源代码，可扩展的，基于整个Web的，归档网络爬虫工程 Heritrix工程始于2003年初，IA的目的是开发一个特殊的爬虫，对网上的资源进行归档，建立网络数字图书馆，在过去的6年里，IA已经建立了400...

heritrix系统使用.ppt: heritrix系统使用、一个ppt 介绍heritrix的基本概念、以及原理知识

Heritrix(windows版): 包含： heritrix-3.1.0-dist.zip heritrix-3.1.0-src.zip 官网下载地址。

heritrix1.14.4源码包: heritrix1.14.4的源码包，包含heritrix1.14.4.zip和heritrix1.14.4-src.zip。heritrix是一种开源的网络爬虫，用于爬去互联网中的网页。如何配置和使用heritrix爬虫，请移步：...

Heritrix使用详解与高级开发应用: Heritrix使用详解与高级开发应用 Heritrix开发应用详细

heritrix1.14.0jar包: 爬虫时我们会使用heritrix，搭建工程时要导入这些jar包，该jar包是1.14.0版本的。

heritrix爬虫安装部署: 介绍了heritrix爬虫安装和部署，以及运行示例和常见错误

heritrix-1.14.2.zip: heritrix-1.14.2.zip是一个开源项目

heritrix源码: heritrix学习源码和资料

heritrix的绿色配置包: heritrix heritrix heritrix heritrix heritrix heritrix

Heritrix安装和配置流程: Heritrix 是一款基于JAVA的开源的网络爬虫框架,亲自动手记录

Global site tag (gtag.js) - Google Analytics