博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
用Crontab实现定时爬取
阅读量:5878 次
发布时间:2019-06-19

本文共 1546 字,大约阅读时间需要 5 分钟。

hot3.png

antnutch.sh

nutch执行前需要从数据库中读取数据写到nutch配置文件中,然后重新编译nutch

#!/bin/bash## @file uodateD02.sh# @brief read data from mysql and ant nutch# @author Dajun Miao# @version 0.1# @date 2014-05-19#USER="root"PASSWORD="123456"DATABASE="admin_platform"B02_WEBSITE="b02_website"B05_FILTERRULE="b05_filter_rule"SITEADDR="site_addr"SITEATTR="site_attr"RULETYPE="rule_type"CONTENT="content"DBPATH="172.37.0.203"echo "# config file for urlfilter-blackwhite plugin" > /home/apache-nutch-1.8/conf/blackwhite-urlfilter.txtregsites=`mysql -u$USER -p$PASSWORD -h$DBPATH $DATABASE <
> /home/apache-nutch-1.8/conf/blackwhite-urlfilter.txtdoneblacksites=`mysql -u$USER -p$PASSWORD -h$DBPATH $DATABASE <
> /home/apache-nutch-1.8/conf/blackwhite-urlfilter.txtdonewhitesites=`mysql -u$USER -p$PASSWORD -h$DBPATH $DATABASE <
> /home/apache-nutch-1.8/conf/blackwhite-urlfilter.txtdoneblacksites=`mysql -u$USER -p$PASSWORD -h$DBPATH $DATABASE <
> /home/urlsdonecd /home/apache-nutch-1.8/ant runtime

runnutch.sh

#!/bin/bash## @file runnutch.sh# @brief run nutch# @author Dajun Miao# @version 0.1# @date 2014-05-05##cd /home/apache-nutch-1.8/runtime/local/bin/#./crawl /home/urls data http://172.37.0.201:8080/solr/ 1source /root/.bashrchadoop fs -rm -r /urlshadoop fs -put /home/urls /urlscd /home/apache-nutch-1.8/runtime/deploy/bin/./crawl /urls /nutch http://172.16.10.15:8080/solr/Nutch 1

定时器:cronnutch.sh

* 20 * * * antnutch.sh&&runnutch.sh >> mylog.log 2>&1

转载于:https://my.oschina.net/junfrank/blog/288688

你可能感兴趣的文章
应用程序日志中总是说MS DTC无法正确处理DC 升级/降级事件,是什么意思
查看>>
毕业了,爱情怎么办?
查看>>
关于django一个请求的生命周期
查看>>
Supervisor-容器中启动多个程序
查看>>
CSS颜色代码大全
查看>>
我的友情链接
查看>>
mybatis数据处理的几种方式
查看>>
QStandardItem and QStandardItemModel Class Reference
查看>>
友情链接的作用
查看>>
我的友情链接
查看>>
MySQL common_schema简介
查看>>
centos挂载windows共享文件夹
查看>>
java 笔记
查看>>
使用Nginx搭建WEB服务器
查看>>
【oracle唯一主键SYS_GUID()】
查看>>
Logstash笔记(四) ----output插件
查看>>
mysql更改用户密码
查看>>
Cunit编译安装
查看>>
未加域客户端使用Lync时反复弹框要求输入凭证
查看>>
Tomcat部署方式总结
查看>>