You can not select more than 25 topics Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.

886 B

demo

  1. 安装Python 3.7 以上版本。
  2. 安装依赖:命令行执行 pip install -r requirements.txt

说明

  • Run.py是运行爬虫的方法,在SetSpdierName.py里修改要运行的爬虫项目
  • 爬取纸业网咨询中心的印刷出版页面链接以及链接内详情内容。(PapernewsSpider.py) ,链接接为:http://www.paper.com.cn/news/nation.php?news_type=%D3%A1%CB%A2%B3%F6%B0%E6
  • 文件News.txt是爬取到的资讯数据
  • 爬取富宝咨询的纸厂调价栏目,记录的是废纸以及成品纸的价格变动(PaperpriceSpider.py)链接为:http://news.f139.com
  • 已经写好网页去重,并写好可以复用的相关的去重方法和清洗方法

文件说明

  • spider文件夹存放的是爬虫文件
  • tools文件夹存放的是各种工具类,包含各种测试用的工具类,
  • (现在已经关闭控制台输出)