You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
|
|
3 years ago | |
|---|---|---|
| papernews_spider | 3 years ago | |
| .gitignore | 3 years ago | |
| README.md | 3 years ago | |
README.md
demo
- 安装Python 3.7 以上版本。
- 安装依赖:命令行执行
pip install -r requirements.txt。
说明
- Run.py是运行爬虫的方法,在SetSpdierName.py里修改要运行的爬虫项目
- 爬取纸业网咨询中心的印刷出版页面链接以及链接内详情内容。(PapernewsSpider.py) ,链接接为:http://www.paper.com.cn/news/nation.php?news_type=%D3%A1%CB%A2%B3%F6%B0%E6
- 文件News.txt是爬取到的资讯数据
- 爬取富宝咨询的纸厂调价栏目,记录的是废纸以及成品纸的价格变动(PaperpriceSpider.py)链接为:http://news.f139.com
- 已经写好网页去重,并写好可以复用的相关的去重方法和清洗方法
文件说明
- spider文件夹存放的是爬虫文件
- tools文件夹存放的是各种工具类,包含各种测试用的工具类,
- (现在已经关闭控制台输出)