5 有用
112 下载

【毕业设计】基于网络爬虫的新闻采集和订阅系统的设计与实现

文件列表(压缩包大小 7.03M)

免费

概述

简介 本文描述了基于网络爬虫的新闻订阅系统的设计与实现的过程,主要工作如下:

1.编写一个网络爬虫,使其能够对网络中指定站点的新闻进行自动收集并存入数 据库; 2.数据的去重和网络爬虫的反爬虫策略应对; 3.提供一个新闻展示页面,把爬取到的新闻展示给用户; 4.提供新闻订阅页面,用户可以在页面输入指定订阅的关键词; 5.编写微信推送服务,把用户订阅的新闻通过微信推送给用户

目 录 第一章 引言………………………………………….. 1 1.1 项目的背景和意义 ……………………………………….1 1.2 研究开发现状分析………………………………………..1 1.2.1 个性化新闻服务现状 ……………………………….1 1.2.2 网络爬虫研究现状 …………………………………….2 1.2.3 项目的范围和预期结果 ……………………………2 1.3 论文结构简介 ………………………………………………3 第二章 技术与原理…………………………………….. 4 2.1 技术选型 ………………………………………………….4 2.1.1 Python 语言介绍 …………………………………..4 2.1.2 Scrapy 框架介绍 ………………………………………4 2.1.3 Django 框架介绍 …………………………………..5 2.1.4 MongoDB 数据库介绍 …………………………..5 2.1.5 AJAX 介绍 ……………………………………………..5 2.2 相关原理介绍 ………………………………………………6 2.2.1 网络爬虫介绍 …………………………………………..6 2.2.2 关键词提取技术 ……………………………………….6 2.2.3 智能推送技术 …………………………………………..7 第三章 系统需求分析…………………………………… 9 3.1 新闻订阅系统用例析取 …………………………………9 3.2 新闻订阅系统用例规约 ……………………………….9 3.2.1 新闻订阅………………………………………………9 3.2.2 新闻推送 ……………………………………………..11 第四章 新闻采集与订阅系统的设计…………….. 13 4.1 系统架构及原理 ……………………………………..13 4.2 系统模块设计 …………………………………………..15 4.2.1 爬虫采集模块设计 ………………………………..15 4.2.2 爬虫去重模块设计 ………………………………..16 4.2.3 防反爬虫模块设计 ………………………………..16 4.2.4 爬虫存储模块设计 ………………………………..17 4.2.5 消息推送模块设计 ………………………………..17 4.2.6 消息订阅与展示模块设计 ………………………17 4.3 数据库设计 ……………………………………………….18 第五章 新闻采集与订阅系统的实现…………….. 19 5.1 系统框架实现 …………………………………………..19 5.2 爬虫采集模块实现 …………………………………….21 5.3 防反爬虫模块实现 …………………………………….22 5.4 爬虫存储模块实现 ……………………………………..22 5.5 消息推送模块实现 …………………………………….23 5.6 消息订阅与展示模块实现 ………………………..25 第六章 系统部署……………………………………… 30 6.1 部署机器概述 …………………………………………..30 6.2 配置环境 …………………………………………………30 6.3 系统运行 …………………………………………………31 第七章 总结与展望……………………………………. 33 7.1 总结 …………………………………………………….33 7.2 展望 …………………………………………………….33 参考文献 …………………………………………… 34 致谢 …………………………………………… 35 附录 …………………………………………… 36

via:https://github.com/BillBillBillBill/NewsCrawler

理工酷提示:

如果遇到文件不能下载或其他产品问题,请添加管理员微信:ligongku001,并备注:产品反馈

评论(0)

0/250