消息关闭
    暂无新消息!
怎么爬取腾讯、网易、新浪新闻网站的标题、内容、时间等字段。
现在要做一个类似今日头条的项目。但是内容都是从各个新闻门户网站抓取
我的想法是:比如要爬取腾讯、网易、新浪的新闻,后台启动三个线程,分别去一个网站爬,
http://news.qq.com/
news.163.com
news.sina.com.cn
以腾讯新闻为例:
要闻:http://news.qq.com/a/20160302/057454.htm
财经:http://finance.qq.com/a/20160304/015894.htm
体育:http://sports.qq.com/a/20160304/052773.htm
可以看出,格式为:http://类别.qq.com/a/年月日/新闻ID.htm
现在的问题是:
1、如果想看今天的财经新闻有哪些,我想到的是:http://finance.qq.com/a/20160304,但是无法访问。
2、既然要做新闻,实时性要求肯定比较高,多久爬取一次比较合适,怎么爬取最新的数据。假如一小时爬取一次,怎么只爬最新数据,过滤旧数据。
3、一个新闻的页面是http://news.qq.com/a/20160304/004326.htm,怎么获取新闻的标题、内容、时间等字段。难道后台用http请求,然后用正则去匹配?
4、爬取的数据怎么存储,是存数据库还是HDFS,新闻里面可能有图片、视频等东西。是保存图片和视频的地址,还是说下载下来保存在本地。
5、爬虫用什么做比较好,python还是java,或者有没有什么比较好的框架可以用用。要求分布式的。
有没有做过类似爬虫的朋友给点经验或者探讨一下。

4个回答

︿ 1
最近接触到一个新闻类网站的数据爬取项目,包括各大新闻网站,如网易、腾讯、新浪等新闻标题、时间、评论数、点赞量、转发量以及阅读量等数据获取。其中较麻烦模块主要是动态数据的获取,以及新浪微博数据的获取,在此分享一些经验给大家参考,如有不对望指正交流、共同进步。
https://lemon2013.github.io/2017/07/13/news-spider/
︿ 0
1、如果想看今天的财经新闻有哪些,我想到的是:http://finance.qq.com/a/20160304,但是无法访问。

z这个问题怎么解决,而且历史的数据的话没法爬,有没有思路?