消息关闭
    暂无新消息!
http://data.eastmoney.com/notices/detail/000002/AN201706090636776323,JUU0JUI4JTg3JUU3JUE3JTkxQQ==.html

在我抓取这个网页的正文的时候,发现最后抓取到的内容的格式和原网页差距很大,显得特别拥挤,也没有换行,原网页的换行,空白神马的抓到的全变成了一个个空格,我原来抓其他网页的时候里面其实都包含换行符的,但这个不知道为什么没有,求助,到底怎么保留原有格式啊,大神,大神救我!!!

1个回答

︿ 0
抓取到网页 先进行页面处理  把 换行符比如<br/>替换成其他符号 输出的时候再替换来回