博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
第一次使用爬虫
阅读量:6568 次
发布时间:2019-06-24

本文共 1420 字,大约阅读时间需要 4 分钟。

hot3.png

1.爬取新浪网

import requests
from bs4 import BeautifulSoup
res = requests.get('http://news.sina.com.cn/china/')
res.encoding = 'utf-8'

soup = BeautifulSoup(res.text,'html.parser')

for news in soup.select('.news-item'):
    if len(news.select('h2')) > 0:
        time = news.select('.time')[0].text
        h2 = news.select('h2')[0].text
        a = news.select('a')[0]['href']
        print(time,h2,a)
爬取结果:
4月8日 12:06 韩长赋任中央农村工作领导小组副组长 http://news.sina.com.cn/o/2018-04-08/doc-ifyteqtq5694371.shtml
4月8日 11:36 干部违规办宴:亲属成“白手套”朋友成“中介人” http://news.sina.com.cn/c/2018-04-08/doc-ifyuwqez6571221.shtml
4月8日 11:21 公安部副部长孟宏伟不再担任部党委委员(图) http://news.sina.com.cn/o/2018-04-08/doc-ifyuwqez6561865.shtml
4月8日 11:10 中美贸易摩擦升级 外媒:美鹰派成对华贸易战推手 http://news.sina.com.cn/c/2018-04-08/doc-ifyuwqez6553942.shtml
4月8日 11:04 刘建洋任南昌副市长 代理市长 http://news.sina.com.cn/c/2018-04-08/doc-ifyteqtq5654761.shtml
4月8日 10:59 陕西省商洛市政协原主席王甲训等2人被处分 http://news.sina.com.cn/o/2018-04-08/doc-ifyteqtq5650889.shtml
4月8日 10:50 外媒称美国对华贸易施压“没道理”:美更需要中国 http://news.sina.com.cn/c/2018-04-08/doc-ifyteqtq5643846.shtml
4月8日 10:47 WTO没有亏待美国 特朗普为何还要满腹怨气? http://news.sina.com.cn/c/2018-04-08/doc-ifyuwqez6538498.shtml
2.爬取中国知网的url
from urllib.request import urlopen#用于获取网页
from bs4 import BeautifulSoup#用于解析网页

url = urlopen('http://www.cnki.net/')

bsObj = BeautifulSoup(url, 'html.parser')
a1 = bsObj.find_all('a')
for a2 in a1:
    a3 = a2.get('href')
    print(a3)

 

 

 

转载于:https://my.oschina.net/u/3801402/blog/1791477

你可能感兴趣的文章
APACHE工作原理详解
查看>>
HDMI都不灵,为什么电脑连电视效果差
查看>>
北大校长王恩哥送给毕业生的十句话
查看>>
Java并发- 读写锁中的性能之王:StampedLock
查看>>
我的友情链接
查看>>
即时通讯有标准 IM的四种即时通讯协议简介
查看>>
2.7、Android Studio使用翻译编辑器本地化UI
查看>>
雷林鹏分享:PHP 魔术常量
查看>>
[BZOJ2216][Poi2011]Lightning Conductor[决策单调性优化]
查看>>
安装laravel框架
查看>>
java 循环时间调用 程序(转)
查看>>
逻辑电路 - 与非门Nand Gate
查看>>
linux下vi命令修改文件及保存的使用方法
查看>>
SpringCloud成长之路 一 注册与发现(Eureka)
查看>>
if else流程判断
查看>>
堆排序详解
查看>>
第一章基本语法
查看>>
mysql数据库从删库到跑路之mysql完整性约束
查看>>
简单的Writer和Reader
查看>>
zabbix学习(四)IT_Service管理
查看>>