百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术文章 > 正文

零基础三天学会Python爬虫(第二天)

myzbx 2025-03-14 19:11 12 浏览

一、Python与urllib2

现在已经迫不及待的想尝试一下url和网络爬虫的配合关系了。我们上一届已经介绍过了,爬虫就是把URL地址中的网络资源读取出来,然后处理(保存到本地,或者打印等等)。本篇文章篇幅较长,其中会有爬虫的小案例,想要学习的小伙伴耐心看。

如果我们想将爬虫落实到代码上,需要用到的是一个组件:urllib2

它就是Python获取URL的一个组件

我们首先创建一个urllib2_test01.py然后输入以下代码:

import urllib2
response = urllib2.urlopen('http://www.baidu.com')
html = response.read()
print html

Quite Easy!最简单的获取一个url的信息代码只需要4行!

执行写的Python代码:

python urllib2_test.py

会看到以下结果:

百度一下,你就知道.

实际上如果我们在浏览器上打开百度首页,右键选择“查看源代码”,就会发现,跟我们刚才打印出来的是一模一样的。也就是说,上面的4行代码就已经帮我们把百度的首页全部代码爬了下来了。

下面来分析一下这4行代码:

import urllib2

没什么好多说的,上面这行代码就是将urllib2组件引入进来,供给我们使用。

response = urllib2.urlopen('http://www.baidu.com')

然后调用urllib2库中的urlopen方法,该方法接受一个url地址,然后将请求后的得到的回应封装到一个叫response对象中。

html = response.read()

然后调用response对象的read()方法,将请求的回应内容以字符串的形式给html变量。

最后的print html就是将字符串打印出来。

所以说一个基本的url请求是对应的python代码是非常简单的。


当然还有第二种写法,先通过将一个url地址转换成一个Request请求对象,再将Request请求对象作为参数传递给urlopen方法。

import urllib2

req = urllib2.Request('百度一下,你就知道')
response = urllib2.urlopen(req)
my_page = response.read()

print my_page

但是这样直接用Python的urllib2给一个网站发送请求的话,确实有写唐突了。这就好比是,人家每家都有个门,你以一个路人的身份直接闯进去显然不是很礼貌,有可能对于有的网站会拒绝你的请求。

但是如果我们用一个合法的身份去请求别人的网站,显然人家就会很欢迎。

所以我们就应该给我们的这个代码加上一个身份,就是所谓的User-Agent头

what?如果你之前不是学习前端的,这个东西确实对于C或者后端工程师来说是一个很头疼的东西,不过不要紧,不是我们的东西这里只做了解即可。

我只需要告诉你一句话,就是你用不同的浏览器在发送请求的时候,会有不同的User-Agent头。

浏览器就是世界上被允许的身份。那么如果你不想你的爬虫代码成为一个路人,你需要伪装成一个被公认的浏览器。

伪装的办法当然就是给自己的请求加上一个对应的User-Agent头啦。

下面我们编辑urllib2_test03.py:

import urllib2
#我们要请求的url地址
url = "百度一下,你就知道"
#我们要伪装的浏览器user-agent头
user_agent = 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Tr
ident/5.0;' #IE 9.0
#创建一个字典,使请求的headers中'User-Agent':对应我们user_agent字符串
headers = {'User-Agent':user_agent}
#新建一个请求,需要将请求中的headers变量换成我们刚才创建好的headers
req = urllib2.Request(url, headers = headers)
#请求服务器,得到回应
response = urllib2.urlopen(req)
#得到回应的内容
the_page = response.read()
#将内容打到屏幕上
print the_page

以上就是url的一个基本的操作,那么如果你想实现一个简单的爬虫这些就足够了。但是如果你想深入的去了解urllib2的其他操作,显然这个教程不能满足你,可以私信或者是留言找我获取urllib2的其他相关教程。

下一个阶段我们继续介绍有关urllib2的知识,而且最后如何得到一个精简的小爬虫程序。

二、百度贴吧小爬虫

首先我们创建一个python文件,tieba_spider.py

我们要完成耳朵是输入一个百度贴吧的网址,比如:

LOL吧第一页:http://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=0

这个是lol吧的第一个url地址,如果打开第二页,你会发现他的url如下:

LOL吧第二页:http://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=50

LOL吧第三页:lol吧-百度贴吧--第一手电竞资讯/英雄攻略/尽在LOL吧

可以从中发现规律了吧,贴吧中每个页面不同,url出来最后的pn的值,其余的都是一样的,我们可以抓住这个规律。

简单恶写一个小爬虫程序,来爬取百度LOL吧的所有网页。

上一届我们已经写出了一个爬取一个网页的代码。

现在,我们将它封装成一个小函数load_page,供我们来使用。

def load_page(url):
    '''
    @brief      通过URL请求爬取到html静态页面源代码
    @param url  要爬取的url地址
    @returns
                源代码
    '''
    req = urllib2.Request(url)
    response = urllib2.urlopen(req)
    html = response.read()

return html

接下来,我们写一个百度贴吧爬虫接口,我们需要传递3个参数给这个接口。

一个是我们要爬取的url地址,和要爬取页码的范围。

def tieba_spider(url, begin_page, end_page):
    '''
    @brief               百度贴吧爬虫核心程序
    @param url           要爬取的url地址
    @param begin_page    爬虫贴吧的起始页数
    @param end_page      爬虫贴吧的终止页数
    '''
    user_agent = 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT
6.1; Trident/5.0;' #IE 9.0
    headers = {'User-Agent':user_agent}

    for i in range(begin_page, end_page+1):

        #根据百度贴吧的url中的页码pn规律
        # 当你打开第一页 pn = 0
        # 当你打开第二页 pn = 50
        # 当你打开第三页 pn = 100
        # 当你打开第四页 pn = 150 -0
        # ....
        # 所以 pn = 50* (page-1)
        pn = 50 * (i - 1)
        html = load_page(url+str(pn))

最后如果我们希望将爬取到的每页的信息存储在本地磁盘上,我们可以简单写一个存储文件的接口。

def write_file(file_name, text):
      '''
     @brief 将字符串内容写到文件中
     @param file_name 文件路径
     @param text 要写进的字符串
     '''
     print '正在存储文件' + file_name
     f = open(file_name, 'w+')
     f.write(text)
     f.close

ok,接下来就是写一个main函数,然后提示用户输入即将爬取的百度贴吧url地址。

注意:百度贴吧最后页码” pn=??? “中的 ??? 为我们传入的页码参数,所以我们再提供的

时候不能包括 ???

if __name__ == '__main__':
    bdurl = str(raw_input('请输入贴吧的地址, 去掉pn=后面的数字:'))
    begin_page = int(raw_input('请输入开始的页数'))
    end_page = int(raw_input('请输入结束的页数'))

tieba_spider(bdurl, begin_page, end_pag

综上所述,全部的完整代码应该如下:

# -*- coding: utf-8 -*-
#-------------------------
# 百度贴吧小爬虫
# 作者:无崖子
# 日期:2016-3-2
# sys: mac os
# python 2.7.6
# os: mac
#-------------------------

import urllib2

def write_file(file_name, text):
    '''
    @brief   将字符串内容写到文件中
    @param file_name          文件路径
    @param text               要写进的字符串
    '''
    print '正在存储文件' + file_name
    f = open(file_name, 'w+')
    f.write(text)
    f.close()

def load_page(url):
    '''
    @brief       通过URL请求爬取到html静态页面源代码
    @param url   要爬取的url地址
    @returns
                 源代码
    '''
    req = urllib2.Request(url)
    response = urllib2.urlopen(req)
    html = response.read()

    return html

    def tieba_spider(url, begin_page, end_page):
    '''
   @brief 百度贴吧爬虫核心程序
   @param url 要爬取的url地址
   @param begin_page 爬虫贴吧的起始页数
   @param end_page 爬虫贴吧的终止页数
   '''
   user_agent = 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT
6.1; Trident/5.0;' #IE 9.0
   headers = {'User-Agent':user_agent}
   for i in range(begin_page, end_page+1):

      #根据百度贴吧的url中的页码pn规律
      # 当你打开第一页 pn = 0
      # 当你打开第二页 pn = 50
      # 当你打开第三页 pn = 100
      # 当你打开第四页 pn = 150 -0
      # ....
      # 所以 pn = 50* (page-1)
      pn = 50 * (i - 1)
      html = load_page(url+str(pn))

      file_name = str(i) +'.html'
      print '正在下载第' + str(i) + '个网页'
      write_file(file_name, html)


if __name__ == '__main__':
    bdurl = str(raw_input('请输入贴吧的地址, 去掉pn=后面的数字:'))
    begin_page = int(raw_input('请输入开始的页数'))
    end_page = int(raw_input('请输入结束的页数'))

    tieba_spider(bdurl, begin_page, end_page)

好了,最后我们来测试一下咱们的小爬虫。

输入lol吧的地址 ” http://tieba.baidu.com/f?kw=lol&ie=utf-8&pn= ”

注意:=号后面不要加数字,因为我们要自动添加

ocalhost:spider ldb$ python tieba_spider.py
请输入贴吧的地址, 去掉pn=后面的数字:http://tieba.baidu.com/f?kw=lol&ie=u 
tf-8&pn=
请输入开始的页数5
请输入结束的页数10
正在下载第5个网页
正在存储文件5.html
正在下载第6个网页
正在存储文件6.html
正在下载第7个网页
正在存储文件7.html
正在下载第8个网页
正在存储文件8.html
正在下载第9个网页
正在存储文件9.html
正在下载第10个网页
正在存储文件10.html

最后会发现当前路径下会有几个html页面,分别对应贴吧中对应的网页。

这样一个简单的爬虫程序就搞定了。

相关推荐

攀升战境S5电竞主机评测:NVIDIA RTX 3060实力助阵,光追游戏走起

此次笔者将为玩家们推荐一款游戏主机——攀升战境S5。该主机是攀升电脑今年力推的游戏装备,主机采用一线品牌配件,特别是在显卡选用上严苛把关,精选GeForceRTX30系列显卡,玩家们大可以放心选购...

慎买-神牛闪光灯兼容性问题:神牛V350&松下S5M2

神牛V350和松下S5M2的兼容性问题。大家好,我是向往闪光灯人像的Fish。国庆期间,我购买了神牛V350闪光灯和神牛X2T引闪器,但这成为了我的噩梦。我原以为客服和松友们说这款闪光灯在松下S5M2...

Acer蜂鸟持续办公一整天(acer 蜂鸟s5)

移动办公在工作节奏日益加快的今天越来越普遍,目前大部分工作无法在手持设备上完成,笔记本依然是移动办公最明智的选择。为了实现移动办公,很多笔记本越做越轻薄,性能也越来越强,而续航却一直没有很大提升。笔者...

职业车手明年会骑什么?2021赛季各大世巡赛车队使用器材一览

新年的钟声即将敲响,意味着充满魔幻色彩的2020年即将过去。受新冠肺炎的影响,2020年的赛季非常不同寻常。因这一原因不得不延迟举行的各种比赛导致许多车队的赞助商无法得到足够曝光,这也间接导致了许多车...

三星部分手机系统升级路线图流出(三星系统在哪升级)

三星包括Note3和S5在内的手机在升级到4.4.2系统之后一直没有什么系统升级的消息,而最近流出的一张三星的系统升级路线图中出现了一共13台手机升级KTU84P(也就是Android4.4.4)...

索尼Xperia Z3配置大曝光:升级并不大

IT之家(www.ithome.com):索尼XperiaZ3配置大曝光:升级并不大索尼明天就会在IFA2014大会上发布其下代旗舰XperiaZ3智能手机,目前网上曝光了其原型机,并且机身背后...

不进反退 三星Exynos 5433只能运行32位模式?

三星GalaxyNote4将带有两个版本,除了国行使用的骁龙805以外,还有三星自家的Exynos5433版本。而这颗SoC的详细信息三星并没有公布,据外媒Anandtech称,他们从源码中确认...

尼康Z6III测评:对比EOS R6 II、A7M4、S5IIX

摄影器材测评网站DPReview刚刚发布了尼康Z6III的完整图文测评,该机获得金奖评级,得分达到91%。以下是该文章的摘录——尼康Z6III核心规格:2400万像素“部分堆栈式”传感器RAW连拍:机...

赛默飞Ion S5首批数据公布,玩爆前任PGMTM系列

北美时间9月1日,赛默飞发布了两款最新的NGS系统IonS5和IonS5XL,旨在提供更加简捷的靶向测序流程。10月29日IonS5测序仪的首批实验数据产生于阜外医院。阜外医院研究人员选用了主...

Excel技巧:快速制作批量文件夹,省时省力,加强工作效率

大家好,如果公司领导要求按人员姓名制作文件夹,以一人一档的形式呈现人员档案,办公人员一个一个制作费时费力,而且效力低下,今天为大家介绍快捷制作批量文件夹的方法下面我们用图片来进行演示操作打开表格,选...

国行、港版、美版Apple watch各版本售价一览

今天凌晨,苹果牌手表正式发布,苹果开始正式进入可穿戴设备领域,除了功能和外观,我相信大家更关心的是价格问题了,小编就将国行、港版、美版的Applewatch售价做一总结,以供参考。国行:美版:港版:...

松下全画幅微单S5和S1到底哪里不一样?

Hello,我是ET,欢迎大家来到我的“相机笔记”。————9月2日晚,松下正式发布了第4款全画幅微单LUMIXS5。这一篇,我们主要来说松下LUMIXS5和LUMIXS1到底有哪些区别...

融会贯通之典范 神舟S7-2021S5评测

便携、性能、续航,这简简单单的六个字道出了这么些年来笔记本电脑的设计方向,可是由于底层技术、模具设计等等原因,这三点并不能很好的融合在一起。虽说闻道有先后,术业有专攻,但能够有一台融会贯通的产品,不是...

三国志战略版:S5赛季装X指南,开荒不是一成不变,需要因地制宜

大家好我是零氪玩家花席,S5赛季已经开始,因为S5赛季的野地阵容和S4赛季没有区别,所以S5赛季开荒相对不难。你在S4有经验,并且多了很多武将和战法,还能用150赛季功勋兑换7500战法点。S5赛季新...

聊聊松下S5M2和S5M2X的区别(松下s5k和s5c有什么区别)

先简单说下哪里不同:12bitRAWHDMI外录支持直接将视频录制到USB-SSD上多了All-Intra和ProRes编码支持有线/无线IP推流,USB网络连接黑化的机身不过要特别强调一下,S5...