`
liuxinglanyue
  • 浏览: 546954 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

利用Python抓取和解析网页(二)

阅读更多

 对搜索引擎、文件索引、文档转换、数据检索、站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理。事实上,通过Python语言提供的各种模块,我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文档。本文上篇中,我们介绍了一个可以帮助简化打开位于本地和Web上的HTML文档的Python模块。在本文中,我们将论述如何使用Python模块来迅速解析在HTML文件中的数据,从而处理特定的内容,如链接、图像和Cookie等。同时还会介绍如何规范HTML文件的格式标签。

  一、从HTML文档中提取链接

  Python语言还有一个非常有用的模块HTMLParser,该模块使我们能够根据HTML文档中的标签来简洁、高效地解析HTML文档。所以,在处理HTML文档的时候,HTMLParser是最常用的模块之一。

  import HTMLParser

  
import urllib

  
class parseLinks(HTMLParser.HTMLParser):

  
def handle_starttag(self, tag, attrs):

  
if tag == 'a':

  
for name,value in attrs:

  
if name == 'href':

  
print value

  
print self.get_starttag_text()

  lParser 
= parseLinks()

  lParser.feed(urllib.urlopen(
"http://www.python.org/index.html").read())

  处理HTML文档的时候,我们常常需要从其中提取出所有的链接。使用HTMLParser模块后,这项任务将变得易如反掌。首先,我们需要定义一个新的HTMLParser类,以覆盖handle_starttag()方法,我们将使用这个方法来显示所有标签的HRef属性值。

  定义好新的HTMLParser类之后,需要创建一个实例来返回HTMLParser对象。然后,就可以使用urllib.urlopen(url)打开HTML文档并读取该HTML文件的内容了。

  为了解析HTML文件的内容并显示包含其中的链接,可以使用read()函数将数据传递给HTMLParser对象。HTMLParser对象的feed函数将接收数据,并通过定义的HTMLParser对象对数据进行相应的解析。需要注意,如果传给HTMLParser的feed()函数的数据不完整的话,那么不完整的标签会保存下来,并在下一次调用feed()函数时进行解析。当HTML文件很大,需要分段发送给解析器的时候,这个功能就会有用武之地了。下面是一个具体的例子

  import HTMLParser

  
import urllib

  
import sys

  
#定义HTML解析器

  
class parseLinks(HTMLParser.HTMLParser):

  
def handle_starttag(self, tag, attrs):

  
if tag == 'a':

  
for name,value in attrs:

  
if name == 'href':

  
print value

  
print self.get_starttag_text()

  
#创建HTML解析器的实例

  lParser 
= parseLinks()

  
#打开HTML文件

  lParser.feed(urllib.urlopen( \

  
"http://www.python.org/index.html").read())

  lParser.close()

  上述代码的运行结果太长,在此省略,您可以自己运行代码试试。

 

 二、从HTML文档中提取图像

  处理HTML文档的时候,我们常常需要从其中提取出所有的图像。使用HTMLParser模块后,这项任务将变得易如反掌。首先,我们需要定义一个新的HTMLParser类,以覆盖handle_starttag()方法,该方法的作用是查找img标签,并保存src属性值所指的文件。

  import HTMLParser

  
import urllib

  
def getImage(addr):

  u 
= urllib.urlopen(addr)

  data 
= u.read()

  
class parseImages(HTMLParser.HTMLParser):

  
def handle_starttag(self, tag, attrs):

  
if tag == 'img':

  
for name,value in attrs:

  
if name == 'src':

  getImage(urlString 
+ "/" + value)

  u 
= urllib.urlopen(urlString)

  lParser.feed(u.read())

  定义好新的HTMLParser类之后,需要创建一个实例来返回HTMLParser对象。然后,就可以使用urllib.urlopen(url)打开HTML文档并读取该HTML文件的内容了。

  为了解析HTML文件的内容并显示包含其中的图像,可以使用feed(data)函数将数据发送至HTMLParser对象。HTMLParser对象的feed函数将接收数据,并通过定义的HTMLParser对象对数据进行相应的解析。下面是一个具体的示例:

  import HTMLParser

  
import urllib

  
import sys

  urlString 
= "http://www.python.org"

  
#把图像文件保存至硬盘

  
def getImage(addr):

  u 
= urllib.urlopen(addr)

  data 
= u.read()

  splitPath 
= addr.split('/')

  fName 
= splitPath.pop()

  
print "Saving %s" % fName

  f 
= open(fName, 'wb')

  f.write(data)

  f.close()

  
#定义HTML解析器

  
class parseImages(HTMLParser.HTMLParser):

  
def handle_starttag(self, tag, attrs):

  
if tag == 'img':

  
for name,value in attrs:

  
if name == 'src':

  getImage(urlString 
+ "/" + value)

  
#创建HTML解析器的实例

  lParser 
= parseImages()

  
#打开HTML文件

  u 
= urllib.urlopen(urlString)

  
print "Opening URL\n===================="

  
print u.info()

  
#把HTML文件传给解析器

  lParser.feed(u.read())

  lParser.close()

  上述代码的运行结果如下所示:

  Opening URL

  
====================

  Date: Fri, 
26 Jun 2009 10:54:49 GMT

  Server: Apache
/2.2.9 (Debian) DAV/2 SVN/1.5.1 mod_ssl/2.2.9 OpenSSL/0.9.8g mod_wsgi/2.3 Python/2.5.2

  Last
-Modified: Thu, 25 Jun 2009 09:44:54 GMT

  ETag: 
"105800d-46e7-46d29136f7180"

  Accept
-Ranges: bytes

  Content
-Length: 18151

  Connection: close

  Content
-Type: text/html

  Saving python
-logo.gif

  Saving trans.gif

  Saving trans.gif

  Saving afnic.fr.png

  三、从HTML文档中提取文本

  处理HTML文档的时候,我们常常需要从其中提取出所有的文本。使用HTMLParser模块后,这项任务将变得非常简单了。首先,我们需要定义一个新的HTMLParser类,以覆盖handle_data()方法,该方法是用来解析并文本数据的。

  import HTMLParser

  
import urllib

  
class parseText(HTMLParser.HTMLParser):

  
def handle_data(self, data):

  
if data != '\n':

  urlText.append(data)

  lParser 
= parseText()

  lParser.feed(urllib.urlopen( \

  http:
//docs.python.org/lib/module-HTMLParser.html).read())

  定义好新的HTMLParser类之后,需要创建一个实例来返回HTMLParser对象。然后,就可以使用urllib.urlopen(url)打开HTML文档并读取该HTML文件的内容了。

  为了解析HTML文件的内容并显示包含其中的文本,我们可以使用feed(data)函数将数据传递给HTMLParser对象。HTMLParser对象的feed函数将接收数据,并通过定义的HTMLParser对象对数据进行相应的解析。要注意的是,如果传给HTMLParser的feed()函数的数据不完整的话,那么不完整的标签会保存下来,并在下一次调用feed()函数时进行解析。当HTML文件很大,需要分段发送给解析器的时候,这个功能就会有用武之地了。下面是一个具体的代码示例:

  import HTMLParser

  
import urllib

  urlText 
= []

  
#定义HTML解析器

  
class parseText(HTMLParser.HTMLParser):

  
def handle_data(self, data):

  
if data != '\n':

  urlText.append(data)

  
#创建HTML解析器的实例

  lParser 
= parseText()

  
#把HTML文件传给解析器

  lParser.feed(urllib.urlopen( \

  “http:
//docs.python.org/lib/module-HTMLParser.html” \

  ).read())

  lParser.close()

  
for item in urlText:

  
print item

  上面代码的运行输出过长,在此略过

 

四、从HTML文档中提取Cookies

  很多时候,我们都需要处理Cookie,幸运的是Python语言的cookielib模块为我们提供了许多自动处理在HTML中的HTTP Cookie的类。当处理要求为客户端设置Cookie的HTML文档的时候,这些类对我们非常有用。

  import urllib2

  
import cookielib

  
from urllib2 import urlopen, Request

  cJar 
= cookielib.LWPCookieJar()

  opener
=urllib2.build_opener( \

  urllib2.HTTPCookieProcessor(cJar))

  urllib2.install_opener(opener)

  r 
= Request(testURL)

  h 
= urlopen(r)

  
for ind, cookie in enumerate(cJar):

  
print "%d - %s" % (ind, cookie)

  cJar.save(cookieFile)

  为了从HTML文档提取cookies,首先得使用cookielib模块的LWPCookieJar()函数创建一个cookie jar的实例。LWPCookieJar()函数将返回一个对象,该对象可以从硬盘加载Cookie,同时还能向硬盘存放Cookie。

  接下来,使用urllib2模块的build_opener([handler, . . .])函数创建一个opener对象,当HTML文件打开时该对象将处理cookies。函数build_opener可以接收零个或多个处理程序(这些程序将按照它们被指定的顺序连接在一起)作为参数并返回一个。

  注意,如果想让urlopen()使用opener对象来打开HTML文件的话,可以调用install_opener(opener)函数,并将opener对象传给它。否则,请使用opener对象的open(url)函数来打开HTML文件。

  一旦已经创建并安装了opener对象,就可以使用urllib2模块中的Request(url)函数来创建一个Request对象,然后就能使用urlopen(Request)函数来打开HTML文件了。

  打开HTML页面后,该页面的所有Cookie将被存放到LWPCookieJar对象中,之后,您可以使用LWPCookieJar对象的save(filename)函数了。

  import os

  
import urllib2

  
import cookielib

  
from urllib2 import urlopen, Request

  cookieFile 
= "cookies.dat"

  testURL 
= 'http://maps.google.com/'

  
#为cookie jar 创建实例

  cJar 
= cookielib.LWPCookieJar()

  
#创建HTTPCookieProcessor的opener对象

  opener 
= urllib2.build_opener( \

  urllib2.HTTPCookieProcessor(cJar))

  
#安装HTTPCookieProcessor的opener

  urllib2.install_opener(opener)

  
#创建一个Request对象

  r 
= Request(testURL)

  
#打开HTML文件

  h 
= urlopen(r)

  
print "页面的头部\n======================"

  
print h.info()

  
print "页面的Cookies\n======================"

  
for ind, cookie in enumerate(cJar):

  
print "%d - %s" % (ind, cookie)

  
#保存cookies

  cJar.save(cookieFile)

  上述代码的运行结果如下所示:

  页面的头部

  
======================

  Cache
-Control: private

  Content
-Type: text/html; charset=ISO-8859-1

  Set
-Cookie: PREF=ID=5d9692b55f029733:NW=1:TM=1246015608:LM=1246015608:S=frfx--b3xt73TaEA; expires=Sun, 26-Jun-2011 11:26:48 GMT; path=/; domain=.google.com

  Date: Fri, 
26 Jun 2009 11:26:48 GMT

  Server: mfe

  Expires: Fri, 
26 Jun 2009 11:26:48 GMT

  Transfer
-Encoding: chunked

  Connection: close

  页面的Cookies

  
======================

  0 
-

 

补充:http://liuxinglanyue.iteye.com/admin/blogs/900758

分享到:
评论

相关推荐

    python做网络爬虫

    通过Python语言提供的各种模块,我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文档。本文将详细介绍如何利用Python抓取和解析网页

    python2网页图片爬取工具

    利用python抓取网络图片的步骤: 1.根据给定的网址获取网页源代码 2.利用正则表达式把源代码中的图片地址过滤出来 3.根据过滤出来的图片地址下载网络图片

    Python爬虫作业报告:怎么利用Python写益智类游戏.docx

    该程序使用了Requests库和BeautifulSoup库来获取网页源代码和解析HTML标签。具体的爬虫流程如下: 1. 使用Requests库发送HTTP请求,获取网页源代码。 2. 使用BeautifulSoup库解析HTML标签,获取商品信息。 3. 将...

    详解Python爬虫技术,运用爬虫技术抓取数据的步骤解析.docx

    Python爬虫是一种自动化抓取互联网信息的技术,适用于各种任务和行业,例如: - 网站数据爬取:可以爬取特定网站的数据,如新闻、股票数据等。例如,在数据分析领域,可以通过Python爬虫自动获取股票价格,利用数据...

    Python爬虫算法-谷歌内部资料

    Python爬虫是指利用Python语言编写的网络爬虫程序,用于从互联网上抓取信息、数据或者内容。通常情况下,Python爬虫会利用第三方库如Requests、BeautifulSoup、Scrapy等来实现网页请求、数据解析和存储等功能。 ...

    Python利用BeautifulSoup解析Html的方法示例

    BeautifulSoup是python的一个库,最主要的功能是从网页抓取数据。下面这篇文章主要给大家介绍了关于Python利用BeautifulSoup解析Html的方法示例,文中通过示例代码介绍的非常详细,需要的朋友们下面跟着小编来一起...

    Python实现网页截图(PyQT5)过程解析

    1:完成窗口设置,利用PyQT5 QWebEngineView加载网页地址,待网页加载完成后,调用check_pag; class MainWindow(QMainWindow): def __init__(self, parent=None): super(MainWindow, self).__init__(parent) ...

    Python中利用xpath解析HTML的方法

    本篇文章主要介绍了Python中利用xpath解析HTML的方法,利用其lxml.html的xpath对html进行分析,获取抓取信息,具有一定的参考价值,感兴趣的小伙伴们可以参考一下

    Python基础应用实例-爬取

    网络爬虫,又称为网页蜘蛛,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。...利用Python编程语言及相关的爬虫技术,我们可以轻松地抓取这些音乐数据,并进行深入的分析,为音乐产业的发展提供有力支持。

    【Python爬虫】 基于 urllib 抓取指定贴吧的指定页的数据,保存到本地文件

    此资源是一个基于Python的爬虫脚本,利用urllib库抓取指定贴吧的指定页数据,并将抓取到的内容保存到本地文件中。该脚本可以帮助用户快速获取贴吧中的帖子标题、内容、发布时间等信息,并可以用于数据分析、内容提取...

    利用爬虫抓取网络图片.zip

    爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...

    Python爬虫基础知识

    Python爬虫是利用Python编程语言编写的一种自动化工具,用于从互联网上抓取和收集数据。通过模拟浏览器行为发送网络请求,爬虫可以获取网页内容并提取所需信息。为了有效抓取数据,爬虫开发者通常会使用诸如requests...

    基于Python的二手车爬虫数据可视化分析设计

    抓取的网页内容传入lxml模块的etree对象HTML方法通过xpath解析DOM树,不过二手车的关键数据比如二手车价格,汽车表显里程数字采用了字体文件加密,这里我们只能随机生成一个价格用于演示程序的完整运行,如果想破解...

    python爬虫的概要介绍与分析

    Python爬虫是一种广泛应用的数据抓取技术,它利用Python编写的程序自动从互联网上搜集大量网页信息,并将其结构化存储以便进一步分析和处理。以下是关于Python爬虫学习和实践涉及的相关资源概览: 在Python爬虫的...

    利用Python编程爬虫搜集微博平台上关于大学生网课的评论.zip

    使用SPSS、机器学习、自然语言处理等方法,对收集到的文本数据进行分词、数据清洗、词频统计和聚类分析。最后根据所得到的数据进行以及分析,发现目前在线教学 中学生体验的现状、趋势以及一些待解决的问题。 爬虫...

    爬虫+Python爬虫案例+Python技术+案例分析

    在这个案例中,我们将探索如何使用Python编写一个简单的爬虫程序,用于从网络上抓取数据。我们将以一个提供公开API的新闻网站为例,通过分析其API返回的数据结构,编写代码来获取并保存新闻文章的标题和链接。 为...

    Python识别html主要文本框过程解析

    这篇文章主要介绍了python识别html主要文本框过程解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 在抓取网页的时候只想抓取主要的文本框,例如 csdn 中的...

    毕业设计,基于Python+Django+MySql开发的二手车爬虫数据可视化分析,内含Python完整源代码,数据库脚本

    抓取的网页内容传入lxml模块的etree对象HTML方法通过xpath解析DOM树,不过二手车的关键数据比如二手车价格,汽车表显里程数字采用了字体文件加密,这里我们只能随机生成一个价格用于演示程序的完整运行,如果想破解...

Global site tag (gtag.js) - Google Analytics