- 浏览: 546954 次
- 性别:
- 来自: 杭州
文章分类
- 全部博客 (478)
- lucene (45)
- oracle (19)
- nutch (2)
- blog (2)
- 垂直搜索 (19)
- java综合 (89)
- spring (15)
- Hibernate (9)
- Struts (9)
- Hadoop (16)
- Mysql (12)
- nosql (10)
- Linux (3)
- MyEclipse (4)
- Ant (1)
- 设计模式 (19)
- JBPM (1)
- JSP (1)
- HtmlParser (5)
- SVN (2)
- 插件 (2)
- 收藏 (7)
- Others (1)
- Heritrix (18)
- Solr (4)
- 主题爬虫 (31)
- 内存数据库 (24)
- 分布式与海量数据 (32)
- httpclient (14)
- Tomcat (1)
- 面试宝典 (6)
- Python (14)
- 数据挖掘 (1)
- 算法 (6)
- 其他 (4)
- JVM (12)
- Redis (18)
最新评论
-
hanjiyun:
本人水平还有待提高,进步空间很大,看这些文章给我有很大的指导作 ...
JVM的内存管理 Ⅲ -
liuxinglanyue:
四年后的自己:这种方法 不靠谱。 使用javaagent的方式 ...
计算Java对象占用内存空间的大小(对于32位虚拟机而言) -
jaysoncn:
附件在哪里啊test.NoCertificationHttps ...
使用HttpClient过程中常见的一些问题 -
231fuchenxi:
你好,有redis,memlink,mysql的测试代码吗?可 ...
MemLink 性能测试 -
guyue1015:
[color=orange][/color][size=lar ...
JAVA同步机制
对搜索引擎、文件索引、文档转换、数据检索、站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理。事实上,通过Python语言提供的各种模块,我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文档。本文上篇中,我们介绍了一个可以帮助简化打开位于本地和Web上的HTML文档的Python模块。在本文中,我们将论述如何使用Python模块来迅速解析在HTML文件中的数据,从而处理特定的内容,如链接、图像和Cookie等。同时还会介绍如何规范HTML文件的格式标签。
一、从HTML文档中提取链接
Python语言还有一个非常有用的模块HTMLParser,该模块使我们能够根据HTML文档中的标签来简洁、高效地解析HTML文档。所以,在处理HTML文档的时候,HTMLParser是最常用的模块之一。
import urllib
class parseLinks(HTMLParser.HTMLParser):
def handle_starttag(self, tag, attrs):
if tag == 'a':
for name,value in attrs:
if name == 'href':
print value
print self.get_starttag_text()
lParser = parseLinks()
lParser.feed(urllib.urlopen("http://www.python.org/index.html").read())
处理HTML文档的时候,我们常常需要从其中提取出所有的链接。使用HTMLParser模块后,这项任务将变得易如反掌。首先,我们需要定义一个新的HTMLParser类,以覆盖handle_starttag()方法,我们将使用这个方法来显示所有标签的HRef属性值。
定义好新的HTMLParser类之后,需要创建一个实例来返回HTMLParser对象。然后,就可以使用urllib.urlopen(url)打开HTML文档并读取该HTML文件的内容了。
为了解析HTML文件的内容并显示包含其中的链接,可以使用read()函数将数据传递给HTMLParser对象。HTMLParser对象的feed函数将接收数据,并通过定义的HTMLParser对象对数据进行相应的解析。需要注意,如果传给HTMLParser的feed()函数的数据不完整的话,那么不完整的标签会保存下来,并在下一次调用feed()函数时进行解析。当HTML文件很大,需要分段发送给解析器的时候,这个功能就会有用武之地了。下面是一个具体的例子
import urllib
import sys
#定义HTML解析器
class parseLinks(HTMLParser.HTMLParser):
def handle_starttag(self, tag, attrs):
if tag == 'a':
for name,value in attrs:
if name == 'href':
print value
print self.get_starttag_text()
#创建HTML解析器的实例
lParser = parseLinks()
#打开HTML文件
lParser.feed(urllib.urlopen( \
"http://www.python.org/index.html").read())
lParser.close()
上述代码的运行结果太长,在此省略,您可以自己运行代码试试。
二、从HTML文档中提取图像
处理HTML文档的时候,我们常常需要从其中提取出所有的图像。使用HTMLParser模块后,这项任务将变得易如反掌。首先,我们需要定义一个新的HTMLParser类,以覆盖handle_starttag()方法,该方法的作用是查找img标签,并保存src属性值所指的文件。
import urllib
def getImage(addr):
u = urllib.urlopen(addr)
data = u.read()
class parseImages(HTMLParser.HTMLParser):
def handle_starttag(self, tag, attrs):
if tag == 'img':
for name,value in attrs:
if name == 'src':
getImage(urlString + "/" + value)
u = urllib.urlopen(urlString)
lParser.feed(u.read())
定义好新的HTMLParser类之后,需要创建一个实例来返回HTMLParser对象。然后,就可以使用urllib.urlopen(url)打开HTML文档并读取该HTML文件的内容了。
为了解析HTML文件的内容并显示包含其中的图像,可以使用feed(data)函数将数据发送至HTMLParser对象。HTMLParser对象的feed函数将接收数据,并通过定义的HTMLParser对象对数据进行相应的解析。下面是一个具体的示例:
import urllib
import sys
urlString = "http://www.python.org"
#把图像文件保存至硬盘
def getImage(addr):
u = urllib.urlopen(addr)
data = u.read()
splitPath = addr.split('/')
fName = splitPath.pop()
print "Saving %s" % fName
f = open(fName, 'wb')
f.write(data)
f.close()
#定义HTML解析器
class parseImages(HTMLParser.HTMLParser):
def handle_starttag(self, tag, attrs):
if tag == 'img':
for name,value in attrs:
if name == 'src':
getImage(urlString + "/" + value)
#创建HTML解析器的实例
lParser = parseImages()
#打开HTML文件
u = urllib.urlopen(urlString)
print "Opening URL\n===================="
print u.info()
#把HTML文件传给解析器
lParser.feed(u.read())
lParser.close()
上述代码的运行结果如下所示:
====================
Date: Fri, 26 Jun 2009 10:54:49 GMT
Server: Apache/2.2.9 (Debian) DAV/2 SVN/1.5.1 mod_ssl/2.2.9 OpenSSL/0.9.8g mod_wsgi/2.3 Python/2.5.2
Last-Modified: Thu, 25 Jun 2009 09:44:54 GMT
ETag: "105800d-46e7-46d29136f7180"
Accept-Ranges: bytes
Content-Length: 18151
Connection: close
Content-Type: text/html
Saving python-logo.gif
Saving trans.gif
Saving trans.gif
Saving afnic.fr.png
三、从HTML文档中提取文本
处理HTML文档的时候,我们常常需要从其中提取出所有的文本。使用HTMLParser模块后,这项任务将变得非常简单了。首先,我们需要定义一个新的HTMLParser类,以覆盖handle_data()方法,该方法是用来解析并文本数据的。
import urllib
class parseText(HTMLParser.HTMLParser):
def handle_data(self, data):
if data != '\n':
urlText.append(data)
lParser = parseText()
lParser.feed(urllib.urlopen( \
http://docs.python.org/lib/module-HTMLParser.html).read())
定义好新的HTMLParser类之后,需要创建一个实例来返回HTMLParser对象。然后,就可以使用urllib.urlopen(url)打开HTML文档并读取该HTML文件的内容了。
为了解析HTML文件的内容并显示包含其中的文本,我们可以使用feed(data)函数将数据传递给HTMLParser对象。HTMLParser对象的feed函数将接收数据,并通过定义的HTMLParser对象对数据进行相应的解析。要注意的是,如果传给HTMLParser的feed()函数的数据不完整的话,那么不完整的标签会保存下来,并在下一次调用feed()函数时进行解析。当HTML文件很大,需要分段发送给解析器的时候,这个功能就会有用武之地了。下面是一个具体的代码示例:
import urllib
urlText = []
#定义HTML解析器
class parseText(HTMLParser.HTMLParser):
def handle_data(self, data):
if data != '\n':
urlText.append(data)
#创建HTML解析器的实例
lParser = parseText()
#把HTML文件传给解析器
lParser.feed(urllib.urlopen( \
“http://docs.python.org/lib/module-HTMLParser.html” \
).read())
lParser.close()
for item in urlText:
print item
上面代码的运行输出过长,在此略过
四、从HTML文档中提取Cookies
很多时候,我们都需要处理Cookie,幸运的是Python语言的cookielib模块为我们提供了许多自动处理在HTML中的HTTP Cookie的类。当处理要求为客户端设置Cookie的HTML文档的时候,这些类对我们非常有用。
import cookielib
from urllib2 import urlopen, Request
cJar = cookielib.LWPCookieJar()
opener=urllib2.build_opener( \
urllib2.HTTPCookieProcessor(cJar))
urllib2.install_opener(opener)
r = Request(testURL)
h = urlopen(r)
for ind, cookie in enumerate(cJar):
print "%d - %s" % (ind, cookie)
cJar.save(cookieFile)
为了从HTML文档提取cookies,首先得使用cookielib模块的LWPCookieJar()函数创建一个cookie jar的实例。LWPCookieJar()函数将返回一个对象,该对象可以从硬盘加载Cookie,同时还能向硬盘存放Cookie。
接下来,使用urllib2模块的build_opener([handler, . . .])函数创建一个opener对象,当HTML文件打开时该对象将处理cookies。函数build_opener可以接收零个或多个处理程序(这些程序将按照它们被指定的顺序连接在一起)作为参数并返回一个。
注意,如果想让urlopen()使用opener对象来打开HTML文件的话,可以调用install_opener(opener)函数,并将opener对象传给它。否则,请使用opener对象的open(url)函数来打开HTML文件。
一旦已经创建并安装了opener对象,就可以使用urllib2模块中的Request(url)函数来创建一个Request对象,然后就能使用urlopen(Request)函数来打开HTML文件了。
打开HTML页面后,该页面的所有Cookie将被存放到LWPCookieJar对象中,之后,您可以使用LWPCookieJar对象的save(filename)函数了。
import urllib2
import cookielib
from urllib2 import urlopen, Request
cookieFile = "cookies.dat"
testURL = 'http://maps.google.com/'
#为cookie jar 创建实例
cJar = cookielib.LWPCookieJar()
#创建HTTPCookieProcessor的opener对象
opener = urllib2.build_opener( \
urllib2.HTTPCookieProcessor(cJar))
#安装HTTPCookieProcessor的opener
urllib2.install_opener(opener)
#创建一个Request对象
r = Request(testURL)
#打开HTML文件
h = urlopen(r)
print "页面的头部\n======================"
print h.info()
print "页面的Cookies\n======================"
for ind, cookie in enumerate(cJar):
print "%d - %s" % (ind, cookie)
#保存cookies
cJar.save(cookieFile)
上述代码的运行结果如下所示:
======================
Cache-Control: private
Content-Type: text/html; charset=ISO-8859-1
Set-Cookie: PREF=ID=5d9692b55f029733:NW=1:TM=1246015608:LM=1246015608:S=frfx--b3xt73TaEA; expires=Sun, 26-Jun-2011 11:26:48 GMT; path=/; domain=.google.com
Date: Fri, 26 Jun 2009 11:26:48 GMT
Server: mfe
Expires: Fri, 26 Jun 2009 11:26:48 GMT
Transfer-Encoding: chunked
Connection: close
页面的Cookies
======================
0 -
补充:http://liuxinglanyue.iteye.com/admin/blogs/900758
发表评论
-
老王的Python教程-推荐
2011-02-02 22:46 1891强烈推荐,适合入门,适合深入 http://www.cnpy ... -
转贴一篇不错的Python入门教程 - Instant Hacking[译文]
2011-02-02 00:09 1894原文 http://www.hetland.org/ ... -
python快速入门教程
2011-02-01 23:41 1888python所支持的数据类型:整型、长整型、布尔型 ... -
python入门教程:语句和语法
2011-02-01 23:40 2200注释(#): python中的注 ... -
python教程:安装python运行环境以及简单程序
2011-02-01 23:38 2511python3.0已推出,但据说很多库都不能用了,建议 ... -
利用Python抓取和解析网页(二)补充
2011-02-01 23:34 1950五、为HTML文档中的属性值添加引号 前面我们 ... -
利用Python抓取和解析网页(一)
2011-02-01 23:25 7995对搜索引擎、文件索引、文档转换、数据检索、站点备份或迁移等应用 ... -
Google Python 视频教程
2011-01-04 08:39 1585Google Python Class Day 1 Part ... -
Django学习笔记(收藏)
2011-01-01 15:43 1005Django笔记1 Django笔记2 ... -
用Redis存储好友关系-python版
2011-01-01 11:56 1373这是一个用Redis存储好友关系的python下使用Redis ... -
Python正则表达式指南
2010-12-23 12:12 12471. 正则表达式基础 1.1. 简单介绍 正则表达 ... -
Python 3 初探,第 2 部分: 高级主题
2010-12-07 20:00 1314转自:Cesar Otero 简介: Python 3 是 ... -
Python 3 初探,第 1 部分: Python 3 的新特性
2010-12-07 19:58 930转自:Cesar Otero 简介: Python 3 是 ...
相关推荐
通过Python语言提供的各种模块,我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文档。本文将详细介绍如何利用Python抓取和解析网页
利用python抓取网络图片的步骤: 1.根据给定的网址获取网页源代码 2.利用正则表达式把源代码中的图片地址过滤出来 3.根据过滤出来的图片地址下载网络图片
该程序使用了Requests库和BeautifulSoup库来获取网页源代码和解析HTML标签。具体的爬虫流程如下: 1. 使用Requests库发送HTTP请求,获取网页源代码。 2. 使用BeautifulSoup库解析HTML标签,获取商品信息。 3. 将...
Python爬虫是一种自动化抓取互联网信息的技术,适用于各种任务和行业,例如: - 网站数据爬取:可以爬取特定网站的数据,如新闻、股票数据等。例如,在数据分析领域,可以通过Python爬虫自动获取股票价格,利用数据...
Python爬虫是指利用Python语言编写的网络爬虫程序,用于从互联网上抓取信息、数据或者内容。通常情况下,Python爬虫会利用第三方库如Requests、BeautifulSoup、Scrapy等来实现网页请求、数据解析和存储等功能。 ...
BeautifulSoup是python的一个库,最主要的功能是从网页抓取数据。下面这篇文章主要给大家介绍了关于Python利用BeautifulSoup解析Html的方法示例,文中通过示例代码介绍的非常详细,需要的朋友们下面跟着小编来一起...
1:完成窗口设置,利用PyQT5 QWebEngineView加载网页地址,待网页加载完成后,调用check_pag; class MainWindow(QMainWindow): def __init__(self, parent=None): super(MainWindow, self).__init__(parent) ...
本篇文章主要介绍了Python中利用xpath解析HTML的方法,利用其lxml.html的xpath对html进行分析,获取抓取信息,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
网络爬虫,又称为网页蜘蛛,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。...利用Python编程语言及相关的爬虫技术,我们可以轻松地抓取这些音乐数据,并进行深入的分析,为音乐产业的发展提供有力支持。
此资源是一个基于Python的爬虫脚本,利用urllib库抓取指定贴吧的指定页数据,并将抓取到的内容保存到本地文件中。该脚本可以帮助用户快速获取贴吧中的帖子标题、内容、发布时间等信息,并可以用于数据分析、内容提取...
爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL...
Python爬虫是利用Python编程语言编写的一种自动化工具,用于从互联网上抓取和收集数据。通过模拟浏览器行为发送网络请求,爬虫可以获取网页内容并提取所需信息。为了有效抓取数据,爬虫开发者通常会使用诸如requests...
抓取的网页内容传入lxml模块的etree对象HTML方法通过xpath解析DOM树,不过二手车的关键数据比如二手车价格,汽车表显里程数字采用了字体文件加密,这里我们只能随机生成一个价格用于演示程序的完整运行,如果想破解...
Python爬虫是一种广泛应用的数据抓取技术,它利用Python编写的程序自动从互联网上搜集大量网页信息,并将其结构化存储以便进一步分析和处理。以下是关于Python爬虫学习和实践涉及的相关资源概览: 在Python爬虫的...
使用SPSS、机器学习、自然语言处理等方法,对收集到的文本数据进行分词、数据清洗、词频统计和聚类分析。最后根据所得到的数据进行以及分析,发现目前在线教学 中学生体验的现状、趋势以及一些待解决的问题。 爬虫...
在这个案例中,我们将探索如何使用Python编写一个简单的爬虫程序,用于从网络上抓取数据。我们将以一个提供公开API的新闻网站为例,通过分析其API返回的数据结构,编写代码来获取并保存新闻文章的标题和链接。 为...
这篇文章主要介绍了python识别html主要文本框过程解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 在抓取网页的时候只想抓取主要的文本框,例如 csdn 中的...
抓取的网页内容传入lxml模块的etree对象HTML方法通过xpath解析DOM树,不过二手车的关键数据比如二手车价格,汽车表显里程数字采用了字体文件加密,这里我们只能随机生成一个价格用于演示程序的完整运行,如果想破解...