初识pyquery爬虫利器

作者 新城 日期 2017-09-06
初识pyquery爬虫利器

注意
这是个坑!这是个坑!这是个坑!
重要的事情说三遍 python博客




命名python文件的时候请勿用各种包名称命名

进入正题 爬虫利器pyquery的使用

1. 安装
1
2
pip install pyquery
pip install requests #依赖
2.导包
1
2
3
import requests
import pyquery
import os #文件操作
3. 抓取分析数据
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
#-*- coding:utf-8 -*-
import requests
import pyquery
import os
def reptile(url,packname):

req = requests.get(url) #向指定URL发送请求
page = req.text
pq = pyquery.PyQuery(page)

pq_ul = pq('ul').filter('.note-list') # 定位所有文章的 ul

pq_li = pq_ul.find('li') # 定位所有文章 li
result = []
# 逐个遍历文章
for li in pq_li:
li_tag = pq(li)
title = li_tag('.title').text()
href = li_tag('.title').attr('href')
raw_href = url + href
item = title + ':' + raw_href
result.append(item)
for i in result:
print(i)
# 定位当前目录
ml = os.getcwd()
try:
os.mkdir(packname)
except FileExistsError as e:
print('文件夹已经存在')
finally:
print('最终执行代码')
os.chdir(ml + '\/'+packname) # 进入新建目录
with open('jianshu.txt', 'w') as s:
for i in result:
print(i)
s.write(i+"\n")

url = 'http://www.jianshu.com/'
reptile(url,packname = 'jianshu')