初识pyquery爬虫利器

注意
这是个坑！这是个坑！这是个坑！
重要的事情说三遍 python博客

命名python文件的时候请勿用各种包名称命名

进入正题爬虫利器pyquery的使用

1. 安装

1 2	pip install pyquery pip install requests #依赖

2.导包

1
2
3

import requests
import pyquery
import os       #文件操作

3. 抓取分析数据

#-*- coding:utf-8 -*-
import requests
import pyquery
import os
def reptile(url,packname):

    req = requests.get(url)     #向指定URL发送请求
    page = req.text
    pq = pyquery.PyQuery(page)

    pq_ul = pq('ul').filter('.note-list')  # 定位所有文章的 ul

    pq_li = pq_ul.find('li')      # 定位所有文章 li
    result = []
    # 逐个遍历文章
    for li in pq_li:
        li_tag = pq(li)
        title = li_tag('.title').text()
        href = li_tag('.title').attr('href')
        raw_href = url + href
        item = title + ':' + raw_href
        result.append(item)
    for i in result:
        print(i)
        # 定位当前目录
    ml = os.getcwd()
    try:
        os.mkdir(packname)
    except FileExistsError as e:
        print('文件夹已经存在')
    finally:
        print('最终执行代码')
    os.chdir(ml + '\/'+packname)  # 进入新建目录
    with open('jianshu.txt', 'w') as s:
        for i in result:
            print(i)
            s.write(i+"\n")

url = 'http://www.jianshu.com/'
reptile(url,packname = 'jianshu')

1. 安装
2.导包
3. 抓取分析数据