首页
   /       /   
Python爬虫
5月
25
Python爬虫
作者:大彭Sir    分类: 学习笔记

安装requests和bs4

安装requests
pip install requests
安装bs4
pip install bs4

爬取豆瓣电影数据

# 获取页面
import requests as req
# 1.向服务器发送请求
url="https://movie.douban.com/top250"
header={
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.62 Safari/537.36"
}
html = req.get(url,headers=header).content.decode("utf-8")
# 2.保存文件到本地
with open("top250.html","w",encoding="utf-8") as f:
    f.write(html)
print(html)

数据处理

from bs4 import BeautifulSoup
soup = BeautifulSoup(open("top250.html",encoding="utf-8"),"html.parser")
print(soup)
print(soup.find_all("a",class_=""))

获取所有标题

# 这里获取的爬取之后保存到本地的文件
soup = BeautifulSoup(open("hkiii.html",encoding="utf-8"),"html.parser")
text = soup.select(".loglist_title")
# 获取标签内的文字
for t in text:
    print(t.text)

爬取结果

本文标签:标签: Python 爬虫
责任声明:本页信息由网友自行发布或来源于网络,真实性、合法性由发布人负责,请仔细甄别!本站只为传递信息,我们不做任何双方证明,也不承担任何法律责任。文章内容若侵犯你的权益,请联系本站删除!
转载声明:本文作者大彭Sir,如需转载请保留文章出处!原文链接请自行复制!

Theme By Brief 鄂ICP备19010459号

站长统计 sitemap

首页

分类

友链

登录