python 爬虫
BeautifulSoup 使用
python ip代理池
爬虫模拟登录
本文档使用 MrDoc 发布
-
+
首页
BeautifulSoup 使用
``` pip3 install beautifulsoup4 ``` 豆瓣电影 html ```html <li> <div class="item"> <div class="pic"> <em class="">1</em> <a href="https://movie.douban.com/subject/1292052/"> <img width="100" alt="肖申克的救赎" src="https://img2.doubanio.com/view/photo/s_ratio_poster/public/p480747492.webp" class=""> </a> </div> <div class="info"> <div class="hd"> <a href="https://movie.douban.com/subject/1292052/" class=""> <span class="title">肖申克的救赎</span> <span class="title"> / The Shawshank Redemption</span> <span class="other"> / 月黑高飞(港) / 刺激1995(台)</span> </a> <span class="playable">[可播放]</span> </div> <div class="bd"> <p class=""> 导演: 弗兰克·德拉邦特 Frank Darabont 主演: 蒂姆·罗宾斯 Tim Robbins /...<br> 1994 / 美国 / 犯罪 剧情 </p> <div class="star"> <span class="rating5-t"></span> <span class="rating_num" property="v:average">9.7</span> <span property="v:best" content="10.0"></span> <span>2796089人评价</span> </div> <p class="quote"> <span class="inq">希望让人自由。</span> </p> </div> </div> </div> </li> ``` ```python import requests from bs4 import BeautifulSoup url="https://movie.douban.com/top250?start={}&filter=".format('0') headers={"User-Agent" : "Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.1.6) ", "Accept" : "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8", "Accept-Language" : "en-us", "Connection" : "keep-alive", "Accept-Charset" : "GB2312,utf-8;q=0.7,*;q=0.7"} result=requests.get(url,headers=headers) soup=BeautifulSoup(result.text,'lxml') list1=soup.find_all(class_='item') # 找到所有 class 为 item 的标签 for item in list1: img=item.find("img").get('src') #寻找 img 标签 get 得到 src 属性 href=item.find(class_='info').find('a').get('href') #找到 class 为 info -》 找到a标签 得到 href 属性 title=item.find(class_='info').find('a').find(class_='title').string print(href,img,title) ```
admin
2023年2月6日 22:27
转发文档
收藏文档
上一篇
下一篇
手机扫码
复制链接
手机扫一扫转发分享
复制链接
Markdown文件
分享
链接
类型
密码
更新密码