博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
爬取豆瓣电影TOP250
阅读量:5759 次
发布时间:2019-06-18

本文共 735 字,大约阅读时间需要 2 分钟。

import requests
from bs4 import BeautifulSoup
def get_movies():
    headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36',
    'Host':'movie.douban.com'
    }
    movie_list=[]
    for i in range(10):
        link='https://movie.douban.com/top250?start='+str(i*25)
        r=requests.get(link,headers=headers,timeout=10)
        print(str(i+1),"page status_ocde:",r.status_code)
        soup=BeautifulSoup(r.text,'lxml')
        div_list=soup.find_all('div',class_='hd')
        for each in div_list:
            movie=each.a.span.text.strip()
            movie_list.append(movie)
    return movie_list
movies=get_movies()
f=open('豆瓣电影TOP250.txt','a')
for i in movies:
    f.write(i+'\n')
f.close()

转载于:https://www.cnblogs.com/menxin/p/10705036.html

你可能感兴趣的文章
二维有序数组查找数字
查看>>
JavaScript(ES5)使用保留字作函数名
查看>>
20个Linux服务器性能调优技巧
查看>>
多重影分身:一套代码如何生成多个小程序?
查看>>
Oracle将NetBeans交给了Apache基金会
查看>>
填坑记:Uncaught RangeError: Maximum call stack size exceeded
查看>>
SpringCloud之消息总线(Spring Cloud Bus)(八)
查看>>
DLA实现跨地域、跨实例的多AnalyticDB读写访问
查看>>
基于Hyperledger Fabric交易系统帐户的钱包模型的java Chaincode实例
查看>>
实时编辑
查看>>
北漂之毕业裁员后的又一波奇遇
查看>>
Python数据分析:pandas常用函数
查看>>
KVO原理分析及使用进阶
查看>>
JSP第五篇【JSTL的介绍、core标签库、fn方法库、fmt标签库】
查看>>
Vue系列(四):模块化开发、Elment UI、自定义全局组件(插件)、Vuex
查看>>
【348天】每日项目总结系列086(2018.01.19)
查看>>
extjs-mvc结构实践(五):实现用户管理的增删改查
查看>>
【JS基础】初谈JS现有的数据类型
查看>>
【294天】我爱刷题系列053(2017.11.26)
查看>>
Microsoft发布了Azure Bot Service和LUIS的GA版
查看>>