Python爬蟲——爬取豆瓣電影Top250代碼實例-創(chuàng)新互聯

利用python爬取豆瓣電影Top250的相關信息，包括電影詳情鏈接,圖片鏈接,影片中文名,影片外國名,評分,評價數,概況,導演,主演,年份,地區(qū),類別這12項內容，然后將爬取的信息寫入Excel表中?；旧吓廊〗Y果還是挺好的。具體代碼如下：

我們一直強調成都網站制作、成都網站建設對于企業(yè)的重要性,如果您也覺得重要,那么就需要我們慎重對待,選擇一個安全靠譜的網站建設公司,企業(yè)網站我們建議是要么不做，要么就做好,讓網站能真正成為企業(yè)發(fā)展過程中的有力推手。專業(yè)網站建設公司不一定是大公司,創(chuàng)新互聯建站作為專業(yè)的網絡公司選擇我們就是放心。

#!/usr/bin/python
#-*- coding: utf-8 -*-
import sys
reload(sys)
sys.setdefaultencoding('utf8')
from bs4 import BeautifulSoup
import re
import urllib2
import xlwt

#得到頁面全部內容
def askURL(url):
  request = urllib2.Request(url)#發(fā)送請求
  try:
    response = urllib2.urlopen(request)#取得響應
    html= response.read()#獲取網頁內容
    #print html
  except urllib2.URLError, e:
    if hasattr(e,"code"):
      print e.code
    if hasattr(e,"reason"):
      print e.reason
  return html

#獲取相關內容
def getData(baseurl):
  findLink=re.compile(r'<a href="(.*?)" rel="external nofollow" >')#找到影片詳情鏈接
  findImgSrc=re.compile(r'<img.*src="(.*jpg)"',re.S)#找到影片圖片
  findTitle=re.compile(r'<span class="title">(.*)</span>')#找到片名
  #找到評分
  findRating=re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')
  #找到評價人數
  findJudge=re.compile(r'<span>(\d*)人評價</span>')
  #找到概況
  findInq=re.compile(r'<span class="inq">(.*)</span>')
  #找到影片相關內容：導演，主演，年份，地區(qū)，類別
  findBd=re.compile(r'<p class="">(.*?)</p>',re.S)
  #去掉無關內容
  remove=re.compile(r'              |\n|</br>|\.*')
  datalist=[]
  for i in range(0,10):
    url=baseurl+str(i*25)
    html=askURL(url)
    soup = BeautifulSoup(html, "html.parser")
    for item in soup.find_all('div',class_='item'):#找到每一個影片項
      data=[]
      item=str(item)#轉換成字符串
      #print item
      link=re.findall(findLink,item)[0]
      data.append(link)#添加詳情鏈接
      imgSrc=re.findall(findImgSrc,item)[0]
      data.append(imgSrc)#添加圖片鏈接
      titles=re.findall(findTitle,item)
      #片名可能只有一個中文名，沒有外國名
      if(len(titles)==2):
        ctitle=titles[0]
        data.append(ctitle)#添加中文片名
        otitle=titles[1].replace(" / ","")#去掉無關符號
        data.append(otitle)#添加外國片名
      else:
        data.append(titles[0])#添加中文片名
        data.append(' ')#留空
      rating=re.findall(findRating,item)[0]
      data.append(rating)#添加評分
      judgeNum=re.findall(findJudge,item)[0]
      data.append(judgeNum)#添加評論人數
      inq=re.findall(findInq,item)
      #可能沒有概況
      if len(inq)!=0:
        inq=inq[0].replace("。","")#去掉句號
        data.append(inq)#添加概況
      else:
        data.append(' ')#留空
      bd=re.findall(findBd,item)[0]
      bd=re.sub(remove,"",bd)
      bd=re.sub('<br>'," ",bd)#去掉<br>
      bd=re.sub('/'," ",bd)#替換/
      #data.append(bd)
      words=bd.split(" ")
      for s in words:
        if len(s)!=0 and s!=' ':#去掉空白內容
           data.append(s)
      #主演有可能因為導演內容太長而沒有
      if(len(data)!=12):
        data.insert(8,' ')#留空
      datalist.append(data)
  return datalist

#將相關數據寫入excel中
def saveData(datalist,savepath):
  book=xlwt.Workbook(encoding='utf-8',style_compression=0)
  sheet=book.add_sheet('豆瓣電影Top250',cell_overwrite_ok=True)
  col=('電影詳情鏈接','圖片鏈接','影片中文名','影片外國名',
        '評分','評價數','概況','導演','主演','年份','地區(qū)','類別')
  for i in range(0,12):
    sheet.write(0,i,col[i])#列名
  for i in range(0,250):
    data=datalist[i]
    for j in range(0,12):
      sheet.write(i+1,j,data[j])#數據
  book.save(savepath)#保存

def main():
  baseurl='https://movie.douban.com/top250?start='
  datalist=getData(baseurl)
  savapath=u'豆瓣電影Top250.xlsx'
  saveData(datalist,savapath)

main()

網頁題目：Python爬蟲——爬取豆瓣電影Top250代碼實例-創(chuàng)新互聯
鏈接URL：http://m.rwnh.cn/article40/djiceo.html

成都網站建設公司_創(chuàng)新互聯，為您提供網站導航、面包屑導航、Google、用戶體驗、外貿建站、域名注冊

聲明：本網站發(fā)布的內容（圖片、視頻和文字）以用戶投稿、用戶轉載內容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網站立場，如需處理請聯系客服。電話：028-86922220；郵箱：631063699@qq.com。內容未經允許不得轉載，或轉載時需注明來源：創(chuàng)新互聯

猜你還喜歡下面的內容

内射老阿姨1区2区3区4区_久久精品人人做人人爽电影蜜月_久久国产精品亚洲77777_99精品又大又爽又粗少妇毛片

Python爬蟲——爬取豆瓣電影Top250代碼實例-創(chuàng)新互聯