Python3爬蟲中正則表達式的使用方法

這篇文章給大家分享的是有關(guān)Python3爬蟲中正則表達式的使用方法的內(nèi)容。小編覺得挺實用的，因此分享給大家做個參考。一起跟隨小編過來看看吧。

創(chuàng)新互聯(lián)建站是一家專注網(wǎng)站建設(shè)、網(wǎng)絡(luò)營銷策劃、微信小程序、電子商務(wù)建設(shè)、網(wǎng)絡(luò)推廣、移動互聯(lián)開發(fā)、研究、服務(wù)為一體的技術(shù)型公司。公司成立十多年以來，已經(jīng)為上千家白烏魚各業(yè)的企業(yè)公司提供互聯(lián)網(wǎng)服務(wù)?，F(xiàn)在，服務(wù)的上千家客戶與我們一路同行，見證我們的成長；未來，我們一起分享成功的喜悅。

1. 實例引入

說了這么多，可能我們對它到底是個什么還是比較模糊，下面就用幾個實例來看一下正則表達式的用法。

打開開源中國提供的正則表達式測試工具http://tool.oschina.net/regex/，輸入待匹配的文本，然后選擇常用的正則表達式，就可以得出相應(yīng)的匹配結(jié)果了。例如，這里輸入待匹配的文本如下：

Hello, my phone number is 010-86432100 and email is cqc@cuiqingcai.com, and my website is http://cuiqingcai.com.

這段字符串中包含了一個電話號碼和一個電子郵件，接下來就嘗試用正則表達式提取出來，如圖3-10所示。

Python3爬蟲中正則表達式的使用方法

圖3-10 運行頁面

在網(wǎng)頁右側(cè)選擇“匹配Email地址”，就可以看到下方出現(xiàn)了文本中的E-mail。如果選擇“匹配網(wǎng)址URL”，就可以看到下方出現(xiàn)了文本中的URL。是不是非常神奇？

其實，這里就是用了正則表達式匹配，也就是用一定的規(guī)則將特定的文本提取出來。比如，電子郵件開頭是一段字符串，然后是一個@符號，最后是某個域名，這是有特定的組成格式的。另外，對于URL，開頭是協(xié)議類型，然后是冒號加雙斜線，最后是域名加路徑。

對于URL來說，可以用下面的正則表達式匹配：

[a-zA-z]+://[^\s]*

用這個正則表達式去匹配一個字符串，如果這個字符串中包含類似URL的文本，那就會被提取出來。

這個正則表達式看上去是亂糟糟的一團，其實不然，這里面都是有特定的語法規(guī)則的。比如，a-z代表匹配任意的小寫字母，\s表示匹配任意的空白字符，*就代表匹配前面的字符任意多個，這一長串的正則表達式就是這么多匹配規(guī)則的組合。

寫好正則表達式后，就可以拿它去一個長字符串里匹配查找了。不論這個字符串里面有什么，只要符合我們寫的規(guī)則，統(tǒng)統(tǒng)可以找出來。對于網(wǎng)頁來說，如果想找出網(wǎng)頁源代碼里有多少URL，用匹配URL的正則表達式去匹配即可。

上面我們說了幾個匹配規(guī)則，表3-2列出了常用的匹配規(guī)則。

表3-2 常用的匹配規(guī)則

Python3爬蟲中正則表達式的使用方法

看完了之后，可能有點暈暈的吧，不過不用擔(dān)心，后面我們會詳細講解一些常見規(guī)則的用法。

其實正則表達式不是Python獨有的，它也可以用在其他編程語言中。但是Python的re庫提供了整個正則表達式的實現(xiàn)，利用這個庫，可以在Python中使用正則表達式。在Python中寫正則表達式幾乎都用這個庫，下面就來了解它的一些常用方法。

2. match()

這里首先介紹第一個常用的匹配方法——match()，向它傳入要匹配的字符串以及正則表達式，就可以檢測這個正則表達式是否匹配字符串。

match()方法會嘗試從字符串的起始位置匹配正則表達式，如果匹配，就返回匹配成功的結(jié)果；如果不匹配，就返回None。示例如下：

import re
content = 'Hello 123 4567 World_This is a Regex Demo'
print(len(content))
result = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}', content)
print(result)
print(result.group())
print(result.span())

運行結(jié)果如下：

41
<_sre.SRE_Match object; span=(0, 25), match='Hello 123 4567 World_This'>
Hello 123 4567 World_This
(0, 25)

這里首先聲明了一個字符串，其中包含英文字母、空白字符、數(shù)字等。接下來，我們寫一個正則表達式：

^Hello\s\d\d\d\s\d{4}\s\w{10}

用它來匹配這個長字符串。開頭的^是匹配字符串的開頭，也就是以Hello開頭；然后\s匹配空白字符，用來匹配目標字符串的空格；\d匹配數(shù)字，3個\d匹配123；然后再寫1個\s匹配空格；后面還有4567，我們其實可以依然用4個\d來匹配，但是這么寫比較煩瑣，所以后面可以跟{4}以代表匹配前面的規(guī)則4次，也就是匹配4個數(shù)字；然后后面再緊接1個空白字符，最后\w{10}匹配10個字母及下劃線。我們注意到，這里其實并沒有把目標字符串匹配完，不過這樣依然可以進行匹配，只不過匹配結(jié)果短一點而已。

而在match()方法中，第一個參數(shù)傳入了正則表達式，第二個參數(shù)傳入了要匹配的字符串。

打印輸出結(jié)果，可以看到結(jié)果是SRE_Match對象，這證明成功匹配。該對象有兩個方法：group()方法可以輸出匹配到的內(nèi)容，結(jié)果是Hello 123 4567 World_This，這恰好是正則表達式規(guī)則所匹配的內(nèi)容；span()方法可以輸出匹配的范圍，結(jié)果是(0, 25)，這就是匹配到的結(jié)果字符串在原字符串中的位置范圍。

通過上面的例子，我們基本了解了如何在Python中使用正則表達式來匹配一段文字。

匹配目標

剛才我們用match()方法可以得到匹配到的字符串內(nèi)容，但是如果想從字符串中提取一部分內(nèi)容，該怎么辦呢？就像最前面的實例一樣，從一段文本中提取出郵件或電話號碼等內(nèi)容。

這里可以使用()括號將想提取的子字符串括起來。()實際上標記了一個子表達式的開始和結(jié)束位置，被標記的每個子表達式會依次對應(yīng)每一個分組，調(diào)用group()方法傳入分組的索引即可獲取提取的結(jié)果。示例如下：

import re
content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^Hello\s(\d+)\sWorld', content)
print(result)
print(result.group())
print(result.group(1))
print(result.span())

這里我們想把字符串中的1234567提取出來，此時可以將數(shù)字部分的正則表達式用()括起來，然后調(diào)用了group(1)獲取匹配結(jié)果。

運行結(jié)果如下：

<_sre.SRE_Match object; span=(0, 19), match='Hello 1234567 World'>
Hello 1234567 World
1234567
(0, 19)

可以看到，我們成功得到了1234567。這里用的是group(1)，它與group()有所不同，后者會輸出完整的匹配結(jié)果，而前者會輸出第一個被()包圍的匹配結(jié)果。假如正則表達式后面還有()包括的內(nèi)容，那么可以依次用group(2)、group(3)等來獲取。

通用匹配

剛才我們寫的正則表達式其實比較復(fù)雜，出現(xiàn)空白字符我們就寫\s匹配，出現(xiàn)數(shù)字我們就用\d匹配，這樣的工作量非常大。其實完全沒必要這么做，因為還有一個萬能匹配可以用，那就是.*（點星）。其中.（點）可以匹配任意字符（除換行符），*（星）代表匹配前面的字符無限次，所以它們組合在一起就可以匹配任意字符了。有了它，我們就不用挨個字符地匹配了。

接著上面的例子，我們可以改寫一下正則表達式：

import re
content = 'Hello 123 4567 World_This is a Regex Demo'
result = re.match('^Hello.*Demo$', content)
print(result)
print(result.group())
print(result.span())

這里我們將中間部分直接省略，全部用.*來代替，最后加一個結(jié)尾字符串就好了。運行結(jié)果如下：

<_sre.SRE_Match object; span=(0, 41), match='Hello 123 4567 World_This is a Regex Demo'>
Hello 123 4567 World_This is a Regex Demo
(0, 41)

可以看到，group()方法輸出了匹配的全部字符串，也就是說我們寫的正則表達式匹配到了目標字符串的全部內(nèi)容；span()方法輸出(0, 41)，這是整個字符串的長度。

因此，我們可以使用.*簡化正則表達式的書寫。

貪婪與非貪婪

使用上面的通用匹配.*時，可能有時候匹配到的并不是我們想要的結(jié)果。看下面的例子：

import re
content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*(\d+).*Demo$', content)
print(result)
print(result.group(1))

這里我們依然想獲取中間的數(shù)字，所以中間依然寫的是(\d+)。而數(shù)字兩側(cè)由于內(nèi)容比較雜亂，所以想省略來寫，都寫成 .*。最后，組成^He.*(\d+).*Demo$，看樣子并沒有什么問題。我們看下運行結(jié)果：

<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>
7

奇怪的事情發(fā)生了，我們只得到了7這個數(shù)字，這是怎么回事呢？

這里就涉及一個貪婪匹配與非貪婪匹配的問題了。在貪婪匹配下，.*會匹配盡可能多的字符。正則表達式中.*后面是\d+，也就是至少一個數(shù)字，并沒有指定具體多少個數(shù)字，因此，.*就盡可能匹配多的字符，這里就把123456匹配了，給\d+留下一個可滿足條件的數(shù)字7，最后得到的內(nèi)容就只有數(shù)字7了。

但這很明顯會給我們帶來很大的不便。有時候，匹配結(jié)果會莫名其妙少了一部分內(nèi)容。其實，這里只需要使用非貪婪匹配就好了。非貪婪匹配的寫法是.*?，多了一個?，那么它可以達到怎樣的效果？我們再用實例看一下：

import re
content = 'Hello 1234567 World_This is a Regex Demo'
result = re.match('^He.*?(\d+).*Demo$', content)
print(result)
print(result.group(1))

這里我們只是將第一個.*改成了.*?，轉(zhuǎn)變?yōu)榉秦澙菲ヅ?。結(jié)果如下：

<_sre.SRE_Match object; span=(0, 40), match='Hello 1234567 World_This is a Regex Demo'>
1234567

此時就可以成功獲取1234567了。原因可想而知，貪婪匹配是盡可能匹配多的字符，非貪婪匹配就是盡可能匹配少的字符。當(dāng).*?匹配到Hello后面的空白字符時，再往后的字符就是數(shù)字了，而\d+恰好可以匹配，那么這里.*?就不再進行匹配，交給\d+去匹配后面的數(shù)字。所以這樣.*?匹配了盡可能少的字符，\d+的結(jié)果就是1234567了。

所以說，在做匹配的時候，字符串中間盡量使用非貪婪匹配，也就是用.*?來代替.*，以免出現(xiàn)匹配結(jié)果缺失的情況。

但這里需要注意，如果匹配的結(jié)果在字符串結(jié)尾，.*?就有可能匹配不到任何內(nèi)容了，因為它會匹配盡可能少的字符。例如：

import re
content = 'http://weibo.com/comment/kEraCN'
result1 = re.match('http.*?comment/(.*?)', content)
result2 = re.match('http.*?comment/(.*)', content)
print('result1', result1.group(1))
print('result2', result2.group(1))

運行結(jié)果如下：

result1 
result2 kEraCN

可以觀察到，.*?沒有匹配到任何結(jié)果，而.*則盡量匹配多的內(nèi)容，成功得到了匹配結(jié)果。

修飾符

正則表達式可以包含一些可選標志修飾符來控制匹配的模式。修飾符被指定為一個可選的標志。我們用實例來看一下：

import re
content = '''Hello 1234567 World_This
is a Regex Demo
'''
result = re.match('^He.*?(\d+).*?Demo$', content)
print(result.group(1))

和上面的例子相仿，我們在字符串中加了換行符，正則表達式還是一樣的，用來匹配其中的數(shù)字?？匆幌逻\行結(jié)果：

AttributeError Traceback (most recent call last)
<ipython-input-18-c7d232b39645> in <module>()
      5 '''
      6 result = re.match('^He.*?(\d+).*?Demo$', content)
----> 7 print(result.group(1))
AttributeError: 'NoneType' object has no attribute 'group'

運行直接報錯，也就是說正則表達式?jīng)]有匹配到這個字符串，返回結(jié)果為None，而我們又調(diào)用了group()方法導(dǎo)致AttributeError。

那么，為什么加了一個換行符，就匹配不到了呢？這是因為\.匹配的是除換行符之外的任意字符，當(dāng)遇到換行符時，.*?就不能匹配了，所以導(dǎo)致匹配失敗。這里只需加一個修飾符re.S，即可修正這個錯誤：

result = re.match('^He.*?(\d+).*?Demo$', content, re.S)

這個修飾符的作用是使.匹配包括換行符在內(nèi)的所有字符。此時運行結(jié)果如下：

這個re.S在網(wǎng)頁匹配中經(jīng)常用到。因為HTML節(jié)點經(jīng)常會有換行，加上它，就可以匹配節(jié)點與節(jié)點之間的換行了。

另外，還有一些修飾符，在必要的情況下也可以使用，如表3-3所示。

表3-3 修飾符

Python3爬蟲中正則表達式的使用方法

在網(wǎng)頁匹配中，較為常用的有re.S和re.I。

轉(zhuǎn)義匹配

我們知道正則表達式定義了許多匹配模式，如.匹配除換行符以外的任意字符，但是如果目標字符串里面就包含.，那該怎么辦呢？

這里就需要用到轉(zhuǎn)義匹配了，示例如下：

import re
content = '(百度)www.baidu.com'
result = re.match('\(百度\)www\.baidu\.com', content)
print(result)

當(dāng)遇到用于正則匹配模式的特殊字符時，在前面加反斜線轉(zhuǎn)義一下即可。例如.就可以用\.來匹配，運行結(jié)果如下：

<_sre.SRE_Match object; span=(0, 17), match='(百度)www.baidu.com'>

可以看到，這里成功匹配到了原字符串。

這些是寫正則表達式常用的幾個知識點，熟練掌握它們對后面寫正則表達式匹配非常有幫助。

3. search()

前面提到過，match()方法是從字符串的開頭開始匹配的，一旦開頭不匹配，那么整個匹配就失敗了。我們看下面的例子：

import re
content = 'Extra stings Hello 1234567 World_This is a Regex Demo Extra stings'
result = re.match('Hello.*?(\d+).*?Demo', content)
print(result)

這里的字符串以Extra開頭，但是正則表達式以Hello開頭，整個正則表達式是字符串的一部分，但是這樣匹配是失敗的。運行結(jié)果如下：

None

因為match()方法在使用時需要考慮到開頭的內(nèi)容，這在做匹配時并不方便。它更適合用來檢測某個字符串是否符合某個正則表達式的規(guī)則。

這里就有另外一個方法search()，它在匹配時會掃描整個字符串，然后返回第一個成功匹配的結(jié)果。也就是說，正則表達式可以是字符串的一部分，在匹配時，search()方法會依次掃描字符串，直到找到第一個符合規(guī)則的字符串，然后返回匹配內(nèi)容，如果搜索完了還沒有找到，就返回None。

我們把上面代碼中的match()方法修改成search()，再看下運行結(jié)果：

<_sre.SRE_Match object; span=(13, 53), match='Hello 1234567 World_This is a Regex Demo'>
1234567

這時就得到了匹配結(jié)果。

因此，為了匹配方便，我們可以盡量使用search()方法。

下面再用幾個實例來看看search()方法的用法。

首先，這里有一段待匹配的HTML文本，接下來寫幾個正則表達式實例來實現(xiàn)相應(yīng)信息的提?。?/p>

html = '''<div id="songs-list">
    <h3 class="title">經(jīng)典老歌</h3>
    <p class="introduction">
        經(jīng)典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            <a href="/2.mp3" singer="任賢齊">滄海一聲笑</a>
        </li>
        <li data-view="4" class="active">
            <a href="/3.mp3" singer="齊秦">往事隨風(fēng)</a>
        </li>
        <li data-view="6"><a href="/4.mp3" singer="beyond">光輝歲月</a></li>
        <li data-view="5"><a href="/5.mp3" singer="陳慧琳">記事本</a></li>
        <li data-view="5">
            <a href="/6.mp3" singer="鄧麗君"><i class="fa fa-user"></i>但愿人長久</a>
        </li>
    </ul>
</div>'''

可以觀察到，ul節(jié)點里有許多l(xiāng)i節(jié)點，其中l(wèi)i節(jié)點中有的包含a節(jié)點，有的不包含a節(jié)點，a節(jié)點還有一些相應(yīng)的屬性——超鏈接和歌手名。

首先，我們嘗試提取class為active的li節(jié)點內(nèi)部的超鏈接包含的歌手名和歌名，此時需要提取第三個li節(jié)點下a節(jié)點的singer屬性和文本。

此時正則表達式可以以li開頭，然后尋找一個標志符active，中間的部分可以用.*?來匹配。接下來，要提取singer這個屬性值，所以還需要寫入singer="(.*?)"，這里需要提取的部分用小括號括起來，以便用group()方法提取出來，它的兩側(cè)邊界是雙引號。然后還需要匹配a節(jié)點的文本，其中它的左邊界是>，右邊界是</a>。然后目標內(nèi)容依然用(.*?)來匹配，所以最后的正則表達式就變成了：

<li.*?active.*?singer="(.*?)">(.*?)</a>

然后再調(diào)用search()方法，它會搜索整個HTML文本，找到符合正則表達式的第一個內(nèi)容返回。

另外，由于代碼有換行，所以這里第三個參數(shù)需要傳入re.S。整個匹配代碼如下：

result = re.search('<li.*?active.*?singer="(.*?)">(.*?)</a>', html, re.S)
if result:
    print(result.group(1), result.group(2))

由于需要獲取的歌手和歌名都已經(jīng)用小括號包圍，所以可以用group()方法獲取。

運行結(jié)果如下：

齊秦 往事隨風(fēng)

可以看到，這正是class為active的li節(jié)點內(nèi)部的超鏈接包含的歌手名和歌名。

如果正則表達式不加active（也就是匹配不帶class為active的節(jié)點內(nèi)容），那會怎樣呢？我們將正則表達式中的active去掉，代碼改寫如下：

result = re.search('<li.*?singer="(.*?)">(.*?)</a>', html, re.S)
if result:
    print(result.group(1), result.group(2))

由于search()方法會返回第一個符合條件的匹配目標，這里結(jié)果就變了：

任賢齊 滄海一聲笑

把active標簽去掉后，從字符串開頭開始搜索，此時符合條件的節(jié)點就變成了第二個li節(jié)點，后面的就不再匹配，所以運行結(jié)果就變成第二個li節(jié)點中的內(nèi)容。

注意，在上面的兩次匹配中，search()方法的第三個參數(shù)都加了re.S，這使得.*?可以匹配換行，所以含有換行的li節(jié)點被匹配到了。如果我們將其去掉，結(jié)果會是什么？代碼如下：

result = re.search('<li.*?singer="(.*?)">(.*?)</a>', html)
if result:
    print(result.group(1), result.group(2))

運行結(jié)果如下：

beyond 光輝歲月

可以看到，結(jié)果變成了第四個li節(jié)點的內(nèi)容。這是因為第二個和第三個li節(jié)點都包含了換行符，去掉re.S之后，.*?已經(jīng)不能匹配換行符，所以正則表達式不會匹配到第二個和第三個li節(jié)點，而第四個li節(jié)點中不包含換行符，所以成功匹配。

由于絕大部分的HTML文本都包含了換行符，所以盡量都需要加上re.S修飾符，以免出現(xiàn)匹配不到的問題。

4. findall()

前面我們介紹了search()方法的用法，它可以返回匹配正則表達式的第一個內(nèi)容，但是如果想要獲取匹配正則表達式的所有內(nèi)容，那該怎么辦呢？這時就要借助findall()方法了。該方法會搜索整個字符串，然后返回匹配正則表達式的所有內(nèi)容。

還是上面的HTML文本，如果想獲取所有a節(jié)點的超鏈接、歌手和歌名，就可以將search()方法換成findall()方法。如果有返回結(jié)果的話，就是列表類型，所以需要遍歷一下來依次獲取每組內(nèi)容。代碼如下：

results = re.findall('<li.*?href="(.*?)".*?singer="(.*?)">(.*?)</a>', html, re.S)
print(results)
print(type(results))
for result in results:
    print(result)
    print(result[0], result[1], result[2])

運行結(jié)果如下：

[('/2.mp3', '任賢齊', '滄海一聲笑'), ('/3.mp3', '齊秦', '往事隨風(fēng)'), ('/4.mp3', 'beyond', '光輝歲月'), 
('/5.mp3', '陳慧琳', '記事本'), ('/6.mp3', '鄧麗君', '但愿人長久')]
<class 'list'>
('/2.mp3', '任賢齊', '滄海一聲笑')
/2.mp3 任賢齊 滄海一聲笑
('/3.mp3', '齊秦', '往事隨風(fēng)')
/3.mp3 齊秦 往事隨風(fēng)
('/4.mp3', 'beyond', '光輝歲月')
/4.mp3 beyond 光輝歲月
('/5.mp3', '陳慧琳', '記事本')
/5.mp3 陳慧琳 記事本
('/6.mp3', '鄧麗君', '但愿人長久')
/6.mp3 鄧麗君 但愿人長久

可以看到，返回的列表中的每個元素都是元組類型，我們用對應(yīng)的索引依次取出即可。

如果只是獲取第一個內(nèi)容，可以用search()方法。當(dāng)需要提取多個內(nèi)容時，可以用findall()方法。

5. sub()

除了使用正則表達式提取信息外，有時候還需要借助它來修改文本。比如，想要把一串文本中的所有數(shù)字都去掉，如果只用字符串的replace()方法，那就太煩瑣了，這時可以借助sub()方法。示例如下：

import re
content = '54aK54yr5oiR54ix5L2g'
content = re.sub('\d+', '', content)
print(content)

運行結(jié)果如下：

aKyroiRixLg

這里只需要給第一個參數(shù)傳入\d+來匹配所有的數(shù)字，第二個參數(shù)為替換成的字符串（如果去掉該參數(shù)的話，可以賦值為空），第三個參數(shù)是原字符串。

在上面的HTML文本中，如果想獲取所有l(wèi)i節(jié)點的歌名，直接用正則表達式來提取可能比較煩瑣。比如，可以寫成這樣子：

results = re.findall('<li.*?>\s*?(<a.*?>)?(\w+)(</a>)?\s*?</li>', html, re.S)
for result in results:
    print(result[1])

運行結(jié)果如下：

一路上有你
滄海一聲笑
往事隨風(fēng)
光輝歲月
記事本
但愿人長久

此時借助sub()方法就比較簡單了。可以先用sub()方法將a節(jié)點去掉，只留下文本，然后再利用findall()提取就好了：

html = re.sub('<a.*?>|</a>', '', html)
print(html)
results = re.findall('<li.*?>(.*?)</li>', html, re.S)
for result in results:
    print(result.strip())

運行結(jié)果如下：

<div id="songs-list">
    <h3 class="title">經(jīng)典老歌</h3>
    <p class="introduction">
        經(jīng)典老歌列表
    </p>
    <ul id="list" class="list-group">
        <li data-view="2">一路上有你</li>
        <li data-view="7">
            滄海一聲笑
        </li>
        <li data-view="4" class="active">
            往事隨風(fēng)
        </li>
        <li data-view="6">光輝歲月</li>
        <li data-view="5">記事本</li>
        <li data-view="5">
            但愿人長久
        </li>
    </ul>
</div>
一路上有你
滄海一聲笑
往事隨風(fēng)
光輝歲月
記事本
但愿人長久

可以看到，a節(jié)點經(jīng)過sub()方法處理后就沒有了，然后再通過findall()方法直接提取即可?？梢钥吹剑谶m當(dāng)?shù)臅r候，借助sub()方法可以起到事半功倍的效果。

6. compile()

前面所講的方法都是用來處理字符串的方法，最后再介紹一下compile()方法，這個方法可以將正則字符串編譯成正則表達式對象，以便在后面的匹配中復(fù)用。示例代碼如下：

import re
content1 = '2016-12-15 12:00'
content2 = '2016-12-17 12:55'
content3 = '2016-12-22 13:21'
pattern = re.compile('\d{2}:\d{2}')
result1 = re.sub(pattern, '', content1)
result2 = re.sub(pattern, '', content2)
result3 = re.sub(pattern, '', content3)
print(result1, result2, result3)

例如，這里有3個日期，我們想分別將3個日期中的時間去掉，這時可以借助sub()方法。該方法的第一個參數(shù)是正則表達式，但是這里沒有必要重復(fù)寫3個同樣的正則表達式，此時可以借助compile()方法將正則表達式編譯成一個正則表達式對象，以便復(fù)用。

運行結(jié)果如下：

2016-12-15  2016-12-17  2016-12-22

另外，compile()還可以傳入修飾符，例如re.S等修飾符，這樣在search()、findall()等方法中就不需要額外傳了。所以，compile()方法可以說是給正則表達式做了一層封裝，以便我們更好地復(fù)用。

感謝各位的閱讀！關(guān)于Python3爬蟲中正則表達式的使用方法就分享到這里了，希望以上內(nèi)容可以對大家有一定的幫助，讓大家可以學(xué)到更多知識。如果覺得文章不錯，可以把它分享出去讓更多的人看到吧！

新聞標題：Python3爬蟲中正則表達式的使用方法
網(wǎng)站路徑：http://m.rwnh.cn/article41/pdidhd.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供用戶體驗、App開發(fā)、網(wǎng)站策劃、微信公眾號、外貿(mào)網(wǎng)站建設(shè)、云服務(wù)器

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

内射老阿姨1区2区3区4区_久久精品人人做人人爽电影蜜月_久久国产精品亚洲77777_99精品又大又爽又粗少妇毛片

Python3爬蟲中正則表達式的使用方法