成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

深入Python中的正則表達式

開發 后端
正則表達式應用的場景也非常多。常見的比如:搜索引擎的搜索、爬蟲結果的匹配、文本數據的提取等等都會用到,所以掌握甚至精通正則表達式是一個硬性技能,非常必要。

[[350298]]

正則表達式應用的場景也非常多。常見的比如:搜索引擎的搜索、爬蟲結果的匹配、文本數據的提取等等都會用到,所以掌握甚至精通正則表達式是一個硬性技能,非常必要。

正則表達式

正則表達式是一個特殊的字符序列,由普通字符和元字符組成。元字符能幫助你方便的檢查一個字符串是否與某種模式匹配。

Python中則提供了強大的正則表達式處理模塊,即 re 模塊, 為Python的內置模塊。

下面,我帶大家來一個入門demo例子,代碼如下:

  1. import re 
  2. reg_string = "hello9527python@wangcai.@!:xiaoqiang" 
  3. reg = "hello" 
  4. result = re.findall(reg,reg_string) 
  5. print(result) 

這里reg_string就是我們的普通字符,reg就是我們的元字符。

 

我們使用 re 模塊中的findall函數,進行匹配,返回的結果是列表數據類型。

我們使用正則表達式,就是為了在很長的字符串中,找到我們需要的字符串片段。

 

元字符

Python中常見元字符及其含義如下:

下面,我們具體使用下Python中的常見的元字符。

 

我們還是使用上次的例子,這次我們需要在reg_string匹配出我們的數字,只需要將reg換成\d,代碼如下圖所示。

比如,我們在之前的reg的hello前面加上一個^,意味著我們 匹配字符串的開始的hello,那么結果就是一個,就是我們開頭的hello。

 

如果,我們把reg換成\w,代碼如下圖所示。

這樣就是匹配數字字母下劃線,包括我們的漢字。

 

反義代碼

Python中常見反義代碼 及其含義如下:

其實,記憶很簡單,我們是不是知道\d匹配數字,那么\d的大寫\D就是匹配非數字,元字符[a]匹配a任意字符,那么[^a]就是匹配除了a以外的任意字符。

 

下面是具體例子

  1. >>> import re 
  2. >>> reg_string = "hello9527python@wangcai.@!:xiaoqiang" 
  3. >>> reg = "\D" 
  4. >>> re.findall(reg,reg_string) 
  5. ['h''e''l''l''o''p''y''t''h''o''n''@''w''a''n''g''c''a''i''.''@''!'':''x''i''a''o''q''i''a''n''g'
  6. >>> reg = "[^a-p]" 
  7. ['9''5''2''7''y''t''@''w''.''@''!'':''x''q'

限定符什么是限定符?就是限定我們匹配的個數的東西。

 

Python中常見限定符 及其含義如下:

我們還是用我們之前的reg_string,這次我們限定了元字符為\d{4},也就是我們的匹配的數字必須是4個。

下面,我們來提高難度,匹配字母和數字,限定個數為4個。

這樣我們可以使用[0-9a-z]{4},作為我們的元字符,[0-9a-z]代表了0到9的十個數字和a到z的小寫26個英文字母。[0-9a-z]{4}限定了個數為4個。

 

我們打印輸出下。

如果遇到了不是在[0-9a-z]范圍內,就會跳過,直到后面的4個都是在[0-9a-z]范圍內就打印輸出。

匹配ip地址

在互聯網中,一臺主機只有一個IP地址。IP地址用于在TCP/IP通信協議中標記每臺計算機的地址,通常用于十進制來表示,如192.168.1.100。

在window系統中,我們可以通過ipconfig查看我們的ip。在linux系統中,我們可以通過ifconfig查看我們的ip。

我們的ip字符串是這樣子的:ip = "this is ip:192.168.1.123 :172.138.2.15"下面要求使用正則表達式,將ip匹配出來。

 

其實,我們主要編寫元字符。比如:reg = "\d{3}.\d+.\d+.\d+",因為第一個數字必須是三位數開頭,我們可以設定\d{3}固定起來。

我們除了可以使用findall,還可以使用search,我們把元字符reg = "(\d{1,3}.){3}\d{1,3}"。

這元字符中的\d{1,3}.指定是我們ip前三個數字,后面加{3}就是重復3次。\d{1,3}指的就是我們ip最后一個數字。

 

但是search和findall是有區別的,search只能匹配第一個,我們需要使用列表取出第一個,而findall匹配所有。

組匹配

什么是組匹配,比如說這里邊我有一個字符串s = this is phone:13888888888 and this is my postcode:012345,我需要你把手機號和驗證碼匹配出來。

因為,我們要匹配兩個,而已每個的元字符都是不一樣的。所以,我們需要分組匹配。

正則表達式的括號表示分組匹配,括號中的模式可以用來匹配分組的內容。

 

于是我們的元字符就變成:reg = this is phone:(\d{11}) and this is my postcode:(\d{6})我們一般使用search進行分組匹配,上次我是不是說過search需要使用列表取出來,這里的組匹配也是一樣,不過這里用的是group()方法。group(1)代表了我們的手機號,group(2)代表了我們的驗證碼,而group(0)代表了我們的手機號和驗證碼,代碼如下圖所示。

在正則表達式中,除了findall和search用法,還有一個match用法。

 

match用法只匹配開頭的,也是需要group()取出來,下圖match的例子。

這是的re.I是忽略大小寫的意思。

貪婪與非貪婪

貪婪與非貪婪模式影響的是被量詞修飾的子表達式的匹配行為,貪婪模式在整個表達式匹配成功的前提下,盡可能多的匹配,而非貪婪模式在整個表達式匹配成功的前提下,盡可能少的匹配。

 

貪婪和非貪婪有幾個非常重要的操作符。

比如說這里邊我有一個字符串reg_string = pythonnnnnnnnnpythonHelloPytho,我們先使用貪婪的模式下的元字符:reg = "python*"

貪婪模式下的reg = "python*",意味著n重復零次或更多次。所以我們看到了第一關結果的pythonnnnnnnnn盡可能多的匹配。

 

下面使用非貪婪的模式下的元字符:reg = "python*?",reg = "python+?",reg = "python??"。

非貪婪模式下的reg = "python*",意味著n零次或一次,所以我們沒有看到pythonnnnnnnnn的結果。

手機號碼驗證首先,我們要知道我們的手機號碼是什么開頭的?

移動手機號碼開頭有16個號段:134、135、136、137、138、139、147、150、151、152、157、158、159、182、187、188。

聯通手機號碼開頭有7種號段:130、131、132、155、156、185、186。

 

電信手機號碼開頭有4個號段:133、153、180、189。

這樣我們就可以在開頭做事情了,先判斷開頭是不是上面的號段,regex = "^((13[0-9])|(14[5|7])|(15([0-3]|[5-9]))|(18[0,5-9]))\d{8}$",就是我們的元字符,代碼如下:

  1. import re 
  2.  
  3. def checkCellphone(cellphone): 
  4.     regex = "^((13[0-9])|(14[5|7])|(15([0-3]|[5-9]))|(18[0,5-9]))\d{8}$" 
  5.     result = re.findall(regex,cellphone) 
  6.     if result: 
  7.         print("匹配成功"
  8.         return True 
  9.     else
  10.         print("匹配失敗"
  11.         return False 
  12. cellphone = '13717378202' 
  13. checkCellphone(cellphone) 
  14.  
  15.  
  16. 匹配成功 
  17. True 

匹配郵箱合法性

下面,我們進行一個作業,就是來匹配我們的郵箱號碼。

作業的答案如下:

  1. import re 
  2.  
  3. def checkEmail(email): 
  4.  
  5.     regex_1 = '^(\w+)@sina.com$' 
  6.     regex_2 = '^(\w+)@sina.com.cn$' 
  7.     regex_3 = '^(\w+)@163.com$' 
  8.     regex_4 = '^(\w+)@126.com$' 
  9.     regex_5 = '^[1-9][0,9]{4,}+@qq.com$' 
  10.     regex = [regex_1 ,regex_2 ,regex_3, regex_4, regex_5] 
  11.     for i in  regex: 
  12.         result = re.findall(i,email) 
  13.         if result: 
  14.             print("匹配成功"
  15.             return True 
  16.         else
  17.             print("匹配失敗"
  18.             return False 
  19. email = 'sdjflsdjkl@sina.com' 
  20. checkEmail(email) 

正則表達式測試工具

打開開源中國提供的正則表達式測試工具 http://tool.oschina.net/regex/,輸入待匹配的文本,然后選擇常用的正則表達式,就可以得出相應的匹配結果了。

 

例如,輸入下面這段待匹配的文本:

  1. Hello, my phone number is 123455678 and email is runsen@qq.com, and my website is https://blog.csdn.net/weixin_44510615. 

這段字符串中包含了一個電話號碼和一個電子郵件,接下來就嘗試用正則表達式提取出來,如圖所示。

在網頁右側選擇 “匹配 Email 地址”,就可以看到下方出現了文本中的 E-mail。如果選擇 “匹配網址 URL”,就可以看到下方出現了文本中的 URL。是不是非常神奇?

本文已收錄 GitHub,傳送門~[1] ,里面更有大廠面試完整考點,歡迎 Star。

責任編輯:姜華 來源: Python之王
相關推薦

2018-09-27 15:25:08

正則表達式前端

2024-09-14 09:18:14

Python正則表達式

2021-01-27 11:34:19

Python正則表達式字符串

2010-03-25 18:25:36

Python正則表達式

2020-09-04 09:16:04

Python正則表達式虛擬機

2010-08-13 15:31:11

Flex正則表達式

2010-03-11 08:55:45

python正則表達式

2019-12-10 10:40:57

Python正則表達式編程語言

2010-03-01 15:51:59

Python則表達式

2023-11-15 08:32:16

正則表達式Python

2011-05-11 17:40:30

PHP正則表達式

2009-08-07 14:24:31

.NET正則表達式

2010-07-14 10:06:55

Perl正則表達式

2011-04-25 08:44:34

C#正則表達式

2010-08-09 14:30:39

Flex正則表達式

2009-09-16 13:14:10

Ereg正則表達式

2011-08-23 17:46:09

LUA正則表達式模式

2022-03-28 06:19:14

正則表達式開發

2009-02-18 09:48:20

正則表達式Java教程

2019-07-17 15:45:47

正則表達式字符串前端
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 欧美在线播放一区 | 99久久久久久 | 亚洲精品黄色 | 一区二区三区视频在线免费观看 | 国产综合精品一区二区三区 | 国产午夜精品久久久久免费视高清 | 一级片av | 隔壁老王国产在线精品 | 人碰人操| 日日骚网| 成人福利在线 | 久久久久国产一区二区三区 | 国产亚洲一区二区三区 | 久久精品国产一区 | 亚洲国产精品一区二区久久 | 91新视频 | 在线观看中文字幕dvd播放 | 久久一区二区三区免费 | 伊人成人免费视频 | 国产精品一区二区免费看 | 亚洲久久一区 | 精品精品视频 | 青青草久久 | 国产亚洲精品一区二区三区 | 欧美综合久久久 | 麻豆亚洲 | 久久久精品综合 | 亚洲精品在线看 | 黄色一级毛片 | 中文字幕日韩一区 | 天天综合网永久 | 亚洲视频一区二区三区 | 国产精品一区二区不卡 | 激情91| caoporn地址 | 美国av毛片 | 伦理二区 | 日本成人中文字幕 | 久久精品99国产精品日本 | 久久出精品 | 欧美最猛性xxxxx亚洲精品 |