日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程语言 > python >内容正文

python

python通过正则匹配指定字符开头与结束提取中间内容

發(fā)布時間:2023/12/18 python 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 python通过正则匹配指定字符开头与结束提取中间内容 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

一、提取包含始末字符

1、起始字符串固定

a = re.findall('起始字符串.*結束字符串',str)

2、起始字符串不固定(即從首字符串提取到固定的字符串結束),用^指定從首字符串開始

a = re.findall('^.*結束字符串',str)

二、不包含始末字符串

#方法1 a = re.findall('(?<=始字符串).*?(?=末字符串)',str) #方法2 a = re.findall('始字符串(.*?)末字符串',str)
  • 在 re.findall()的方法中 '始字符串.末字符串’ 可以匹配到相同的值直到最后一個值;如果參數(shù)為 '始字符串.?末字符串’則只匹配到第一個值。
  • 其實使用.*和.+都能提取特定始末字符串中間的內(nèi)容,下面順便說下兩者的區(qū)別。
  • 三、.*和.+正則提取的區(qū)別

    .:匹配任意字符
    *:匹配0個或多個字符
    ?:非貪婪模式,在符合的條件下,盡可能少的匹配(盡可能短的匹配)

    str2 = "aabab" a = re.findall('a.*?b',str2) #結果:['aab', 'ab'] b = re.findall('a.+?b',str2) #結果:['aab']

    .?:匹配aab和ab ,因為可以匹配0個字符,所以可以匹配得到ab
    .+?:匹配aab,因為+必須a和b中間至少有一個字符,所以排除了ab

    四、起始有無^的區(qū)別

    str2 = "aabab" c = re.findall('.*',str2) #結果:['aabab', ''] d = re.findall('^.*',str2) #結果:['aabab']

    五、pandas對具體列的內(nèi)容通過正則表達式進行數(shù)據(jù)提取

  • 使用前要確保該列的類型統(tǒng)一,str或者float格式,最好事先通過astype強制轉換一下
  • df[‘新列名’]=df[‘提取的列名’].str.extract(‘正則表達式’, expand = True)
  • 六、遇到的報錯

    報錯:pattern contains no capture groups
    (翻譯:模式不包含捕獲組)
    解決:根據(jù)docs ,您需要為 str.extract 指定一個捕獲組(即括號)好,提取。

    參考文章:https://www.cnblogs.com/ZhangHT97/p/13427325.html
    https://www.cnblogs.com/YouJeffrey/p/15209895.html
    https://blog.csdn.net/dudu3332/article/details/111555572

    總結

    以上是生活随笔為你收集整理的python通过正则匹配指定字符开头与结束提取中间内容的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網(wǎng)站內(nèi)容還不錯,歡迎將生活随笔推薦給好友。