日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

注册 用户名 非法关键字限制

發布時間:2023/12/20 编程问答 23 豆豆
生活随笔 收集整理的這篇文章主要介紹了 注册 用户名 非法关键字限制 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
@#%)等等這類符號不行為什么用戶注冊時要屏蔽“用戶信息保留關鍵字”?1、保護會員安全,防止有用戶使用管理員的名義來騙取其他會員的錢財2、仿制部分網友采用域名注冊,惡意來宣傳discuz有這個功能,可以研究一下:后臺 → 全局?→?注冊與訪問控??→?注冊?→?用戶信息保留關鍵字UCenter → 注冊設置??→?禁止的用戶名
wordpresswp-includes/user.phpsanitize_user屏蔽非法關鍵詞用戶名教大家如何禁止wordpress網站用戶在注冊時使用敏感關鍵。首先在functions.php文件中加入以下兩段代碼: function ruikeedu_blacklist_check($str){ $moderation_keys = trim(get_option('moderation_keys')); $blacklist_keys = trim(get_option('blacklist_keys')); $keys = $moderation_keys ."\n".$blacklist_keys; $words = explode("\n", $keys ); foreach ( (array) $words as $word) { $word = trim($word); if ( empty($word) ) continue; $word = preg_quote($word, '#'); $pattern = "#$word#i"; if ( preg_match($pattern, $str) ) return true; } return false; } add_filter( 'sanitize_user', 'ruikeedu_sanitize_user',3,3); function ruikeedu_sanitize_user($username, $raw_username, $strict){ if(ruikeedu_blacklist_check($username)){ $username = ''; } return $username; }然后在 WordPress 后臺 > 設置 > 討論,我們輸入“評論審核”和“評論黑名單”關鍵字,就可以來屏蔽用戶使用敏感關鍵詞來注冊了。
用戶注冊時候不能含有非法關鍵字,同上WordPress 后臺 > 設置 > 討論,可以讓我們輸入“評論審核”和“評論黑名單關鍵字,這些關鍵字在用戶留言的時候將用于非法關鍵字的檢測。那么我們是否可以將這些關鍵字用于其他方面呢?比如用戶注冊的時候,用戶名不能包含這些非法關鍵字。答案肯定是可以:首先創建非法關鍵字檢測函數:function wpjam_blacklist_check($str){ $moderation_keys = trim(get_option('moderation_keys')); $blacklist_keys = trim(get_option('blacklist_keys')); $keys = $moderation_keys ."\n".$blacklist_keys; $words = explode("\n", $keys ); foreach ( (array) $words as $word) { $word = trim($word); // Skip empty lines if ( empty($word) ) continue; // Do some escaping magic so that '#' chars in the // spam words don't break things: $word = preg_quote($word, '#'); $pattern = "#$word#i"; if ( preg_match($pattern, $str) ) return true; } return false; }設置用戶名不能含有待審關鍵字和黑名單關鍵字。add_filter( 'sanitize_user', 'wpjam_sanitize_user',3,3); function wpjam_sanitize_user($username, $raw_username, $strict){ if(wpjam_blacklist_check($username)){ $username = ''; } return $username; }將上面這兩段函數復制到當前主題的?functions.php?文件即可。*版主**管理**站長**admin**超版**眾樂網**眾樂**社區**元老*Administrator*管理**@**網**com**cn**net**org**cc**tk**公司**gov.cn**name**info**biz**官方**tm **mn**in**pro**net.cn **travel **ag**cm **com.hk **org.cn**sh **ws**vc**co**com.tw**版主* *斑竹* *吧主* *霸主* *Manager**<* *>**文學**作家**文章**作品**昵稱**名字**名稱* *人名**name**網站* *baidu*百度*sina*新浪*163*網易 *sohu*搜狐*xunlei* 訊雷 *gougou*狗狗*iask*愛問 *youku*優酷*56*我樂 *hao123*好123*頭銜* *關鍵字* *關鍵詞* *統配符**網頁**電腦* *文檔* *瀏覽器* *保留**主席* *公司* *總經理* *投資商**股東**Marshal**fuck**操* *靠**日* *kao**cao* *黑社會**流氓* *se**色**性-愛**肏**尼瑪**你媽**傻**www**qq**QQ**yy**YY**戰隊**火線**游戲**刷機**刷級**網**攻擊**黑**黃**迷藥**匿名**倪明**佚名**未知*
  • admin
  • administrator
  • 管理員
  • 版主
  • 超級版主
  • 超級管理員
  • 本站管理員
  • 本版版主
  • 會員
  • 超級會員
  • vip
  • *.com*
  • *.cn*
  • 用戶管理
  • *管理員*

  • *官方
  • *京東*
  • *淘寶*

  • PHP屏蔽過濾指定關鍵字的方法實現思路:一、把關鍵字專門寫在一個文本文件里,每行一個,數量不限,有多少寫多少。二、PHP讀取關鍵字文本,存入一個數組三、遍歷關鍵字數組,挨個用strpos函數去看看內容有沒有關鍵字,如果有,返回true,沒有則返回falsePHP代碼如下:[php]?view plaincopy
  • /*?PHP中用strpos函數過濾關鍵字?*/??
  • ??
  • //?關鍵字過濾函數??
  • ??
  • function?keyWordCheck($content){??
  • ??
  • //?去除空白??
  • ??
  • $content?=?trim($content);??
  • ??
  • //?讀取關鍵字文本??
  • ??
  • $content?=?@file_get_contents('keyWords.txt');??
  • ??
  • //?轉換成數組??
  • ??
  • $arr?=?explode("n",?$content);??
  • ??
  • //?遍歷檢測??
  • ??
  • for($i=0,$k=count($arr);$i<$k;$i++){??
  • ??
  • //?如果此數組元素為空則跳過此次循環??
  • ??
  • if($arr[$i]==''){??
  • ??
  • continue;???
  • ??
  • }???
  • ??
  • //?如果檢測到關鍵字,則返回匹配的關鍵字,并終止運行??
  • ??
  • if(@strpos($str,trim($arr[$i]))!==false){??
  • ??
  • //$i=$k;???
  • ??
  • return?$arr[$i];??
  • ??
  • }???
  • ??
  • }??
  • ??
  • //?如果沒有檢測到關鍵字則返回false???
  • ??
  • return?false;??
  • ??
  • }???
  • ??
  • $content?=?'這里是要發布的文本內容。。。';???
  • ??
  • //?過濾關鍵字??
  • ??
  • $keyWord?=?keyWordCheck($content);??
  • ??
  • //?判斷是否存在關鍵字??
  • ??
  • if($keyWord){??
  • ??
  • echo?'你發布的內容存在關鍵字'.$keyWord;??
  • ??
  • }else{??
  • ??
  • echo?'恭喜!通過關鍵字檢測';??
  • ??
  • //?往下可以進行寫庫操作完成發布動作。??
  • ??
  • }
  • 例子2 (注:中文關鍵字過濾時使用的關鍵字文件為utf-8編碼)[php]?view plaincopy
  • /**?
  • ?
  • ?*?被禁止的關鍵字檢測?
  • ?
  • ?*?
  • ?
  • ?*?@param?string?$string??要檢測的字符串?
  • ?
  • ?*?@param?string?$fileName?屏蔽關鍵字文件?
  • ?
  • ?*?@return?bool?
  • ?
  • ?*/??
  • ??
  • function?banwordCheck(?$string,?$fileName?)??
  • ??
  • {??
  • ??
  • ?if?(?!($words?=?file_get_contents(?$fileName?))?){??
  • ??
  • ??die('file?read?error!');??
  • ??
  • ?}??
  • ??
  • ?$string?=?strtolower($string);??
  • ??
  • ?$matched?=?preg_match('/'.$words.'/i',?$string,?$result);??
  • ??
  • ?if?(?$matched?&&?isset($result[0])?&&?strlen($result[0])?>?0?)??
  • ??
  • ?{??
  • ??
  • ??if?(?strlen($result[0])?==?2?){??
  • ??
  • ???$matched?=?preg_match('/'.$words.'/iu',?$string,?$result);??
  • ??
  • ??}???
  • ??
  • ??if?(?$matched?&&?isset($result[0])?&&?strlen($result[0])?>?0?)?{??
  • ??
  • ???return?true;??
  • ??
  • ??}else{??
  • ??
  • ???return?false;??
  • ??
  • ??}????
  • ??
  • ?}else{??
  • ??
  • ??return?false;??
  • ??
  • ?}??
  • ??
  • }??
  • ??
  • $content?=?'測試關鍵字';??
  • ??
  • if?(?banwordCheck($content,?'./banwords.txt')?){??
  • ??
  • ?echo?"matched!?";??
  • ??
  • }else{??
  • ??
  • ?echo?"no?match!?";??
  • ??
  • }??

  • 用正則去匹配關鍵字,把關鍵字用別的字符替換[php]?view plaincopy
  • $str?=?"/你大爺|你麻痹|什么玩意|SB|你他媽/";??//?關鍵字正則字符串????
  • ?$string?=?"你他媽干什么玩意了?SB";????//?文本字符串???
  • ?echo?preg_replace($str,?"*",?$string);????//preg_replace()?執行一個正則表達式的匹配和替換??
  • 思路1.把關鍵字放到一個txt文檔中 要用一定的符合分隔開 ,用file_get_contents() 函數將關鍵字文檔讀入2.用函數explode() 把字符串分割成數組 循環數組 strpos() 查找匹配關鍵字代碼[php]?view plaincopy
  • header('content-type:textml;?charset=utf-8;');???
  • function?strPosFuck($content)???
  • {?????
  • $fuck?=?file_get_contents('keyWords.txt');??//?讀取關鍵字文本信息????
  • $content?=?trim($content);????$fuckArr?=?explode("\n",$fuck);??//?把關鍵字轉換為數組????
  • for?($i=0;?$i?<?count($fuckArr)?;?$i++)?????
  • {????
  • //?$fuckArr[$i]?=?trim($fuckArr[$i]);????
  • if?($fuckArr[$i]?==?"")?{???????
  • continue;??//如果關鍵字為空就跳過本次循環?????
  • #?code...?????
  • }??????
  • if?(strpos($content,trim($fuckArr[$i]))?!=?false)??????
  • ??{??????
  • ??return?$fuckArr[$i];??//如果匹配到關鍵字就返回關鍵字???????
  • ??#?code...???????
  • ??}?????
  • ??}????return?false;??//?如果沒有匹配到關鍵字就返回?false???
  • ??}???
  • ??$content?=?"我今天你大爺碰到一個SB";????
  • ??$key?=?strPosFuck($content);???
  • ??if?($key)???
  • ??{????
  • ??echo?"存在關鍵字".$key;????
  • ??#?code...????
  • ??}???
  • ??else????
  • ??{?????
  • ??echo?"OK";???
  • ??}??
  • 注意點?一定要去空 一定要去空 ,strops() 函數返回值 要么是false 要么就是關鍵字的位置 判斷的時候注意成功后大家可以想想怎么把匹配到的關鍵字全部返回組成一個字符串或者數組關鍵詞少的時候,用簡單的遍歷就可以,沒必要復雜化如果類似貼吧這種大型社區,敏感詞庫龐大的,可以使用DFA算法來進行判斷和過濾Python和JAVA有很多現成的過濾方法,如http://blog.csdn.net/woshiaotian/article/details/10047675http://blog.zhaojie.me/2008/12/filter-forbidden-word-solution.html 關鍵字過濾解決方案(上)在Discuz!論壇后臺,站長可以在后臺-帖子-詞語過濾里設置需要屏蔽或替換的關鍵詞。一般這些需要屏蔽和替換的關鍵字包括一些和政治、色情相關的違法國家法律法規的詞語。????在這里,我們點“批量添加”,然后將壓縮包中的“屏蔽關鍵詞.txt”文件導入,進行批量屏蔽非法關鍵詞。??? 其中,在Discuz!論壇后臺設置屏蔽的關鍵字只能保證帖子內容正當不違規,站長可以在UCenter后臺-詞語過濾里面進一步設置一些屏蔽的關鍵字,這里就不具體舉例了,以保障用戶的短消息也能安全。??? 屏蔽關鍵詞表下載http://www.cnblogs.com/AndersLiu/archive/2007/03/25/687069.html在線測試/學習正則表達式的網址,http://www.gskinner.com/RegExr/只含有漢字、數字、字母、下劃線,下劃線位置不限:? ^[a-zA-Z0-9_\u4e00-\u9fa5]+$如一個用戶叫Bill Gates,另一個人起名叫Bill Gates,區別只是兩個單詞見多了一個空格,當然也可能是換行符這種不可見字符,它們在瀏覽器里面看上去就象同一個人)1. 字母數字字符(英文字母和數字)?2. 下劃線(_)?與此同時,我們還強制用戶名最短3個字符最長不超過16個字符。下面就是符合上述描述條件的正則表達式:?/[a-zA-Z0-9_]{3,16}/?這個有問題,需要用到行定位點, ^ (caret) 和 $ (dollar) 字符將把我們的表達式限制在一個字符串的起點和終點位置,這樣可以確保整個用戶名符合我們的設定,而不是一部分。修訂版的正則表達式象這樣:?/^[a-zA-Z0-9_]{3,16}$/?function validate_username( $username ) { if(preg_match('/^[a-zA-Z0-9_]{3,16}$/', $_GET['username'])) { return true; } return false; }Warning: preg_match() [function.preg-match]: Compilation failed: PCRE does not support \L, \l, \N, \U, or \u at offset 3?in?test.php on line 3if?(preg_match("/^[\x{4e00}-\x{9fa5}]+$/u",$str)) {print("該字符串全部是中文");}?else?{print("該字符串不全部是中文");}在php中,是用\x表示十六進制數據的。http://www.cnblogs.com/seanxyh/archive/2013/04/03/2998596.html說明:正則表達式通常用于兩種任務:1.驗證,2.搜索/替換。用于驗證時,通常需要在前后分別加上^和$,以匹配整個待驗證字符串;搜索/替換時是否加上此限定則根據搜索的要求而定,此外,也有可能要在前后加上\b而不是^和$。此表所列的常用正則表達式,除個別外均未在前后加上任何限定,請根據需要,自行處理。正則表達式(英文:Regular Expression)在計算機科學中,是指一個用來描述或者匹配一系列符合某個句法規則的字符串的單個字符串。
    說明正則表達式
    網址(URL)[a-zA-z]+://[^\s]*
    IP地址(IP Address)((2[0-4]\d|25[0-5]|[01]?\d\d?)\.){3}(2[0-4]\d|25[0-5]|[01]?\d\d?)
    電子郵件(Email)\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*
    QQ號碼[1-9]\d{4,}
    HTML標記(包含內容或自閉合)<(.*)(.*)>.*<\/\1>|<(.*) \/>
    密碼(由數字/大寫字母/小寫字母/標點符號組成,四種都必有,8位以上)(?=^.{8,}$)(?=.*\d)(?=.*\W+)(?=.*[A-Z])(?=.*[a-z])(?!.*\n).*$
    日期(年-月-日)(\d{4}|\d{2})-((1[0-2])|(0?[1-9]))-(([12][0-9])|(3[01])|(0?[1-9]))
    日期(月/日/年)((1[0-2])|(0?[1-9]))/(([12][0-9])|(3[01])|(0?[1-9]))/(\d{4}|\d{2})
    時間(小時:分鐘, 24小時制)((1|0?)[0-9]|2[0-3]):([0-5][0-9])
    漢字(字符)[\u4e00-\u9fa5]
    中文及全角標點符號(字符)[\u3000-\u301e\ufe10-\ufe19\ufe30-\ufe44\ufe50-\ufe6b\uff01-\uffee]
    中國大陸固定電話號碼(\d{4}-|\d{3}-)?(\d{8}|\d{7})
    中國大陸手機號碼1\d{10}
    中國大陸郵政編碼[1-9]\d{5}
    中國大陸身份證號(15位或18位)\d{15}(\d\d[0-9xX])?
    非負整數(正整數或零)\d+
    正整數[0-9]*[1-9][0-9]*
    負整數-[0-9]*[1-9][0-9]*
    整數-?\d+
    小數(-?\d+)(\.\d+)?
    不包含abc的單詞\b((?!abc)\w)+\b
    以上正則表達式均經過多次測試,并不斷增加,因為不同程序或工具的正則表達式略有區別,大家可以根據需要進行簡單修改常用正則表達式正則表達式用于字符串處理、表單驗證等場合,實用高效。現將一些常用的表達式收集于此,以備不時之需。
    說明正則表達式
    用戶名/^[a-z0-9_-]{3,16}$/
    密碼/^[a-z0-9_-]{6,18}$/
    十六進制值/^#?([a-f0-9]{6}|[a-f0-9]{3})$/
    電子郵箱/^([a-z0-9_\.-]+)@([\da-z\.-]+)\.([a-z\.]{2,6})$/
    URL/^(https?:\/\/)?([\da-z\.-]+)\.([a-z\.]{2,6})([\/\w \.-]*)*\/?$/
    IP 地址/^(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)$/
    HTML 標簽/^<([a-z]+)([^<]+)*(?:>(.*)<\/\1>|\s+\/>)$/
    Unicode編碼中的漢字范圍/^[u4e00-u9fa5],{0,}$/
    匹配中文字符的正則表達式[\u4e00-\u9fa5]
    評注:匹配中文還真是個頭疼的事,有了這個表達式就好辦了
    匹配雙字節字符(包括漢字在內)[^\x00-\xff]
    評注:可以用來計算字符串的長度(一個雙字節字符長度計2,ASCII字符計1)
    匹配空白行的正則表達式\n\s*\r
    評注:可以用來刪除空白行
    匹配HTML標記的正則表達式<(\S*?)[^>]*>.*?</\1>|<.*? />
    評注:網上流傳的版本太糟糕,上面這個也僅僅能匹配部分,對于復雜的嵌套標記依舊無能為力
    匹配首尾空白字符的正則表達式^\s*|\s*$
    評注:可以用來刪除行首行尾的空白字符(包括空格、制表符、換頁符等等),非常有用的表達式
    匹配Email地址的正則表達式\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*
    評注:表單驗證時很實用
    匹配網址URL的正則表達式[a-zA-z]+://[^\s]*
    評注:網上流傳的版本功能很有限,上面這個基本可以滿足需求
    匹配帳號是否合法(字母開頭,允許5-16字節,允許字母數字下劃線)^[a-zA-Z][a-zA-Z0-9_]{4,15}$
    評注:表單驗證時很實用
    匹配國內電話號碼\d{3}-\d{8}|\d{4}-\d{7}
    評注:匹配形式如 0511-4405222 或 021-87888822
    匹配騰訊QQ號[1-9][0-9]{4,}
    評注:騰訊QQ號從10000開始
    匹配中國大陸郵政編碼[1-9]\d{5}(?!\d)
    評注:中國大陸郵政編碼為6位數字
    匹配身份證\d{15}|\d{18}
    評注:中國大陸的身份證為15位或18位
    匹配ip地址\d+\.\d+\.\d+\.\d+
    評注:提取ip地址時有用
    匹配特定數字:
    ^[1-9]\d*$//匹配正整數
    ^-[1-9]\d*$//匹配負整數
    ^-?[1-9]\d*$//匹配整數
    ^[1-9]\d*|0$//匹配非負整數(正整數 + 0)
    ^-[1-9]\d*|0$//匹配非正整數(負整數 + 0)
    ^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$//匹配正浮點數
    ^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$//匹配負浮點數
    ^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$//匹配浮點數
    ^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$//匹配非負浮點數(正浮點數 + 0)
    ^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$//匹配非正浮點數(負浮點數 + 0)
    評注:處理大量數據時有用,具體應用時注意修正
    匹配特定字符串
    ^[A-Za-z]+$//匹配由26個英文字母組成的字符串
    ^[A-Z]+$//匹配由26個英文字母的大寫組成的字符串
    ^[a-z]+$//匹配由26個英文字母的小寫組成的字符串
    ^[A-Za-z0-9]+$//匹配由數字和26個英文字母組成的字符串
    ^\w+$//匹配由數字、26個英文字母或者下劃線組成的字符串
    表達式全集正則表達式有多種不同的風格。下表是在PCRE中元字符及其在正則表達式上下文中的行為的一個完整列表:
    字符描述
    \將下一個字符標記為一個特殊字符、或一個原義字符、或一個向后引用、或一個八進制轉義符。例如,“n”匹配字符“n”。“\n”匹配一個換行符。序列“\\”匹配“\”而“\(”則匹配“(”。
    ^匹配輸入字符串的開始位置。如果設置了RegExp對象的Multiline屬性,^也匹配“\n”或“\r”之后的位置。
    $匹配輸入字符串的結束位置。如果設置了RegExp對象的Multiline屬性,$也匹配“\n”或“\r”之前的位置。
    *匹配前面的子表達式零次或多次。例如,zo*能匹配“z”以及“zoo”。*等價于{0,}。
    +匹配前面的子表達式一次或多次。例如,“zo+”能匹配“zo”以及“zoo”,但不能匹配“z”。+等價于{1,}。
    ?匹配前面的子表達式零次或一次。例如,“do(es)?”可以匹配“do”或“does”中的“do”。?等價于{0,1}。
    {n}n是一個非負整數。匹配確定的n次。例如,“o{2}”不能匹配“Bob”中的“o”,但是能匹配“food”中的兩個o。
    {n,}n是一個非負整數。至少匹配n次。例如,“o{2,}”不能匹配“Bob”中的“o”,但能匹配“foooood”中的所有o。“o{1,}”等價于“o+”。“o{0,}”則等價于“o*”。
    {n,m}m和n均為非負整數,其中n<=m。最少匹配n次且最多匹配m次。例如,“o{1,3}”將匹配“fooooood”中的前三個o。“o{0,1}”等價于“o?”。請注意在逗號和兩個數之間不能有空格。
    ?當該字符緊跟在任何一個其他限制符(*,+,?,{n},{n,},{n,m})后面時,匹配模式是非貪婪的。非貪婪模式盡可能少的匹配所搜索的字符串,而默認的貪婪模式則盡可能多的匹配所搜索的字符串。例如,對于字符串“oooo”,“o+?”將匹配單個“o”,而“o+”將匹配所有“o”。
    .匹配除“\n”之外的任何單個字符。要匹配包括“\n”在內的任何字符,請使用像“[.\n]”的模式。
    (pattern)匹配pattern并獲取這一匹配。所獲取的匹配可以從產生的Matches集合得到,在VBScript中使用SubMatches集合,在JScript中則使用$0…$9屬性。要匹配圓括號字符,請使用“\(”或“\)”。
    (?:pattern)匹配pattern但不獲取匹配結果,也就是說這是一個非獲取匹配,不進行存儲供以后使用。這在使用或字符“(|)”來組合一個模式的各個部分是很有用。例如“industr(?:y|ies)”就是一個比“industry|industries”更簡略的表達式。
    (?=pattern)正向預查,在任何匹配pattern的字符串開始處匹配查找字符串。這是一個非獲取匹配,也就是說,該匹配不需要獲取供以后使用。例如,“Windows(?=95|98|NT|2000)”能匹配“Windows2000”中的“Windows”,但不能匹配“Windows3.1”中的“Windows”。預查不消耗字符,也就是說,在一個匹配發生后,在最后一次匹配之后立即開始下一次匹配的搜索,而不是從包含預查的字符之后開始。
    (?!pattern)負向預查,在任何不匹配pattern的字符串開始處匹配查找字符串。這是一個非獲取匹配,也就是說,該匹配不需要獲取供以后使用。例如“Windows(?!95|98|NT|2000)”能匹配“Windows3.1”中的“Windows”,但不能匹配“Windows2000”中的“Windows”。預查不消耗字符,也就是說,在一個匹配發生后,在最后一次匹配之后立即開始下一次匹配的搜索,而不是從包含預查的字符之后開始
    x|y匹配x或y。例如,“z|food”能匹配“z”或“food”。“(z|f)ood”則匹配“zood”或“food”。
    [xyz]字符集合。匹配所包含的任意一個字符。例如,“[abc]”可以匹配“plain”中的“a”。
    [^xyz]負值字符集合。匹配未包含的任意字符。例如,“[^abc]”可以匹配“plain”中的“p”。
    [a-z]字符范圍。匹配指定范圍內的任意字符。例如,“[a-z]”可以匹配“a”到“z”范圍內的任意小寫字母字符。
    [^a-z]負值字符范圍。匹配任何不在指定范圍內的任意字符。例如,“[^a-z]”可以匹配任何不在“a”到“z”范圍內的任意字符。
    \b匹配一個單詞邊界,也就是指單詞和空格間的位置。例如,“er\b”可以匹配“never”中的“er”,但不能匹配“verb”中的“er”。
    \B匹配非單詞邊界。“er\B”能匹配“verb”中的“er”,但不能匹配“never”中的“er”。
    \cx匹配由x指明的控制字符。例如,\cM匹配一個Control-M或回車符。x的值必須為A-Z或a-z之一。否則,將c視為一個原義的“c”字符。
    \d匹配一個數字字符。等價于[0-9]。
    \D匹配一個非數字字符。等價于[^0-9]。
    \f匹配一個換頁符。等價于\x0c和\cL。
    \n匹配一個換行符。等價于\x0a和\cJ。
    \r匹配一個回車符。等價于\x0d和\cM。
    \s匹配任何空白字符,包括空格、制表符、換頁符等等。等價于[\f\n\r\t\v]。
    \S匹配任何非空白字符。等價于[^\f\n\r\t\v]。
    \t匹配一個制表符。等價于\x09和\cI。
    \v匹配一個垂直制表符。等價于\x0b和\cK。
    \w匹配包括下劃線的任何單詞字符。等價于“[A-Za-z0-9_]”。
    \W匹配任何非單詞字符。等價于“[^A-Za-z0-9_]”。
    \xn匹配n,其中n為十六進制轉義值。十六進制轉義值必須為確定的兩個數字長。例如,“\x41”匹配“A”。“\x041”則等價于“\x04&1”。正則表達式中可以使用ASCII編碼。.
    \num匹配num,其中num是一個正整數。對所獲取的匹配的引用。例如,“(.)\1”匹配兩個連續的相同字符。
    \n標識一個八進制轉義值或一個向后引用。如果\n之前至少n個獲取的子表達式,則n為向后引用。否則,如果n為八進制數字(0-7),則n為一個八進制轉義值。
    \nm標識一個八進制轉義值或一個向后引用。如果\nm之前至少有nm個獲得子表達式,則nm為向后引用。如果\nm之前至少有n個獲取,則n為一個后跟文字m的向后引用。如果前面的條件都不滿足,若n和m均為八進制數字(0-7),則\nm將匹配八進制轉義值nm。
    \nml如果n為八進制數字(0-3),且m和l均為八進制數字(0-7),則匹配八進制轉義值nml。
    \un匹配n,其中n是一個用四個十六進制數字表示的Unicode字符。例如,\u00A9匹配版權符號(?)。
    以下是以PHP的語法所寫的示例驗證字符串是否只含數字與英文,字符串長度并在4~16個字符之間?<?php$str = 'a1234';if (preg_match("^[a-zA-Z0-9]{4,16}$", $str)) {echo "驗證成功";} else {echo "驗證失敗";}?>簡易的臺灣身份證字號驗證<?php$str = 'a1234';if (preg_match("/^\w[12]\d{8}$/", $str)) {echo "驗證成功";} else {echo "驗證失敗";}?>以下示例是用 Perl 語言寫的,與上面的示例功能相同?print $str = "a1234" =~ m:^[a-zA-Z0-9]{4,16}$: ? "COMFIRM" : "FAILED";print $str = "a1234" =~ m"^\w[12]\d{8}$" ? "COMFIRM" : "INVAILD";Validated XHTML 1.0 Strict?Validated CSS 2.1如何寫出高效率的正則表達式如果純粹是為了挑戰自己的正則水平,用來實現一些特效(例如使用正則表達式計算質數、解線性方程),效率不是問題;如果所寫的正則表達式只是為了滿足一兩次、幾十次的運行,優化與否區別也不太大。但是,如果所寫的正則表達式會百萬次、千萬次地運行,效率就是很大的問題了。我這里總結了幾條提升正則表達式運行效率的經驗(工作中學到的,看書學來的,自己的體會),貼在這里。如果您有其它的經驗而這里沒有提及,歡迎賜教。為行文方便,先定義兩個概念。誤匹配:指正則表達式所匹配的內容范圍超出了所需要范圍,有些文本明明不符合要求,但是被所寫的正則式“擊中了”。例如,如果使用\d{11}來匹配11位的手機號,\d{11}不單能匹配正確的手機號,它還會匹配98765432100這樣的明顯不是手機號的字符串。我們把這樣的匹配稱之為誤匹配。漏匹配:指正則表達式所匹配的內容所規定的范圍太狹窄,有些文本確實是所需要的,但是所寫的正則沒有將這種情況囊括在內。例如,使用\d{18}來匹配18位的身份證號碼,就會漏掉結尾是字母X的情況。寫出一條正則表達式,既可能只出現誤匹配(條件寫得極寬松,其范圍大于目標文本),也可能只出現漏匹配(只描述了目標文本中多種情況種的一種),還可能既有誤匹配又有漏匹配。例如,使用\w+\.com來匹配.com結尾的域名,既會誤匹配abc_.com這樣的字串(合法的域名中不含下劃線,\w包含了下劃線這種情況),又會漏掉ab-c.com這樣的域名(合法域名中可以含中劃線,但是\w不匹配中劃線)。精準的正則表達式意味著既無誤匹配且無漏匹配。當然,現實中存在這樣的情況:只能看到有限數量的文本,根據這些文本寫規則,但是這些規則將會用到海量的文本中。這種情況下,盡可能地(如果不是完全地)消除誤匹配以及漏匹配,并提升運行效率,就是我們的目標。本文所提出的經驗,主要是針對這種情況。掌握語法細節。正則表達式在各種語言中,其語法大致相同,細節各有千秋。明確所使用語言的正則的語法的細節,是寫出正確、高效正則表達式的基礎。例如,perl中與\w等效的匹配范圍是[a-zA-Z0-9_];perl正則式不支持肯定逆序環視中使用可變的重復(variable repetition inside lookbehind,例如(?<=.*)abc),但是.Net語法是支持這一特性的;又如,JavaScript連逆序環視(Lookbehind,如(?<=ab)c)都不支持,而perl和python是支持的。《精通正則表達式》第3章《正則表達式的特性和流派概覽》明確地列出了各大派系正則的異同,這篇文章也簡要地列出了幾種常用語言、工具中正則的比較。對于具體使用者而言,至少應該詳細了解正在使用的那種工作語言里正則的語法細節。先粗后精,先加后減。使用正則表達式語法對于目標文本進行描述和界定,可以像畫素描一樣,先大致勾勒出框架,再逐步在局步實現細節。仍舉剛才的手機號的例子,先界定\d{11},總不會錯;再細化為1[358]\d{9},就向前邁了一大步(至于第二位是不是3、5、8,這里無意深究,只舉這樣一個例子,說明逐步細化的過程)。這樣做的目的是先消除漏匹配(剛開始先盡可能多地匹配,做加法),然后再一點一點地消除誤匹配(做減法)。這樣有先有后,在考慮時才不易出錯,從而向“不誤不漏”這個目標邁進。留有余地。所能看到的文本sample是有限的,而待匹配檢驗的文本是海量的,暫時不可見的。對于這樣的情況,在寫正則表達式時要跳出所能見到的文本的圈子,開拓思路,作出“戰略性前瞻”。例如,經常收到這樣的垃圾短信:“發*票”、“發#漂”。如果要寫規則屏蔽這樣煩人的垃圾短信,不但要能寫出可以匹配當前文本的正則表達式 發[*#](?:票|漂),還要能夠想到 發.(?:票|漂|飄)之類可能出現的“變種”。這在具體的領域或許會有針對性的規則,不多言。這樣做的目的是消除漏匹配,延長正則表達式的生命周期。明確。具體說來,就是謹慎用點號這樣的元字符,盡可能不用星號和加號這樣的任意量詞。只要能確定范圍的,例如\w,就不要用點號;只要能夠預測重復次數的,就不要用任意量詞。例如,寫析取twitter消息的腳本,假設一條消息的xml正文部分結構是<span class=”msg”>…</span>且正文中無尖括號,那么<span class=”msg”>[^<]{1,480}</span>這種寫法的思路要好于<span class=”msg”>.*</span>,原因有二:一是使用[^<],它保證了文本的范圍不會超出下一個小于號所在的位置;二是明確長度范圍,{1,480},其依據是一條twitter消息大致能的字符長度范圍。當然,480這個長度是否正確還可推敲,但是這種思路是值得借鑒的。說得狠一點,“濫用點號、星號和加號是不環保、不負責任的做法”。不要讓稻草壓死駱駝。每使用一個普通括號()而不是非捕獲型括號(?:…),就會保留一部分內存等著你再次訪問。這樣的正則表達式、無限次地運行次數,無異于一根根稻草的堆加,終于能將駱駝壓死。養成合理使用(?:…)括號的習慣。寧簡勿繁。將一條復雜的正則表達式拆分為兩條或多條簡單的正則表達式,編程難度會降低,運行效率會提升。例如用來消除行首和行尾空白字符的正則表達式s/^\s+|\s+$//g;,其運行效率理論上要低于s/^\s+//g; s/\s+$//g; 。這個例子出自《精通正則表達式》第五章,書中對它的評論是“它幾乎總是最快的,而且顯然最容易理解”。既快又容易理解,何樂而不為?工作中我們還有其它的理由要將C==(A|B)這樣的正則表達式拆為A和B兩條表達式分別執行。例如,雖然A和B這兩種情況只要有一種能夠擊中所需要的文本模式就會成功匹配,但是如果只要有一條子表達式(例如A)會產生誤匹配,那么不論其它的子表達式(例如B)效率如何之高,范圍如何精準,C的總體精準度也會因A而受到影響。巧妙定位。有時候,我們需要匹配的the,是作為單詞的the(兩邊有空格),而不是作為單詞一部分的t-h-e的有序排列(例如together中的the)。在適當的時候用上^,$,\b等等定位錨點,能有效提升找到成功匹配、淘汰不成功匹配的效率。

    轉載于:https://www.cnblogs.com/elesos/p/6840471.html

    總結

    以上是生活随笔為你收集整理的注册 用户名 非法关键字限制的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。