日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

字符串匹配算法(AC自动机 Aho-Corasick)

發布時間:2024/7/5 编程问答 25 豆豆
生活随笔 收集整理的這篇文章主要介紹了 字符串匹配算法(AC自动机 Aho-Corasick) 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

    • 1. 多模式串匹配
    • 2. 經典多模式串匹配--AC自動機
      • 2.1 AC自動機構建
      • 2.2 在AC自動機上匹配主串
      • 2.3 復雜度分析
    • 3. python包

1. 多模式串匹配

  • 前面學的BF、RK、BM、KMP都是單模式串匹配算法(一個模式串,一個主串)
  • 多模式串匹配,即在一個主串中查找多個模式串(Trie樹是多模式匹配)
  • 比如實現多個敏感詞過濾;單模式需要一遍遍的,掃描,過濾,掃描,過濾;多模式掃描一遍,過濾完成

2. 經典多模式串匹配–AC自動機

AC自動機算法(Aho-Corasick算法),是在Trie樹之上,加了類似 KMP 的 next 數組。

class ACNode //AC自動機的Trie樹節點類,假設只有26個字母的數據集 { public:char data;ACNode *children[charNum];size_t count; //記錄這個節點被多少個單詞占用bool isEndOfWord;//是否是一個單詞的結束字符size_t freq; //單詞插入的頻次int length; //當isEndOFWord為True時,記錄模式串長度ACNode *fail; //失敗指針ACNode(char ch = '/'):data(ch), isEndOfWord(false),count(0), freq(0),length(-1),fail(NULL){memset(children,0,sizeof(ACNode*) * charNum);}~ACNode(){} };

2.1 AC自動機構建

  • 1,將多個模式串插入Trie樹。
  • 2,在Trie樹上構建失敗指針(相當于KMP中的失效函數 next 數組)



void buildFailPointer() {queue<ACNode*> ACNode_queue;ACNode_queue.push(root);ACNode *p, *pchild, *q, *qchild;int i;while(!ACNode_queue.empty())//用隊列按層遍歷{p = ACNode_queue.front();//隊首的節點pACNode_queue.pop();for(i = 0; i < charNum; ++i){pchild = p->children[i];//找到p的非空子節點pcif(pchild == NULL)continue;if(p == root)pchild->fail = root;else{q = p->fail; //q為p的失效指針while(q != NULL) //q不為空{qchild = q->children[pchild->data-'a'];//字符等于pc的qcif(qchild != NULL)//qc存在{pchild->fail = qchild;//鏈接pc失敗指針到qcbreak;//找到了就跳出循環}q = q->fail;//qc不存在,就再去上一個失效點找}if(q == NULL)//最后找到root處還沒找到pchild->fail = root;//pc的失效指針指向root}ACNode_queue.push(pchild);//把p的非空子節點pc入隊}} }

2.2 在AC自動機上匹配主串

void match(const string &maintext) //maintext是主串 {int n = maintext.size();ACNode *p = root, *temp;//模式串從root開始int index, pos;for(int i = 0; i < n; ++i)//主串從i=0開始{index = maintext[i]-'a';//子節點下標while(p->children[index] == NULL && p != root){//p不為root,且 子節點為空(找不到那個i對應的字符)p = p->fail; //失敗指針發揮作用的地方}p = p->children[index];if(p == NULL)p = root; //如果沒有匹配的,從root開始重新匹配temp = p;while(temp != root)//打印出可以匹配的模式串{if(temp->isEndOfWord == true){pos = i-temp->length+1;cout << "Found " << maintext.substr(pos,temp->length) << " at ""position(start from 0) "<< pos << " at " << maintext << endl;}temp = temp->fail;}} }

主程序

Trie textlib; string a("abcd"), b("bcd"), c("c"); textlib.insert(a); textlib.insert(a); textlib.insert(b); textlib.insert(c); textlib.buildFailPointer(); textlib.match("abcdc");


在Trie樹基礎上的AC自動機完整代碼(請點擊查看)

2.3 復雜度分析

  • 構建AC自動機
  • 構建Trie樹,時間復雜度O(m*len),其中len表示敏感詞平均長度,m 表示敏感詞個數
  • 構建失敗指針,每個節點構建失敗指針不會超過len次(樹的平均高度),整個失敗指針就是O(k*len), k 是節點個數
    • 匹配復雜度
      for循環依次遍歷主串中每個字符,for循環內部的while復雜度O(len),總的復雜度O(n*len),敏感詞不會很長,所以近似于O(n)

    3. python包

    https://pypi.org/project/ahocorasick-python/
    https://pypi.org/project/ahocorasick-rs/

    總結

    以上是生活随笔為你收集整理的字符串匹配算法(AC自动机 Aho-Corasick)的全部內容,希望文章能夠幫你解決所遇到的問題。

    如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。