【数据结构与算法】字符串匹配 AC自动机
生活随笔
收集整理的這篇文章主要介紹了
【数据结构与算法】字符串匹配 AC自动机
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
BF 算法和 RK 算法
BM 算法和 KMP 算法
Trie 樹和 AC 自動機
AC 自動機
AC 自動機實際上就是在 Trie 樹之上,加了類似 KMP 的 next 數(shù)組,只不過此處的 next 數(shù)組是構(gòu)建在樹上罷了。
AC 自動機的構(gòu)建
- 將多個模式串構(gòu)建成 Trie 樹;
- -在 Trie 樹上構(gòu)建失敗指針(相當(dāng)于 KMP 中的失效函數(shù) next 數(shù)組)。
AC 自動機的匹配
public void match(char[] text) { // text是主串int n = text.length;AcNode p = root;for (int i = 0; i < n; ++i) {int idx = text[i] - 'a';while (p.children[idx] == null && p != root) {p = p.fail; // 失敗指針發(fā)揮作用的地方}p = p.children[idx];if (p == null) p = root; // 如果沒有匹配的,從root開始重新匹配AcNode tmp = p;while (tmp != root) { // 打印出可以匹配的模式串if (tmp.isEndingChar == true) {int pos = i-tmp.length+1;System.out.println("匹配起始下標" + pos + "; 長度" + tmp.length);}tmp = tmp.fail;}} }時間復(fù)雜度
AC 自動機算法包含兩個部分,第一部分是將多個模式串構(gòu)建成 AC 自動機,第二部分是在 AC 自動機中匹配主串。第一部分又分為兩個小的步驟,一個是將模式串構(gòu)建成 Trie 樹,另一個是在 Trie 樹上構(gòu)建失敗指針。
將多個模式串構(gòu)建成 AC 自動機
Trie 樹構(gòu)建的時間復(fù)雜度是 O(mlen),其中 len 表示敏感詞的平均長度,m 表示敏感詞的個數(shù)。
每個節(jié)點構(gòu)建失敗指針的時間復(fù)雜度是 O(len)。整個失敗指針的構(gòu)建過程就是 O(klen)。
AC 自動機做匹配
for 循環(huán)依次遍歷主串中的每個字符,for 循環(huán)內(nèi)部最耗時的部分也是 while 循環(huán),而這一部分的時間復(fù)雜度也是 O(len),所以總的匹配的時間復(fù)雜度就是 O(n*len)。
實際情況下,可能近似于 O(n),所以 AC 自動機做敏感詞過濾,性能非常高。
總結(jié)
以上是生活随笔為你收集整理的【数据结构与算法】字符串匹配 AC自动机的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: VC++ MFC获取对话框上控件的位置
- 下一篇: Depth-first Search深度