关于SQLSERVER的全文目录跟全文索引的区别
很久沒有寫隨筆了,本來之前想寫一篇關于SQLSERVER全文索引的隨筆,可惜沒有時間,一直拖到現在才有時間寫,不好意思讓各位久等了~
先介紹一下SQLSERVER中的存儲類對象,哈哈,先介紹一下概念嘛,讓新手老手都有一個認知
SQLSERVER Management Studio將【全文目錄】、【分區函數】以及【分區方案】節點納入其【對象資源管理器】的【存儲】節點之中,
如下圖所示:
正文來了!哈哈,有請主角:全文目錄
全文目錄
數據庫【存儲】|【全文目錄】節點是用于保存和管理【全文索引】的節點。全文目錄通常是由同一數據庫中的零個或多個數據表的全文索引構成的。
需要注意的是,只能為每個數據表創建一個全文索引。因此,一旦在某個數據表上創建了全文索引,那么該數據表將只能隸屬于一個全文目錄。換言之,
一個數據庫可以包含一個或多個全文目錄,一個全文目錄可以包含一個或多個全文索引,但一個數據表只能有一個數據庫全文目錄和全文索引(跟mysql一樣)。
在SQLSERVER2005中使用全文索引的主要步驟如下:
(1)首先需要創建全文目錄。
(2)然后將需要創建全文索引的數據表中的數據填充到全文目錄中。這一過程也被稱為填充全文索引。
(3)完成上述兩步之后,即可開始使用全文索引功能。
創建全文目錄的方法非常簡單。通過SSMS以及T-SQL都可以實現創建全文目錄的功能。
至于具體的創建步驟嘛,這里就不說了,網上都有文章說明,我就不轉載了
最后說一下全文索引的優缺點和注意事項:
(1)全文索引可對char、varchar、nchar、nvarchar、text、ntext、image、xml、varbinary或varbinary(max)類型字段進行檢索,
是解決海量數據模糊查詢的好辦法。
(2)一個表只能建立一個全文索引(但可以對多個字段)。
(3)與like的比較 MSDN解釋
與全文搜索不同,LIKE Transact-SQL 謂詞僅對字符模式( char、varchar、nchar、nvarchar)有效。另外,不能使用 LIKE 謂詞來查詢格式化的二進制數據。此外,對大量非結構化的文本數據執行 LIKE 查詢要比對相同數據執行同樣的全文查詢慢得多。對數百萬行文本數據進行的 LIKE 查詢可能需要幾分鐘的時間才能返回結果;而對于同樣的數據,全文查詢只需要幾秒甚至更少的時間,具體取決于返回的行數及其大小。另一個考慮因素是 LIKE 僅對整個表執行簡單模式掃描。相反,全文查詢可識別語言,它在索引和查詢時應用特定的轉換,例如,篩選非索引字并進行同義詞庫和變形擴展。這些轉換可幫助全文查詢改進其撤回以及結果的最終排名
最最后,講一下全文索引的用法:
SQL Server 2000和SQLSERVER2005提供的全文檢索語句主要有CONTAINS和FREETEXT。
(1)CONTAINS語句的功能是在表的所有列或指定列中搜索:一個字或短語;一個字或短語的前綴;與一個字相近的另一個字;一個字的派生字;一個重復出現的字。
(2)FREETEXT語句的功能是在一個表的所有列或指定列中搜索一個自由文本格式的字符串,并返回與該字符串匹配的數據行。所以,FREETEXT語句所執行的功能又稱做自由式全文查詢。
T-SQL語句
1 USE pratice 2 3 SELECT * FROM dbo.test WHERE CONTAINS(d,'基數行')
pratice是我的一個測試數據庫,d是test表的其中一個字段,以上T-SQL語句的意思是查找d字段里包含字符串"基數行"的記錄
--下列 T-SQL 指令碼示範查詢全文檢索索引狀態以及其內容。
SELECT * FROM sys.dm_fts_index_population
SELECT * FROM sys.dm_fts_index_keywords( DB_ID('tde'), OBJECT_ID('SalesLT.Product'))
http://blogs.technet.com/b/technet_taiwan/archive/2015/06/02/sql-database-new-features-tde-and-full-text-search.aspx
填充的方式有3種:1、完全填充,2、增量填充,3、自動跟蹤更改
f
f
f
f
f
sql2008 的全文索引現在是存儲在數據庫中
全文索引基于CHAR/VARCHAR/NVARCHAR/XML/VARBINARY
提供了50個篩選器
全文索引使用語言特有的斷字符word breaker 和詞干分析器stemmer
指定具體語言,單詞之間的breaker
被排除在常用單詞(字)外面的單詞(字)稱為干擾詞stop word,通過指定干擾詞避免大量根本算不上關鍵字的單詞(字)所干擾
一個表/索引視圖只能有一個全文索引
stemmer
n. 抽梗機,除梗器;抽梗工人
一定要使用單獨的文件組來存放全文目錄!
f
f
f
f
f
全文索引填充不是即時完成的,因為數據必須提交給索引引擎,再由索引引擎應用斷字符,詞干分析器,語言文件,干擾詞列表stop lists,最后才將更改合并到索引 merge到索引
語言規范決定了由全文索引引擎需要加載的斷字符和詞干分析器
SQL2008有第三方斷字符和詞干分析器
斷字符還能識別數據中的單詞之間的距離,這種接近性(proximity)添加到全文數據中,mysql的全文也有近似性,這是全文索引的獨有功能,like%%是做不到的
sqlserver使用詞干分析器來識別關鍵詞的各種形式變化
f
f
f
f
f
f
f
f
全文謂詞(全文搜索關鍵詞)提交給全文索引引擎,全文索引引擎利用斷字符word breaker標記搜索關鍵詞,加token,將數據返回給優化器
where后面的謂詞,如果不是全文,就叫謂詞,如果是全文就是全文謂詞
language參數指定是,是哪一個國家語言
優化器不能通過參數嗅探來計算全文索引上的分別統計數據,為了獲得最佳性能必須給全文搜索的所有關鍵字都是Unicode類型
同義詞文件
f
f
f
f
f
f
f
f
f
f
創建同義詞XML文件
添加干擾詞列表
重建全文索引
干擾詞列表stop list或noise word file
如果你在一個全文謂詞中提交的參數是干擾詞,查詢不會返回任何結果(而且他根本不需要訪問底層數據)
sql2005和更早版本在FTDATA文件夾下配置干擾詞文件,sql2008的干擾詞列表存放在sqlserver的一個數據庫中
增量填充全文索引必須要有一個時間戳
同義詞和干擾詞存放路徑
C:\Program Files\Microsoft SQL Server\MSSQL.1\MSSQL\FTData
C:\Program Files\Microsoft SQL Server\MSSQL.1\MSSQL\FTData文件夾下只有兩種文件:同義詞和干擾詞存
干擾詞列表stop list或noise word file或stop word
全文關鍵術語
f
f
f
f
總結
以上是生活随笔為你收集整理的关于SQLSERVER的全文目录跟全文索引的区别的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: C语言中低位存放,C语言 大端小端存储解
- 下一篇: 怎么创建具有真实纹理的CG场景岩石?