生活随笔
收集整理的這篇文章主要介紹了
15.1 基本概念
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
15.1 基本概念
- 機器學習中的規則(rule)通常是指語義明確,能描述數據分布所隱含的客觀規律或者是領域概念,可寫作“若……則……”形式的邏輯規則。“規則學習”(rule learning)是從訓練數據中學習出一組能用于對未見實例進行判別的規則。
- 形式化的看,一條規則形如:
- 其中邏輯蘊含符號 👈右邊部分稱作 規則體,表示該條規則的前提,左邊部分稱為“規則頭”,表示該條規則的結果。規則體是由邏輯文字 fk 組成的合取式,其中合取符號 ∩ 用來表示“并且”。每個文字 fk都是對示例屬性進行檢驗的布爾表達式,例如色澤 = 烏黑或者是非(根蒂=硬挺)。L是規則體中文字的個數,稱為規則的長度。規則頭中的結果同樣也是邏輯文字,一般用來表示所判別的目標類別或者是概念。例如”好瓜“,這樣的邏輯規則也被稱作為if-then規則
- 與神經網絡,支持向量機這樣的黑箱模型相比,規則學習具有更好的了解釋性,能夠使得用戶直觀的對判別過程有所了解,另一方面,數理邏輯具有極強的表達能力,絕大多數人類知識都能通過數理邏輯進行簡潔的刻畫和表達,例如”父親的父親是爺爺“,這樣的知識不容易用函數表達式進行表述,而用一階邏輯則可以方便的寫為YY (X,Y)👈 父親(X,Z) ∩ 父親(Z,Y)。因此,規則學習能更自然的在學習過程中引入領域知識。此外,邏輯規則的抽象描述能力在處理一些高度復雜的AI任務時具有明顯的優勢,例如在自然問答系統中可能會遇到非常多,甚至無窮多的可能答案,此時如果能夠基于邏輯規則進行抽象表述或者是推理,則將帶來極大的便利。
- 假設我們從西瓜集學得規則集合R:
- 規則一:好瓜 👈 (根蒂 = 蜷縮) ∩ (臍部 = 凹陷)
- 規則二:不是好瓜 👈 (紋理 = 模糊)
- 規則1的長度為2,它通過判斷兩個邏輯文字的賦值來對實例進行判別。復合該規則的樣本被稱為該規則的覆蓋(cover)。需要注意的是:被規則一覆蓋的樣本是好瓜,但是沒有被規則一覆蓋的瓜未必不是好瓜。只有被規則二這樣以 非好瓜為頭的規則覆蓋才不是好瓜。
- 顯然,規則集合中的每條規則都可以看作一個子模型,規則集合是這些子模型的一個集成。當同一個實例被判別結果不同的多條規則覆蓋時,稱發生了沖突,解決沖突的辦法稱為沖突消除。常用的沖突消除的策略有投票法,排序法,元規則法。投票法是將判別相同的規則數最多的結果作為最終的結果。排序法是在規則的幾何上定義一個順序,在發生沖突的時候使用排序最前的規則,相應的規則學習過程稱為帶序規則學習或者是優先級規則學習。元規則法是根據領域知識事先設定了一些元規則,即關于規則的規則。例如,發生沖突時使用最小的規則,然后根據元規則的指導來使用規則集
- 此外,從訓練集學到的規則集合也許不能覆蓋所有可能的未見實例,例如前述規則集合R 無法對根蒂 = 蜷縮,臍部 = 稍凹 ∩ 紋理 = 清晰的實例進行判別。這樣的情況在屬性數目很多的時候常出現。因此,規則學習算法通常設置一條默認規則,由他來處理規則集合未被覆蓋的樣本。例如為 R 增加一條默認的規則:未被1,2覆蓋的都不是好瓜
- 從形式語言表達能力而言,規則可以分為兩類:命題規則和一階規則。前者是原子命題和邏輯連接詞與,或,非,和蘊含構成的簡單陳述句。例如:規則集R 就是一個命題規則集,根蒂 = 蜷縮,臍部 = 稍凹 都是原子命題。
- 后者的基本成分是能夠描述事物的屬性和關系的,原子公式,例如表示父子關系的謂詞,父親(X,Y)就是原子公式,再如表示加一操作。
- 顯然,一階規則能夠表達復雜的關系,因此也被稱為關系型規則。以西瓜數據為例,若我們簡單的把屬性當作謂詞來定義實例和屬性值之間的關系,則命題規則集R可以改寫為一階規則集R’
- 規則一:好瓜(X) 👈 根蒂(X,蜷縮) ∩ 臍部(X,凹陷)
- 規則二: 非好瓜(X) 👈 紋理(X,模糊)
- 從形式語言系統的角度來看,命題規則是一階規則的特例,因此一階規則的學習比命題規則要復雜的多。
與50位技術專家面對面20年技術見證,附贈技術全景圖
總結
以上是生活随笔為你收集整理的15.1 基本概念的全部內容,希望文章能夠幫你解決所遇到的問題。
如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。