Rough集理論是由Pawlak在80年代初首先引入計算機科學領域的,它作為一種基于數學概念方法,已廣泛用于數據挖掘的各個領域。隱含在Rough集模型中最原始的觀點為:有關決策的信息通常是模糊的,這種模糊性來自于信息源的不確定性和不精確性,模糊性可能是由于信息的表示粒度而導致[3].在Rough集模型中,知識表示是通過信息系統來完成的。如果信息系統中的信息粒度較大,即屬性的等價類數量較多,且每個等價類中只包含很少的對象,則這樣的信息系統所產生的規則雖然在訓練集上具有較好的分類能力,但不能保證其在測試集或對新對象集上有較好的分類預測能力。因此,有必要對原始的信息系統進行數據過濾,以降低信息粒度。提出了一個簡單的數據過濾方法,能夠提高規則的統計意義,而保持信息系統內在依賴信息不受損失。其基本的工具是利用二元信息系統首先將原始的信息系統轉化為二元信息系統,然后在二元信息系統的基礎上利用一定的方法對屬性進行合并,以完成數據的過濾,減低信息的粒度,提高規則統計意義而保持規則的近似質量[5])不變。由于在信息系統二元化過程中需要將每個非二元屬性q拆成Vq個屬性,因此當信息系統屬性較多,且屬性的值域較大時,將產生龐大的二元信息系統,導致計算復雜性提高。為此我們提出一種基于Rough集的數據過濾算法,該方法直觀,計算復雜性也不高,能達到文獻[4]同樣的效果。本文的組織如下:在第2節中,我們簡要提出了一些Rough集理論的有關概念;我們提出的基于Rough集理論的數據過濾算法,并從理論上證明了該算法不僅能保證規則的近似質量不變,而且能有效地提高規則的統計意義;2Rough集概念Rough集理論已經在數據挖掘各個領域中取得了廣泛的應用。在敘述我們的過濾算法之前,先簡要回顧一下Rough集理論的有關概念。
在Rough集理論中,核被認為是知識表示的基本屬性集,當信息系統的核為空時,說明該信息系統中的屬性具有較高的替代率。其原因可能是由于原始數據不完備的預處理所導致的高粒度的信息系統所致,因此,有必要降低信息粒度。一個具有正確的高近似質量的規則并不能保證其是有效的。例如,如果我們用Rough集的方法在基于少量的對象的信息系統中,發現出規則Q→P,盡管其近似質量可能很高,甚至為1.0,但是,由于支持其成立的對象少,這種近似質量可能是由于偶然因素引起的,導致其在分類新對象的預測能力較低。因此,規則預測的有效性必須用統計意義進行測試。
當信息系統中的信息粒度較高時,規則的統計意義的值往往是很高的。為此,我們提出一種基于Rough集理論的數據過濾算法。它的基本思想是通過D確定的Q等價類的合并,提高規則的統計意義,從而降數據過濾方法的分析為了說明上述基于Rough集理論的數據過濾方法的有效性,我們從下面兩方面來分析,首先證明該算法能保證規則的近似質量,然后證明進行數據過濾后的信息系統的規則統計意義不大于過濾以前的信息系統的規則統計意義。
結束語我們在研究Rough集理論的基礎上,提出了一種基于Rough集理論的數據過濾算法。該算法的基本思想是基于P確定的等價類的合并,算法直觀,計算簡便。理論和實驗表明,該算法能夠減低信息系統中信息的粒度,在保持規則近似質量不變的前提下,有效提高規則的統計意義,從而提高了規則的預測強度。