高效率探勘高頻項目集之演算法
陳垂呈
摘 要
從交易資料庫中探勘高頻項目集,是資料探勘領域中最重要的研究問題之一。本論文以交易資料為探勘的資料來源,每一筆交易資料包含消費者曾經購買的產品項目,從兩方面探勘高頻項目集:一是修改CDAR (cluster-decomposition association rule)演算法對交易資料分群的方式,設計一個 CDPL (clustering the databasewith the prefix item and the length of transaction data)演算法探勘高頻項目集。從實驗評估中顯示,CDPL 演算法的執行效率優於 CDAR 演算法探勘出高頻項目集;二是考量當有新增或刪除交易資料的情況,以 CDPL 演算法的探勘步驟為基礎,設計一個 UCDPL (updating association rules with the CDPL algorithm)演算法更新高頻項目集。從效能實驗中顯示,當有新增或刪除交易資料時,UCDPL 演算法可以很有效率更新高頻項目集。
關鍵字:資料探勘、高頻項目集、CDAR、CDPL、UCDPL