相对于有效的数据仓库和数据挖掘而言 面对的是一个广泛形形色色的用户群体和在上的信息只有很小的一部分是相关的或有用等等的一些问题。解决这些问题的一个途径就是将传统的数据挖掘技术和结合起来进行数据挖掘。本文从与数据挖掘两项技术相结合入手进行研究提出了一个基于的数据挖掘系统模型。运用解决数据挖掘中的数据抽取最后对该方法进行了实例应用说明。证明本模型能够帮助人们更有效地从上获取知识。
  关键词数据挖掘;;关联规则;
  [中图分类号]250.74[文献标识码]
  [文章编号]10022139(2011)20023601
  2000年以后国内外把和数据挖掘结合起来的研究逐渐增多。由于广泛应用于上对基于的数据挖掘的研究越来越受到重视。数据挖掘具有半结构化的数据结构、异构数据库环境以及解决半结构化的数据源问题等特点[1]而( )的出现为解决数据挖掘难点提供了很好的解决方法[2]。
  1、理论基础
  1.1
  的全称为可扩展标记语言是由互联网协会(3)于1998年提出和设计的由标准通用标一记语言中派生而来的。正在逐步成为第一代数据描述和数据交换的标准[3]。包含3个素(文档类型定义)或、(可扩展样式表语言)和(可扩展链接语)。其中规定了文件的逻辑结构;用来描述文档如何显示使得数据与其表现形式相互独立;功能更加强大使用可以多方向链接而且链接不再局限于页面层级[4]。通过使文档结构化这样很容易验证文档数据的合法性容易提取文档中的数据[5]。
  1.2数据挖掘
  数据挖掘( )就是从大量的、不完全的、有噪声的、模糊的、随机的数据中简单地说提取隐含在其中的、人们感兴趣的、潜在有用的信息和知识的过程[7]。数据挖掘是从大量数据中提取或“挖掘”知识。
  人们把数据看做是形成知识的源泉通过对数据进行组织、分析、处理然后应用数据挖掘技术得到人们感兴趣的知识。原始数据可以来自于关系数据库、数据仓库、事务数据库、空间数据库、面向对象数据库也可以来自于文本数据源、多媒体数据以及分布在上的异构数据源。可以使用不同的方法发现知识如数学的和非数学的方法演绛的和归纳的方法等。因此数据挖掘是一门汇聚了不同领域的交叉学科包括数据库技术、统计学、机器学习、高性能计算、模式识别、数据可视化、信息检索、图像与信号处理和空间数据分析等。数据挖掘技术把人们对数据的低层应用如简单查询等提升到从数据中挖掘知识对所得知识进行高层运用。因此它是一种具有强大实际作用和前途的学科。
  1.3数据挖掘
  挖掘是一项综合技术涉及技术、数据挖掘、计算机语言学、信息学等多个领域。不同研究者从自身的领域出发对挖掘的含义有着不同的理解项目开发也各有其侧重点。我们从更为一般的角度出发对挖掘作如下定义[8]挖掘是指从大量文档的集合中发现隐含的模式。如果将看作输入将看作输出那么挖掘的过程就是从输入到输出的一个映射£。
  挖掘从数据挖掘发展而来因此其定义与我们熟知的数据挖掘定义相类似。但是挖掘与传统的数据挖掘相比有许多独特之处。首先挖掘的对象是大量、异质、分布的文档。其次在逻辑上是一个由文档节点和超链接构成的图因此挖掘所得到的模式可能是关于内容的也可能是关于结构的。此外由于文档本身是半结构化或无结构的且缺乏机器可理解的语义。而传统数据挖掘的对象局限于数据库中的结构化数据并利用关系表格等存储结构来发现知识因此有些数据挖掘技术并不适用于挖掘即使可用也需建立在对文档进行预处理的基础之上。
  2、基于的数据挖掘技术
  面向的数据挖掘是一项复杂的技术由于数据挖掘比单个数据仓库的挖掘复杂得多因而面向的数据挖掘成了一个难以解决的问题。而的出现为解决数据挖掘的难题带来了机会。由于能够使不同来源的结构化的数据很容易地结合在一起因而使搜索多样的不兼容的数据库能够成为可能从而为解决数据挖掘难题带来了希望。的扩展性和灵活性允许描述不同种类应用软件中的数据从而能描述搜集的页中的数据记录。同时由于基于的数据是自我描述的数据不需有内部描述就能被交换和处理。作为表示结构化数据的一个工业标准为组织、软件开发者、站点和终端使用者提供了许多有利条件。
  3、基于的数据挖掘的系统结构
  基于的数据挖掘的系统在总体上分为三层。底层是数据集成层用作为工具将相关数据进行集成、整合、抽取形成一个有一定结构信息的原始数据集作为中间层数据预处理层的数据来源;在中间层中对数据集进行数据选择、清理和规范化产生结构化程度更高的具有丰富语义的数据集作为顶层即数据挖掘应用层的数据源;在数据挖掘应用层中有一些具体的数据挖掘应用需将结果通过报表、即时查询、统计图等形式向决策人员展示。
  4、结论
  随着的迅速发展越来越多的数据库和信息系统不断加入网络使得网络上存在大量的数据面对如此复杂的数据如何从复杂的网络数据中发掘所需信息已经成为人们所关注的一个重问题。由于具有可扩展性、结构化和有效性等特性建立了一种传输结构化数据的方法使用户能够对信息实施精确查询与模型抽取因此将与数据挖掘相结合进行研究逐渐成为了数据挖掘领域内的一个新热点。
  参考文献
  [1]曼丽春朱宏.数据挖掘研究与探讨[].西南民族大学学报自然科学版200531(2)305.
  [2]王玉珍.数据挖掘技术与[].信息技术2005(10)142143.
  [3] 1.()1.0 3[/].//.3.//1998/19980210.8.1997.
  [4].基础与应用〔〕.云舟工作室译.北京中国水利水电出版社2002.
  [5]何月顺刘光萍等.与面向的数据挖掘技术的应用研究.江西农业大学学报2004;(6)
  [6] . . //…/////.