sábado, 7 de agosto de 2010

El descubrimiento del conocimiento (KDD)

Se define como ”la extracción no trivial de información implícita, desconocida, y potencialmente útil de los datos”. Hay una distinción clara entre el proceso de extracción de datos y el descubrimiento del conocimiento. Bajo sus convenciones, el proceso de descubrimiento del conocimiento toma los resultados tal como vienen de los datos (proceso de extraer tendencias o modelos de los datos) cuidadosamente y con precisión los transforma en información útil y entendible. Esta información no es típicamente recuperable por las técnicas normales pero es descubierta a través del uso de técnicas de AI.
KDD puede usarse como un medio de recuperación de información, de la misma manera que los agentes inteligentes realizan la recuperación de información en el Web. Nuevos modelos o tendencias en los datos podrán descubrirse usando estas técnicas. KDD también puede usarse como una base para las interfaces inteligentes del mañana, agregando un componente del descubrimiento del conocimiento a una máquina de bases de datos o integrando KDD con las hojas de cálculo y visualizaciones.
Al Descubrimiento de Conocimiento de Bases de Datos (KDD) a veces también se le conoce como minería de datos (Data Mining).
Sin embargo, muchos autores se refieren al proceso de minería de datos como el de la aplicación de un algoritmo para extraer patrones de datos y a KDD al proceso completo (pre-procesamiento, minería, post-procesamiento).
El proceso de KDD consiste en usar métodos de minería de datos (algoritmos) para extraer (identificar) lo que se considera como conocimiento de acuerdo a la especificación de ciertos parámetros usando una base de datos junto con pre-procesamientos y post-procesamientos.
Se estima que la extracción de patrones (minería) de los datos ocupa solo el 15% - 20% del esfuerzo total del proceso de KDD.           

Metas de KDD
       procesar automáticamente grandes cantidades de datos crudos,
       identificar los patrones más significativos y relevantes, y
       presentarlos como conocimiento apropiado para satisfacer las metas del usuario.
                                                                                                      
Técnicas de KDD
Los algoritmos de aprendizaje son una parte integral de KDD. Las técnicas de aprendizaje podrán ser supervisadas o no supervisadas. En general, las técnicas de aprendizaje dirigidas disfrutan de un rango de éxito definido por la utilidad del descubrimiento del conocimiento. Los algoritmos de aprendizaje son complejos y generalmente considerados como la parte más difícil de cualquier técnica KDD.
El descubrimiento de la máquina es uno de los campos más recientes que han contribuido para KDD. Mientras el descubrimiento de la máquina confía solamente en métodos autónomos para el descubrimiento de la información, KDD típicamente combina métodos automatizados con la interacción humana para asegurar resultados exactos, útiles, y entendibles.
Hay muchos métodos diferentes que son clasificados como las técnicas de KDD. Hay métodos cuantitativos, como los probabilísticos y los estadísticos. Hay métodos que utilizan las técnicas de visualización. Hay métodos de clasificación como la clasificación de Bayesian, lógica inductiva, descubrimiento de modelado de datos y análisis de decisión. Otros métodos incluyen la desviación y tendencia al análisis, algoritmos genéticos, redes neuronales y los métodos híbridos que combinan dos o más técnicas.
Debido a las maneras en que estas técnicas pueden usarse y combinarse, hay una falta de acuerdos de cómo estas técnicas deben categorizarse. Por ejemplo, el método de Bayesian puede agruparse lógicamente con los métodos probabilísticos, de clasificación o de visualización. Por causa de la organización, cada método descrito aquí es incluido en el grupo que mejor encaje. Sin embargo, esta selección no implica una categorización estricta.
Método ProbabilísticoEsta familia de técnicas KDD utiliza modelos de representación gráfica para comparar las diferentes representaciones del conocimiento. Estos modelos están basados en las probabilidades e independencias de los datos. Estos son útiles para aplicaciones que involucran incertidumbre y aplicaciones estructuradas tal que una probabilidad puede asignarse a cada uno de los “resultados” o pequeña cantidad del descubrimiento del conocimiento. Las técnicas probabilísticas pueden usarse en los sistemas de diagnóstico, planeación y sistemas de control. Las herramientas del probabilidad automatizadas están disponibles en el dominio público y comercial.
Método estadístico. El método estadístico usa la regla del descubrimiento y se basa en las relaciones de los datos. El “algoritmo de aprendizaje inductivo puede seleccionar automáticamente trayectorias útiles y atributos para construir las reglas de una base de datos con muchas relaciones''. Este tipo de inducción es usado para generalizar los modelos en los datos y construir las reglas de los modelos nombrados. El proceso analítico en línea (OLAP) es un ejemplo de un método orientado a la estadística. Las herramientas estadísticamente automatizadas están disponibles en el dominio público y comercial.
Método de clasificación. La clasificación es probablemente el método más viejo y mayormente usado de todos los métodos de KDD. Este método agrupa los datos de acuerdo a similitudes o clases. Hay muchos tipos de clasificación de técnicas y numerosas herramientas disponible que son automatizadas.
Método Bayesian de KDD "es un modelo gráfico que usa directamente los arcos exclusivamente para formar una gráfica acíclica". Aunque el método Bayesian usa los medios probabilísticos y gráficos de representación, también es considerado un tipo de clasificación.
Se usan muy frecuentemente las redes de Bayesian cuando la incertidumbre se asocia con un resultado puede expresarse en términos de una probabilidad. Este método cuenta con un dominio del conocimiento codificado y ha sido usado para los sistemas de diagnóstico.

No hay comentarios:

Publicar un comentario