Minería de Datos: Definición, Historia, Elementos, Aplicaciones

Procesamiento de datos

La revolución digital ha hecho que la información electrónica sea fácil de capturar, procesar, almacenar, distribuir y transitar. Con avances significativos en la digitalización, la mayoría de las organizaciones recopilan continuamente una enorme cantidad de datos. Estos datos son de diversas características y se almacenan en la base de datos.

El ritmo al que se almacenan dichos datos está creciendo fenomenal. Fuentes bien informadas revelan que cada año se producen alrededor de 160 terabytes de información en todo el mundo.

Con este crecimiento de la información electrónica, la mayoría de las organizaciones se han dado cuenta de que la información almacenada o recopilada a lo largo de los años constituía un activo estratégico importante, y que detrás de los grandes volúmenes de datos se esconde una importante inteligencia para la formulación de políticas.

Esta inteligencia puede ser el recurso secreto del que puede depender el éxito de una organización.

Por lo tanto, es imperativo desarrollar algunas técnicas para descubrir información sobre formulación de políticas a partir de estas montañas de datos acumulados. El campo de la minería de datos proporciona tales técnicas.

¿Qué es la minería de datos?

La minería de datos a menudo se define como la búsqueda de información oculta en una base de datos. Alternativamente, se le ha llamado exploratorio. análisis de los datos, descubrimiento basado en datos y aprendizaje deductivo.

El término minería de datos describe el concepto de descubrir conocimiento a partir de bases de datos utilizando computadoras potentes.

Es un término amplio que se aplica a muchas formas diferentes de análisis. La idea detrás de la minería de datos es el proceso de identificar patrones válidos, novedosos, útiles y, en última instancia, comprensibles en los datos.

Antecedentes de minería de datos

La extracción manual de patrones a partir de datos se ha producido durante siglos. Los primeros métodos para identificar patrones en los datos incluyen el teorema de Bayes (década de 1700) y el análisis de regresión (década de 1800).

A medida que los conjuntos de datos han ido creciendo en tamaño y complejidad, el análisis de datos práctico directo se ha ido complementando cada vez más con el procesamiento de datos automático e indirecto.

A esto han contribuido otros descubrimientos en informática, como las redes neuronales, la agrupación en clústeres, los algoritmos genéticos (década de 1950), los árboles de decisión (década de 1960) y las máquinas de vectores de soporte (década de 1980).

La minería de datos es el proceso de aplicar estos métodos a los datos para descubrir patrones ocultos.

La minería de datos deriva su nombre de las similitudes entre la búsqueda de información valiosa e indispensable en una gran base de datos y la extracción de una montaña en busca de una veta de mineral valioso.

Ambos procesos requieren examinar una inmensa cantidad de material para descubrir una veta rentable o sondearla inteligentemente para encontrar dónde reside el valor.

La minería de datos es una herramienta útil, un nuevo enfoque que combina el descubrimiento con el análisis. Las herramientas de minería de datos predicen comportamientos y tendencias futuras, lo que permite a las empresas tomar decisiones proactivas basadas en el conocimiento.

Las herramientas de minería de datos pueden responder preguntas comerciales que tradicionalmente requerían demasiado tiempo para resolverse.

Exploran bases de datos en busca de patrones ocultos y encuentran información predictiva que los expertos pueden pasar por alto porque está fuera de sus expectativas.

¿Qué puede hacer la minería de datos?

La minería de datos es utilizada principalmente hoy en día por empresas con un fuerte enfoque en el consumidor: organizaciones minoristas, financieras, de comunicación y de marketing.

Permite a estas empresas determinar relaciones entre factores "internos" como el precio, el posicionamiento del producto o las habilidades del personal, y factores "externos" como los indicadores económicos, la competencia y la demografía de los clientes.

Y les permite determinar el impacto en las ventas, la satisfacción del cliente y las ganancias corporativas.

Finalmente, les permite “profundizar” en información resumida para ver datos transaccionales detallados.

Con la minería de datos, un minorista podría utilizar los registros del punto de venta de las compras de los clientes para enviar promociones específicas basadas en el historial de compras de un individuo.

Al extraer datos demográficos de comentarios o tarjetas de garantía, el minorista podría desarrollar productos y promociones para atraer a segmentos de clientes específicos.

Elementos de minería de datos

La minería de datos consta de cinco elementos principales:

  • Extraiga, transforme y cargue datos de transacciones en el sistema de almacenamiento de datos.
  • Almacenar y gestionar los datos en un sistema de base de datos multidimensional.
  • Proporcionar acceso a datos a analistas de negocios y profesionales de tecnología de la información.
  • Analizar los datos mediante software de aplicación.
  • Presente los datos en un formato útil, como un gráfico o una tabla.

Aplicaciones de la minería de datos

La tecnología de extracción de datos proporciona dos capacidades únicas al investigador o administrador: descubrimiento de patrones y predicción de tendencias y comportamientos. Las herramientas de minería de datos realizan análisis estadísticos exploratorios y confirmatorios para descubrir y validar relaciones.

Estas herramientas incluso amplían los enfoques estadísticos confirmatorios al permitir el examen automatizado de una gran cantidad de hipótesis. El tipo de datos disponibles y la naturaleza de la información buscada para determinar cuál de las numerosas técnicas de extracción de datos seleccionar.

La minería de datos se utiliza para una amplia variedad de aplicaciones.

Para las empresas, la minería de datos se utiliza para descubrir patrones y relaciones en los datos para ayudar a tomar mejores decisiones comerciales.

El ejemplo de una empresa de tarjetas de crédito con grandes volúmenes de datos ilustra una aplicación de minería de datos conocida como descubrimiento de clientes. La compañía de tarjetas de crédito probablemente recopilará información como edad, sexo, número de hijos, situación laboral, nivel de ingresos y el historial crediticio de cada cliente.

Muy a menudo, los datos sobre estas características de fondo de los clientes se extraerán para encontrar los patrones que hacen que un individuo en particular tenga un riesgo crediticio bueno o malo.

La minería de datos puede ayudar a detectar tendencias de ventas, desarrollar campañas de marketing más inteligentes y predecir con precisión la lealtad de los clientes. Las herramientas de minería de datos exploran bases de datos e identifican patrones previamente ocultos.

Un ejemplo de descubrimiento de patrones es el análisis de datos de ventas minoristas para identificar productos aparentemente no relacionados que a menudo se compran juntos. Otros problemas de descubrimiento de patrones incluyen la detección de transacciones fraudulentas con tarjetas de crédito y la identificación de datos anómalos que podrían representar errores de codificación de entidades de datos.

Algunos de los usos específicos de la minería de datos en los negocios y otras áreas son los siguientes:

  • Segmentación de mercado: La minería de datos nos ayuda a identificar las características comunes de los clientes que compran los mismos productos de su empresa y utilizar este conocimiento para desarrollar patrones de marketing específicos.
  • Rotación de clientes: La minería de datos se puede utilizar para predecir qué clientes probablemente abandonarán su empresa y se irán a un competidor.
  • Transacción de negocios: Hoy en día, las empresas se están consolidando y cada vez más empresas tienen millones de clientes y miles de millones de transacciones. Necesitan comprender los riesgos (transacciones fraudulentas, los clientes pagan) y las oportunidades (beneficios esperados, probabilidad del cliente). La minería de datos juega un papel importante aquí.
  • Marketing: Ayuda a los especialistas en marketing a descubrir grupos distintos en su base de clientes, y usan este conocimiento para desarrollar programas de marketing dirigidos.
  • Diseño y promoción de sitio web o tienda web: La minería de datos encuentra la afinidad de los visitantes a las páginas web, seguida de la posterior modificación del diseño.
  • Detección de fraude: Identifica qué transacciones tienen más probabilidades de ser fraudulentas.
  • Seguridad: Puede utilizarse en reconocimiento facial, identificación, biometría, etc.
  • Medicina y atención sanitaria: Determina el resultado de la enfermedad y la eficacia de los tratamientos, analizando el historial de la enfermedad del paciente para encontrar alguna relación entre las enfermedades.
  • Marketing directo: La minería de datos identifica qué prospectos deben incluirse en una lista de correo para obtener la tasa de respuesta más alta.
  • Marketing interactivo: Es útil para predecir qué es lo que más probablemente le interese ver a cada uno de los que acceden a un sitio web.
  • Análisis de la cesta de la compra: Es útil comprender qué productos o servicios se compran comúnmente juntos, por ejemplo, cerveza y pañales.
  • Análisis de tendencia: Revela la diferencia entre los clientes típicos de este mes y el pasado.
  • Recuperación multimedia: Busca e identifica la imagen, video, voz y texto de las bases de datos multimedia, los cuales pueden estar comprimidos.
  • Uso del suelo: Puede utilizarse en la identificación de áreas de uso de suelo similar en una base de datos de observación de la Tierra.
  • Análisis de datos científicos: Puede utilizarse para identificar nuevas galaxias mediante la búsqueda de subcúmulos.
  • • Planificación de la ciudad: Identifica grupos de viviendas según su tipología, valor y ubicación geográfica.

En los últimos años, la minería de datos se ha utilizado en el área de la ciencia y la ingeniería, como la bioinformática, la genética, la educación y la ingeniería de energía eléctrica.

En el área de estudio de la genética humana, la técnica de minería de datos se utiliza para conocer cómo los cambios en la secuencia del ADN de un individuo afectan el riesgo de desarrollar enfermedades comunes como el cáncer.

Esto es muy importante para ayudar a mejorar el diagnóstico, la prevención y el tratamiento de las enfermedades. La técnica de minería de datos que se utiliza para realizar esta tarea se conoce como reducción de dimensionalidad multifactorial.

En el área de la ingeniería eléctrica, las técnicas de minería de datos se han utilizado ampliamente para monitorear el estado de equipos eléctricos de alto voltaje.

El propósito del monitoreo de condición es obtener información valiosa sobre el estado de salud del aislamiento del equipo.

También se han aplicado técnicas de minería de datos para el análisis de gases disueltos (DGA) en transformadores de potencia. DGA, como diagnóstico para transformadores de potencia, está disponible desde hace muchos años.

Se han aplicado técnicas de minería de datos como SOM para analizar datos y determinar tendencias que no son obvias para las técnicas de relación DGA estándar como el Triángulo de Duval.

La cuarta área de aplicación de la minería de datos en ciencia/ingeniería se encuentra dentro investigacion Educativa, donde se ha utilizado la minería de datos para estudiar los factores que llevan a los estudiantes a elegir comportamientos que reducen su aprendizaje y para comprender los factores que influyen en la retención de los estudiantes universitarios.

¿Cómo funciona la minería de datos?

Si bien la tecnología de la información a gran escala ha ido evolucionando en sistemas analíticos y de transacciones separados, la minería de datos proporciona el vínculo entre ambos.

El software de minería de datos analiza relaciones y patrones en los datos de transacciones almacenados en función de consultas abiertas de los usuarios.

Hay varios tipos de software analítico disponibles; estadística, aprendizaje automático y redes neuronales.

Generalmente se busca cualquiera de los cuatro tipos de relaciones:

  • Clasificación: Los datos almacenados se utilizan para localizar datos en grupos predeterminados. Por ejemplo, una cadena de restaurantes podría extraer datos de compras de los clientes para determinar cuándo los visitan y qué piden normalmente. Esta información podría usarse para aumentar el tráfico al tener ofertas especiales diarias.
  • Grupos: Los elementos de datos se agrupan según relaciones lógicas o preferencias del consumidor. Por ejemplo, se pueden extraer datos para identificar segmentos de mercado o afinidades de consumidores.
  • Asociaciones: Se pueden extraer datos para identificar asociaciones. Por ejemplo, un supermercado podría recopilar datos sobre los hábitos de compra de los clientes. Utilizando el aprendizaje de reglas de asociación, el supermercado puede determinar qué productos se combinan con frecuencia y utilizar esta información con fines de marketing. Esto a veces se denomina análisis de la cesta de la compra.
  • Patrones secuenciales: Los datos se extraen para anticipar patrones y tendencias de comportamiento. Por ejemplo, un minorista de equipos para actividades al aire libre podría predecir la probabilidad de que se compre una mochila basándose en la compra de sacos de dormir y zapatos para caminar por parte del consumidor.

Preguntas frecuentes

¿Cuál es la definición principal de minería de datos?

La minería de datos a menudo se define como la búsqueda de información oculta en una base de datos. Describe el concepto de descubrir conocimiento a partir de bases de datos utilizando computadoras potentes.

¿Cómo ha evolucionado el concepto de minería de datos a lo largo de los años?

La extracción manual de patrones a partir de datos se ha practicado durante siglos, y los primeros métodos incluían el teorema de Bayes y el análisis de regresión. Con el crecimiento de los conjuntos de datos en tamaño y complejidad, el procesamiento automático de datos se ha vuelto más frecuente, ayudado por descubrimientos como redes neuronales, agrupamiento, algoritmos genéticos, árboles de decisión y máquinas de vectores de soporte.

¿Cuáles son los elementos principales que constituyen la minería de datos?

La minería de datos consta de cinco elementos principales:

  1. Extraer, transformar y cargar datos de transacciones en el sistema de almacenamiento de datos.
  2. Almacenar y gestionar los datos en un sistema de base de datos multidimensional.
  3. Proporcionar acceso a datos a analistas de negocios y profesionales de TI.
  4. Analizar los datos con software de aplicación, y
  5. Presentar los datos en un formato útil.

¿Cómo beneficia la minería de datos a las empresas?

La minería de datos ayuda a las empresas a determinar las relaciones entre diversos factores internos y externos. Predice comportamientos y tendencias, lo que permite a las empresas tomar decisiones proactivas basadas en el conocimiento. Puede ayudar a detectar tendencias de ventas, desarrollar campañas de marketing más inteligentes y predecir la lealtad de los clientes.

¿Cuáles son algunos de los usos específicos de la minería de datos en diversos sectores?

La minería de datos se utiliza en varios sectores con fines como segmentación de mercado, predicción de pérdida de clientes, marketing directo, marketing interactivo, análisis de la cesta de la compra, análisis de tendencias y más. También se utiliza en áreas como la medicina, la planificación urbana, el análisis de datos científicos y la ingeniería eléctrica.

¿Cómo funciona la minería de datos en términos de su enfoque analítico?

El software de minería de datos analiza relaciones y patrones en los datos de transacciones almacenados en función de las consultas de los usuarios. El software puede ser de varios tipos, incluidos estadísticos, de aprendizaje automático y de redes neuronales. Las relaciones buscadas pueden ser de clasificación, agrupamiento, asociaciones o patrones secuenciales.

¿Cuál es la importancia de las “asociaciones” en la minería de datos?

En la minería de datos, las asociaciones ayudan a identificar qué elementos de datos están frecuentemente relacionados o ocurren juntos. Por ejemplo, un supermercado puede utilizar el aprendizaje de reglas de asociación para determinar qué productos se compran juntos con frecuencia, lo que ayuda en los esfuerzos de marketing dirigidos.