Mineração de dados: definição, história, elementos, aplicações

Mineração de dados

A revolução digital tornou a informação electrónica fácil de capturar, processar, armazenar, distribuir e transportar. Com o progresso significativo na digitalização, a maioria das organizações recolhe continuamente uma enorme quantidade de dados. Esses dados são de características diversas e armazenados no banco de dados.

A taxa de armazenamento desses dados está crescendo fenomenalmente. Fontes bem informadas revelam que cerca de 160 terabytes de informação são produzidos anualmente em todo o mundo.

Com este crescimento da informação electrónica, a maioria das organizações apercebeu-se de que a informação armazenada ou recolhida ao longo dos anos constituía um importante activo estratégico e que existe uma inteligência substancial na elaboração de políticas escondida nos grandes volumes de dados.

Esta inteligência pode ser o recurso secreto do qual pode depender o sucesso de uma organização.

É, portanto, imperativo desenvolver algumas técnicas para descobrir informações sobre a elaboração de políticas a partir destas montanhas de dados acumulados. O campo da mineração de dados fornece tais técnicas.

O que é mineração de dados?

A mineração de dados é frequentemente definida como a localização de informações ocultas em um banco de dados. Alternativamente, foi chamado de exploratório análise de dados, descoberta baseada em dados e aprendizagem dedutiva.

O termo mineração de dados descreve o conceito de descoberta de conhecimento em bancos de dados usando computadores poderosos.

É um termo amplo que se aplica a muitas formas diferentes de análise. A ideia por trás da mineração de dados é o processo de identificação de padrões válidos, novos, úteis e, em última análise, compreensíveis nos dados.

Histórico de mineração de dados

A extração manual de padrões de dados ocorre há séculos. Os primeiros métodos de identificação de padrões em dados incluem o teorema de Bayes (década de 1700) e a análise de regressão (década de 1800).

À medida que os conjuntos de dados cresceram em tamanho e complexidade, a análise direta e prática de dados foi cada vez mais ampliada com o processamento indireto e automático de dados.

Isto foi auxiliado por outras descobertas na ciência da computação, como redes neurais, agrupamento, algoritmos genéticos (década de 1950), árvores de decisão (década de 1960) e máquinas de vetores de suporte (década de 1980).

A mineração de dados é o processo de aplicação desses métodos aos dados para descobrir padrões ocultos.

O nome da mineração de dados deriva das semelhanças entre a busca por informações valiosas e indispensáveis em um grande banco de dados e a mineração de uma montanha em busca de um veio de minério valioso.

Ambos os processos exigem a análise de uma imensa quantidade de material para descobrir um veio lucrativo ou uma sondagem inteligente para descobrir onde reside o valor.

A mineração de dados é uma ferramenta útil, uma nova abordagem que combina descoberta com análise. As ferramentas de mineração de dados prevêem comportamentos e tendências futuras, permitindo que as empresas tomem decisões proativas e baseadas no conhecimento.

As ferramentas de mineração de dados podem responder a questões de negócios que tradicionalmente demoravam muito para serem resolvidas.

Eles vasculham os bancos de dados em busca de padrões ocultos, encontrando informações preditivas que os especialistas podem perder por estarem fora de suas expectativas.

O que a mineração de dados pode fazer?

A mineração de dados é usada principalmente hoje por empresas com forte foco no consumidor – organizações de varejo, financeiras, de comunicação e de marketing.

Permite que estas empresas determinem relações entre factores “internos”, tais como preço, posicionamento do produto ou competências do pessoal, e factores “externos”, tais como indicadores económicos, concorrência e dados demográficos dos clientes.

E permite-lhes determinar o impacto nas vendas, na satisfação do cliente e nos lucros corporativos.

Por fim, permite que eles “aprofundem” informações resumidas para visualizar dados transacionais detalhados.

Com a mineração de dados, um varejista poderia usar registros de compras de clientes no ponto de venda para enviar promoções direcionadas com base no histórico de compras de um indivíduo.

Ao extrair dados demográficos de comentários ou cartões de garantia, o varejista poderia desenvolver produtos e promoções para atrair segmentos específicos de clientes.

Elementos de mineração de dados

A mineração de dados consiste em cinco elementos principais:

  • Extraia, transforme e carregue dados de transações no sistema de data warehouse.
  • Armazene e gerencie os dados em um sistema de banco de dados multidimensional.
  • Fornece acesso a dados para analistas de negócios e profissionais de tecnologia da informação.
  • Analise os dados por software aplicativo.
  • Apresente os dados em um formato útil, como gráfico ou tabela.

Aplicações de mineração de dados

A tecnologia de mineração de dados oferece duas capacidades exclusivas ao pesquisador ou gerente: descoberta de padrões e previsão de tendências e comportamentos. As ferramentas de mineração de dados realizam análises estatísticas exploratórias e confirmatórias para descobrir e validar relacionamentos.

Essas ferramentas ampliam até mesmo as abordagens estatísticas confirmatórias, permitindo o exame automatizado de um grande número de hipóteses. O tipo de dados disponíveis e a natureza da informação procuraram determinar qual das numerosas técnicas de mineração de dados selecionar.

A mineração de dados está sendo usada para uma ampla variedade de aplicações.

Para as empresas, a mineração de dados é usada para descobrir padrões e relacionamentos nos dados para ajudar a tomar melhores decisões de negócios.

O exemplo de uma empresa de cartão de crédito com grandes volumes de dados ilustra uma aplicação de mineração de dados conhecida como descoberta de clientes. A administradora do cartão de crédito provavelmente coletará informações como idade, sexo, número de filhos, situação profissional, nível de renda e histórico de crédito anterior de cada cliente.

Muitas vezes, os dados sobre estas características de base dos clientes serão explorados para encontrar os padrões que tornam um determinado indivíduo um risco de crédito bom ou mau.

A mineração de dados pode ajudar a identificar tendências de vendas, desenvolver campanhas de marketing mais inteligentes e prever com precisão a fidelidade do cliente. As ferramentas de mineração de dados varrem bancos de dados e identificam padrões anteriormente ocultos.

Um exemplo de descoberta de padrões é a análise de dados de vendas no varejo para identificar produtos aparentemente não relacionados que muitas vezes são comprados juntos. Outros problemas de descoberta de padrões incluem a detecção de transações fraudulentas de cartão de crédito e a identificação de dados anômalos que poderiam representar erros de codificação de entidade de dados.

Alguns dos usos específicos da mineração de dados em negócios e outras áreas são os seguintes:

  • Segmentação de mercado: A mineração de dados nos ajuda a identificar as características comuns dos clientes que compram os mesmos produtos da sua empresa e a usar esse conhecimento para desenvolver padrões de marketing direcionados.
  • A rotatividade de clientes: A mineração de dados pode ser usada para prever quais clientes provavelmente deixarão sua empresa e irão para um concorrente.
  • Transação comercial: Hoje, as empresas estão se consolidando e cada vez mais empresas têm milhões de clientes e bilhões de transações. Eles precisam compreender os riscos (transação fraudulenta, pagamento dos clientes) e oportunidades (lucro esperado, probabilidade do cliente). A mineração de dados desempenha um papel importante aqui.
  • Marketing: Ajuda os profissionais de marketing a descobrir grupos distintos em sua base de clientes, e eles usam esse conhecimento para desenvolver programas de marketing direcionados.
  • Design e promoção de site ou loja virtual: A mineração de dados encontra a afinidade dos visitantes com as páginas da web, seguida pela subsequente modificação do layout.
  • Detecção de fraude: Ele identifica quais transações têm maior probabilidade de serem fraudulentas.
  • Segurança: Pode ser usado em reconhecimento facial, identificação, biometria, etc.
  • Medicina e cuidados de saúde: Ele determina o resultado da doença e a eficácia dos tratamentos, analisando o histórico da doença do paciente para encontrar alguma relação entre as doenças.
  • Marketing direto: A mineração de dados identifica quais clientes potenciais devem ser incluídos em uma lista de e-mails para obter a maior taxa de resposta.
  • Marketing interativo: É útil para prever o que cada pessoa que acessa um site da Web provavelmente está interessada em ver.
  • Análise da cesta de mercado: Ajuda a compreender quais produtos ou serviços são comumente adquiridos em conjunto, por exemplo, cerveja e fraldas.
  • Análise de tendências: Revela a diferença entre os clientes típicos deste mês e do último.
  • Recuperação multimídia: Ele busca e identifica imagens, vídeos, vozes e textos dos bancos de dados multimídia, que podem ser compactados.
  • Uso da terra: Pode ser utilizado na identificação de áreas de uso semelhante do solo em uma base de dados de observação da Terra.
  • Análise de dados científicos: Pode ser usado para identificar novas galáxias procurando subaglomerados.
  • • Planejamento urbano: Identifica grupos de casas de acordo com o tipo de casa, valor e localização geográfica.

Nos últimos anos, a mineração de dados tem sido utilizada na área de ciência e engenharia, como bioinformática, genética, educação e engenharia de energia elétrica.

Na área de estudo da genética humana, a técnica de mineração de dados é utilizada para descobrir como as alterações na sequência do DNA de um indivíduo afetam o risco de desenvolver doenças comuns como o câncer.

Isso é muito importante para ajudar a melhorar o diagnóstico, a prevenção e o tratamento das doenças. A técnica de mineração de dados usada para realizar esta tarefa é conhecida como redução de dimensionalidade multifatorial.

Na área de engenharia de energia elétrica, técnicas de mineração de dados têm sido amplamente utilizadas para monitoramento de condições de equipamentos elétricos de alta tensão.

O objetivo do monitoramento da condição é obter informações valiosas sobre o estado de saúde do isolamento do equipamento.

Técnicas de mineração de dados também foram aplicadas para análise de gases dissolvidos (DGA) em transformadores de potência. O DGA, como diagnóstico para transformadores de potência, está disponível há muitos anos.

Técnicas de mineração de dados, como SOM, foram aplicadas para analisar dados e determinar tendências que não são óbvias para as técnicas padrão de proporção DGA, como o Triângulo de Duval.

A quarta área de aplicação para mineração de dados em ciência/engenharia está dentro pesquisa educacional, onde a mineração de dados tem sido utilizada para estudar os fatores que levam os estudantes a optar por adotar comportamentos que reduzem a sua aprendizagem e para compreender os fatores que influenciam a retenção dos estudantes universitários.

Como funciona a mineração de dados?

Embora a tecnologia da informação em grande escala tenha desenvolvido sistemas analíticos e de transações separados, a mineração de dados fornece a ligação entre os dois.

O software de mineração de dados analisa relacionamentos e padrões em dados de transações armazenados com base em consultas abertas do usuário.

Vários tipos de software analítico estão disponíveis; estatística, aprendizado de máquina e redes neurais.

Geralmente, qualquer um dos quatro tipos de relacionamento é procurado:

  • Classificação: Os dados armazenados são usados para localizar dados em grupos predeterminados. Por exemplo, uma rede de restaurantes poderia extrair dados de compras de clientes para determinar quando os clientes visitam e o que normalmente pedem. Essas informações podem ser usadas para aumentar o tráfego com promoções diárias.
  • Aglomerados: Os itens de dados são agrupados de acordo com relacionamentos lógicos ou preferências do consumidor. Por exemplo, os dados podem ser extraídos para identificar segmentos de mercado ou afinidades de consumidores.
  • Associações: Os dados podem ser extraídos para identificar associações. Por exemplo, um supermercado pode recolher dados sobre os hábitos de compra dos clientes. Usando o aprendizado de regras de associação, o supermercado pode determinar quais produtos são frequentemente reunidos e usar essas informações para fins de marketing. Isso às vezes é chamado de análise de cesta de compras.
  • Padrões sequenciais: Os dados são extraídos para antecipar padrões e tendências de comportamento. Por exemplo, um varejista de equipamentos para atividades ao ar livre poderia prever a probabilidade de uma mochila ser comprada com base na compra de sacos de dormir e sapatos de caminhada pelo consumidor.

Perguntas frequentes

Qual é a definição principal de mineração de dados?

A mineração de dados é frequentemente definida como a localização de informações ocultas em um banco de dados. Descreve o conceito de descoberta de conhecimento em bancos de dados usando computadores poderosos.

Como o conceito de mineração de dados evoluiu ao longo dos anos?

A extração manual de padrões de dados tem sido praticada há séculos, com métodos iniciais incluindo o teorema de Bayes e a análise de regressão. Com o crescimento dos conjuntos de dados em tamanho e complexidade, o processamento automático de dados tornou-se mais predominante, auxiliado por descobertas como redes neurais, clustering, algoritmos genéticos, árvores de decisão e máquinas de vetores de suporte.

Quais são os principais elementos que constituem a mineração de dados?

A mineração de dados consiste em cinco elementos principais:

  1. Extrair, transformar e carregar dados de transação no sistema de data warehouse,
  2. Armazenar e gerenciar os dados em um sistema de banco de dados multidimensional,
  3. Fornecer acesso a dados para analistas de negócios e profissionais de TI,
  4. Analisar os dados com software aplicativo e
  5. Apresentar os dados em um formato útil.

Como a mineração de dados é benéfica para as empresas?

A mineração de dados ajuda as empresas a determinar as relações entre vários fatores internos e externos. Ele prevê comportamentos e tendências, permitindo que as empresas tomem decisões proativas e baseadas no conhecimento. Pode ajudar a identificar tendências de vendas, desenvolver campanhas de marketing mais inteligentes e prever a fidelidade do cliente.

Quais são alguns dos usos específicos da mineração de dados em vários setores?

A mineração de dados é usada em vários setores para fins como segmentação de mercado, previsão de rotatividade de clientes, marketing direto, marketing interativo, análise de cesta de compras, análise de tendências e muito mais. Também é usado em áreas como medicina, planejamento urbano, análise de dados científicos e engenharia de energia elétrica.

Como funciona a mineração de dados em termos de abordagem analítica?

O software de mineração de dados analisa relacionamentos e padrões em dados de transações armazenados com base nas consultas do usuário. O software pode ser de vários tipos, incluindo estatístico, aprendizado de máquina e redes neurais. As relações procuradas podem ser para classificação, agrupamento, associações ou padrões sequenciais.

Qual é o significado das “associações” na mineração de dados?

Na mineração de dados, as associações ajudam a identificar quais itens de dados estão frequentemente relacionados ou ocorrem juntos. Por exemplo, um supermercado pode utilizar a aprendizagem de regras de associação para determinar quais produtos são frequentemente comprados juntos, auxiliando nos esforços de marketing direcionados.