You are on page 1of 16

http://msdn.microsoft.com/pt-br/library/bb522456.

aspx#bkmk_Top Fontes:

http://www.cce.puc-rio.br/informatica/dataminingcentro.htm

http://www.shammas.eng.br/acad/sitesalunos1106/data_mining/index.html Ao p da letra, Data Mining uma minerao de dados, uma anlise projetada com o objetivo de vasculhar uma grande quantidade de dados. Na maioria das vezes, so dados relacionados a negcios, empresas, mercado e pesquisas cientficas. Um projeto de minerao de dados faz parte de uma soluo do Analysis
Services. Durante o processo de design, os objetos que voc cria neste projeto esto disponveis para teste e consulta como parte de um banco de dados de espao de trabalho. Quando voc quiser que os usurios possam consultar ou procurar os objetos no projeto, dever implantar o projeto em uma instncia do Analysis Services executado em modo multidimensional.

O Data Mining busca padronizar sistemas e subconjuntos de dados. Segue trs etapas bsicas:

Explorao Construo de modelo Definio de padro Validao e verificao

Popularmente, o Data Mining tem sido considerado uma ferramenta de gerenciamento de informao utilizada no intuito de facilitar o acesso e a organizao s estruturas de conhecimento que auxiliem em decises de trabalho. Na prtica uma anlise de dados exploratrios e de modelagem. O Data Mining integra o KDD (Knowledge Discovery in Database) , processo de conhecimento de estruturao de dados. O Data Mining extrai informaes vlidas , abrangentes e at mesmo desconhecidas de uma ampla base de dados. No apenas uma consulta de banco de dados, pois permite a explorao e a inferncia de informao. Utiliza tcnicas diferenciadas em redes neurais, evidenciando informaes para uma rede hierrquica de deciso e sistemas estatsticos. A busca, muitas vezes, interativa possibilitando a reviso dos resultados pelos analistas responsveis em Data Mining. O objetivo formatar novos conjuntos informao refinada retirada de um banco de dados geral. Aps o refino das informaes realizado uma realimentao do sistema seguindo novos parmetros.

Dentre as etapas mais aprofundadas do Data Mining, podemos elucidar as seguintes:

Anlise do problema
O processo de anlise inicia a partir de um objetivo de busca, seguindo um determinado conhecimento; o principal objetivo a possibilidade de selecionar os dados e definir as tcnicas utilizadas na anlise.

Preparao dos Dados


A preparao consiste em fases internas de coletnea de dados, avaliao, consolidao e limpeza, seleo dos dados e transformao.

Coletnea de dados: Dados provindos de diversas fontes internas ou externas, como por exemplo de carto de crdito; Avaliao: Exame sobre os dados colhidos com o objetivo de identificar caractersticas do modelo da cada informao. Consolidao e limpeza: Construo de base de dados a partir de correes de erros, remoo de registros e insero de valores comuns em campos vazios. Seleo de dados: a seleo de dados especficos para cada modelo de dado, como a seleo de variveis em colunas ou dependentes. Transformao: Ferramenta escolhida para redirecionar a apresentao dos dados.

Modelagem
Definio de tarefas e tcnicas utilizadas sobre a ao de cada algoritmo, etapa que gera um modelo a ser analisado posteriormente.

Anlise e validao de resultados


Considerando que um modelo vlido nem sempre um modelo correto, visa detectar o que h de implcito num modelo, e o que nele mais peculiar na preciso de uma informao.

Resumo: A anlise preditiva, business intelligence e minerao de dados, em geral, exigem o armazenamento e processamento de estruturas de dados complexas e muitas vezes totalmente diferentes medida que as informaes so processadas, resolvidas e resumidas. altamente provvel, em especial para informaes comerciais e financeiras, que uma quantidade significativa de dados venha de bancos de dados relacionais. Eles seguem uma estrutura rgida e exigem preparao significativa em termos de projeto antecipado do

seu esquema e de modelos de dados. A nova gerao de NoSQL e bancos de dados baseados em documento simplifica muito desse processamento porque possvel criar e fazer dump de informaes em formato flexvel. Alm disso, voc pode trabalhar em mtodos para extrair os dados no formato fixo que precisar. Neste artigo, analisarei como usar bancos de dados baseados em documentos para processamento de dados e analtica como parte de sua soluo geral de banco de dados.

Estrutura de dados flexvel

Bancos de dados de documentos tm uma estrutura (quase) infinitamente flexvel que fornece diversas reas-chave diferentes de funcionalidade:

Sem esquema: bancos de dados de documento no precisam predefinir a estrutura dos dados que devem ser armazenados neles. Em RDBM tradicional, especifique a estrutura das tabelas em que os dados so armazenados e tente prever o contedo, os valores possveis e a estrutura das informaes. Com um banco de dados de documentos, possvel armazenar informaes nos documentos sem ter que se preocupar com a estrutura, se h vrios campos e nem mesmo, na maioria dos casos, quais so os relacionamentos de um para muitos e de muitos para muitos. Em vez disso, possvel concentrar-se no prprio contedo das informaes. Isso pode facilitar muito o armazenamento de matria-prima e de informaes, embora possam ser provenientes de fontes distintas. A maior flexibilidade tambm significa que possvel combinar e processar informaes de diferentes tipos e estruturas. Por exemplo, o processamento de dados textuais difcil de conseguir com um RDBMS tradicional, porque preciso garantir que a estrutura (nmero de frases, pargrafos, etc.) seja flexvel o suficiente para suportar as informaes recebidas. De forma mais explcita, imagine cotejar os dados do Twitter, Facebook e outras fontes de mdia social e procurar padres. As informaes no Twitter tm um comprimento fixo, e so includas em uma nica cadeia de caractere pequena. O Facebook no tem elementos separados para sada de informaes (texto, localizao e indivduos). Seria necessria uma quantidade significativa de processamento dessas informaes de forma a colet-las, unific-las e coloc-las em uma estrutura rgida. Objetos lgicos: a maioria das solues de RDBMS utilizada para modelar informaes que normalmente estariam em um formato (relativamente) estruturado. Em seguida, SQL e junes so usados para moldar essas informaes em um objeto que usado internamente. Pode-se observar individualmente diferentes elementos da estrutura de dados global, mas com frequncia as informaes so combinadas e relatadas de acordo com o objeto que recolhe todos os dados.

A partir de uma perspectiva mais complexa, muitas vezes fatiamos e fragmentamos os diferentes elementos de dados de maneiras diferentes, embora na realidade ainda estejamos apenas escolhendo elementos dessa estrutura geral. A estrutura do documento altera essa perspectiva. Em vez de observar pontos de dados distintos e individuais, os documentos observam os objetos como um todo. O rastreamento de informaes sobre coletores de dados, por exemplo, pode exigir que todas as informaes sobre esse objeto estejam no lugar, embora diferentes coletores de dados possam ter diferentes sensores, nmeros diferentes de sensores e diferentes nveis de complexidade. Estrutura migratria: os dados mudam ao longo do tempo, s vezes lenta e s vezes rapidamente. Modificar a estrutura de dados um processo complexo, que no afeta apenas o banco de dados que voc usa, mas tambm exige mudanas nos aplicativos que acessam e usam essas informaes. Com uma estrutura baseada em documento, visto que a estrutura dos dados fixa, a adaptao dessa estrutura a novas verses e formatos diferentes dos dados originais difcil e complexa. preciso criar uma tabela ou modificar a tabela existente para lidar com a nova estrutura, o que significa a converso de todos os registros criados anteriormente para corresponderem nova estrutura. Com um banco de dados de documento, a estrutura dos documentos pode ser modificada. De fato, as estruturas dos documentos individuais podem ser diferentes de um para o outro. Visto que voc est sempre lidando com documentos inteiros, improvvel que seu aplicativo precise lidar com mudanas at precisar processar os novos dados.

Intercmbio de dados
Se houver dados dentro de um RDBMS tradicional, como o IBM DB2, ser possvel usar um banco de dados de documentos para simplificar e unificar de forma mais normal diferentes dados em documentos que podem ser processados por um banco de dados de documentos para tirar proveito do formato unificador. Talvez voc ache errado executar essa operao: se j esto em um banco de dados, por que mov-los? Mas as solues RDBMS so usadas h anos para armazenar informaes textuais e diferentes verses e revises de dados tabulares. Um banco de dados de documentos pode ser uma forma eficaz de unific-los em uma estrutura que pode ser usada para mapear/reduzir e para outras tcnicas. O processo mais simples carregar seus objetos medida que eles so formatados e estruturados dentro do banco de dados. Isso fcil se voc estiver usando um sistema ORM para modelar seus dados em um objeto. Fora disso, possvel executar o processo mo. O script na Listagem 3 executa a operao tirando um registro de componente complexo carregado por meio de uma funo que compila instrues SQL individuais para gerar um objeto

interno, format-lo para JSON e depois grav-lo em um banco de dados de documentos (nesse caso, o CouchDB):

Projetos de minerao de dados

Um projeto de minerao de dados faz parte de uma soluo do Analysis Services. Durante o processo de design, os objetos que voc cria neste projeto esto disponveis para teste e consulta como parte de um banco de dados de espao de trabalho. Quando voc quiser que os usurios possam consultar ou procurar os objetos no projeto, dever implantar o projeto em uma instncia do Analysis Services executado em modo multidimensional. Este tpico fornece as informaes bsicas necessrias para entender e criar projetos de minerao de dados. Criando projetos de minerao de dados Objetos em projetos de minerao de dados

Fontes de dados Exibies da fonte de dados Estruturas de minerao Modelos de minerao

Usando um projeto concludo de minerao de dados


Exibir e explorar modelos Testar e validar modelos Criar previses

Acesso programtico a projetos de minerao de dados


Criando projetos de minerao de dados

No SSDT (SQL Server Data Tools), voc cria projetos de minerao de dados usando o modelo Projeto OLAP e de Minerao de Dados. Voc tambm pode criar projetos de minerao de dados programaticamente, usando o AMO. possvel gerar o script dos objetos de minerao de dados individuais com a linguagem ASSL (Analysis Services Scripting Language). Para obter mais informaes, consulte Acesso a dados de modelo multidimensional (Analysis Services Dados Multidimensionais). Se voc criar um projeto de minerao de dados dentro de uma soluo existente, por padro os objetos de minerao de dados sero implantados em um banco de dados do Analysis Services com o mesmo nome do arquivo de soluo. Voc pode alterar este nome e o servidor de destino usando a caixa de dilogo Propriedades do Projeto. Para obter mais informaes, consulte Configurar propriedades do projeto do Analysis Services (SSDT).
Cuidado

Para criar e implantar seu projeto com xito, voc dever ter acesso a uma instncia do

Analysis Services que esteja sendo executada no modo OLAP/Minerao de dados. Voc no pode desenvolver ou implantar solues de minerao de dados em uma instncia do Analysis Services que d suporte a modelos de tabela, nem pode usar dados diretamente de uma pasta de trabalho PowerPivot ou de um modelo de tabela que usa o repositrio de dados na memria. Para determinar se a instncia do Analysis Services que voc tem d suporte minerao de dados, consulte Determina o Modo de Servidor de uma instncia do Analysis Services.. Dentro de cada projeto de minerao de dados que voc cria, voc seguir estas etapas: 1. Escolha uma fonte de dados, como um cubo, banco de dados ou arquivos de texto ou do Excel, que contm os dados brutos que voc usar para criar modelos. 2. Defina um subconjunto dos dados na fonte de dados para usar para anlise, e salve-o como uma exibio da fonte de dados. 3. Defina uma estrutura de minerao para dar suporte modelagem. 4. Adicione modelos de minerao estrutura de minerao, escolhendo um algoritmo e especificando como ele tratar os dados. 5. Treine os modelos populando-os com os dados selecionados ou um subconjunto filtrado dos dados. 6. Explore, teste e recrie modelos. Quando o projeto estiver concludo, voc poder implant-lo para os usurios navegarem ou consultarem, ou poder fornecer acesso programtico aos modelos de minerao em um aplicativo, para dar suporte a previses e anlises. Voltar ao incio
Objetos em projetos de minerao de dados

Todos os projetos de minerao de dados contm os quatro tipos de objetos a seguir. Voc pode ter vrios objetos de todos os tipos.

Fontes de dados Exibies da fonte de dados Estruturas de minerao Modelos de minerao

Por exemplo, um nico projeto de minerao de dados pode conter uma referncia a vrias fontes de dados, com cada fonte de dados dando suporte a vrias exibies das fontes de dados. Em troca, cada exibio da fonte de dados pode dar suporte a vrias estruturas de minerao, cada uma com muitos modelos de minerao relacionados. Alm disso, seu projeto pode incluir algoritmos de plug-in, assemblies personalizados ou procedimentos armazenados personalizados; porm, estes objetos no so descritos aqui. Para obter mais informaes, consulte Guia do desenvolvedor (Analysis Services). Voltar ao incio

Fontes de Dados
A fonte de dados define a cadeia de conexo e as informaes de autenticao que o servidor do Analysis Services usar para se conectar com a fonte de dados. A fonte de dados pode conter vrias tabelas ou exibies; pode ser simples como uma nica pasta de trabalho do Excel ou arquivo de texto, ou complexa como um banco de dados OLAP (processamento analtico online) ou banco de dados relacional grande. Um nico projeto de minerao de dados pode fazer referncia a diversas fontes de dados. Embora um modelo de minerao possa usar somente uma fonte de dados de cada vez, o projeto pode ter vrios desenhos de modelos em diferentes fontes de dados. O Analysis Services d suporte a dados de muitos provedores externos, e a Minerao de Dados do SQL Server pode usar dados relacionais e de cubo como uma fonte de dados. Porm, se voc desenvolver ambos os tipos de projetos modelos baseados em fontes relacionais e modelos baseados em cubos OLAP poder querer desenvolv-los e gerenci-los em projetos separados.

Geralmente, os modelos que so baseados em um cubo OLAP devem ser desenvolvidos dentro da soluo de design OLAP. Uma razo que os modelos baseados em um cubo devem process-lo para atualizar os dados. Geralmente, voc s dever usar dados de cubo quando esse for o meio principal de armazenamento de dados e acesso, ou quando precisar das agregaes, dimenses e atributos criados pelo projeto multidimensional. Se seu projeto somente usar dados relacionais, voc dever criar os modelos relacionais dentro de um projeto separado, de forma que no reprocesse outros objetos desnecessariamente. Em muitos casos, o banco de dados de preparo ou data warehouse usado para dar suporte criao de cubo j contm as exibies que so necessrias para executar a minerao de dados, e voc pode usar essas exibies para minerao de dados em vez de usar as agregaes e as dimenses no cubo. Voc no pode usar na memria ou dados PowerPivot diretamente para criar modelos de minerao de dados.

A fonte de dados somente identifica o servidor ou provedor e o tipo geral de dados. Se voc precisar alterar a formatao de dados e as agregaes, use o objeto de exibio da fonte de dados. Para controlar o modo como os dados da fonte de dados so tratados, voc poder adicionar colunas derivadas ou clculo, modificar agregaes ou renomear colunas nos dados na exibio da fonte de dados. (Voc tambm pode trabalhar com dados downstream, modificando as colunas da estrutura de minerao, ou usando sinalizadores de modelagem e filtros no nvel da coluna do modelo de minerao.) Se a limpeza de dados for necessria, ou os dados no data warehouse tiverem que ser modificados para criar variveis adicionais, alterar os tipos de dados ou criar agregao alternativa, voc poder precisar criar tipos de projetos adicionais para dar suporte minerao de dados. Para obter mais informaes sobre esses projetos relacionados, consulte Projetos relacionados a solues de minerao de dados.

Exibies da Fonte de Dados


Depois de definir essa conexo a uma fonte de dados, voc cria uma exibio que identifica os dados especficos que so relevantes para seu modelo. A exibio da fonte de dados tambm permite que voc personalize a forma como os dados na fonte de dados so fornecidos para o modelo de minerao. possvel modificar a estrutura dos dados para torn-la mais relevante para o seu projeto ou selecionar apenas determinados tipos de dados. Por exemplo, usando a Exibio da Fonte de Dados, voc pode:

Criar colunas derivadas, como dateparts, subcadeia de caracteres etc. Agregar valores usando instrues Transact-SQL, como GROUP BY Restringir dados temporariamente ou dados de exemplo

Para obter mais informaes sobre como voc pode modificar dados dentro de uma exibio da fonte de dados, consulte Exibies de fontes de dados em modelos multidimensionais.

Estruturas de minerao
Quando tiver criado sua fonte de dados e a exibio da fonte de dados, voc dever selecionar as colunas de dados que so mais relevantes a seu problema dos negcios, definindo as estruturas de minerao dentro do projeto. Uma estrutura de minerao diz ao projeto quais colunas da exibio da fonte de dados devem ser de fato usadas para modelagem, treino e teste. Para adicionar uma nova estrutura de minerao, inicie o Assistente de Minerao de Dados. O assistente automaticamente define a estrutura de minerao, acompanha voc pelo processo de escolher os dados e, como opo, permite adicionar um modelo de minerao inicial estrutura. Dentro da estrutura de minerao, voc escolhe tabelas e colunas da exibio da fonte de dados ou de um cubo OLAP, e define relacionamentos entre tabelas, se os seus dados inclurem tabelas aninhadas. Sua escolha de dados ser muito diferente no Assistente de Minerao de Dados, dependendo se voc usar fontes de dados relacionais ou OLAP (processamento analtico online).

Quando voc escolhe dados de uma fonte de dados relacional, configurar uma estrutura de minerao fcil: voc escolhe colunas dos dados na exibio da fonte de dados e define personalizaes adicionais como aliases, ou define como os valores na coluna devem ser agrupados ou guardados. Para obter mais informaes, consulte Criar uma estrutura de minerao relacional. Quando voc usa dados de um cubo OLAP, a estrutura de minerao deve estar no mesmo banco de dados que a soluo OLAP. Para criar uma estrutura de minerao, selecione atributos das dimenses e medidas relacionadas em sua soluo OLAP. Os valores numricos so geralmente encontrados em medidas e

as variveis categricas em dimenses. Para obter mais informaes, consulte Criar uma estrutura de minerao OLAP. Tambm possvel definir estruturas de minerao usando DMX. Para obter mais informaes, consulte Instrues de definio de dados DMX (Data Mining Extensions).

Aps ter criado a estrutura de minerao inicial, possvel copiar, modificar e criar um alias das colunas da estrutura. Cada estrutura de minerao pode conter diversos modelos de minerao. No entanto, depois de concluir, voc poder abrir novamente a estrutura de minerao e usar Designer de Minerao de Dados para adicionar mais modelos de minerao estrutura. Voc tambm tem a opo de separar seus dados em um conjunto de dados de treinamento, usado para criar modelos, e um conjunto de dados de controle para usar em teste ou validao de seus modelos de minerao.

Modelos de minerao
O modelo de minerao define o algoritmo ou o mtodo de anlise que voc usar nos dados. Para cada estrutura de minerao, possvel adicionar um ou mais modelos de minerao. Dependendo de suas necessidades, voc pode combinar muitos modelos em um nico projeto ou criar projetos separados para cada tipo de modelo ou tarefa analtica. Depois de ter criado uma estrutura e um modelo, voc processa cada modelo ao executar os dados em uma exibio de fonte de dados atravs do algoritmo, o que gera um modelo matemtico de dados. Esse processo tambm conhecido como treinamento de modelo. Para obter mais informaes, consulte Requisitos e consideraes de processamento (minerao de dados). Depois que o modelo foi processado, voc pode explor-lo visualmente e criar consultas de previso usando esse modelo de minerao. Se os dados do processo de treinamento tiverem sido armazenados em cache, voc poder usar consultas de detalhamento para retornar informaes detalhadas sobre os casos usados no modelo. Quando voc quiser usar um modelo para produo (por exemplo, para fazer previses, ou para ser explorado por usurios gerais), voc poder implantar o modelo para um servidor diferente. Se voc precisar reprocessar o modelo no futuro, tambm ter que exportar a definio da estrutura de minerao subjacente (e, necessariamente, a definio da fonte de dados e exibio da fonte de dados) ao mesmo tempo. Quando voc implantar um modelo, tambm ter que assegurar que as opes de processamento corretas sejam definidas na estrutura e no modelo, e que os usurios em potencial tenham as permisses necessrias para executar consultas, exibir modelos ou detalhar para estruturar os dados do modelo. Para obter mais informaes, consulte Viso geral de segurana (minerao de dados).

Usando um projeto concludo de minerao de dados


Exibir e explorar modelos
Depois de criar um modelo, voc pode usar ferramentas visuais e consultas para explorar os padres no modelo e saber mais sobre os padres e estatsticas subjacentes. Na guia Visualizador do Modelo de Minerao do Designer de Minerao de Dados, o Analysis Services fornece visualizadores para cada tipo de modelo de minerao, que podem ser usados para explorar os modelos de minerao. Estas visualizaes so temporrias e so fechadas sem salvar quando voc encerra a sesso com o Analysis Services. Portanto, se voc precisar exportar estas visualizaes para outro aplicativo para apresentao ou anlise adicional, use os comandos Copiar fornecidos em cada guia ou painel da interface do visualizador. Os Suplementos de Minerao de dados para o Excel tambm fornecem um modelo de Visio que voc pode usar para representar seus modelos em um diagrama de Visio, e anotar e modificar o diagrama usando as ferramentas do Visio. Para obter mais informaes, consulte Suplementos de Minerao de Dados para Excel. Voltar ao incio

Testar e validar modelos


Depois de criar um modelo, ser possvel investigar os resultados e tomar decises sobre quais modelos apresentam o melhor desempenho. O Analysis Services fornece diversos grficos que voc pode usar para fornecer ferramentas que podem ser usadas para comparar diretamente modelos de minerao e escolher o mais preciso ou til. Estas ferramentas incluem um grfico de comparao de preciso, grfico de ganho e uma matriz de classificao. Voc pode gerar estes grficos usando o Grfico de Preciso de Minerao do Designer de Minerao de Dados. Voc tambm pode usar um relatrio de validao cruzada para realizar subamostragens interativas dos dados para determinar se o modelo mais adequado para um conjunto de dados especfico. As estatsticas fornecidas pelo relatrio podem ser usadas para comparar objetivamente modelos e avaliar a qualidade dos seus dados de treinamento. Observe que estes relatrios e grficos no so armazenados com o projeto ou no banco de dados do ssASnoversion. Portanto, se voc precisar preservar ou duplicar os resultados, salve-os ou gere um script com os objetos usando DMX ou AMO. Tambm possvel usar os procedimentos armazenados para validao cruzada. Para obter mais informaes, consulte Teste e validao (minerao de dados).

Criar previses
O Analysis Services fornece uma linguagem de consulta chamada DMX (Data Mining Extensions) que a base para a criao de previses e de fcil criao de scripts. Para

ajud-lo a criar consultas de previso DMX, o SQL Server fornece um construtor de consultas, disponvel no SQL Server Management Studio. Tambm h muitos modelos DMX para o editor de consultas no SQL Server Management Studio. Se voc for iniciante em consultas de previso, recomendamos usar o construtor de consultas que fornecido no Designer de Minerao de Dados e no SQL Server Management Studio. Para obter mais informaes, consulte Ferramentas de minerao de dados. As previses que voc cria no SSDT (SQL Server Data Tools) ou no SQL Server Management Studio no so persistidas. Portanto, se suas consultas forem complexas, ou se voc precisa reproduzir os resultados, recomendamos salvar suas consultas de previso em arquivos de consulta DMX, criar script deles ou inserir as consultas como parte de um pacote do Integration Services. Acesso programtico a objetos de minerao de dados

O Analysis Services fornece vrias ferramentas que podem ser usadas para trabalhar programaticamente com projetos de minerao de dados e os objetos neles. A linguagem DMX fornece instrues que voc pode usar para criar fontes de dados e exibies da fonte de dados, e para criar, treinar e usar a estrutura e os modelos de minerao de dados. Para obter mais informaes, consulte Referncia DMX (Data Mining Extensions). possvel executar essas tarefas usando ASSL (Analysis Services Scripting Language), ou AMO (Objetos de Gerenciamento de Anlise). Para obter mais informaes, consulte Desenvolvendo com XMLA no Analysis Services.
Exibies da Fonte de Dados

Depois de definir essa conexo a uma fonte de dados, voc cria uma exibio que identifica os dados especficos que so relevantes para seu modelo. A exibio da fonte de dados tambm permite que voc personalize a forma como os dados na fonte de dados so fornecidos para o modelo de minerao. possvel modificar a estrutura dos dados para torn-la mais relevante para o seu projeto ou selecionar apenas determinados tipos de dados. Por exemplo, usando a Exibio da Fonte de Dados, voc pode:

Criar colunas derivadas, como dateparts, subcadeia de caracteres etc. Agregar valores usando instrues Transact-SQL, como GROUP BY Restringir dados temporariamente ou dados de exemplo

Estruturas de minerao

Quando tiver criado sua fonte de dados e a exibio da fonte de dados, voc dever selecionar as colunas de dados que so mais relevantes a seu problema dos negcios, definindo as estruturas de minerao dentro do projeto. Uma estrutura de minerao diz ao projeto quais colunas da exibio da fonte de dados devem ser de fato usadas para modelagem, treino e teste. Para adicionar uma nova estrutura de minerao, inicie o Assistente de Minerao de Dados. O assistente automaticamente define a estrutura de minerao, acompanha voc pelo processo de escolher os dados e, como opo, permite adicionar um modelo de minerao inicial estrutura. Dentro da estrutura de minerao, voc escolhe tabelas e colunas da exibio da fonte de dados ou de um cubo OLAP, e define relacionamentos entre tabelas, se os seus dados inclurem tabelas aninhadas. Sua escolha de dados ser muito diferente no Assistente de Minerao de Dados, dependendo se voc usar fontes de dados relacionais ou OLAP (processamento analtico online).

Quando voc escolhe dados de uma fonte de dados relacional, configurar uma estrutura de minerao fcil: voc escolhe colunas dos dados na exibio da fonte de dados e define personalizaes adicionais como aliases, ou define como os valores na coluna devem ser agrupados ou guardados. Para obter mais informaes, consulte Criar uma estrutura de minerao relacional. Quando voc usa dados de um cubo OLAP, a estrutura de minerao deve estar no mesmo banco de dados que a soluo OLAP. Para criar uma estrutura de minerao, selecione atributos das dimenses e medidas relacionadas em sua soluo OLAP. Os valores numricos so geralmente encontrados em medidas e as variveis categricas em dimenses. Para obter mais informaes, consulte Criar uma estrutura de minerao OLAP. Tambm possvel definir estruturas de minerao usando DMX. Para obter mais informaes, consulte Instrues de definio de dados DMX (Data Mining Extensions).

Aps ter criado a estrutura de minerao inicial, possvel copiar, modificar e criar um alias das colunas da estrutura. Cada estrutura de minerao pode conter diversos modelos de minerao. No entanto, depois de concluir, voc poder abrir novamente a estrutura de minerao e usar Designer de Minerao de Dados para adicionar mais modelos de minerao estrutura. Voc tambm tem a opo de separar seus dados em um conjunto de dados de treinamento, usado para criar modelos, e um conjunto de dados de controle para usar em teste ou validao de seus modelos de minerao.

Estruturas de minerao
Quando tiver criado sua fonte de dados e a exibio da fonte de dados, voc dever selecionar as colunas de dados que so mais relevantes a seu problema dos negcios, definindo as estruturas de minerao dentro do projeto. Uma estrutura de minerao diz ao projeto quais colunas da exibio da fonte de dados devem ser de fato usadas para modelagem, treino e teste.

Para adicionar uma nova estrutura de minerao, inicie o Assistente de Minerao de Dados. O assistente automaticamente define a estrutura de minerao, acompanha voc pelo processo de escolher os dados e, como opo, permite adicionar um modelo de minerao inicial estrutura. Dentro da estrutura de minerao, voc escolhe tabelas e colunas da exibio da fonte de dados ou de um cubo OLAP, e define relacionamentos entre tabelas, se os seus dados inclurem tabelas aninhadas. Sua escolha de dados ser muito diferente no Assistente de Minerao de Dados, dependendo se voc usar fontes de dados relacionais ou OLAP (processamento analtico online).

Quando voc escolhe dados de uma fonte de dados relacional, configurar uma estrutura de minerao fcil: voc escolhe colunas dos dados na exibio da fonte de dados e define personalizaes adicionais como aliases, ou define como os valores na coluna devem ser agrupados ou guardados. Para obter mais informaes, consulte Criar uma estrutura de minerao relacional. Quando voc usa dados de um cubo OLAP, a estrutura de minerao deve estar no mesmo banco de dados que a soluo OLAP. Para criar uma estrutura de minerao, selecione atributos das dimenses e medidas relacionadas em sua soluo OLAP. Os valores numricos so geralmente encontrados em medidas e as variveis categricas em dimenses. Para obter mais informaes, consulte Criar uma estrutura de minerao OLAP. Tambm possvel definir estruturas de minerao usando DMX. Para obter mais informaes, consulte Instrues de definio de dados DMX (Data Mining Extensions).

Aps ter criado a estrutura de minerao inicial, possvel copiar, modificar e criar um alias das colunas da estrutura. Cada estrutura de minerao pode conter diversos modelos de minerao. No entanto, depois de concluir, voc poder abrir novamente a estrutura de minerao e usar Designer de Minerao de Dados para adicionar mais modelos de minerao estrutura. Voc tambm tem a opo de separar seus dados em um conjunto de dados de treinamento, usado para criar modelos, e um conjunto de dados de controle para usar em teste ou validao de seus modelos de minerao.

Modelos de minerao
O modelo de minerao define o algoritmo ou o mtodo de anlise que voc usar nos dados. Para cada estrutura de minerao, possvel adicionar um ou mais modelos de minerao. Dependendo de suas necessidades, voc pode combinar muitos modelos em um nico projeto ou criar projetos separados para cada tipo de modelo ou tarefa analtica. Depois de ter criado uma estrutura e um modelo, voc processa cada modelo ao executar os dados em uma exibio de fonte de dados atravs do algoritmo, o que gera um modelo matemtico de dados. Esse processo tambm conhecido como treinamento

de modelo. Para obter mais informaes, consulte Requisitos e consideraes de processamento (minerao de dados). Depois que o modelo foi processado, voc pode explor-lo visualmente e criar consultas de previso usando esse modelo de minerao. Se os dados do processo de treinamento tiverem sido armazenados em cache, voc poder usar consultas de detalhamento para retornar informaes detalhadas sobre os casos usados no modelo. Quando voc quiser usar um modelo para produo (por exemplo, para fazer previses, ou para ser explorado por usurios gerais), voc poder implantar o modelo para um servidor diferente. Se voc precisar reprocessar o modelo no futuro, tambm ter que exportar a definio da estrutura de minerao subjacente (e, necessariamente, a definio da fonte de dados e exibio da fonte de dados) ao mesmo tempo. Quando voc implantar um modelo, tambm ter que assegurar que as opes de processamento corretas sejam definidas na estrutura e no modelo, e que os usurios em potencial tenham as permisses necessrias para executar consultas, exibir modelos ou detalhar para estruturar os dados do modelo. Para obter mais informaes, consulte Viso geral de segurana (minerao de dados).

Criar previses
O Analysis Services fornece uma linguagem de consulta chamada DMX (Data Mining Extensions) que a base para a criao de previses e de fcil criao de scripts. Para ajud-lo a criar consultas de previso DMX, o SQL Server fornece um construtor de consultas, disponvel no SQL Server Management Studio. Tambm h muitos modelos DMX para o editor de consultas no SQL Server Management Studio. Se voc for iniciante em consultas de previso, recomendamos usar o construtor de consultas que fornecido no Designer de Minerao de Dados e no SQL Server Management Studio. Para obter mais informaes, consulte Ferramentas de minerao de dados. As previses que voc cria no SSDT (SQL Server Data Tools) ou no SQL Server Management Studio no so persistidas. Portanto, se suas consultas forem complexas, ou se voc precisa reproduzir os resultados, recomendamos salvar suas consultas de previso em arquivos de consulta DMX, criar script deles ou inserir as consultas como parte de um pacote do Integration Services.