Sunday 15 April 2018

Moving average spotfire


Visão geral das capacidades do XLMiner O XLMiner fornece um conjunto abrangente de recursos de análise baseados tanto em métodos estatísticos quanto em métodos de aprendizagem por máquina. Um problema ou um conjunto de dados pode ser analisado por vários métodos. Geralmente, é uma boa idéia tentar diferentes abordagens, comparar seus resultados e, em seguida, escolher um modelo adequado ao problema. Bancos de dados, planilhas e limites de tamanho XLMiner pode funcionar com grandes conjuntos de dados que podem exceder os limites no Excel. Um procedimento padrão é amostrar dados de um banco de dados maior, trazê-lo para o Excel para se adequar a um modelo e, no caso de rotinas de aprendizado supervisionadas, obtenha o resultado de saída para o banco de dados. O XLMiner pode amostrar dados dos bancos de dados Oracle, SQL Server e Access, e em V4.0 a partir de bancos de dados de memória interna do PowerPivot. Desde o XLMiner V4.0 (ao contrário das versões anteriores do XLMiner), este recurso está disponível na edição Professional e edição educacional. No entanto, a edição educacional limita o tamanho da tabela ou visão do banco de dados a partir da qual você pode experimentar, bem como o tamanho da amostra desenhada. Mais informações sobre os limites XLMiners estão disponíveis aqui. Exploração e visualização de dados O XLMiner possui recursos integrados para exploração e visualização de dados. Não é mais necessário usar ferramentas externas como o Tableau ou o SpotFire para visualizar seus dados, isso pode ser feito facilmente e sem custo extra no próprio XLMiner. Você pode criar qualquer número de janelas de gráfico (cada uma contendo vários gráficos vinculados), nomear e salvar essas janelas na pasta de trabalho. Em uma janela de gráfico, você pode criar gráficos de barra, linha, diagrama de dispersão, boxplot e histograma com um clique. Também disponível (com um clique) são gráficos rápidos de todas as variáveis, diagramas de matriz de diagramas de dispersão e gráficos de coordenadas paralelas. Você pode usar o mouse para aumentar ou diminuir o zoom ou selecionar pontos de interesse em um gráfico. Esses pontos serão escovados ou destacados em outros gráficos na mesma janela do gráfico e os valores reais das variáveis ​​em cada ponto destacado são visíveis em rolagem Painel lateral. Você pode usar filtros para cada variável contínua e categórica - controles deslizantes simples e matrizes de caixa de seleção que aparecem automaticamente em um painel lateral - para incluir ou excluir pontos de interesse. Com um simples ponto e clique, você pode mudar eixos ou cores, ou criar vários painéis com base nos valores de qualquer variável categórica. Explorar dados desta forma muitas vezes traz informações rápidas sobre relacionamentos ocultos nos dados, bem como o que é importante e o que não é. Esta etapa pode informar suas escolhas de novas operações, desde a preparação e transformação de dados até a montagem de modelos de mineração de dados. Existem cinco amplos grupos de operações no XLMiner: um conjunto de dados com valores conhecidos de uma variável de resultado (resposta) é necessário para treinar um modelo de mineração de dados. Para treinar um modelo, geralmente escolhemos (ao ar livre) uma fração dos dados disponíveis - a partição de treinamento. Os modelos treinados podem então ser aplicados a outra partição - a partição de validação - do mesmo conjunto de dados para ver o quão bem eles fazem com os dados com os quais não foram treinados. Nesta fase, os modelos podem ser ajustados e o modelo de melhor desempenho selecionado. Depois que um modelo final é selecionado, ele pode ser aplicado a uma terceira partição - a partição de teste - para testar o quão bem o modelo final fará com os dados que não foram utilizados nem nos testes nem na validação. O XLMiner também suporta particionamento com oversampling, usado quando os eventos raros são modelados e você precisa assegurar um fornecimento adequado desses eventos no processo de modelagem. Clique no link abaixo para saber mais: quando a variável de resultado é discreta ou categórica, o objetivo do exercício de mineração de dados é classificar os registros nas classes ou categorias discretas. XLMiner oferece várias técnicas de classificação: quando a variável de resultado é contínua, o objetivo é prever o valor da variável de resultado para cada um dos registros de dados. XLMiner oferece os seguintes métodos de previsão: alguns problemas envolvem a detecção de associação entre as propriedades dos registros de dados. O XLMiner suporta a geração de Regras de Associação para mostrar quais atributos dos dados ocorrem freqüentemente juntos. Uma aplicação comum é determinar grupos de produtos que os clientes provavelmente comprarão, também conhecido como Market Basket Analysis. XLMiner oferece previsões de séries temporais. Com as técnicas exploratórias ACF (função de autocorrelação) e PACF (função de autocorrelação parcial), técnicas de suavização (média móvel, exponencial, duplo exponencial e Holt-Winters), bem como modelagem ARMA e ARIMA. Redução e Exploração de Dados Muitas vezes é útil ou necessário reduzir a dimensionalidade dos dados em apenas alguns atributos que são mais importantes do que outros. Nessa situação, não tentamos classificar ou prever uma variável de resultado. Em vez disso, o objetivo é descobrir semelhanças nos registros e agrupá-los usando os atributos disponíveis (variáveis). Um desses métodos envolve a decisão de quais variáveis ​​são mais importantes para explicar as diferenças entre os registros. Outros métodos categorizam dados em clusters que podem ser representados como uma nova variável categórica adicionada aos dados. XLMiner suporta os seguintes métodos de exploração e redução de dados: apresentação e gráficos de saída XLMiner fornece gráficos especiais para melhorar a compreensão dos dados e os resultados da análise. Por exemplo, diagramas de árvores em árvores de classificação e regressão e dendrogramas em agrupamentos hierárquicos fornecem informações muito úteis. Em conjunto com as saídas XLMiner, você pode usar os recursos embutidos da Excels para trabalhar com a saída. Por exemplo, histogramas, gráficos de dispersão e gráficos de bolhas são muito úteis para fornecer informações sobre os dados e os resultados adequados. Os gráficos de elevação e os gráficos de ganhos podem ser facilmente gerados a partir de saídas XLMiner para ver o benefício produzido pelo exercício de mineração de dados. Foram aqui para ajudar o Business Analytics, as estatísticas, o ensino, as experiências aleatorizadas (ou ensaios controlados randomizados, RCT) são uma ferramenta poderosa para testar relações causais. Seu principal princípio é a atribuição aleatória, onde assuntos ou itens são atribuídos aleatoriamente a uma das condições experimentais. Um exemplo clássico é um ensaio clínico com um ou mais grupos de tratamento e um grupo sem tratamento (controle), onde os indivíduos são atribuídos aleatoriamente a um desses grupos. História 1: experimentos de Internet (Internet) nos experimentos da indústria em Internet agora se tornaram uma atividade importante em empresas gigantes como a Amazon, o Google e a Microsoft, em empresas mais pequenas e entre pesquisadores acadêmicos em gestão e ciências sociais. O teste AB de palavras-chave refere-se ao design mais comum e mais simples que inclui dois grupos (A e B), onde os sujeitos - tipicamente usuários - são atribuídos aleatoriamente ao grupo A ou B, e um efeito de interesse é medido. Os testes AB são usados ​​para testar qualquer coisa com o efeito de um novo recurso do site no engajamento no efeito de um novo algoritmo de tradução de idiomas sobre a satisfação do usuário. As empresas realizam muitos experimentos o tempo todo. Com uma base de usuários grande e ativa, você pode executar uma experiência na Internet de forma muito rápida e bastante barata. Os pesquisadores acadêmicos agora também estão começando a usar experimentos randomizados de grande escala para testar hipóteses científicas sobre comportamento social e humano (como fizemos em Espelhos unidirecionais em encontros on-line: uma experiência de campo randomizado). Com base na nossa experiência neste domínio e no que eu aprendi com colegas e alunos passados ​​que trabalham em tais ambientes, existem múltiplos problemas críticos que desafiam a capacidade de tirar conclusões válidas de experiências na internet. Aqui estão três: Dados contaminados. As empresas realizam constantemente experimentos em linha que introduzem intervenções de diferentes tipos (como executar várias promoções, alterar os recursos do site e mudar as tecnologias subjacentes). O resultado é que nunca temos dados limpos para executar uma experiência, e não sabemos como eles estão sujos. Os dados são sempre um pouco contaminados por outros experimentos que estão ocorrendo em paralelo e, em muitos casos, nem sabemos qual ou quando essas experiências ocorreram. Efeitos colaterais . Em um experimento randomizado, assumimos que cada observador experimenta apenas um tratamento (ou controle). No entanto, em experimentos que envolvem uma intervenção como compartilhamento de conhecimento (por exemplo, o grupo de tratamento recebe informação sobre um novo serviço enquanto o grupo controle não), o tratamento pode se espalhar para controlar membros do grupo através de redes sociais, fóruns on-line e outros Plataformas de compartilhamento de informações que agora são comuns. Por exemplo, muitos pesquisadores usam o Amazon Mechanical Turk para realizar experimentos, onde, como o DynamoWiki descreve, os trabalhadores (os assuntos do experimento) compartilham informações, estabelecem normas e criam comunidades através de plataformas como CloudMeBaby, MTurk Crowd, mTurk Forum, mTurk Grind, Reddits rmturk E RHITsWorthTurkingFor, Turker Nation e Turkopticon. Isso significa que o grupo de controle pode ser contaminado pelo efeito do tratamento. Efeito de presente. Os tratamentos que beneficiam os sujeitos tratados de alguma forma (como uma promoção especial ou recurso avançado) podem confundir o efeito do tratamento com o efeito de receber um tratamento especial. Em outras palavras, a diferença entre o resultado para o tratamento e os grupos de controle pode não ser devido ao tratamento per-se, mas sim devido à atenção especial recebida pelo grupo de tratamento da empresa ou pesquisador. História 2: disciplina estatística de Design Experimental de Design de Experimentos (DOE ou DOX) é um subcampo de estatísticas que se concentra na criação dos projetos mais eficientes para uma experiência e a análise mais apropriada. Eficiente aqui refere-se a um contexto em que cada execução é muito dispendiosa ou que consome recursos de alguma forma. Portanto, o objetivo na metodologia DOE é responder às questões causais de interesse com o menor número de execuções (observações). O desenvolvimento metodológico estatístico da DOE foi motivado por aplicações agrícolas no início do século 20, lideradas pelo famoso Ronald Fisher. A metodologia DOE ganhou mais impulso no contexto das experiências industriais (hoje é tipicamente considerado parte das estatísticas industriais). Atualmente, a área de pesquisa mais ativa dentro da DOE é experimentos computacionais que se concentram na construção de simulações para emular um sistema físico para casos em que a experimentação é impossível, impraticável ou terrivelmente dispendiosa (por exemplo, experimentando sobre o clima). As duas histórias convergem Com o uso intensivo atual de experiências on-line por empresas, um teria pensado que a disciplina do DOE floresceria: novos problemas de pesquisa, muita demanda da indústria para colaboração, troves de novos alunos. No entanto, eu ouvi dizer que o número de pesquisadores do DOE nas universidades dos EUA está diminuindo. A maioria dos programas de análise de negócios ou de ciência dos dados não tem um curso dedicado sobre o projeto experimental (com foco em experiências na Internet). Documentos recentes da DOE em revistas de estatísticas industriais (por exemplo, Technometrics) e conferências do DOE indicam que os tópicos de queima da Story 1 estão faltando. A pesquisa acadêmica de DOE por estatísticos parece continuar focando no contexto de dados escassos e em experimentos em coisas e não em seres humanos. A página da Wikipédia no DOE também conta uma história semelhante. Tentei fazer esses pontos e outros no meu artigo recente, Analisando os grandes dados comportamentais: questões metodológicas, práticas, éticas e morais. Esperemos que o artigo e este post incentivem os pesquisadores da DOE a abordar tais problemas de queimação e assumir a liderança na criação de projetos e análises para pesquisadores e empresas que realizam grandes experimentos. Agora que a tempestade emocional que segue a declaração das American Statistical Associations sobre p-values ​​está a diminuir (foi mesmo uma tempestade fora da área de estatísticas), pensamos em uma questão prática. Um que influencia muito a análise de dados na maioria dos campos: software estatístico. O software estatístico influencia quais métodos são usados ​​e como eles são relatados. As empresas de software afetam disciplinas inteiras e como elas progridem e se comunicam. Notação de estrelas para limiares de valor de p em software estatístico Independentemente de seu campo usar SAS, SPSS (agora IBM), STATA ou outro pacote de software estatístico, você provavelmente terá visto a notação em estrela (isto não é sobre classificações de hotel). Uma estrela () significa p-valuelt0.05, duas estrelas () significam p-valuelt0.01 e três estrelas () significam p-valuelt0.001. De acordo com a declaração da ASA. Os valores p não são a fonte do problema, mas sim a sua discretização. O ASA recomenda: os valores de P, quando utilizados, seriam relatados como valores, em vez de desigualdades (p. 0,016, em vez de p lt 0,05). Na verdade, nós imaginamos que há um melhor reconhecimento de que a medição da força da evidência realmente é contínua, em vez de discreta. Esta afirmação é um sinal forte para as empresas de software estatístico: continuar a usar a notação em estrela, mesmo que seus usuários sejam viciados, viola a recomendação do ASA. Será que estaremos vendo alguma mudança, logo percebi que em quase todas as conversas ou discussões que envolvem o termo Big Data, um dos primeiros slides do apresentador ou as primeiras perguntas a serem feitas pelo público é o que é Big Data A resposta típica tem Para fazer com alguns dígitos, muitos Vs, termos que terminam com bytes ou declarações sobre capacidade de software ou hardware. Eu peço desculpa mas não concordo. O grande é relativo. É relativo a um determinado campo, e especificamente às práticas no campo. Portanto, devemos considerar o benchmark de um campo específico para determinar se os dados de hoje são grandes. Minha definição de Big Data é, portanto, dados que exigem um campo para mudar suas práticas de processamento e análise de dados. Em um extremo, considere a previsão do tempo. Onde a coleta de dados, o enorme poder de computação e os algoritmos para a análise de enormes quantidades de dados tem sido durante muito tempo. Portanto, os dados da climatologia de hoje são grandes para o campo de previsão do tempo. Provavelmente não, a menos que você comece a considerar novos tipos de dados que os métodos antigos não podem processar ou analisar. Outro exemplo é o campo da genética, onde os pesquisadores têm trabalhado com uma análise de conjuntos de dados em larga escala (nomeadamente do Projeto Genoma Humano) há algum tempo. O Big Data neste campo é sobre a ligação de diferentes bancos de dados e a integração do conhecimento do domínio com os padrões encontrados nos dados (À medida que pesquisadores de grandes dados atravessam grandes bancos de dados de tumores à procura de padrões de mutações, eles estão adicionando novas categorias de câncer de mama.) No outro extremo, considere estudos nas ciências sociais, em áreas como ciência política ou psicologia que tradicionalmente se basearam em tamanhos de amostra de 3 dígitos (se você tivesse sorte). Nesses campos, uma amostra de 100.000 pessoas é Big Data, pois desafia as metodologias utilizadas pelos pesquisadores no campo. Aqui estão alguns dos desafios que surgem: os métodos antigos se decompõem: o método comum de testes de significância estatística para a teoria dos testes não funciona mais, pois os valores de p tenderão a ser pequenos, independentemente do significado prático (mais uma razão para considerar cuidadosamente o recente Declaração da Associação Estadística Americana sobre o perigo de usar a regra lt 0.5 do p-value. Desafio tecnológico: o software estatístico e o hardware utilizados por muitos pesquisadores de ciências sociais podem não ser capazes de lidar com esses novos tamanhos de dados. Operações simples, como a visualização de 100.000 As observações em uma trama de dispersão exigem novas práticas e softwares (como pacotes de software interativos de última geração). Os pesquisadores de ciências sociais precisam aprender a fazer perguntas mais matizadas, agora que os dados mais ricos estão disponíveis para eles. Os cientistas sociais são Não treinados na mineração de dados, no entanto, os novos tamanhos de conjuntos de dados podem permitir que eles descubram padrões que não são hipotetizados pela teoria em termos de variedade de dados t Ypes, Big Data é novamente dependente da área. Enquanto os dados de texto e rede podem ser novos nos campos de engenharia, os cientistas sociais têm experiência em dados de texto há muito tempo (pesquisadores qualitativos analisaram entrevistas, vídeos, etc. por muito tempo) e com dados de redes sociais (origens de muitas das métricas utilizadas hoje em dia Estão em sociologia). Em suma, o que é grande para um campo pode ser considerado pequeno para outro campo. O Big Data depende do campo e deve ser baseado no delta (a diferença) entre as práticas de análise de dados anteriores e as chamadas pelos dados atuais. Há dez anos, a previsão de micro-nível da forma como a conhecemos hoje estava quase ausente nas empresas. Os MBAs aprenderam sobre análise de dados principalmente em um curso de estatísticas necessárias, que abrangeu principalmente inferências estatísticas e modelagem descritiva. Na época, eu mesmo estava aprendendo meu caminho para o mundo preditivo e criei o primeiro curso de Mineração de Dados na Escola de Negócios da Universidade de Marylands Smith (que está sendo executado com sucesso até hoje). Quando percebi a lacuna, comecei a falar sobre os benefícios da análise preditiva e seus usos. E eu planejei e ensinei um monte de programas de cursos de análise preditiva em todo o mundo (EUA, Índia, Taiwan) e on-line (Estatísticas). Eu deveria ter ficado encantado com a visão da análise preditiva ser tão difundida na indústria apenas dez anos depois. Mas a verdade é: estou alarmada. Um artigo recente da Harvard Business Review não permite que Big Data Bury Your Brand toque um aspecto do uso de análise preditiva para se alarmar: as empresas não percebem que as análises preditivas baseadas em aprendizagem em máquina podem ser excelentes para previsão de curto prazo, mas pobres em A longo prazo. O artigo HBR fala sobre o cenário de uma OCM dividida entre a pressão dos CEOs para impulsionar as promoções baseadas em previsão (com base nos analistas de dados dos departamentos de TI) e seus esforços de construção de marca a longo prazo: análise de marketing avançada e dados importantes tornam o balanceamento curto A busca de receita de longo prazo e a construção de marcas de longo prazo são muito mais difíceis hoje. Se fosse difícil antes de defender os investimentos de marca com recompensas indefinidas e distantes, é duplamente tão agora que as vendas a curto prazo podem ser projetadas tão precisamente. O analítico permite uma aparente omnisciência sobre o que as ofertas promocionais que os clientes encontrarão atraentes. Os grandes dados permitem obter quantidades impressionantes de informações sobre os padrões de compra e histórico de transações de clientes identificáveis. Dado o dinheiro de marketing e a discrição de investir em qualquer direção, a tentação de manter as caixas registradoras tocando é quase irresistível. Há duas razões para a fraqueza da previsão no longo prazo: primeiro, as análises preditivas aprendem do passado para prever o futuro. Em uma configuração dinâmica onde o futuro é muito diferente do passado, as previsões, obviamente, falharão. Em segundo lugar, a análise preditiva baseia-se em correlações e associações entre os insumos e os resultados a serem previstos, e não nas relações causais. Embora as correlações possam funcionar bem a curto prazo, elas são muito mais sensíveis a longo prazo. Basear-se em correlações não é uma coisa ruim, mesmo que o típico estatístico lhe dê o olhar derrogatório de correlação não é causalidade. As correlações são muito úteis para predição de curto prazo. Eles são um proxy rápido e útil para avaliar a semelhança das coisas, quando tudo o que nos importa é se elas são semelhantes ou não. A análise preditiva nos diz o que fazer. Mas eles não nos dizem o porquê. E, a longo prazo, muitas vezes precisamos saber por que, para elaborar previsões, cenários e políticas adequadas. O perigo é então usar análises preditivas para previsão ou planejamento a longo prazo. É uma boa ferramenta, mas tem seus limites. A previsão torna-se muito mais valiosa quando é combinada com explicação. A boa notícia é que o estabelecimento de causalidade também é possível com Big Data: você executa experimentos (o teste AB agora popular é uma experiência simples), ou você confia em outros conhecimentos especializados causais. Existem mesmo métodos que usam Big Data para quantificar as relações causais dos dados observacionais, mas são mais complicados e mais comumente utilizados na academia do que na prática (isso virá). Bottom line: precisamos de uma combinação de modelagem causal e modelagem preditiva para fazer uso de dados para ações e planejamento a curto e longo prazos. O kit de ferramentas preditivo pode ajudar a descobrir correlações, então podemos usar experimentos (ou pesquisas) para descobrir o porquê. E, em seguida, melhorar nossas previsões de longo prazo. É um ciclo. Recentemente, tive discussões com vários instrutores de cursos de mineração de dados sobre um fato que muitas vezes é deixado fora de muitos livros, mas é bastante importante: tratamento diferente de variáveis ​​falsas em diferentes métodos de mineração de dados. Os cursos de estatística que cobrem regressão linear ou logística nos ensinam a ter cuidado ao incluir uma variável de preditores categórica em nosso modelo. Suponhamos que tenhamos uma variável categórica com m categorias (por exemplo, m países). Primeiro, devemos fator-lo em m variáveis ​​binárias denominadas variáveis ​​dummy, D1, D2. Dm (por exemplo, D1 1 se CountryJapan e 0, caso contrário, D2 1 se CountryUSA e 0, caso contrário, etc.) Então, incluímos m-1 das variáveis ​​dummy no modelo de regressão. O ponto principal é excluir uma das variáveis ​​dummy para evitar a redundância. A categoria dummys excluída é denominada categoria de referência. Matematicamente, não importa qual manequim você exclua, embora os coeficientes resultantes sejam interpretados em relação à categoria de referência, então, se a interpretação é importante é útil escolher a categoria de referência como a que mais queremos comparar. Nos modelos de regressão linear e logística, incluindo todas as variáveis ​​m levará a multicolinearidade perfeita. Que tipicamente causará falha no algoritmo de estimativa. Um software mais inteligente irá identificar o problema e soltar um dos manequins para você. É por isso que cada livro de estatísticas ou curso sobre regressão enfatizará a necessidade de soltar uma das variáveis ​​falsas. Agora vem a parte surpreendente: quando se utilizam preditores categóricos em algoritmos de aprendizado de máquinas como kNN mais próximos (kNN) ou árvores de classificação e regressão, mantemos todas as variáveis ​​dummy. O motivo é que, nesses algoritmos, não criamos combinações lineares de todos os preditores. Uma árvore, por exemplo, escolherá um subconjunto dos preditores. Se deixarmos de lado um manequim, então, se essa categoria for diferente das outras categorias em termos de saída de interesse, a árvore não poderá detectá-lo. De modo semelhante, deixar um manequim no kNN não incorporaria o efeito de pertencer a essa categoria Na distância utilizada. O único caso em que a inclusão variável simbólica é tratada de forma igual em todos os métodos é para um preditor de duas categorias, como gênero. Nesse caso, uma única variável dummy será suficiente na regressão, kNN, CART, ou qualquer outro método de mineração de dados. Em seu editorial recente, o periódico Basic and Applied Social Psychology anunciou que não aceitará documentos que utilizem a inferência estatística clássica. Não há mais valores de p, t-testes ou mesmo. Intervalos de confiança antes da publicação, os autores terão que remover todos os vestígios do NHSTP (valores p, valores t, valores F, declarações sobre 82168216significantes82178217 diferenças ou falta deles, etc.). Os intervalos de confiança também são banidos da BASP. Muitos estatísticos concordariam que é tempo de passar dos valores de p e inferência estatística para significância prática, estimativa, modelagem não paramétrica mais elaborada e reamostragem para evitar modelos de suposição-pesados. Isto é especialmente assim agora, quando os conjuntos de dados estão se tornando maiores e a tecnologia é capaz de medir efeitos menores. Em nosso artigo de 2017 Demasiado grande para falhar: Amostras grandes e o problema de p-problema, levantamos a questão séria tomada de decisão baseada em valores de p ao usar amostras muito grandes. Muitos nos pediram soluções que ampliam os valores de p, mas não encontramos um que realmente funciona. Nosso foco era detectar quando você é muito grande e enfatizamos a importância de se concentrar na magnitude do efeito e na precisão (por favor, relate erros padrão). Os alunos da máquina provavelmente defenderiam o movimento para modelagem e avaliação preditivas. O poder preditivo é direto para medir, embora não seja sempre o que os pesquisadores de ciências sociais estão procurando. Mas espere. O que este editorial dita é apenas uma meia revolução: diz o que irá proibir. Mas não oferece uma alternativa coesa além de estatísticas resumidas simples. Concentrar-se na magnitude do efeito é ótimo para tornar os resultados relevantes, mas sem relatar erros padrão ou intervalos de confiança, não sabemos nada sobre a incerteza do efeito. Abandonar qualquer métrica com base na qual o experimento foi replicado é perigoso e enganador. Primeiro, isso é mais uma suposição filosófica do que uma re-experimentação real. Em segundo lugar, para testar se os efeitos encontrados em uma amostra generalizam para uma população de interesse, precisamos da capacidade de replicar os resultados. Os erros padrão dão alguma indicação de como os resultados são replicáveis, nas mesmas condições.

No comments:

Post a Comment