Efeitos de limpeza ainda carecem de suporte empírico: réplica à réplica de Lee e Schwarz

Esta postagem do blog foi escrita por Ivan Ropovik e Hans IJzerman. Esta postagem do blog foi postada cruzada no PsyArxiv.

Em Spike WS Lee e Norbert Schwarz 'recentemente publicado artigo alvo BBS “Procedimentos aterrados: um mecanismo próximo para a psicologia da limpeza e outras ações físicas” (2020), os autores descrevem os mecanismos proximais subjacentes aos chamados efeitos de limpeza. Nesta postagem do blog, apresentamos uma tréplica à tréplica, primeiro discutindo brevemente a parte do artigo alvo que comentamos, depois discutindo a discordância que expressamos em nosso comentário sobre o artigo alvo, depois discutimos a tréplica de Lee e Schwarz e terminamos com nossa tréplica à tréplica deles. Antes de qualquer coisa, queremos expressar nossa apreciação pela avaliação meta-analítica de Lee e Schwarz da literatura e sua réplica à nossa crítica expressa. Essas divergências são vitais para identificar teorias mais fortes versus teorias mais fracas em nossa ciência. Nesta tréplica à tréplica, tornamos explícitas as diferenças entre nossa avaliação das evidências e a deles e discutimos brevemente por que os autores não podem fazer de seu conjunto de inferências um “alvo móvel”. Em suma, está claro para nós que os fundamentos empíricos para efeitos de limpeza, como Lee e Schwarz os apresentam em seu artigo alvo da BBS, são extremamente instáveis.

Contexto do artigo alvo que comentamos


Em seu artigo alvo e em outros lugares, Lee e Schwarz reconhecem que existem mais de 200 experimentos sobre efeitos de limpeza, produzindo mais de 500 efeitos (Lee et al., 2020). Embora Lee e Schwarz reconheçam numerosas replicações de efeitos de limpeza que não encontraram um efeito, eles argumentaram que várias replicações bem-sucedidas tornam difícil descartar os efeitos de limpeza de imediato. Ao rejeitar nossa crítica, Lee e Schwarz fizeram parecer que nossos critérios de seleção não eram claros ou que escolhemos as evidências (veja seu RA.3); por isso, repetimos aqui os efeitos que incluímos, que foram inteiramente com base na sua própria apresentação.

Como eles não nos deram acesso aos dados subjacentes à sua meta-análise em andamento (consulte também a Explicação 1 abaixo), identificamos todos publicamente disponível empírico evidência que Lee e Schwarz apresentaram verbalmente para refutar as questões de replicabilidade. Como eles não estavam dispostos a compartilhar seus dados que formavam a base de suas reivindicações em seu artigo de destino, ficamos no escuro se suas reivindicações eram apoiadas por evidências robustas. Como resultado, simplesmente pegamos todos os estudos que eles identificado como replicações bem-sucedidas. Infelizmente, sua definição conceitual de “replicação” era vaga. Por exemplo, quando tentam abordar questões de replicabilidade, eles escrevem: “Por exemplo, em relação a Schnall et al. (2008), um artigo (Johnson et al., 2014b) relatou replicações diretas usando amostras americanas (em oposição às amostras britânicas originais) e encontrou tamanhos de efeito (ds de Cohen) de 009 e -,016 (em oposição ao original 606 e 852). Outro artigo (JL Huang, 2014) relatou replicações estendidas do Experimento 1 de Schnall et al., Movendo a configuração do laboratório para online e adicionando uma medida (Experimento 1) ou uma manipulação (Experimentos 2 e 2a) da resposta dos participantes esforço ”e“ Ainda outro artigo relatou uma replicação conceitual do Experimento 3 original, fazendo com que os participantes primeiro completassem 183 avaliações de sua própria consciência e nomeando outros para avaliar sua personalidade (Fayard et al., 2009). Este artigo também relatou uma replicação conceitual do Experimento 4 original, alterando o design de um fator (limpar vs. não limpar) para 2 (limpar vs. não limpar) x 2 (cheiro vs. sem cheiro) x 2 (esfregar vs. . sem esfregar). Os tamanhos de efeito relevantes foram 112 e 230, em oposição aos originais 887 e 777. ” Assim, para refutar as preocupações com a replicabilidade, eles incluíram tanto as replicações conceituais quanto as estendidas. Assim, seguimos sua liderança incluindo-os no p-curva. Em um caso específico, essa vaga definição conceitual significava que nossa seleção levou à inclusão de um efeito diferente do deles. Especificamente, para as seguintes frases, onde afirmam uma replicação: “Este achado foi replicado com uma amostra alemã (Marotta & Bohner, 2013). Uma replicação conceitual com uma amostra americana mostrou o mesmo padrão e também descobriu que foi moderada por indivíduo diferenças (De Los Reyes et al., 2012) ”, escolhemos o efeito que relatou uma replicação com uma amostra dos EUA, mas eles incluem o p-valor para um efeito de moderação diferente. Não temos certeza de por que eles preferem a moderação por diferenças individuais à replicação mais próxima.

Este corpo de evidências sobre a replicabilidade dos efeitos de limpeza disponíveis publicamente, selecionados por Lee e Schwarz, foi, portanto, o foco de nossa inferência, como também afirmamos em nosso comentário.

Discordância expressa em nosso comentário

Em nosso comentário, portanto, examinamos a evidência empírica por trás dos estudos de replicação que Lee e Schwarz citam como evidência para suas afirmações. Com base na avaliação do valor probatório usando o p-curva técnica (Simonsohn et al., 2014), bem como uma simulação de dados, concluímos o seguinte: com base na evidência que Lee e Schwarz estabeleceram no artigo alvo, há uma falta de evidência robusta para a replicabilidade dos efeitos de limpeza e o padrão de dados subjacente às replicações bem-sucedidas dos efeitos de limpeza é improvável e mais consistente com relatórios seletivos.

A p-curva que geramos com base em seu próprio foco em refutar as preocupações de replicabilidade é semelhante a esta:

Réplica de Lee e Schwarz

Lee e Schwarz escreveram uma réplica ao nosso comentário, bem como aos outros comentários. Convidamos você a ler sua resposta bem elaborada na íntegra (tréplica, material suplementar) Eles tinham alguns pontos de crítica em nossa abordagem, Lee e Schwarz identificaram um erro de nossa parte em relação à falha na replicação de Camerer et al (2018) e o mencionaram na nota de rodapé 2 em seu suplemento de resposta. Nós os incluímos como independentes, o que não deveriam ser. No entanto, como os resultados não foram significativos, eles não foram incluídos em nenhuma de nossas análises. Nosso conjunto de dados também continha incorretamente uma nota dizendo que Arbesfeld et al. (2014) e Besman et al. (2013) não divulgou o uso de um teste unicaudal. Lamentamos por ambos os deslizes e agradecemos a Lee e Schwarz por apontá-los. Ambos os erros deixam a curva p idêntica:

  1. “[Ropovik et al.] Chegam [sua] conclusão [que há falta de evidências robustas para a replicabilidade dos efeitos de limpeza] com base em um p-análise curva de um pequeno subconjunto de todo o corpo de pesquisa experimental sobre as consequências psicológicas e antecedentes da limpeza física (ou seja, sete entre várias centenas de efeitos)
  2. “…, Que incluiu apenas alguns dos estudos de replicação e excluiu todos os estudos originais.”
  3. “Os procedimentos que aplicaram aos estudos selecionados não seguiram as etapas principais das recomendações de melhores práticas (Simonsohn, Nelson, & Simmons, 2014b, 2015).”
  4. “[Eles] incluíram p-valores que devem ser excluídos ”
  5. “[Eles] excluíram p-valores que devem ser incluídos. ”

Como eles sugerem que cometemos erros que aparentemente invalidam completamente nossa conclusão, eles conduziram uma nova análise de curva, que se parece com esta:

Estes dois p-curvas demonstram o padrão completamente oposto. Enquanto nosso p-curva mostra evidências de relatórios seletivos, a deles mostra evidências de valor probatório. Como isso pode ser?

Tréplica a Lee e Schwarz 'Tréplica

Sua crítica 3 é facilmente rejeitada, pois simplesmente consideramos o que eles consideramos como réplicas de efeitos de limpeza (e fornecemos uma tabela de divulgação, consulte também a Explicação 2). Além disso, pensamos que pode ser útil tornar as suposições e consequências interpretativas de ambas as nossas abordagens explícitas e listar as mudanças resultantes para o p- dados curvos necessários para obter de nosso p-curva para o deles p-curva dois para abordar suas preocupações 1, 2, 4 e 5. Também articularemos por que vemos nossa abordagem como uma forma mais adequada de avaliar os méritos de um conjunto de reivindicações publicadas - uma que também está muito mais de acordo com as inferências substantivas extraídas nos estudos originais e no artigo alvo de Lee e Schwarz. Aqui está um resumo das alterações em nossos dados que Lee e Schwarz fizeram para chegar a seus p-curva do artigo alvo para sua tréplica, o que levou ao mais favorável p-curva:

  1. Em seu artigo original, eles descrevem três efeitos como replicações de sucesso: “[este efeito foi] replicado com sucesso em duas outras replicações diretas (Arbesfeld et al., 2014; Besman et al., 2013) ”E“ Esta descoberta foi replicada com uma amostra alemã (Marotta & Bohner, 2013) ”. Marotta e Bohner (2013) relataram um efeito significativo (em p = 05), que foi tratada como uma replicação bem-sucedida pelos autores originais e por Lee e Schwarz em seu artigo de destino. No entanto, para a réplica, Lee e Schwarz recalcularam o p-valor e tratou-o como não mais significativo. Isto é problemático por duas razões. Primeiro, eles mudaram a interpretação de artigo alvo para tréplica. Em segundo lugar, com base nas informações disponíveis, não está claro se o p-valor estava realmente acima ou abaixo de 05 (como esses estudos não são publicados como artigos completos, há muito pouca informação sobre o projeto e a análise). Da mesma forma, Arbesfeld et al. (2014) e Besman et al. (2013) cada um formulou hipóteses unilaterais, que Lee e Schwarz transformaram inadequadamente em hipóteses bi-caudais.
  2. Outro erro que cometeram é que selecionaram um efeito diferente do que era apropriado para o alvo da inferência - evidências sobre a replicabilidade dos efeitos de limpeza. Em seus p-curve, eles selecionaram uma interação de três vias em vez do que era o efeito de replicação de De Los Reyes et al. (2012). Para a interação de três vias (que incluiu uma adição de diferenças individuais, que não fazia parte do conceito original do efeito de limpeza) a p-valor de 021 foi relatado; para o que eles citam em seu artigo de destino como uma replicação, a interação bidirecional replicada teve um p-valor de 048. 
  3. Eles incluíram três p-valores de um único pôster de conferência não disponível publicamente (estava ligado na lista de referência, mas produziu um erro ao visitar o link). Como não estava disponível publicamente e Lee e Schwarz não estavam dispostos a compartilhar seus dados, não fez parte de nossa inferência, conforme declaramos claramente em nosso comentário. No entanto, depois de examinar seu conjunto de dados, mostra um N = 10 por célula, todas produzindo significativo e pequeno p-valores com tamanhos de efeito extraordinariamente - e inacreditavelmente - grandes, equivalentes a d = 1.55, 1.49 e 1.84. Além disso, para sua tréplica, eles decidiram adicionar o Experimento 1 ao seu p-curve, enquanto no artigo de destino eles consideraram apenas o Experimento 2 como uma replicação conceitual.

Para a lista completa das alterações da L&S em nosso p- conjunto de curvas, consulte a Tabela 1.

Tabela 1. Mudanças de L&S em nossos dados de curva p

Observação. Cor cinza = efeitos apresentados pelo artigo alvo de Lee e Schwarz como replicados com sucesso e usados ​​em nossa análise da curva p. Cor laranja = mudanças em nossa curva p definida por L&S. Cor verde = efeitos adicionados por Lee e Schwarz. Valores P em pino representam o conjunto de efeitos usado pela L&S. Os valores de p em itálico foram comuns a ambas as análises.

Mas vamos tentar aceitar suas transformações de artigo de destino em tréplica. Se, de acordo com Lee e Schwarz, houver dois artigos publicados e um pôster da conferência, resultando meros 7 efeitos evidenciando uma replicação bem-sucedida com uma mediana N = 12 por célula O N médio para os efeitos de replicação não significativos passa a ser 12 vezes maior, N = 144., honestamente não vemos por que L&S denota nosso argumento (“falta de evidência robusta para a replicabilidade dos efeitos de limpeza”) como sendo “forte” ou mesmo controverso. Na verdade, mesmo if deles p-curve demonstra um efeito, tais tamanhos de amostra extremamente modestos com tamanhos de efeito incrivelmente grandes em apenas alguns estudos que eles descrevem em um artigo alvo devem levar qualquer um a investigar mais cuidadosamente e questionar a eficácia do p-curva sob tais condições. As técnicas meta-analíticas que sugerimos em nosso comentário permitem que eles façam exatamente isso. Em nosso comentário, criticamos os métodos analíticos que eles descrevem em seus artigos alvo, como “ambos seus preconceitos atacando burros de carga, à prova de falhas N e trim-and-fill, são conhecidos por se basearem em suposições insustentáveis ​​e por muito tempo considerados desatualizados ”. Raciocinamos que os autores deveriam, em vez disso, aplicar métodos de correção de última geração, como os baseados em regressão (Stanley & Doucouliagos, 2014) e especialmente os modelos de seleção de parâmetros múltiplos (por exemplo, McShane et al., 2016) por padrão para examinar suas reivindicações. Esses métodos podem ajudar a detectar evidências extremamente instáveis, como no caso de meros 7 efeitos com uma mediana N = 12 por célula.

Conclusão

Em suma, mostramos claramente aqui novamente por que há uma falta de evidências para a replicabilidade dos efeitos de limpeza com base nas evidências presentes de Lee e Schwarz. Mostramos novamente por que as replicações bem-sucedidas são de fato consistentes com as replicações malsucedidas. A resposta ao nosso desafio com os dados não é aplicar uma abordagem de análise que mude os critérios de inferência que eles próprios estabelecem. Em vez disso, replicações fechadas e pré-registradas fornecerão uma resposta melhor.

Por fim, gostaríamos de comentar sobre esses critérios de inferência em constante mudança. Lee e Schwarz provavelmente não consideraram as discrepâncias entre seu artigo e seu recálculo, bem como a adição de um estudo, importante o suficiente para justificar uma menção em sua resposta. Portanto, a interpretação do artigo alvo de que esses efeitos são evidências a favor da replicabilidade dos efeitos de limpeza permanece incontestável e pode continuar a enganar os leitores. O que esse processo ilustra é um dos sintomas de um problema muito comum - uma cadeia de derivação frouxa das premissas teóricas à instanciação estatística dessas premissas e às inferências substantivas. Em tais casos, a mesma evidência pode ser usada como um artifício retórico para apoiar exatamente as posturas opostas. Esses alvos móveis criam teorias fracas e rejeitam críticas sólidas ao trabalho de alguém. No final, tudo se resume ao que se considera evidência empírica adequada para uma afirmação científica.

 

Mais explicações

Explicação 1.

Como uma resposta adicional à sua primeira crítica ("[Ropovik et al.] Tiram [sua] conclusão [que há falta de evidências robustas para a replicabilidade dos efeitos de limpeza] com base em um p- análise curva de um pequeno subconjunto de todo o corpo de pesquisa experimental sobre as consequências psicológicas e antecedentes da limpeza física (ou seja, sete de várias centenas de efeitos) ”), queríamos complementar nossa crítica discutindo a história de nossa conversa com Lee e Schwarz.

Depois de ler o artigo-alvo e antes de escrever nosso comentário, pedimos a Lee e Schwarz que compartilhassem os dados subjacentes à sua meta-análise recente, cujas conclusões eles incorporaram no artigo-alvo. Acreditamos fortemente que suas evidências, com base no que eles descreveram, não eram tão fortes quanto afirmavam ser. Como a meta-análise era um dos componentes principais do artigo-alvo, consideramos a verificação independente de importância crucial. Eles recusaram nosso convite para verificação independente porque “a revisão meta-analítica ainda estava sendo escrita e qualquer apresentação quantitativa de seus resultados os impediria de enviar o manuscrito para o Psychological Bulletin”.

Aceitamos sua recusa em compartilhar os dados. Como acreditamos que seus burros de carga de combate ao preconceito repousam em suposições insustentáveis ​​e estão desatualizados. Em sua réplica ao nosso comentário, eles indicaram que nossa observação de que trim-and-fill e fail-safe N são considerados desatualizados refletem mais nossos sentimentos do que os padrões da área, porque meta-análises recentes publicadas no Psychological Bulletin ainda empregam esses métodos. Achamos que essa era uma maneira muito engraçada de argumentar. Talvez os autores tenham perdido esta parte do nosso comentário, mas Becker (2005), Ferguson e Heene (2012) e Stanley e Doucouliagos (2014) mostraram claramente que esses métodos estão desatualizados e preferimos confiar na ciência ao invés de nos engajarmos em O argumento para o povo. No entanto, é verdade, como eles afirmam, que a psicologia às vezes usa métodos desatualizados. Por exemplo, embora McDonald's Omega deva ser usado em vez de Cronbach's Alpha na maioria dos casos (Dunn et al., 2014; Revelle & Zinbarg, 2009; Sijtsma, 2009), alguns pesquisadores teimosamente resistem em atualizar sua metodologia (por exemplo, Hauser & Schwarz, 2020). Ou considere o fato de que já se sabe há anos que é necessário fortalecer os estudos o suficiente para reduzir a chance de se obter um falso positivo. Os pesquisadores ainda persistem teimosamente em underpowering suas pesquisas, mesmo anos após o Bem (2011) e Simmons et al. (2011) artigos (por exemplo, Lee & Schwarz, 2014)., Optamos por avaliar o valor de evidência do evidência de replicação como Lee e Schwarz apresentam. Existem muito poucas réplicas de efeitos de limpeza (com apenas uma minoria apresentando sucesso). Sendo os maiores especialistas em seu campo, Lee e Schwarz relataram todos os bem-sucedidos ou optaram por apresentar um subconjunto que considerávamos razoavelmente o melhor.

Talvez existam outros estudos de replicação com evidências fracas ou projetos problemáticos. Talvez haja muito mais replicações com falha. Não sabemos porque não recebemos os dados dos autores e simplesmente analisamos os seus “insights qualitativos” (Comunicação com os autores originais, 2020). Por um lado, isso o torna uma forma não padronizada de sintetizar as evidências. Mas, por outro lado, consideramos isso como uma maneira do homem de aço de avaliar apenas os méritos das evidências por trás dos estudos que Lee e Schwarz escolheram a dedo como exemplos proeminentes da literatura para apoiar a suposição auxiliar vital de sua teoria - replicabilidade Dito isso, concordamos plenamente que tiramos a conclusão sobre a evidência para a replicabilidade dos efeitos de limpeza com base em um pequeno (bastante pequeno) subconjunto da literatura relevante. Consideramos evidente que, se o alvo da inferência for evidência de replicabilidade, os estudos originais devem ser excluídos. Por que não procuramos todas as replicações conduzidas? Porque o alvo de nossa inferência era a evidência de replicação que Lee e Schwarz apresentavam como tal e porque uma proporção considerável dos estudos não fazia parte do registro público. Aparentemente, há apenas um punhado de estudos que se propõem a replicar um experimento sobre efeitos de limpeza, e os únicos que pareciam bem-sucedidos foram severamente fracos.

Explicação 2.

Lee e Schwarz alegaram que não seguimos as melhores práticas porque (1) não criamos um p- tabela de divulgação curva e porque (2) não recalculamos o p-valores que representam a entrada para o p-curva. A primeira afirmação é simplesmente falsa. Ainda assim, este ponto diminui o principal ponto de desacordo. O objetivo de uma tabela de divulgação é identificar o efeito-alvo em um estudo para garantir que o efeito sintetizado foi o efeito focal do estudo. Nesse caso, Lee e Schwarz, não nós, foram os que identificaram os efeitos focais em seu artigo-alvo. Nós apenas seguimos seu exemplo. Para cada efeito individual, nossa tabela identifica claramente o papel e o estudo de onde vem, cita a sequência de texto onde o efeito é relatado no texto, tamanho do efeito, relatado p-valor, N para o teste dado, e a inferência do autor se o efeito foi encontrado ou não. Também codificamos vários outros dados sobre as propriedades de medição da medida dependente.

Com relação à segunda objeção, esta é uma discordância mais interessante. Claro, entendemos a importância de recalcular tamanhos de efeito ou estatísticas de teste para qualquer outra síntese de evidência comum como nós fizemos em outro lugar. Abster-se de recalcular os resultados focais dos estudos listados por Lee e Schwarz e tomar as evidências relatadas pelo valor de face foi, no entanto, uma escolha consciente. Houve duas razões para isso. Como afirmamos explicitamente, nosso objetivo nesta análise muito específica era avaliar os méritos de um conjunto finito de evidências empíricas, conforme usado por Lee e Schwarz para apoiar sua teoria proposta. Não havia objetivo de inferir além desse conjunto finito ou estimar algum tamanho de efeito subjacente verdadeiro. Nesse caso, faz mais sentido considerar as evidências relevantes como estão.

Em primeiro lugar, o processo de seleção de polarização não é guiado por recalculado p-valores. Em segundo lugar, poucos profissionais ou membros do público recalculam p-valores quando leem as conclusões de um estudo e ajustam sua leitura de acordo. O mesmo ocorre com poucos colegas que tomam decisões sobre quais hipóteses perseguir em seguida ou que criam teorias (como a que diz respeito aos “Procedimentos Fundamentados”). Em seu artigo de destino, Lee e Schwarz pareciam não formar exceção (mas agora lendo sua tréplica, às vezes nos perguntamos se o artigo de destino e a tréplica foram escritos por um grupo diferente de pessoas). 

Além do mais, uma proporção considerável de efeitos significativos que ambos - Lee e Schwarz (no artigo de destino), bem como autores de replicação - apresentaram como replicações bem-sucedidas, tornam-se não significativos após seu recálculo. Lee e Schwarz provavelmente não consideraram a discrepância entre seu artigo e seu recálculo importante o suficiente para justificar uma menção em sua resposta. Portanto, a interpretação do artigo alvo de que esses efeitos são evidências a favor da replicabilidade dos efeitos de limpeza permanece incontestável e pode continuar a enganar os leitores. O que esse processo ilustra é um dos sintomas de um problema muito comum - a cadeia de derivação frouxa das premissas teóricas à instanciação estatística dessas premissas e às inferências substantivas. Em tais casos, a mesma evidência pode ser usada como um artifício retórico para apoiar exatamente as posturas opostas.

Além disso, qualquer síntese de evidência requer que haja pelo menos informações básicas sobre o desenho do estudo e a abordagem analítica. Nesse caso, metade dos efeitos replicados com sucesso vieram de estudos não publicados, sem nenhum artigo empírico completo disponível. Recálculo de p-valores exigiriam um ato de fé, porque peças críticas de informação freqüentemente faltavam. Por exemplo, os autores da replicação podem não ter assumido variâncias de grupo iguais em um t-teste (como o recálculo assume) e em vez de relatar o df para o teste de Welsch (não um número inteiro), eles apenas relataram N - 2 como df. O tamanho da amostra analítica pode não ter sido igual a, por exemplo, df + 2 em uma amostra de duas t-teste. Os autores da replicação podem ter excluído alguns participantes por motivos legítimos.

Lee e Schwarz também presumiram efeito zero de arredondamento das estatísticas de teste no p-valor por seu recálculo. Eles ainda presumem que um valor bicaudal sempre foi a tradução estatística apropriada da hipótese substantiva. Em alguns casos, não estava claro qual modelo estatístico exato eles usaram e se ele era paramétrico. Por último, como é óbvio a partir do p-curva, nossa conclusão não dependeu da decisão de recalcular o p-valores. Ou seja, teríamos chegado ao exato mesma conclusão, mesmo se tivéssemos recalculado o p-valores - falta de evidência robusta para a replicabilidade dos efeitos de limpeza.

Achamos que é justo que demos aos autores dos estudos de replicação (e a Lee e Schwarz) o benefício da dúvida e consideremos os resultados relatados dos testes inferenciais pelo valor de face. Então, se um exato p-valor estava disponível, de acordo com as inferências dos autores no nível alfa fornecido, e de acordo com a inferência substantiva feita por Lee e Schwarz (como os principais especialistas na área) em seu artigo alvo, nós o consideramos pelo valor de face. Assim como a integridade da própria evidência de replicação.

Explicação 3

Tudo o que foi discutido acima culmina em nossa explicação final - a crítica que incluímos p-valores que devem ser excluídos e excluídos p-valores que devem ser incluídos. Apesar da aparente eloquência da crítica de Lee e Schwarz, pensamos que pode ser útil para o leitor ver uma apresentação transparente e mais detalhada das mudanças no conjunto de p-valores por L&S.

  1. Arbesfeld et al. (2014) e Besman et al (2013) testaram uma hipótese direcional para a qual encontraram suporte (p = 030 e 039). Eles afirmam que o efeito foi replicado. Lee e Schwarz também. No entanto, recalculando o p-valor, Lee e Schwarz efetivamente ignoraram o fato de que os autores da replicação consideraram um teste unilateral como uma instanciação apropriada da hipótese substantiva. Como o processo de seleção de polarização funciona em um nível alfa diferente para hipóteses direcionais, a aplicação do modelo de seleção não deve forçar um limite de publicação irrelevante. Neste caso, ao forçar um teste de duas caudas, esses efeitos caíram fora do p-conjunto de curvas, pois este método inclui apenas efeitos significativos. Claro, às vezes há problemas com o uso de testes unilaterais em geral e em p-curva em particular. Estas incluem a tendência geral para o valor de evidência e densidade diferente na parte superior do p-distribuição de valor sob a hipótese alternativa que é, no entanto, irrelevante neste contexto., e pode-se discutir como lidar com eles. Mas o mais importante, Lee e Schwarz não acharam suficientemente digno de nota para notificar o leitor sobre a desconexão entre o que é afirmado no artigo alvo ("replicado com sucesso") e a implicação de sua reanálise ("esses dois efeitos deixaram de ser replicações bem-sucedidas ”).
  2. Marotta e Bohner (2013) não faz parte do registro público. O resultado é divulgado publicamente apenas em vários artigos do autor principal (Spike Lee). No artigo de Lee e Schwarz (2018) NHB, eles relatam este efeito como sendo associado com p = 054. Na presente tabela, o recalculado p-valor igual a 0575. No entanto, em sua mini meta-análise de 2018, bem como em alguns outros artigos (Dong & Lee, 2017; Schwarz & Lee, 2018), foi declarado explicitamente que o resultado replicou o achado original. Como não estava claro e o fato de que 054 e, por exemplo, 04999999 é estatisticamente o mesmo efeito (Gelman & Stern, 2006), mais uma vez aplicamos consistentemente o princípio do benefício da dúvida e o consideramos como um efeito significativo . Ou seja, é a inferência substantiva que praticamente importa muito mais do que diferenças minúsculas na 3ª casa decimal. Independentemente de o leitor ver esta decisão como fundamentada ou não, é lamentável que Lee e Schwarz afirmem que a replicação foi bem-sucedida quando lhes convém.
  3. Para o estudo De los Reyes (2012), eles sintetizaram o efeito errado (F(1, 44) = 5.77, p = 021; página 5) quando, de fato, os resultados do estudo de replicação são relatados na p. 4, seção "Replicando os efeitos Clean Slate de Lee e Schwarz (2010)", onde o seguinte (atenuação) efeito de interação (F(1,46) = 4.14) deveria ter sido selecionado. A primeira era a moderação por uma variável de diferença individual, a última a replicação ostensiva. Este efeito de replicação focal é, no entanto, associado a um muito maior p-valor de 048.
  4. A mudança definitiva do jogo foi, no entanto, a inclusão de dados publicamente indisponíveis de outro pôster da conferência (Moscatiello & Nagel, 2014). Novamente, o alvo de nossa inferência eram informações publicamente disponíveis e, portanto, não as incluímos. No entanto, vamos examinar esses experimentos com mais detalhes. Em primeiro lugar, em seu artigo de destino, eles consideraram apenas o Experimento 2 como uma replicação conceitual. Portanto, o Experimento 1 não deveria ter sido incluído. No entanto, eles incluíram os Experimentos 1 e 2 (onde não está claro se as amostras eram independentes), que resultou em 4 p-valores (.0061, .3613, .0036 e .0006).

Dado que todos estes p-valores foram baseados em um N = 10 por design de célula, os tamanhos de efeito tinham que ser relativamente muito grandes para os três efeitos significativos, com um equivalente a d igual a 1.55, 1.49 e 1.84 (assumimos um design entre assuntos). Como uma nota adicional, os dois últimos são o efeito principal para uma interação 2 × 2 de reversão focal com um tamanho de efeito que é tão grande que chega a ser incrédulo, d = 1.66 (np2 = 434). Deixamos para o leitor como julgar os méritos de tal estudo e a probabilidade de observar 3 tamanhos de efeito incomumente grandes usando N = 10 por célula neste domínio de pesquisa.

Antes de publicar nossa postagem no blog, demos a Lee e Schwarz 1.5 semanas para abordar nossas preocupações. Depois de postar, eles publicaram uma resposta no PsyArxiv (disponível aqui e nos comentários abaixo). Achamos que, neste ponto, o leitor tem informações suficientes para julgar a replicabilidade dos efeitos de limpeza e não escreveremos mais nenhuma resposta. Notamos apenas que Lee e Schwarz já concluíram duas vezes que não consideram Arbesfeld et al. (2014), Besman et al. (2013) e Marotta e Bohner (2013) como significativos, embora os considerassem replicações bem-sucedidas em seu artigo de destino BBS. Achamos que, no mínimo, isso justifica uma correção de seu artigo BBS, já que Lee e Schwarz não os consideram mais replicações bem-sucedidas.

Um pensamento em "Efeitos de limpeza ainda carecem de suporte empírico: réplica à réplica de Lee e Schwarz"

Deixe um comentário

Este site usa o Akismet para reduzir o spam. Saiba como seus dados de comentário são processados.

%d bloggers como este: