لا تزال تأثيرات التطهير تفتقر إلى الدعم التجريبي: الرد على رد لي وشوارتز

تمت كتابة منشور المدونة هذا بواسطة إيفان روبوفيك وهانز إيجيزرمان. تم نشر هذه المدونة عبر موقع PsyArxiv.

في المقالة المستهدفة التي نشرها سبايك دبليو إس لي ونوربرت شوارتز مؤخرًا بعنوان "الإجراءات الأساسية: آلية تقريبية لعلم نفس التطهير والإجراءات الجسدية الأخرى" (2020) ، يحدد المؤلفون الآليات القريبة الكامنة وراء ما يسمى بتأثيرات التطهير. في منشور المدونة هذا ، نقدم ردًا تعقيبيًا على ردهم ، أولاً نناقش بإيجاز جزء المقالة المستهدفة التي علقنا عليها ، ثم نناقش الخلاف الذي عبرنا عنه في تعليقنا على مقالتهم المستهدفة ، ثم نناقش رد لي وشوارتز ، و ننتهي بردنا على ردهم. قبل أي شيء آخر ، نريد أن نعرب عن تقديرنا لتقييم لي وشوارتز التحليلي الفوقي للأدب وردهما على نقدنا المعلن. هذه الخلافات ضرورية لتحديد النظريات الأقوى مقابل الأضعف في علمنا. في هذا الرد على ردهم ، نوضح الاختلافات بين تقييمنا للأدلة وتقييمهم ونناقش بإيجاز سبب عدم تمكن المؤلفين من جعل مجموعة استنتاجاتهم "هدفًا متحركًا". بشكل عام ، من الواضح لنا أن الأسس التجريبية لتأثيرات التطهير ، كما قدمها لي وشوارتز في مقال هدف BBS ، هشة للغاية.

سياق المقال الهدف علقنا عليه


في مقالهما المستهدف وفي أماكن أخرى ، أقر كل من Lee and Schwarz بوجود أكثر من 200 تجربة على تأثيرات التطهير أسفرت عن أكثر من 500 تأثير (Lee et al. ، 2020). على الرغم من اعتراف لي وشوارتز بالعديد من التكرارات لتأثيرات التطهير التي فشلت في العثور على تأثير ، فقد جادلوا بأن العديد من التكرارات الناجحة تجعل من الصعب استبعاد آثار التطهير. في رفض نقدنا ، أوضح لي وشوارتز أن معايير الاختيار الخاصة بنا لم تكن واضحة أو أننا اخترنا دليلاً جيدًا (انظر RA.3) ؛ لهذا السبب ، نكرر هنا التأثيرات التي قمنا بتضمينها ، والتي كانت تماما بناءً على العرض التقديمي الخاص بهم.

نظرًا لأنهم لم يمنحونا إمكانية الوصول إلى البيانات التي يقوم عليها التحليل التلوي قيد التقدم (انظر أيضًا الشرح 1 أدناه) ، فقد حددنا جميعًا علانية متاح تجريبي دليل التي قدمها لي وشوارتز شفهيًا لدحض مخاوف قابلية التكرار. نظرًا لأنهم لم يكونوا مستعدين لمشاركة بياناتهم التي شكلت أساس ادعاءاتهم في مقالتهم المستهدفة ، فقد تركنا في الظلام ما إذا كانت مزاعمهم مدعومة بأدلة قوية. نتيجة لذلك ، أخذنا ببساطة كل الدراسات التي هم محدد كتكرار ناجح. لسوء الحظ ، كان تعريفهم المفاهيمي لـ "النسخ المتماثل" غامضًا. على سبيل المثال ، عندما يحاولون معالجة مخاوف قابلية التكرار ، يكتبون: "على سبيل المثال ، بخصوص Schnall et al. (2008) ، ورقة واحدة (Johnson et al. ، 2014b) أبلغت عن تكرار مباشر باستخدام عينات أمريكية (على عكس العينات البريطانية الأصلية) ووجدت أحجام تأثير (Cohen's ds) من .009 و -016 (على عكس الأصل. 606 و 852). أفادت ورقة أخرى (JL Huang ، 2014) عن تكرار مطول لتجربة Schnall et al. عن طريق نقل الإعداد من المختبر إلى الإنترنت وعن طريق إضافة مقياس (التجربة 1) أو التلاعب (التجارب 1 و 2 أ) لاستجابة المشاركين جهد "و" ورقة أخرى ذكرت تكرارًا مفاهيميًا للتجربة الأصلية 2 من خلال جعل المشاركين يكملون أولاً 3 تقييمًا لضميرهم الشخصي وترشيح آخرين لتقييم شخصيتهم (فايارد وآخرون ، 183). أبلغت هذه الورقة أيضًا عن تكرار مفاهيمي للتجربة 2009 الأصلية عن طريق تغيير التصميم من عامل واحد (مسح مقابل عدم مسح) إلى 4 (مسح مقابل عدم مسح) × 2 (رائحة مقابل عدم وجود رائحة) × 2 (فرك مقابل عدم مسح) . لا فرك). كانت أحجام التأثير ذات الصلة .2 و. 112 ، على عكس الأصل .230 و .887. " وبالتالي ، لدحض مخاوف قابلية التكرار ، تضمنت كلا من التكرارات المفاهيمية والممتدة. وبالتالي ، فقد اتبعنا تقدمهم من خلال تضمين هذه في p-منحنى. في حالة واحدة محددة ، كان هذا التعريف المفاهيمي الغامض يعني أن اختيارنا أدى إلى تضمين تأثير مختلف عن تأثيرهم. على وجه التحديد ، بالنسبة للجمل التالية ، حيث يزعمون التكرار: "تم تكرار هذه النتيجة مع عينة ألمانية (Marotta & Bohner ، 2013). أظهر التكرار المفاهيمي مع عينة أمريكية نفس النمط ووجد أيضًا أنه تم تنسيقه بواسطة فرد الاختلافات (De Los Reyes et al. ، 2012) "، اخترنا التأثير الذي أبلغ عن تكرار مع عينة أمريكية ، لكنها تشمل p- قيمة لتأثير اعتدال مختلف. نحن غير متأكدين من سبب تفضيلهم للاعتدال بالاختلافات الفردية على التكرار الأقرب.

مجموعة الأدلة هذه حول قابلية تكرار تأثيرات التطهير المتاحة للجمهور ، والتي اختارها لي وشوارتز ، كانت بالتالي محور استنتاجنا كما ذكرنا أيضًا في تعليقنا.

أعرب عن الخلاف في تعليقنا

في تعليقنا ، لذلك قمنا بفحص الأدلة التجريبية وراء دراسات التكرار التي استشهد بها لي وشوارتز كدليل على ادعاءاتهما. بناءً على تقييم القيمة الإثباتية باستخدام p- تقنية المنحنيات (Simonsohn et al.، 2014) ، بالإضافة إلى محاكاة البيانات ، توصلنا إلى ما يلي: استنادًا إلى الدليل الذي وضعه لي وشوارتز في المقالة المستهدفة ، هناك نقص في الأدلة القوية لتكرار تأثيرات التطهير ونمط البيانات الكامن وراء التكرار الناجح لآثار التطهير غير محتمل وأكثر اتساقًا مع التقارير الانتقائية.

أفضل p- المنحنى الذي أنشأناه بناءً على تركيزهم الخاص على دحض مخاوف قابلية التكرار يبدو كما يلي:

رد لي وشوارتز

كتب لي وشوارتز تعقيبًا على تعليقنا وكذلك على التعليقات الأخرى. ندعوك لقراءة ردهم المصمم جيدًا بالكامل (ابتهج, مواد تكميلية). كان لديهم بضع نقاط من الانتقادات على نهجنا حدد لي وشوارتز خطأً من جانبنا فيما يتعلق بالفشل في النسخ المتماثل لـ Camerer et al (2018) وذكره في الحاشية السفلية 2 في ملحق الاستجابة الخاص بهم. قمنا بتضمينهم كمستقلين ، وهو ما لم يكن ينبغي أن يكونوا كذلك. ومع ذلك ، نظرًا لأن النتائج كانت غير مهمة ، لم ينتهي بها الأمر في أي من تحليلاتنا على أي حال. تحتوي مجموعة البيانات الخاصة بنا أيضًا بشكل غير صحيح على ملاحظة تفيد بأن Arbesfeld et al. (2014) و Besman et al. (2013) لم يكشف عن استخدام الاختبار أحادي الطرف. نحن نأسف لكل من هذه القسائم ونشكر لي وشوارتز على الإشارة إليهما. كلا هذين الخطأين يتركان المنحنى p متطابقًا:

  1. "[Ropovik et al.] استخلص [] استنتاجهم [أن هناك نقصًا في الأدلة القوية لتكرار تأثيرات التطهير] على أساس p-تحليل منحنى لمجموعة فرعية صغيرة من كامل الجسم من البحث التجريبي حول العواقب النفسية وأسلاف التطهير الجسدي (أي سبعة من عدة مئات من التأثيرات)
  2. "... التي تضمنت بعض دراسات النسخ فقط واستبعدت جميع الدراسات الأصلية."
  3. "لم تتبع الإجراءات التي طبقوها على الدراسات المختارة الخطوات الأساسية لتوصيات أفضل الممارسات (Simonsohn، Nelson، & Simmons، 2014b، 2015)."
  4. "[كان من بينهم p- القيم التي يجب استبعادها "
  5. "[هم] مستبعدون p- القيم التي يجب تضمينها ".

كما يقترحون أننا ارتكبنا أخطاء تبطل ظاهريًا استنتاجنا تمامًا ، فقد أجروا تحليلًا جديدًا للمنحنى ، والذي يبدو كما يلي:

هذان p- المنحنيات توضح النمط المعاكس تمامًا. بينما لدينا p- يظهر منحنى دليلاً على الإبلاغ الانتقائي ، ويظهر دليلهم على القيمة الإثباتية. كيف يمكن أن يكون هذا؟

رد على مذكرة لي وشوارتز التعقيبية

يمكن رفض نقدهم 3 بسهولة ، لأننا ببساطة أخذنا ما رأوه تكرارات لتأثيرات التطهير (وقد قدمنا ​​جدول إفصاح ، انظر أيضًا الشرح 2). أبعد من ذلك ، اعتقدنا أنه قد يكون من المفيد جعل الافتراضات والعواقب التفسيرية لكلا من مناهجنا صريحة وسرد التغييرات الناتجة على p- البيانات المنحنية اللازمة للحصول عليها من p-منحنى لهم p- المنحنى الثاني لمعالجة مخاوفهم 1 و 2 و 4 و 5. سنقوم أيضًا بتوضيح سبب رؤيتنا لمنهجنا كطريقة أكثر ملاءمة لتقييم مزايا مجموعة من الادعاءات المنشورة - وهي أيضًا أكثر توافقًا مع الاستنتاجات الموضوعية المستخلصة من الدراسات الأصلية والمقال المستهدف من قبل لي وشوارتز. فيما يلي ملخص للتغييرات التي تم إجراؤها على بياناتنا ، ما فعله Lee و Schwarz للتوصل إلى p- منحنى المادة المستهدفة إلى ردهم ، مما أدى إلى الأفضل p-منحنى:

  1. في مقالهم الأصلي ، يصفون ثلاثة تأثيرات على أنها مكررات ناجحة: "تم تكرار [هذا التأثير] بنجاح في مكررين مباشرين آخرين (Arbesfeld et al.، 2014; بيسمان وآخرون ، 2013) "و" تم تكرار هذه النتيجة مع عينة ألمانية (ماروتا وبونر ، 2013) ". أبلغ Marotta and Bohner (2013) عن تأثير كبير (في p = .05) ، والذي تم التعامل معه على أنه تكرار ناجح من قبل كل من المؤلفين الأصليين ومن قبل Lee and Schwarz في مقالتهم المستهدفة. ومع ذلك ، فقد أعاد لي وشوارتز احتساب ملف p-القيمة والتعامل معها على أنها لم تعد مهمة. هذا مشكلة لسببين. أولاً ، قاموا بتغيير التفسير من المقالة المستهدفة إلى التعقيب. ثانيًا ، استنادًا إلى المعلومات المتاحة ، من غير الواضح ما إذا كان p- كانت القيمة بالفعل أعلى أو أقل من 05 (نظرًا لعدم نشر هذه الدراسات كأبحاث كاملة ، هناك القليل جدًا من المعلومات حول التصميم والتحليل). وبالمثل ، Arbesfeld et al. (2014) و Besman et al. (2013) صاغ كل منهما فرضيات أحادية الذيل بأنفسهما ، والتي حولها لي وشوارتز بشكل غير لائق إلى فرضيات ثنائية الذيل.
  2. خطأ آخر ارتكبوه هو أنهم اختاروا تأثيرًا مختلفًا عما كان مناسبًا لهدف الاستدلال - دليل على قابلية تكرار تأثيرات التطهير. في بهم p-منحنى ، اختاروا تفاعلًا ثلاثي الاتجاهات بدلاً من تأثير النسخ المتماثل من De Los Reyes et al. (2012). للتفاعل ثلاثي الاتجاهات (الذي تضمن إضافة الفروق الفردية ، والتي لم تكن جزءًا من المفهوم الأصلي لتأثير التطهير) أ p- تم الإبلاغ عن قيمة .021 ؛ لما استشهدوا به في مقالتهم المستهدفة كنسخة متماثلة ، كان للتفاعل ثنائي الاتجاه المكرر ملف p-قيمة .048. 
  3. كان من بينهم ثلاثة p- القيم من ملصق مؤتمر واحد غير متاح للجمهور (تم ربطه في قائمة المراجع، ولكن حدث خطأ عند زيارة الرابط). نظرًا لأنه لم يكن متاحًا للجمهور ولم يكن لي وشوارتز مستعدين لمشاركة بياناتهما ، فإنه لم يشكل جزءًا من استنتاجنا كما ذكرنا بوضوح في تعليقنا. ومع ذلك ، بعد فحص مجموعة البيانات الخاصة بهم ، يظهر ملف N = 10 لكل خلية ، وكلها تعطي أهمية وصغيرة p- قيم ذات تأثير غير عادي - وبصورة لا تصدق - بأحجام ذات تأثير كبير ، تعادل d = 1.55 و 1.49 و 1.84. علاوة على ذلك ، من أجل ردهم ، قرروا إضافة التجربة 1 إلى p-منحنى ، بينما في المقالة الهدف اعتبروا التجربة 2 فقط كنسخة مفاهيمية.

للحصول على القائمة الكاملة لتغييرات L&S في pمجموعة منحنى ، انظر الجدول 1.

الجدول 1. تغييرات L&S على بيانات منحنى p

ملحوظة. اللون الرمادي = التأثيرات التي قدمتها مقالة Lee and Schwarz المستهدفة كما تم تكرارها واستخدامها بنجاح في تحليل p-curve الخاص بنا. اللون البرتقالي = التغييرات التي طرأت على منحنى p الذي حددته L&S. اللون الأخضر = التأثيرات المضافة بواسطة Lee و Schwarz. قيم P في جريء تمثل مجموعة التأثير المستخدمة بواسطة L&S. كانت قيم p المائلة شائعة في كلا التحليلين.

لكن دعونا نحاول قبول تحولاتهم من المادة المستهدفة إلى الرد. إذا ، لكل من Lee and Schwarz ، هناك مقالتان منشورتان وملصق مؤتمر واحد ، ينتج عنه مجرد 7 آثار إثبات تكرار ناجح بمتوسط N = 12 لكل خلية يحدث أن يكون المتوسط ​​N لتأثيرات النسخ غير الهامة أعلى بمقدار 12 مرة ، N = 144. ، نحن بصراحة لا نرى لماذا تشير L & S إلى حجتنا ("عدم وجود دليل قوي لتكرار تأثيرات التطهير") على أنها "قوية" أو حتى مثيرة للجدل. في الواقع ، حتى if هم p- يوضح المنحنى تأثيرًا ، مثل هذه الأحجام المتواضعة للغاية مع أحجام التأثير الكبيرة بشكل لا يصدق في عدد قليل من الدراسات التي وصفوها في مقالة مستهدفة يجب أن تدفع أي شخص إلى التحقيق بعناية أكبر والتشكيك في فعالية p-منحني في ظل هذه الظروف. تقنيات التحليل التلوي التي اقترحناها في تعليقنا تسمح لهم بفعل ذلك بالضبط. في تعليقنا ، انتقدنا الأساليب التحليلية التي وصفوها في مقالاتهم المستهدفة ، على أنها "تحيزهم يتعامل مع فرص العمل ، والأمان من الفشل. N والتشذيب والتعبئة ، من المعروف أنها تستند إلى افتراضات لا يمكن الدفاع عنها وتعتبر منذ فترة طويلة عفا عليها الزمن ". لقد استنتجنا أنه يجب على المؤلفين بدلاً من ذلك تطبيق طرق التصحيح الحديثة مثل أسلوب الانحدار (Stanley & Doucouliagos ، 2014) وخاصة نماذج الاختيار متعددة المعلمات (على سبيل المثال ، McShane et al. ، 2016) افتراضيًا إلى فحص ادعاءاتهم. يمكن أن تساعد هذه الأساليب في الكشف عن الأدلة المهتزة للغاية ، مثل حالة وجود 7 تأثيرات فقط بمتوسط N = 12 لكل خلية.

خلاصة

بشكل عام ، لقد أوضحنا هنا مرة أخرى بوضوح سبب عدم وجود دليل على قابلية تكرار تأثيرات التطهير بناءً على الأدلة التي قدمها لي وشوارتز. نبين مرة أخرى سبب توافق التكرارات الناجحة مع التكرارات غير الناجحة. الإجابة على التحدي الذي نواجهه في البيانات هو عدم تطبيق نهج التحليل الذي يغير معايير الاستدلال التي حددوها بأنفسهم. بدلاً من ذلك ، ستوفر التكرارات القريبة والمسجلة مسبقًا إجابة أفضل.

أخيرًا ، أردنا التعليق على معايير الاستدلال المتغيرة باستمرار. من المحتمل أن لي وشوارتز لم يفكروا في التناقضات بين مقالتهم وإعادة حسابهم ، بالإضافة إلى إضافة دراسة ، مهمة بما يكفي لتبرير الإشارة في ردهم. لذا ، فإن التفسير المأخوذ من المقالة المستهدفة بأن هذه التأثيرات هي دليل لصالح إمكانية تكرار تأثيرات التطهير يظل بلا منازع وقد يستمر في تضليل القراء. ما توضحه هذه العملية هو أحد أعراض مشكلة شائعة جدًا - سلسلة اشتقاق فضفاضة من المقدمات النظرية ، إلى إنشاء مثيل إحصائي لهذه المقدمات ، إلى الاستدلالات الموضوعية. في مثل هذه الحالات ، يمكن استخدام نفس الدليل كأداة بلاغية لدعم المواقف المعاكسة تمامًا. هذه الأهداف المتحركة تخلق نظريات ضعيفة وترفض الانتقادات القوية لعمل الفرد. في النهاية ، يعود الأمر كله إلى ما يعتبره المرء دليلًا تجريبيًا مناسبًا للادعاء العلمي.

 

مزيد من التفسيرات

شرح 1.

كرد إضافي على نقدهم الأول ("[Ropovik et al.] استخلص [] استنتاجهم [أن هناك نقصًا في الأدلة القوية لتكرار تأثيرات التطهير] على أساس p-تحليل منحنى لمجموعة فرعية صغيرة من كامل مجموعة الأبحاث التجريبية حول العواقب النفسية وأسلاف التطهير الجسدي (أي سبعة من عدة مئات من التأثيرات) ") ، أردنا استكمال نقدنا من خلال مناقشة تاريخ محادثتنا مع لي وشوارتز.

بعد قراءة مقالتهم المستهدفة وقبل كتابة تعليقنا ، طلبنا من Lee و Schwarz مشاركة البيانات الكامنة وراء التحليل التلوي الأخير الذي تم تضمينه في الاستنتاجات التي تم تضمينها في المقالة المستهدفة. كنا نعتقد بقوة أن أدلتهم ، بناءً على ما وصفوه ، لم تكن قوية كما زعموا. نظرًا لأن التحليل التلوي كان أحد المكونات الأساسية لمقالهم المستهدف ، فقد اعتبرنا التحقق المستقل ذا أهمية حاسمة. لقد رفضوا دعوتنا للتحقق المستقل لأن "المراجعة التحليلية التلوية لا تزال قيد الكتابة وأي عرض كمي لنتائجها سيمنعهم من إرسال المخطوطة إلى النشرة النفسية".

لقد قبلنا رفضهم لمشاركة البيانات. نظرًا لأننا نعتقد أن خيول العمل التي تتعامل مع التحيز تستند إلى افتراضات لا يمكن الدفاع عنها وأن تكون قديمة في ردهم على تعليقنا ، فقد أشاروا إلى أن ملاحظتنا أن عملية القطع والتعبئة وآمنة من الفشل N تعتبر منذ فترة طويلة عفا عليها الزمن تعكس مشاعرنا أكثر من معايير المجال ، لأن التحليلات التلوية الأخيرة المنشورة في النشرة النفسية لا تزال تستخدم هذه الأساليب. كنا نظن أن هذه طريقة مضحكة جدالًا في مناقشة نقطة ما. ربما فات المؤلفون هذا الجزء من تعليقنا ، لكن بيكر (2005) ، وفيرغسون وهاين (2012) ، وستانلي ودوكولياجوس (2014) أظهروا بوضوح أن هذه الأساليب قديمة ونفضل الاعتماد على العلم على الانخراط فيها. أرغمنتوم أد بوبولوم. ومع ذلك ، فمن الصحيح ، كما يقولون ، أن علم النفس يستخدم أحيانًا أساليب قديمة. على سبيل المثال ، بينما يجب استخدام أوميغا ماكدونالدز بدلاً من ألفا كرونباخ في معظم الحالات (دان وآخرون ، 2014 ؛ Revelle & Zinbarg ، 2009 ؛ Sijtsma ، 2009) ، يقاوم بعض الباحثين بعناد من تحديث منهجيتهم (على سبيل المثال ، Hauser & Schwarz ، 2020). أو ضع في اعتبارك حقيقة أنه من المعروف منذ سنوات أن دعم دراسات المرء بشكل كافٍ ضروري لتقليل فرصة الحصول على نتيجة إيجابية خاطئة. لا يزال الباحثون يصرون بعناد على إضعاف أبحاثهم ، حتى بعد سنوات من Bem (2011) و Simmons et al. (2011) مقالات (على سبيل المثال ، Lee & Schwarz ، 2014). ، اخترنا بدلاً من ذلك تقييم القيمة الإثباتية لـ أدلة النسخ كما قدمها لي وشوارتز. هناك عدد قليل جدًا من المضاعفات لتأثيرات التطهير (مع نجاح أقلية فقط). نظرًا لكونهما من الخبراء الرائدين في مجالهم ، فقد أبلغ لي وشوارتز عن جميع الناجحين أو اختارا تقديم مجموعة فرعية اعتقدنا أنها ستكون الأفضل.

ربما توجد دراسات استنساخ أخرى بأدلة ضعيفة أو تصميمات إشكالية. ربما هناك المزيد من التكرارات الفاشلة. لا نعرف لأننا لم نتلق البيانات من المؤلفين وقمنا ببساطة بتحليل "رؤاهم النوعية" (التواصل مع المؤلفين الأصليين ، 2020). من ناحية أخرى ، هذا يجعلها طريقة غير قياسية لتجميع الأدلة. لكن من ناحية أخرى ، نعتبرها طريقة فولاذية لتقييم مزايا الأدلة فقط وراء الدراسات التي اختارها لي وشوارتز نفسيهما كأمثلة بارزة للأدب لدعم الافتراض الحيوي المساعد لنظريتهم - ومع ذلك ، فإننا نتفق تمامًا على أننا توصلنا إلى استنتاج حول الدليل على قابلية تكرار تأثيرات التطهير بناءً على مجموعة فرعية صغيرة (صغيرة نوعًا ما) من الأدبيات ذات الصلة. نحن نعتبر أنه من البديهي أنه إذا كان هدف الاستدلال دليلًا على قابلية التكرار ، فيجب استبعاد الدراسات الأصلية. لماذا لم نبحث عن كل المضاعفات التي أجريت؟ لأن الهدف من استنتاجنا كان دليلًا مكررًا قدمه لي وشوارتز على هذا النحو ولأن نسبة كبيرة من الدراسات لم تكن جزءًا من السجل العام. من الواضح أنه لا يوجد سوى عدد قليل من الدراسات التي تهدف إلى تكرار تجربة على تأثيرات التطهير ، والدراسات الوحيدة التي بدت ناجحة كانت ضعيفة للغاية ..

شرح 2.

زعم لي وشوارتز أننا لم نتبع أفضل الممارسات لأننا (1) لم نقم بتجميع ملف p-جدول إفصاح منحنى ولأننا (2) لم نعيد حساب p- القيم التي تمثل مدخلات p-منحنى. الادعاء الأول خاطئ ببساطة. ومع ذلك ، فإن هذه النقطة تنتقص من نقطة الخلاف الرئيسية. الهدف من جدول الإفصاح هو تحديد التأثير المستهدف في دراسة للتأكد من أن التأثير المركب كان هو التأثير المحوري للدراسة. في هذه الحالة ، كان لي وشوارتز ، وليس نحن ، هم الذين حددوا التأثيرات البؤرية في مقالتهم المستهدفة. نحن فقط اتبعنا تقدمهم. لكل تأثير فردي ، يحدد جدولنا الورقة بوضوح ويدرسها ، ويقتبس سلسلة النص حيث يتم الإبلاغ عن التأثير في النص ، وحجم التأثير ، والإبلاغ عنه p-القيمة، N للاختبار المعطى ، واستنتاج المؤلف سواء تم العثور على التأثير أم لا. قمنا أيضًا بترميز العديد من البيانات الأخرى حول خصائص القياس للقياس التابع.

فيما يتعلق بالاعتراض الثاني ، هذا خلاف أكثر إثارة للاهتمام. بالطبع ، نحن نفهم أهمية إعادة حساب أحجام التأثير أو إحصائيات الاختبار لأي توليفة أدلة عادية أخرى قمنا به في مكان آخر. كان الامتناع عن إعادة حساب النتائج المحورية للدراسات المدرجة من قبل لي وشوارتز ، وأخذ الأدلة المبلغ عنها في ظاهرها ، مع ذلك ، اختيارًا واعيًا. كان هناك سببان لذلك. كما ذكرنا صراحة ، كان هدفنا في هذا التحليل المحدد للغاية هو تقييم مزايا أ مجموعة محدودة من الأدلة التجريبية ، كما استخدمها لي وشوارتز لدعم نظريتهم المقترحة. لم يكن هناك هدف للاستدلال وراء تلك المجموعة المحدودة أو تقدير بعض حجم التأثير الأساسي الحقيقي. في مثل هذه الحالة ، من المنطقي اتخاذ الأدلة ذات الصلة كما هي.

أولاً وقبل كل شيء ، لا يتم توجيه عملية الاختيار المنحاز من خلال إعادة الحساب p-القيم. ثانيًا ، قلة من الممارسين أو أفراد الجمهور يعيدون الحساب p- القيم عند قراءة نتائج الدراسة وتعديل قراءتها وفقًا لذلك. لذا لا يتخذ سوى عدد قليل من الزملاء قرارات بشأن الفرضيات التي يجب اتباعها بعد ذلك أو إنشاء النظريات (تمامًا مثل تلك المتعلقة بـ "الإجراءات الأساسية"). في مقالهما المستهدف ، بدا لي وشوارتز أنهما لا يشكلان استثناءً (لكننا نقرأ الآن ردهما التعقيبي ، نتساءل أحيانًا عما إذا كانت المقالة المستهدفة والردود التعقيبية قد كتبت بواسطة مجموعة مختلفة من الأشخاص). 

علاوة على ذلك ، فإن نسبة كبيرة من التأثيرات المهمة التي قدمها كل من لي وشوارتز (في المقالة المستهدفة) وكذلك مؤلفو النسخ المتماثل - على أنها مكررات ناجحة ، أصبحت غير مهمة بعد إعادة الحساب. من المحتمل أن لي وشوارتز لم يعتبرا التناقض بين مقالتهما وإعادة الحساب مهمًا بما يكفي لتبرير الإشارة في ردهما. لذا ، فإن التفسير المأخوذ من المقالة المستهدفة بأن هذه التأثيرات هي دليل لصالح إمكانية تكرار تأثيرات التطهير يظل بلا منازع وقد يستمر في تضليل القراء. ما توضحه هذه العملية هو أحد أعراض مشكلة شائعة جدًا - سلسلة اشتقاق فضفاضة من المقدمات النظرية ، إلى إنشاء مثيل إحصائي لهذه المقدمات ، إلى الاستدلالات الموضوعية. في مثل هذه الحالات ، يمكن استخدام نفس الدليل كأداة بلاغية لدعم المواقف المعاكسة تمامًا.

علاوة على ذلك ، يتطلب أي تجميع للأدلة وجود معلومات أساسية على الأقل تتعلق بتصميم الدراسة والنهج التحليلي. في هذه الحالة ، جاء نصف التأثيرات التي تم تكرارها بنجاح من دراسات غير منشورة مع عدم توفر ورقة تجريبية كاملة. إعادة حساب p-تتطلب القيم قفزة في الثقة لأن المعلومات المهمة غالبًا ما تكون مفقودة. على سبيل المثال ، قد لا يفترض مؤلفو النسخ المتماثل تباينات مجموعة متساوية في ملف t-test (مثل تفترض إعادة الحساب) وبدلاً من الإبلاغ عن df بالنسبة لاختبار ويلش (ليس عددًا صحيحًا) ، فقد أبلغوا للتو N - 2 مثل df. قد لا يكون حجم العينة التحليلية مساويًا ، على سبيل المثال ، df + 2 في عينتين t-امتحان. قد يكون مؤلفو النسخ قد استبعدوا بعض المشاركين لأسباب مشروعة.

افترض لي وشوارتز أيضًا عدم وجود تأثير لتقريب إحصائيات الاختبار على p-القيمة من خلال إعادة حسابها. يفترضون كذلك أن القيمة ثنائية الذيل كانت دائمًا الترجمة الإحصائية المناسبة للفرضية الموضوعية. في بعض الحالات ، لم يكن من الواضح ما هو النموذج الإحصائي الدقيق الذي استخدموه وما إذا كان نموذجًا حدوديًا على الإطلاق. أخيرًا ، كما هو واضح من p-منحنى ، لم يكن استنتاجنا متوقفًا على قرار إعادة حساب p-القيم. وبالتحديد ، كنا سنصل إلى دقيق نفس الاستنتاج حتى لو أعدنا حساب p- القيم - عدم وجود أدلة قوية لإمكانية تكرار تأثيرات التطهير.

نعتقد أنه من العدل أن أعطينا مؤلفي دراسات النسخ المتماثل (ولي وشوارتز) فائدة الشك وأخذ النتائج المبلغ عنها للاختبارات الاستنتاجية في ظاهرها. لذلك ، إذا كان بالضبط p- كانت القيمة متاحة ، بالاتفاق مع استنتاجات المؤلفين على مستوى ألفا المحدد ، وبالتوافق مع الاستدلال الجوهري الذي قدمه لي وشوارتز (بصفتهما خبراء رائدين في هذا المجال) في مقالتهم المستهدفة ، أخذناها في ظاهرها. تمامًا مثل سلامة هذا التكرار نفسه.

شرح 3

كل ما نوقش أعلاه يبلغ ذروته في شرحنا النهائي - النقد الذي قمنا بتضمينه p- القيم التي يجب استبعادها واستبعادها p- القيم التي يجب تضمينها. على الرغم من البلاغة الواضحة لنقد لي وشوارتز ، فقد اعتقدنا أنه قد يكون من المفيد للقارئ أن يرى عرضًا شفافًا وأكثر تفصيلاً للتغييرات التي تم إجراؤها على مجموعة p-قيم بواسطة L&S.

  1. Arbesfeld et al. (2014) و Besman et al (2013) اختبر كلاهما فرضية اتجاهية وجدوا دعمًا لها (p = .030 و. 039). يزعمون أن التأثير تكرر. وكذلك الحال بالنسبة لي وشوارتز. ومع ذلك ، عن طريق إعادة حساب p-value ، تجاهل Lee و Schwarz بشكل فعال حقيقة أن مؤلفي النسخ المتماثل اعتبروا الاختبار أحادي الطرف بمثابة تجسيد مناسب للفرضية الموضوعية. نظرًا لأن عملية اختيار التحيز تعمل على مستوى ألفا مختلف لفرضيات الاتجاه ، فإن تطبيق نموذج الاختيار يجب ألا يفرض عتبة نشر غير ذات صلة. في هذه الحالة ، من خلال فرض اختبار ثنائي الذيل ، فإن هذه التأثيرات تتلاشى من p- مجموعة منحنى ، لأن هذه الطريقة تتضمن فقط تأثيرات مهمة. بالطبع ، توجد أحيانًا مشكلات في استخدام الاختبارات أحادية الطرف بشكل عام وفي p- منحنى على وجه الخصوص وتشمل هذه التحيز العام نحو قيمة الدليل والكثافة المختلفة في الجزء العلوي من p- توزيع القيمة في ظل الفرضية البديلة التي لا علاقة لها بهذا السياق ، ويمكن للمرء أن يناقش كيفية التعامل معها. ولكن الأهم من ذلك ، أن Lee و Schwarz لم يجدا أنه من الجدير بالملاحظة بشكل كافٍ إخطار القارئ بالفصل بين ما تم ادعاءه في المقالة المستهدفة ("تم نسخه بنجاح") والآثار المترتبة على إعادة تحليلهما ("توقف هذين التأثيرين عن كونهما تكرارًا ناجحًا" ").
  2. Marotta and Bohner (2013) ليس جزءًا من السجل العام. يتم الإعلان عن النتيجة فقط في العديد من أوراق المؤلف الرئيسي (سبايك لي). في ورقة NHB Lee and Schwarz (2018) ، أفادوا بأن هذا التأثير مرتبط بـ p = .054. في الجدول الحالي ، أعيد حسابها p- القيمة تساوي 0575. ومع ذلك ، في التحليل التلوي المصغر لعام 2018 وكذلك في بعض الأوراق الأخرى (Dong & Lee ، 2017 ؛ Schwarz & Lee ، 2018) ، تم النص صراحةً على أن النتيجة تكرر النتيجة الأصلية. نظرًا لأنه لم يكن واضحًا وحقيقة أن .054 و ، على سبيل المثال ، .04999999 هما نفس التأثير إحصائيًا (Gelman & Stern ، 2006) ، فقد طبقنا مرة أخرى مبدأ فائدة الشك واعتبرناه تأثيرًا مهمًا . وبالتحديد ، فإن الاستدلال الموضوعي هو الذي يهم عمليًا أكثر من الاختلافات الصغيرة في المكان العشري الثالث. بغض النظر عما إذا كان القارئ يرى أن هذا القرار مدعوم أم لا ، فمن المؤسف أن يدعي لي وشوارتز تكرارًا ناجحًا عندما يناسبهما.
  3. بالنسبة لدراسة De los Reyes (2012) ، قاموا بتركيب التأثير الخاطئ (F(1 ، 44) = 5.77 ، p = .021 ؛ الصفحة 5) بينما في الواقع ، يتم الإبلاغ عن نتائج دراسة النسخ على p. 4 ، القسم "استنساخ Lee and Schwarz's (2010) Clean Slate Effects" حيث يكون تأثير التفاعل (التوهين) التالي (F(1,46،4.14) = XNUMX) يجب أن يتم اختيارها. الأول كان الاعتدال بواسطة متغير الفروق الفردي ، والأخير هو التكرار الظاهري. ومع ذلك ، يرتبط تأثير النسخ البؤري هذا بتأثير أعلى من ذلك بكثير p-قيمة .048.
  4. ومع ذلك ، كان التغيير النهائي للعبة هو إدراج البيانات غير المتاحة للجمهور من ملصق مؤتمر آخر (Moscatiello & Nagel ، 2014). مرة أخرى ، كان الهدف من استدلالنا هو المعلومات المتاحة للجمهور ، وبالتالي لم نقم بتضمينها. ومع ذلك ، دعونا نلقي نظرة على هذه التجارب بمزيد من التفصيل. أولاً ، في مقالتهم المستهدفة ، اعتبروا التجربة 2 فقط كنسخة مفاهيمية. وبالتالي ، لا ينبغي تضمين التجربة 1. ومع ذلك ، فقد شملوا كلاً من التجربة 1 و 2 (حيث لم يكن من الواضح حتى ما إذا كانت العينات مستقلة) ، والتي أسفرت عن 4 p- القيم (.0061 ، .3613 ، .0036 ، و .0006).

بالنظر إلى أن كل هؤلاء p- استندت القيم إلى N = 10 لكل تصميم خلية ، يجب أن تكون أحجام التأثير كبيرة نسبيًا بالنسبة للتأثيرات الثلاثة المهمة ، مع ما يعادل d يساوي 1.55 و 1.49 و 1.84 (نفترض تصميمًا بين الموضوعات). كملاحظة إضافية ، فإن الأخيرين هما التأثير الرئيسي لتفاعل الانعكاس البؤري 2 × 2 مع حجم تأثير كبير لدرجة أنه لا يمكن تصديقه ، d = 1.66 (نp2 = .434). نترك الأمر للقارئ في كيفية الحكم على مزايا هذه الدراسة واحتمال ملاحظة 3 أحجام تأثير كبيرة غير مألوفة باستخدام N = 10 لكل خلية في مجال البحث هذا.

قبل نشر منشور المدونة الخاص بنا ، أعطينا لي وشوارتز 1.5 أسبوعًا لمعالجة مخاوفنا. بعد النشر ، قاموا بنشر رد على PsyArxiv (متاح هنا وفي التعليقات أدناه). نعتقد أنه في هذه المرحلة ، لدى القارئ معلومات كافية للحكم على قابلية تكرار تأثيرات التطهير ولن نكتب أي رد آخر. نلاحظ فقط أن Lee و Schwarz استنتجوا مرتين أنهما لا يفكران في Arbesfeld et al. (2014) ، بيسمان وآخرون. (2013) ، و Marotta and Bohner (2013) مهمين ، بينما اعتبروهما تكرارات ناجحة في مقال هدف BBS. نعتقد أن هذا على الأقل يتطلب تصحيحًا لمقال BBS الخاص بهم ، حيث لم يعد لي وشوارتز يعتبرانهما تكرارات ناجحة.

XNUMX تعليق على "لا تزال تأثيرات التطهير تفتقر إلى الدعم التجريبي: الرد على رد لي وشوارتز"

اترك تعليق

يستخدم هذا الموقع نظام Akismet لتقليل الرسائل الضارة. تعرف كيف تتم معالجة بيانات تعليقك.

%d المدونين مثل هذا: