top of page
חיפוש

בדיקת השערות

  • meirbochner
  • 1 בפבר׳ 2021
  • זמן קריאה 8 דקות

"אבטליון אומר, חכמים הזהרו בדבריכם הרעים, שמא תחובו חובת גלות ותגלו למקום מים הרעים, וישתו התלמידים הבאים אחריכם וימותו, ונמצא שם שמיים מתחלל" - מסכת אבות סדר נזיקין.

"לדעת שאנחנו יודעים מה שאנחנו יודעים, ולדעת שאנחנו לא יודעים מה שאנחנו לא יודעים – זהו הידע האמיתי" - ניקולאוס קופרניקוס.

"אפשר לתאר הכל בצורה מדעית, אבל אין בכך היגיון – יהיה זה חסר משמעות, כמו לתאר סימפוניה של בטהובן כשינויים בלחץ האוויר" - אלברט איינשטיין.

"החוכמה האמיתית והיחידה היא לדעת שאתה לא יודע...טיפשות היא לאדם לחשוב שהוא יודע את אשר אינו יודע" - מתוך "ההתנצלות" סוקרטס.



בעיית ההשוואות המרובות (Multiple Comparisons Problem)


הפעם אנסה לעלות נושא מעט מורכב, אך בעל חשיבות רבה לכל מי שעוסק במדע ובידע מתחדש במיוחד

במדעי החברה: " בדיקת השערות בכלל והסכנה בבדיקת השערות מרובות בפרט". כמעט כל תחומי המדע המודרני מבוססים על בדיקת השערות בניסויים או בתצפיות, בהתבסס על מדגם מקרי.

בתחום הסטטיסטי של בדיקת השערות פותחו כללים לקבל או לדחות השערה מדעית, באמצעות עימותה עם השערה שמרנית המכונה "השערת האפס".

נושא זה הינו בעל חשיבות לכותבי חוות דעת, המסתמכים על מערכת אבחונים מרובת ציונים ומפרשים על פי ההפרשים שבניהם. כידוע לכל מאבחן (פסיכולוגים ומאבחנים דידקטיים) הגדרת הכשל בתפקוד הנבדק, נקבעת על סמך תהליך שבו ניתנות לנבדק משימות רבות, שהישגיו בהן משווים לממוצע האוכלוסייה הנורמטיבית. ההנחה היא כי קיום פער בין הישגים שונים לבין ממוצע האוכלוסייה מאפשר קביעת כשל ו/או לקות. גישה זו מניחה כי למגוון האבחונים המוצג לנבדק, תקפות מדעית (כלומר הוא מייצג את המהות הנבדקת - לקות למידה, הפרעת קשב, מבנה אישיותי) מחד וכי הבדלים בין ציונים אינם מקריים מאידך. לשתי הנחות אלו חולשות:

כדי להגיע לממצאים מדעיים, על החוקר לעלות השערה תיאורטית, ולבדוק אותה באופן אמפירי, כלומר לוודא כי במציאות מרבית בני האדם מתנהגים על פי ההשערה. מאחר וקשה מאד למדוד את כלל האוכלוסייה (שכן זו רשימת נבדקים אין סופית) החוקר יכול לבדוק רק מדגם קטן ,ובתנאי שיהיה מייצג, של אותה אוכלוסייה, כמובן שמדגם זה יכול להיות שגוי, או לא מייצג וזו כבר סכנה בפני עצמה .

השיטה שבה אנו מבצעים בדיקת השערות הוצעה ע"י פישר, סטטיסטיקאי אנגלי, בסביבות 1920. לפי השיטה, על החוקר לדגום מדגם ולבצע עליו מניפולציה כלשהי (למשל כמות קריאת מילים בדקה). נקודת המוצא של השיטה היא שקיימת אוכלוסיה "רגילה" בעלת פרמטרים מסוימים שמתוכה נלקח המדגם ולפיה נקבע הממוצע. זוהי השערת האפס.

הרעיון שעומד מאחורי השיטה מניח מראש את נכונות השערת האפס, ולמעשה בודק מה הסיכוי לקבלת ממוצע מדגם כפי שקיבלנו באופן מקרי תחת הנחת נכונות השערת האפס. אך אם ממוצע המדגם שלנו קיצוני מספיק – דהיינו נמצא לפחות בין-5% המקרים הקיצוניים ביותר בהתפלגות, אזי נוכל לטעון שככל הנראה מדובר במדגם הלקוח מאוכלוסייה אחרת.

הערך P נועד לכמת את רעיון המובהקות הסטטיסטית של תוצאות נצפות מנתוני מדגם. הרעיון המרכזי הוא להראות עד כמה התוצאות שהתקבלו על סמך המדגם שנאסף הינן סבירות או לא סבירות תחת השערת האפס (שכאמור טוענת שאין כל הבדל), כלומר ערך ה P מייצג את ההסתברות לקבל את התוצאה שהתקבלה במחקר או קיצונית ממנה כתוצאת אמת.

נסכם - בסטטיסטיקה בדיקת השערות הוא תהליך המשתמש בנתוני המדגם (המייצג) כדי להחליט האם לקבל או לדחות את ההשערה הנבדקת. בבדיקה מנסים להכריע בין שתי השערות: השערת האפס (H0) שהיא למעשה ההנחה השמרנית, הטוענת כי אין כל הבדל באוכלוסייה (כולם קוראים באותו הקצב) וההשערה הנבדקת (1H) האלטרנטיבית, המאשרת או מגדירה את קיום התופעה הנבדקת (זהו ההבדל אותו רוצים להוכיח) כמובן ברמת מובהקות ידועה (כלומר שההבדל אינו מקרי).

הליך בדיקת השערות זה, מספק אם כן שתי תוצאות אפשריות: דחיית או קבלת השערת האפס (0H), ומכאן נובעות גם שתי שגיאות אפשריות:

א. שגיאה מסוג I: דחיית השערת האפס, כאשר היא למעשה נכונה.

ב. שגיאה מסוג II : אי דחיית השערת האפס כאשר היא למעשה איננה נכונה.

להלן מספר קשיים העולים במחקר על בני אדם:

א. בידוד משתנים - במדעי החברה, בה הנבדקים הם בני אדם (ולא אובייקטים), ולכן לא ניתן לבודדם (מסיבה אתית מחד ומסיבת טכניות מאידך) לצורך המחקר ממשתנים משפיעים שונים, יש קושי להוכיח הבדל בין נבדקים שונים לגבי אותה התופעה (למשל לא ניתן לבודד ילדים כדי לחקור כיצד הם מגיבים להעדר הורה, או לבודד נחקר מניסיון חייו, מהסביבה בה הוא חי, או מהצורך שלו להצליח, או לבודד את קצב הקריאה ממצבו רגשי, מהידע הקודם שלו וכו').

ב. הניסוח - במדעי החברה אין "הוכחות" יש רק אפשרות לדחייה או לתמיכה בהשערה. למדנו מפילוסוף המדע קרל פופר (אבי תורת ההפרכה) כי במדעי החברה תיאוריות לעולם אינן מוכחות, אלא ניתנות רק לאישוש (לחיזוק). למשל אם נניח לצורך מחקר כי כל הברבורים לבנים, ונשלח קבוצות חוקרים לכל רחבי העולם לצלם ברבורים, וכולם ישובו עם צילומי ברבורים לבנים, האם זה מוכיח את ההשערה? כמובן שלא, שכן ייתכן כי במשלחת הבאה יימצא ברבור שחור. לדבריו "המדענים מחפשים תיאוריות בעלות עוצמה ולא בעלות סבירות, מבקשים לאשש ולא לאמת" .

ג. המדגם - במדגם קטן מאד סביר שלא יימצאו הבדלים מובהקים, אך הוא גם לא ייצג טוב את ממוצע האוכלוסייה, במדגם גדול מאד סביר כי תמיד יימצאו הבדלים מובהקים, רק מכורח המספר וטבע השונות בין בני האדם. בנוסף בבוא החוקר לקבוע מהו המדגם המייצג, עליו להחליט: מייצג את מי ואת מה? (למשל מהירות קריאה בכיתות ג' – באיזה משלב שפתי הטקסט ובאיזה רמת אוריינות נמצאים התלמידים מאידך).

ד. מובהקות מול משמעות– גם הבדלים מובהקים סטטיסטית יתכן שהם מקריים ואינם תמיד משמעותיים, ולכן לא תמיד מאפשרים דחיית השערת האפס (יתכן שהבדל משמעותי סטטיסטית יהיה נוכח בקרב חלק נכבד מהאוכלוסייה, ואז אינו מייצג דבר, למשל גובה 173 לעומת 185 הינו הבדל מובהק, אך אינו בעל משמעות לאדם) התוצאה יכולה להיות שחברת תרופות עלולה להיאחז בתוצאה מובהקת של ניסוי קליני כדי להחליט על המשך הפיתוח של תרופה חסרת תועלת ולבזבז מאות מיליוני דולרים.

לדוגמה הבה נניח כי חוקר בדק הבדלי משכל בין שתי קבוצות (נשים גברים, מעמד סוציואקונומי וכו') ומצא הבדל של 6 נקודות (קבוצה א' 103 IQ קבוצה ב' 97 IQ) המהווה הבדל משמעותי סטטיסטית, אך האם יש לכך משמעות מעשית כלשהי?.

ה. תחום הביטחון - p -value (Probability that the result is due to chance) מאחר ולא ניתן להגיע לביטחון מוחלט באשר לאמיתות הפער שהושג, נקבע תחום ביטחון שרק תוצאה שבתוכו תחשב כמייצגת. תחום זה נקבע שרירותית ע"י החוקר עצמו ומקובל שינוע בין 0.5 – 0.1 כלומר המקלים מאפשרים 5% סיכוי לטעות ואילו המקשים מאפשרים רק 1% סיכוי לטעות. כלומר עדין בכל בדיקה ישנו סיכוי לטעות. החסם המקובל לרמת המובהקות הינו של 5% והמשמעות לכך היא כשמקצים רמת מובהקות (קביעת אזורי קבלה או דחייה של HO) שבוודאות ב 5% נבצע טעות. (כלומר אם נבצע 100 השוואות בטוח כי 5 מהן תהיינה שגויות). על פי וסרשטיין ( The American Statistician):

“The p-value was never intended to be a substitute for scientific reasoning" "ה-p-value - מעולם לא נועד להיות תחליף לחשיבה מדעית".


מצב מורכב בהרבה מבחינה סטטיסטית הינו מחקר של השוואות מרובות (MPC). בסטטיסטיקה בעיית ההשוואות המרובות מתרחשת כאשר מבצעים מספר היסקים סטטיסטיים במקביל, או כשאומדים במקביל קבוצת פרמטרים על בסיס נתונים מתצפיות. בביצוע מספר רב של בדיקות קיים סיכוי גדל והולך להגיע למסקנה שגויה באחת מהן לפחות. למשל, אומדן רווחי סמך רבים מגדילה את הסיכוי שאחד מהם לא יכיל את הפרמטר שהוא נועד להכיל. או שבביצוע בדיקת השערות מרובות, יגדל משמעותית הסיכוי שלפחות אחת ההשוואות תידחה את השערת האפס למרות היותה נכונה (מה שידוע כטעות מסוג I).

השיטות המסורתיות של בדיקת השערות אינן מספקות כאשר יש צורך בבדיקת השערות מרובות.למשל, נניח שבעת ביצוע מחקר בגנטיקה מעוניינים לבדוק את ההשפעה של 10,000 גניםולשם כך דוגמים אלפי פרטים מן האוכלוסייה ומודדים את ההשפעה של 10,000 הגנים בכל אחד מהם, כך שיש לבדוק 10,000 השערות: לכל גן נבדקת השערת האפס שאין לו השפעה לעומת ההשערה שיש לו השפעה. רמת מובהקות של 0.05 נראית שמרנית דיה לבדיקת השערה יחידה, אך אם תאומץ לבדיקת כל אחת מ-10,000 ההשערות יש לצפות שאפילו אם אין לאף גן השפעה כלשהי, תתקבלנה בממוצע 0.05*10,000=500 תגליות שגויות של גנים שהם כביכול בעלי השפעה "מובהקת סטטיסטית". מכאן עולה הצורך במבחן סטטיסטי מתוקן להשוואות מרובות.

תיקון כזה הוצע ע"י חוקרים ישראליים (בנימיני והוכברג 1995) והוא נקרא "שעור התגליות השגויות" False Discovery Rate)) שיטתם הוצעה כבר ב-1989 אך בתחילה נתקלה בהתנגדות, עד שב-1995 מאמרם התקבל בכתב העת Journal of the Royal Statistical Society, ומאז דורג בין 25 המאמרים המצוטטים ביותר בסטטיסטיקה. יש לציין כי בנימיני זכה בפרס ישראל לשנת 2012 בעיקר עקב תגליותיו בנושא זה.


ראוי לזכור כי מרבית הדוחות הפסיכולוגיים שאנו כותבים, מנותחים על בסיס השוואות מרובות (במיוחד דוחות פסיכו/דידקטיים), ומכאן שרבה הסכנה בזיהוי או איתור שגוי של בעייה.

בני אדם אינם ישרים כסרגל מבחינת כלל כישוריהם, ולכל אדם פרופיל יכולות וכשרים (או אישיות) משלו (כלומר לכל אדם דפוס פרטי של רמות כישורים, שלעיתים נעים בסביבות הממוצע ולעיתים חלק מהם מתרחק מהממוצע), פרופיל זה מחייב מעצם קיומו הפרשים טבעיים בין הישגים שונים וקשה ליצור מהם הגדרות מחייבות לכשלים או לקויות. אם נשווה בין 4 כישורים שונים ייתכן שלא נמצא הפרשים משמעותיים, אך אם נשווה בין 40 כישורים ללא ספק נמצא בחלק מהם הבדלים. כלומר ככל שגדל מספר ההשוואות הנערכות, גדל הסיכוי למצוא פער בין כמה ציונים, פער מובהק אומנם אך אינו בעל משמעות מדעית. ומכאן שקשה יהיה להתבסס עליו כהסבר ללקות ו/או לכשל. הניסיונות שאנו מרבים לבצע, להתייחס לפערים שונים ברמת הנראות שלהם (Face Validity) על פי אמות מידה התנהגותיות, אינו מדעי מספיק, ועלול אף ליצור תסמונות מפוברקות (Feck Syndrome), שכן באבחון תסמונות כמו לקות למידה, הפרעת קשב, ASD או אף משכל, אנו מתבססים על מודל היפותטי (Hypothetical Construct) החסר מחולל מוכח, כזה הניתן למדידה אובייקטיבית (יש או אין), מודל שלא תמיד מבוסס ולא תמיד אף מובן. תפקיד הבוחן לכן הוא להבין את משמעות המודל, לדעת מה ההנחות העומדות בבסיסו ומהן מגבלותיו וכן מהן מגבלות יכולת ההערכה שלנו. מכאן שיש צורך להזהר מאד בבואנו להגדיר רמת כשר, או להגדיר כשל/לקות על סמך מערך אבחוני המתבסס על הסתברות ובמיוחד על עריכת השוואת מרובות. מוטב שנשתמש במושגי האישוש בלבד ולא בהגדרה דיכוטומית (יש/אין לקות).

ראו אלמגור (2004) : "כלל נוסף מחייב את כותב חוות הדעת לנסח את חוות הדעת ואת מסקנותיו באופן הסתברותי ולהימנע מכתיבה חד משמעית ("ניתן להניח", "קרוב לוודאי", "יש אפשרות", וכו')".


לסיכום - כפראפרזה לאבטליון : בודקים הזהרו במסקנותיכם


Why multiple comparisons are a problem:

In classical hypothesis testing, the “alpha level” describes how willing the researcher is to make a certain kind of mistake — a so-called Type I error. A Type I error occurs when a researcher falsely concludes that an observed difference is “real,” when in fact there is no difference. In many social science applications, the alpha level, or Type I error rate, is set to 0.05. This means that the researcher is willing to commit a Type I error 5% of the time.


הנושא כה חשוב עד כי נערכים כנסים מדעיים העוסקים בכך, למשל:

10th International Conference on Multiple Comparisons Procedures 23/6/17 Riverside California USA


דוגמה להמחשה למסתקרנים (מתוך וויקיפדיה) : נניח שאנו רוצים לבדוק אם מטבע הוא הוגן (השערת האפס היא שהוא הוגן), כלומר אם הסיכוי לקבלת "עץ" שווה לסיכוי לקבלת "פלי" (סיכוי של 0.5 לכל אחד). ניתן להחליט שאם ב-10 הטלות המטבע מקבל 9 פעמים "עץ" ופעם אחת "פלי" (או להפך - 9 "פלי" ו-1 "עץ") אז נסיק שהמטבע אינו הוגן, כיוון שההסתברות שדבר כזה יקרה אם מדובר במטבע הוגן היא: (10 + 1) ‏× ‏10‏ (1/2)‏ x‏ 2 = 0.0215, כלומר סיכוי של כ-2% בלבד. סיכוי של כ-2% הוא נמוך למדי, ואם הקריטריון שלנו לדחיית השערת האפס הוא p-value < 0.05, אז במצב זה נדחה את השערת האפס ונסיק שהמטבע לא הוגן.

בעיית ההשוואות המרובות מתעוררת כאשר אנו רוצים לבדוק לא את ההוגנות של מטבע בודד, אלא את ההוגנות של מטבעות רבים. נניח למשל שהיינו בוחנים 100 מטבעות שהם באמת הוגנים, לפי שיטה זו; אמנם הסיכוי של מטבע בודד להימצא לא-הוגן הוא עדיין כ-2% בלבד, אבל הסיכוי שלפחות אחד מהם יימצא לא-הוגן (על אף שכאמור כולם הוגנים) הוא כמעט 90%! (ליתר דיוק הסיכוי במקרה זה הוא: (‏100‏‏0.0215 ‏− ‏1 )‏ − ‏ 1 ≈ 88.6% ). במילים אחרות, כלל ההחלטה שלנו (להחליט שהמטבע לא הוגן אם יצאו 9 או 10 פעמים אותה תוצאה מתוך 10 הטלות) שהיה מוצלח עבור ניסוי בודד, מתברר כבעייתי עבור 100 ניסויים שכן במצב זה דווקא רוב הגדול של הסיכויים שנבצע טעות ונקבע שמטבע הוא לא-הוגן למרות היותו הוגן.

נניח שהניסוי רוצה לבדוק שיטה חדשה ללימוד כתיבה: קבוצה אחת של תלמידים תלמד בשיטה החדשה, וקבוצת הבקרה תלמד בשיטה המסורתית ללימוד כתיבה.

ניתן להשוות בין שתי הקבוצות במגוון פרמטרים: דקדוק, איות, סדר, תוכן, אוצר מילים ועוד. אם הסיכוי לכך שנסיק שהשיטה החדשה טובה יותר על אף שבאמת אין הבדל ביניהן לגבי פרמטר מסוים הוא רק 5%, אז בהינתן למשל 5 פרמטרים שנבדקים הסיכוי שנגיע למסקנה שגויה שהשיטה החדשה טובה יותר בפרמטר אחד לפחות מגיעה כבר ל-22.6% - סיכוי לא מבוטל בכלל. בהינתן 10 פרמטרים שנבדקים ומושווים בין הקבוצות, הסיכוי מגיע כבר ל-40.1%.


לעיון:

אלמגור . מ (2004) כללים לכתיבת חוות דעת מקצועית הוצ' אוניברסיטת חיפה.

נבו ב (1981) מבחנים וציונים במערכת החינוך הוצ' אונ' חיפה

ברטלי ו.ו (1979) הפילוסופיה של המדע במבט לאחור מחשבות 48 דצמבר.

וויקיפדיה (2018) השוואות מרובות

לוי י (2018) סטטיסטיקה רעה: פרשנות לא נכונה של ה p-value ואי הבחנה בין תוצאות מובהקות לתוצאות משמעותיות באתר "נסיכת המדעים".

פופר.ק (1963) מדע השערות והפרכות מתוך מדע המדינה לגווניו הוצא' האונ' הפתוחה

עורך זיסר (תרגום ירון).

פופר. ק (1959) הלוגיקה של הגילוי המדעי

קרוי. מ (1973) ארעיותה של הידיעה מחשבות 38


Benjamini Y & Hochberg Y (1995) Controlling the False Discovery Rate: A Practical and Powerful Approach to Multiple Testing. Journal of Statistical Society Vol 57 No 1

Copppock A (2017) 10 Things to Know About Multiple Comparisons internet EGAP

Goldman. M (2008) Why is multiple testing a problem? Course in Berkeley Edu

Wasserstein R Lazar N (2016) The ASA Statement on p- Values: Context, Process, and Purpose Journal of The American Statistician issue 2


מאיר בוכנר





 
 
 

פוסטים אחרונים

הצג הכול
חרדות ילדות ומחלות נפש

חרדה אצל ילדים ומתבגרים עלולה להוביל לפסיכוזה של צעירים בוגרים הפרעות פסיכוטיות הן קבוצת הפרעות הכוללות מצבים פסיכוטיים ממושכים או קצרי...

 
 
 

Comments


bottom of page