مقدمه ای برای متغیرهای پاسخ باینری

ساخت وبلاگ

در این درس ما با متغیرهای نتیجه باینری کار خواهیم کرد. یعنی متغیرهایی که می توانند یکی از دو مقدار ممکن را بگیرند. به عنوان مثال ، اینها می توانند 0 دلار یا 1 دلار ، "موفقیت" یا "عدم موفقیت" یا "بله" یا "نه" باشند.

احتمالات و انتظار

با تجزیه و تحلیل داده های باینری ، می توان احتمالات موفقیت و عدم موفقیت را تخمین زد. به عنوان مثال ، اگر افراد بین 55 تا 66 سال را در نظر بگیریم ، ممکن است به این احتمال علاقه مند شویم که افرادی که زمانی سیگار کشیده اند ، هنوز در طول مطالعه NHANES در حال سیگار کشیدن هستند.

احتمال موفقیت با نسبت افرادی که هنوز سیگار می کشند تخمین زده می شود. به طور مشابه ، احتمال شکست با نسبت افرادی که دیگر سیگار نمی کشند تخمین زده می شود. در این زمینه ، ما فردی را در نظر می گیریم که هنوز سیگار می کشد "موفقیت" و فردی که دیگر سیگار نمی کشد "شکست" است.

ما این مقادیر را در RSTUDIO از طریق چهار عمل محاسبه می کنیم:

  1. از بین بردن ردیف های خالی با drop_na () ؛
  2. زیرمجموعه افراد در سن مناسب با استفاده از فیلتر () ؛
  3. شمارش تعداد افراد در هر یک از دو سطح Smokenow با استفاده از COUNT () ؛
  4. محاسبه نسبت ها با تقسیم تعداد به تعداد کل مشاهدات غیر NA با استفاده از جهش ().
داده %>% drop_na(سر و صدا) %>% # هیچ ردیف خالی در سن وجود ندارد # بنابراین ما فقط از drop_na در smokenow استفاده می کنیم فیلتر کردن(بین(سن, 55, 66)) %>% شمردن(سر و صدا, نام = "ن") %>% جهش دادن(غرفه = n/جمع(n)) 
 Smokenow n prop 1 no 359 0. 6232639 2 بله 217 0. 3767361 

ما می بینیم که احتمال موفقیت 0. 38 دلار تخمین زده می شود و احتمال خرابی 0. 62 دلار تخمین زده می شود. در نماد ریاضی: $ متن ( text = text) = 0. 38 $ و $ text ( text = text) = 0. 62 $.

شاید متوجه شده باشید که احتمال موفقیت و شکست به 1. اضافه می شود. این درست است زیرا فقط دو نتیجه ممکن برای یک متغیر پاسخ باینری وجود دارد. بنابراین ، احتمال موفقیت برابر است با 1 منهای احتمال خرابی: $ text ( text) = 1 - text ( text) $.

در درس های رگرسیون خطی ، ما انتظار متغیر نتیجه ، $ E (y) $ را مدل کردیم. در مورد متغیرهای باینری ، ما همچنین با انتظار متغیر نتیجه کار خواهیم کرد. هنگامی که $ y $ یک متغیر باینری است ، $ e (y) $ برابر با احتمال موفقیت است. در مثال بالا ، $ e (y) = text ( text = text) = 0. 38 $.

ورزش

از شما خواسته شده است که فعالیتهای بدنی (فیزیکی) را در افراد مبتلا به FEV1 (FEV1) بین 3750 تا 4250 در داده های NHANES مطالعه کنید. الف) احتمالی را تخمین بزنید که شخصی برای افراد دارای FEV1 بین 3750 تا 4250 از نظر جسمی فعال نیست.

راه حل

الف) برای به دست آوردن احتمالات:

داده %>% drop_na(وابسته به بدن فعال) %>% فیلتر کردن(بین(FEV1, 3750, 4250)) %>% شمردن(وابسته به بدن فعال) %>% جهش دادن(غرفه = n/جمع(n)) 
 Physactive n Prop 1 NO 242 0. 3159269 2 بله 524 0. 6840731 

بنابراین ما احتمال فعالیت بدنی 0. 68 دلار و احتمال عدم فعالیت بدنی 0. 32 دلار را تخمین می زنیم.

b) $ e ( text) = text ( text = text) = 0. 68 $

چرا $ e (y) $ با احتمال موفقیت برابر است؟

به طور کلی ، انتظار یک متغیر برابر است با میانگین وزن آن. این با در نظر گرفتن مجموع تمام مقادیری که یک متغیر می تواند به دست آورد ، محاسبه می شود ، هر یک با احتمال وقوع آن مقدار ضرب می شود.

در نماد ریاضی ، این توسط:

[e (y) = sum_i big (y_i times text (y = y_i) big) ]

در مورد متغیر باینری ، متغیر می تواند یکی از دو مقدار را بدست آورد: 0 $ $ و 1 $. بنابراین ، انتظار می رود:

[e (y) = sum_i big (y_i times text (y = y_i) big) = 0 time text (y = 0) + 1 times text (y = 1) = text(y = 1) ]

از آنجا که "موفقیت" $ y = 1 $ در نظر گرفته می شود ، انتظار یک متغیر باینری با احتمال موفقیت برابر است.

شانس و شانس ورود به سیستم

علاوه بر احتمالات ، داده های باینری اغلب از طریق شانس تفسیر می شوند. شانس ها به این صورت تعریف می شوند:

از آنجا که انتظار $ $ $ برابر با احتمال موفقیت است ، می توان شانس را نیز به این صورت نوشت:

بنابراین ، شانس بیشتر از 1 دلار نشان می دهد که احتمال موفقیت بیشتر از احتمال شکست است. به عنوان مثال ، شانس 1. 5 نشان می دهد که موفقیت 1. 5 برابر بیشتر از شکست است. شانس کمتر از 1 دلار نشان می دهد که احتمال شکست بیشتر از احتمال موفقیت است. به عنوان مثال ، شانس 0. 75 نشان می دهد که موفقیت 0. 75 برابر بیشتر از شکست است.

متغیرهای نتیجه باینری را می توان از طریق شانس ورود به سیستم مدل سازی کرد. ما می توانیم رابطه بین شانس ورود به سیستم و انتظار را در طرح زیر مشاهده کنیم. همانطور که در طرح می بینیم ، شانس ورود به سیستم بیشتر از صفر با احتمال موفقیت بیشتر از 0. 5 همراه است. به همین ترتیب ، شانس ورود به سیستم کوچکتر از 0 با احتمال موفقیت کمتر از 0. 5 همراه است.

در نماد ریاضی ، شانس ورود به سیستم به این صورت تعریف شده است:

تفسیر احتمالات ، شانس ها و شانس ورود به سیستم در جدول زیر خلاصه شده است:

 

اندازه گرفتننقطه عطفتفسیر
احتمال0.5نسبت مشاهداتی که موفقیت هستند
شانس1.0چند برابر بیشتر از شکست موفقیت دارد؟
شانس ورود به سیستم0If log odds> 0, probability is>0. 5.

شانس و شانس ورود به سیستم را می توان در RSTUDIO از طریق پسوند کدی که برای محاسبه احتمالات استفاده کردیم ، محاسبه کرد. از جدول احتمالات ما ، ردیف را با احتمال موفقیت با استفاده از فیلتر () جدا می کنیم. سپس با استفاده از عملکرد خلاصه () شانس و شانس ورود به سیستم را محاسبه می کنیم.

داده %>% drop_na(سر و صدا) %>% فیلتر کردن(بین(سن, 55, 66)) %>% شمردن(سر و صدا) %>% جهش دادن(غرفه = n/جمع(n)) %>% فیلتر کردن(سر و صدا == "آره") %>% خلاصه کردن(شانس = غرفه/(1 - غرفه), log_odds = ورود به سیستم(غرفه/(1 - غرفه))) 
 شانس log_odds 1 0. 604456 8-0. 503425 

ورزش

از شما خواسته شده است که فعالیتهای بدنی (فیزیکی) را در افراد مبتلا به FEV1 (FEV1) بین 3750 تا 4250 در داده های NHANES مطالعه کنید. شانس و شانس ورود به سیستم فعالیت بدنی را برای افراد مبتلا به FEV1 بین 3750 تا 4250 محاسبه کنید. شانس در اینجا چگونه تفسیر می شود؟

راه حل

داده %>% drop_na(وابسته به بدن فعال) %>% فیلتر کردن(بین(FEV1, 3750, 4250)) %>% شمردن(وابسته به بدن فعال) %>% جهش دادن(غرفه = n/جمع(n)) %>% فیلتر کردن(وابسته به بدن فعال == "آره") %>% خلاصه کردن(شانس = غرفه/(1 - غرفه), log_odds = ورود به سیستم(غرفه/(1 - غرفه))) 
 شانس log_odds 1 2. 165289 0. 772554 

از آنجا که شانس برابر با 2. 17 است ، ما انتظار داریم افرادی با FEV1 بین 3750 تا 4250 2. 17 برابر بیشتر از نظر جسمی فعال باشند.

$ text () $ چه کاری انجام می دهد؟

$ text () $ تحولی است که به طور گسترده در آمار استفاده می شود ، از جمله در مدل سازی متغیرهای باینری. به طور کلی ، $ text_a (b) $ به ما می گوید که برای به دست آوردن ارزش $ $ چه قدرتی را برای جمع آوری $ $ نیاز داریم.

به عنوان مثال ، $ 2^3 = 2 بار 2 بار 2 = 8 $. بنابراین ، $ text_2 (8) = 3 $ ، از آنجا که ما 2 دلار برای قدرت 3 دلار برای به دست آوردن 8 دلار افزایش می دهیم.

به طور مشابه ، $ text_3 (81) = 4 $ ، از 3 $ 4 = 81 $.

در رگرسیون لجستیک ، ما از $ text _ () $ استفاده می کنیم ، جایی که $ e $ یک ثابت ریاضی است. ثابت $ E تقریباً برابر با 2. 718 است.

به جای نوشتن $ text _ () $ ، ما $ text () $ را برای سادگی می نویسیم.

در R ، می توانیم با استفاده از عملکرد log () log را محاسبه کنیم. به عنوان مثال ، برای محاسبه چه قدرتی برای جمع آوری E $ $ برای به دست آوردن 10 دلار دلار:

ورود به سیستم(10) 
[1] 2. 302585 

امتیاز کلیدی

  • احتمالات موفقیت و شکست به ترتیب به عنوان نسبت شرکت کنندگان با موفقیت و عدم موفقیت تخمین زده می شود.
  • انتظار از یک متغیر باینری با احتمال موفقیت برابر است.
  • شانس برابر با نسبت احتمال موفقیت و یک منهای احتمال موفقیت است. شانس تعیین می کند که چند بار موفقیت بیشتر از شکست است.
  • شانس ورود به سیستم با گرفتن ورود به سیستم محاسبه می شود. هنگامی که شانس ورود به سیستم بیشتر از 0 است ، احتمال موفقیت بیشتر از 0. 5 است.
کتاب آموزش بورس...
ما را در سایت کتاب آموزش بورس دنبال می کنید

برچسب : نویسنده : محسن زنجانچی بازدید : 35 تاريخ : پنجشنبه 9 شهريور 1402 ساعت: 16:18