X
تبلیغات
رایتل

IDS: Intrusion Detection System

انتخاب والد در الگوریتم های ژنتیک

انتخاب والد :
انتخاب والد پروسه‌ای انتخاب والدینی است که قرار است با یکدیگر ترکیب شده و اولاد هایی را برای نسل بعدی ایجاد کنند. انتخاب والد برای نرخ همگرایی یک الگوریتم ژنتیک بسیار حیاتی است و  انتخاب خوب والدین الگوریتم ژنتیک را به  راه حل های بهتر و مناسبتر سوق می دهد.
انتخاب یک راه حل در جمعیتی با تعداد کمی از نسل ها می‌تواند میزان تنوع در راه حل‌ها را بکاهد.بنابراین حفظ تنوع خوب در جمعیت در موفقیت الگوریتم ژنتیک بسیار حیاتی است .در نظر گرفته شدن کل یک جمعیت بوسیله یک راه حل بسیار خوب تحت نام همگرایی نابهنگام (premature convergence) نامیده می‌شود که یک وضعیت نامطلوب در الگوریتم ژنتیک است.
انتخاب مناسب برازش (Fitness Proportionate Selection)
انتخاب برازش مناسب یکی از شیوه‌های مرسوم در انتخاب والد می باشد.در این روش هر شخصی می‌تواند با توجه به احتمال متناسب با برازش خود یک والد باشد.بنابراین اشخاص مناسبتر دارای شانس بالاتر برای زاد و ولد و انتشار ویژگی‌های خود به نسل های بعدی دارند.بنابراین این استراتژی در انتخاب موجب می‌شود که افرادی که درای شایستگی بیشتری در جمعیت هستند انتخاب شوند و ویژگی های این افراد در طول زمان رشد و نمود پیدا کند
یک چرخ دایره‌ای شکل را در نظر بگیرید.چرخ به n تکه تقیسیم شده است.در واقع n نشان دهنده شماره شخص در جمعیت می باشد.هر شخص یک قسمت از دایره را در اختیار دارد که فضایی که در اختیار شخص است نشان دهنده تناسب مقدار برازش آن شخص می باشد.دو شیوه برای انتخاب برازش مناسب امکان‌پذیر می‌باشد

انتخاب چرخ رولت.Roulette Wheel Selection

در انتخاب چرخ رولت ، چرخ دایره‌ای (مدور) به همان شکلی که قبلاً توضیح داده شد تقسیم شده است.همانگونه که در شکل نشان داده خواهد شد یک نقطه ثابت در پیرامون چرخ انتخاب می‌شود و سپس چرخ ، چرخانیده می‌شود .ناحیه ای از چرخ که در جلوی نقطه ثابت در نظر گرفته شده قرار گیرد به عنوان والد انتخاب می شود.برای انتخاب والد دوم رویه ای مشابهی تکرار می شود. در شکل زیر  استفاده از روش چرخ رولت نشان داده شده است


واضح است که فرد مناسبتر دارای سهم بزرگتری در چرخ است و بنابراین شانس بیشتری هم برای ایستادن در مقابل نقطه ثابت هنگامی که چرخ ، چرخانیده می‌شود دارد.شانس انتخاب یک فرد به طور مستقیم وابسته به مقدار برازش آن است.
در قسمت ذیل یک شبکه کد برای انتخاب توسط چرخ رولت آورده شده است :


for all members of population

     sum += fitness of this individual

end for


for all members of population

probability = sum of probabilities + (fitness / sum)

sum of probabilities += probability

end for


loop until new population is full

do this twice

number = Random between 0 and 1

for all members of population

if number > probability but less than next probability then you have been selected

end for

end

create offspring

end loop


نمونه برداری فراگیر تصادفی :Stochastic Universal Sampling (SUS)
.
نمونه برداری فراگیر تصادفی کاملاً مشابه روش انتخاب والد به شیوه چرخ رولت است ، هرچند بجای اینکه تنها یک نقطه ثابت بر روی چرخ داشته باشیم در این شیوه همانگونه که در شکل نشان داده شده است چندین نقطه ثابت بر روی چرخ داریم.بنابراین همه والد ها تنها در یک چرخش از چرخ(دایره) انتخاب می شوند.این شیوه از انتخاب والد اجازه می‌دهد که افراد که لیاقت بالایی دارند حد اقل یک بار شانس انتخاب شدن داشته باشند.



این نکته را باید بازگوکنم  که متدهای انتخاب برازش مناسب در مورادی که برازش می‌تواند مقدار منفی دریافت کند عمل نمی کنند.



انتخاب مسابقه‌ای (تورنومنتی)
در انتخاب K-Way تورنومنتی ، تعداد k شخص را از بین جمعیت به شکل تصادفی انتخاب می‌کنیم و بهترین آن‌ها را به عنوان والد بر می گزینیم.پروسه ای مشابه برای انتخاب والد بعدی به همین صورت تکرار می شود.شیوه انتخاب به صورت تورنومنتی برای موقعیت هایی که برازش مقدار منفی دارد نیز مناسب است.



انتخاب رتبه ای (Rank Selection)
انتخاب رتبه ای(رتبه بندی) هم مثل انتخاب مسابقه‌ای با مقادیر برازش منفی کار می‌کند و اغلب هنگامی که در جمعیت مقادیر برازش ها به هم خیلی نزدیک هستند ( اغلب در پایان اجرای الگوریتم رخ می دهد) مورد استفاده است.در این شیوه هر شخص یک تکه مساوی از دایره را به اشتراک می گیرد.همانگونه که در شکل زیر نشان داده شده است .بنابراین مقدار برازش هر شخص در انتخاب او به عنوان والد مهم نیست و همه در انتخاب از احتمال یکسانی برخوردار هستنددر .این شیوه انتخاب فشاری برای انتخاب شخص واجد شرایط تر وجود ندارد و انتخاب والد در الگوریتم ژنتیک را در برخی موقعیت ها با ضعف مواجه می‌کند . در این روش مفهوم مقدار برازش در انتخاب والد حدف می شود.هر چند برای در شخص در جمعیت یک رتبه بر اساس مقدار برازش آن در نظر گرفته می شود.انتخاب والدین بسته به مقدار رتبه هر فرد می‌باشد نه مقدار برازش آن.فرد با مقدار رتبه بالاتر بر فرد با رتبه پایینتر ارجحیت داده می شود

تابع برازش (Finness function)

تابع برازش (Finness function) 
تعریف ساده از تابع برازش ، تابعی است که راه حل کاندید برای یک مسائله را به عنوان ورودی دریافت می‌کند و یک خروجی را که میزان خوب بودن راه حل را مشخص می‌کند ارایه می‌کند که این کار با توجه به مسائله ای که با آن سر و کار داریم در نظر گرفته می شود..محاسبه مقدار برازش (fitness) مکرراً در یک الگوریتم ژنتیک انجام می‌شود و بنابراین باید به اندازه کافی سریع باشد.محاسبه  آهسته و کند مقدار برازش(Finness) می‌تواند اثر منفی روی الگوریتم ژنتیک داشته باشد و الگوریتم را فوق‌العاده کند نماید.
در اغلب مواقع تابع برازش (fitness function) و تابع هدف(objective function) شبیه یگدیگر هستند و هر دوی آن‌ها تابع مقصود داده شده را کمینه یا پیشنه می کنند.برای مسائل پیچیده با چنید هدف و محدودیت(constraints) طراح الگوریتم ممکن است تابع های برازش مختلفی را انتخاب نماید.
تابع برازش  باید دارای ویژگی‌های زیر باشد :
  • تابع برازش باید به اندازه کافی برای محاسبه سریع باشد.
  • تابع برازش باید بصورت کمی چگونگی بدست آوردن راه حل مناسب یا چگونگی تولید افراد مناسب از راه حل بدست آمده را اندازه‌گیری نماید
در اغلب موارد ، محاسبه تابع برازش به دلیل پیچیدگی ذاتی مشکلی که با آن رو به رو هستیم به صورت مستقیم امکان ندارد.در  چنین مواردی از تخیمین برازش (fitness approximation) برای برآورده نمودن نیاز های خود استفاده می کنیم.
در  شکل زیر محاسبه برازش  برای مسائله کوله پشتی 0-1 نشان داده شده است.این یک تابع برازش ساده است که تنها مقادیر ارزش آیتم هایی که انتخاب شده‌اند را جمع می بندد(آنهایی که در کروموزوم با ۱ نشان داده شده اند) ، عناصر از چپ به راست اسکن می‌شوند تا زمانی که کوله پشتی پر شود.

مسائله کوله پشتی Knapsack Problem (KP)

مسائله کوله پشتی  Knapsack Problem (KP)

بر خود لازم دیدم قبل از ورود به مباحث پیشرفته تر در خصوص الگوریتم های ژنتیک و با توجه به اینکه  در مطالبی که قبلا آورده شده است و مطالب آتی مسائله کوله پشتی  به کرات مورد استفاده قرار گرفته است  ، تعریف کاملی در خصوص این مسائله برای درک بهتر خواننده داشته باشم.

مسائله کوله پشتی یک نمونه از مسائل بهینه سازی ترکیبی است (combinatorial optimization problem) که در آن بهترین راه حل از میان راه حل‌های دیگر جستجو می شود. در این مسائله یک کوله پشتی که دارای اندازه صحیح مثبت(یا ظرفیت ) است وجود دارد که این ظرفیت با V نشان داده می شود.تعداد n آیتم متفاوت که بطور بالقوه ممکن است در کوله پشتی قرار داده شوند نیز وجود دارد.آیتم I دارای یک اندازه صحیح (ظرفیت) است که با VI  نشان داده می‌شود و  یک عدد صحیح BI که نشان دهنده منفعت ( ارزش) این آیتم است.علاوه بر این‌ها QI کپی از آیتم I در دسترس می باشد.که مقدار QI یک عدد صحیح است که شرط زیر را مهیا نماید
1 ≤ Q i ≤ ∞

اجازه بدهید که XI معین نماید که چه تعداد کپی های آیتم I قرار است در کوله پشتی قرار گیرند و هدف ما به صورت زیر تعریف می‌شود که حاصل عبارت زیر را پیشینه نماییم :(قرار دادن بیشترین آیتم با بیشترین ارزش در کوله پشتی)

با این شرط که آیتم های قرار گرفته از ظرفیت کوله پشتی بیشتر نباشند :

و همچنین شرط زیر نیز صادق باشد :
1 ≤ X i ≤ Q i
اگر یکی یا چند تا از Qi بی نهایت باشند ( نامتنهای) مسائله کوله پشتی را بدون کران می نامند در غیر این صورت مسائله کوله پشتی کراندار خواهد بود.مسائله کوله پشتی کراندار می‌تواند کوله پشتی 1-0 باشد ( 0-1 knapsack) و یا چند محدودیتی .اگر مقدار Qi برابر با ۱ باشد آنگاه با یک مسائله کوله پشتی از نوع 0-1 روبه رو هستیم. در این خاص از مسائله کوله پشتی (0-1) ما نمی‌توانیم بیشتر از یک کپی از یک آیم در کوله پشتی داشته باشیم.
یک مثال برای مسائله کوله پشتی 0-1
فرض کنیم که کوله پشتی در اختیار داریم که ظرفیت آن ۱۳ اینچ مکعبت است و چندین آیتم با سایزها و ارزش‌های مختلف در ختیار داریم.می می‌خواهیم در کوله پشتی تنها آیتم هایی را داشته باشیم که در مجموع دارای یبشترین ارزش باشند با این محدودیت که مجموع ظرفیت آن‌ها از ظرفیت کوله پشتی بیشتر نشود .برای مثال ما سه آیتم وجود دارد که با حروف A,B,C برچست خورده اند.که در جدول زیر ظرفیتها (حجم) و ارزش‌های آن‌ها را مشاهده می کنید :

آیتمABC
ارزش Benefit435
ظرفیت Volume678

ما به دنبال این هستیم که مقدار ارزش‌های آیتم ها را بیشینه نماییم:

البته با رعایت شرایط زیر :


برای مسائله ما 23 زیر مجموعه از آیتم ها وجود دارد که ترکیبی همگی در ذیل آورده شده است :

ارزش مجموعهظرفیت مجموعهCBA
00000
58100
37010
-15110
46001
-14101
713011
-21111

برای بدست آوردن بهترین راه حل مجبور هستیم که زیر مجموعه‌ای از آیتم ها که محدودیت‌های مورد نظر را دارا می‌باشند و جمع ارزش‌های آن‌ها بیشینه است را معین کنیم.در مثال ما تنها سطری که بصورت پر‌رنگ در آمده است شروط مورد نظر را فراهم می کند.بنا براین ارزش بهینه برای محدودیت مورد نظر ما ( V=13) تنها می‌تواند با یک مقدار از A ، یک مدقار از B و هیچ مقدار از C امکان‌پذیر خواهد بود که این مقدار نیز 7 بدست آمد.

جمعیت در الگوریتم های ‌ژنتیک (Population)

جمعیت در الگوریتم های ‌ژنتیک (Population).
جمعیت (Population ) زیر مجموعه‌ای از راه حل‌ها در نسل فعلی است(زایش فعلی).همچنین جمعیت را می‌توان به عنوان مجموعه‌ای از کروموزوم ها تعریف نمود.چند چیز  را هنگام کار با جمعیت در الگوریتم های ژنتیک به خاطر سپرد
  • تنوع و گوناگونی جمعیت حتماً باید حفظ شود ، در غیر اینصرت موجب همگرایی زودهنگام می گردد(premature convergence).
  • اندازه جمعیت نباید خیلی بزرگ باشد زیرا ممکن است که باغث کند شدن الگوریتم ژنتیک شود ، این در حالی است که جمعیت کوچکتر ممکن است که برای یک مخزن زاد و ولد(mating pool) به اندازه کافی مناسب نباشد.و این را مد نظر می‌گیریم که تصمیم برای یک جمعیت با اندازه مطلوب نیاز به آزمایش و خطا دارد.
جمعیت در الگوریتم های ژنتیک معمولاً به صورت یک آرایه دو بعدی تعریف می‌شود ( اندازه جمعیت ، اندازه x ، اندازه کروموزوم).

مقدار دهی اولیه جمعیت
دو متد اصلی برای مقدار دهی اولیه یک جمعیت در یک الگوریتم ژنتیک وجود دارد که به در زیر آورده می شوند
  • مقدار دهی اولیه تصادفی (Random Initialization ) . جمعیت دارد نمودن جمعیت  اولیه با   راه حل‌های  کاملاً تصادفی
  • مقدار دهی اولیه اکتشافی (ابتکاری)Heuristic initialization : جمعیت دار نمودن جمعیت اولیه با استفاده از روش‌های اکتشافی ( ابتکاری ) شناخته شده برای مسائله.
مشاهدات نشان می‌دهد که کل یک جمعیت نباید بوسیله متد اکتشافی مقداردهی اولیه شود ، زیرا ممکن است که منجر به این شود که جمعیت با راه حل‌های مشابه و تنوع بسیار کم روبه رو شویم.
به صورت تجربی مشاهده شده است که راه حل‌های تصادفی ، راه حل‌هایی هستند که جمعیت را به سمت بهینه شدن سوق می‌دهند .بنابراین با استفاده مقدار دهی اولیه اکتشافی ، تنها جمعیت با یک جفت راه حل خوب ایجاد می‌کنیم ، پس بدین منظور بقیه جمعیت را با راه حل‌های تصادفی پر می‌کنیم  به جای اینکه همه جمعیت مورد نظر خود را با راه حل‌های پر پایه اکتشاف پر نماییم.
همچنین بعضا مشاهده شده است که مقدار دهی اولیه اکتشاقی در بعضی موارد سازگاری اولیه (initial fitness) جمعیت را مورد تأثیر قرار داده است اما در پایان این تنوع در راه حل‌ها خواهد بود که منجر به بهینه سازی می شود.

مد هال جمعیت (Population Models)
دو مدل جمعیت که به صورت گسترده مورد استفاده هستند در زیر بیان می‌شود
  •  حالت پایدار (Steady State) :در الگوریتم ژنتیک حالت پایدار ، در هر تکرار یک یا دو اولاد تولید می نماییم و آن‌ها یک یا پو شخص از جمعیت را جایگزین می نمایند.الگوریتم ژنتیک حالت پایدار به الگوریتم ژنتیک افزایشی (Incremental ) نیز مشهور است.
  • نسل (Generational): در مدل نسل ، n اولاد تولید می‌کنیم ، که در اینجا n اندازه جمعیت می‌باشد و همه جمعیت توسط نسل جدیدتر در پایان تکرار تعویض می گردد.

معرفی کتاب مقدمه ای بر احتمالات ،آمار و فرآیند های تصادفی

علم یادگیری ماشین یکی از علومی است که وابستگی بسیار زیادی به علم ریاضی و بخصوص علم آمار و احتمالات دارد و بدون داشتن دانش کافی در خصوص آمار و احتمال درک بسیاری از  متد های بکار گرفته شده در یادیگری ماشین بسیار سخت و  بعضا غیر ممکن خواهد بود.برای مثال در naive bayes یا network bayesian مبانی کلیدی به کار گرفته شده مربوط به علم آمار و احتمال می باشد(فرآیند های تصادفی ،احتمالات شرطی  ، قوانین مربوط به آنها و ...) .کتاب "Introduction to Probability, Statistics, and Random Processes" کتابی است که به زبانی ساده و با مثال هایی خوب  و قابل درک به معرفی بخشهایی مهم و مورد نیاز  آمار و احتمالات می پردازد

برای اطلاعات بیشتر در خصوص این کتاب می توانید به لینک زیر مراجعه نمایید:

Nik, Hossein. Introduction to probability, statistics, and random processes. Blue Bell, PA: Kappa Research, LLC, 2014. Print.

<< 1 2 3 4 5 >>