قراردادها برای تفاوت: یک رویکرد یادگیری تقویت کننده

آخرین مطالب

امکانات وب

قراردادها برای تفاوت: یک رویکرد یادگیری تقویت کننده

ما یک چارچوب یادگیری تقویت کننده عمیق برای تجارت خودکار قراردادها برای تفاوت (CFD) در شاخص ها با فرکانس بالا ارائه می دهیم. سهم ما ثابت می کند که نمایندگان یادگیری تقویت شده با شبکه های مکرر حافظه کوتاه مدت (LSTM) می توانند از تاریخچه اخیر بازار بیاموزند و از بازار بهتر باشند. معمولاً این رویکردها به تأخیر کم بستگی دارد. در یک مثال در دنیای واقعی ، ما نشان می دهیم که افزایش اندازه مدل ممکن است تأخیر بالاتر را جبران کند. از آنجا که ماهیت پر سر و صدا روندهای اقتصادی پیش بینی ها را به ویژه در دارایی های سوداگرانه پیچیده می کند ، رویکرد ما دوره ها را پیش بینی نمی کند بلکه در عوض از یک عامل یادگیری تقویت کننده برای یادگیری یک سیاست تجاری سودآور استفاده می کند. بنابراین ، ما بر اساس داده های معاملاتی تاریخی ، یک محیط بازار مجازی را شبیه سازی می کنیم. محیط ما یک فرایند تصمیم گیری تا حدی قابل مشاهده مارکوف (POMDP) را برای زبان آموزان تقویت کننده فراهم می کند و آموزش استراتژی های مختلف را امکان پذیر می کند.

کلید واژه ها:

1. معرفی

معاملات با فرکانس بالا (HFT) باعث می شود بخش بالایی از فعالیت بازار باشد اما فقط توجه دانشگاهی کمی آلدریج (2013) را به خود جلب می کند. Brogaard (2010). برنامه های هوش مصنوعی ، به ویژه الگوریتم های یادگیری ماشین ، دیدگاه ها ، امکانات و ابزارهای جدیدی را برای مدل سازی اقتصادی و استدلال Aghion و همکاران ارائه می دهند.(2017). به طور خاص ، تجارت با فرکانس بالا دارایی های سوداگرانه مانند قراردادها برای تفاوت (CFD) به یک کارآیی آماری مناسب و خودکار ریسک متکی است. بنابراین ، ما یک بازار مشتق را به عنوان یک فرایند تصمیم گیری جزئی قابل مشاهده مارکوف (POMDP) برای یادگیری تقویت سیاست های تجارت CFD در فرکانس بالا شبیه سازی می کنیم.

برای تعیین پاداش برای عمل عامل ، محیط عمل تجارت را در مورد داده های بازار تاریخی ارزیابی می کند و سود یا ضرر مالی را برمی گرداند. سپس نماینده سعی می کند یک خط مشی بهینه پیدا کند که پاداش مورد انتظار را به حداکثر برساند. برای تقریب یک خط مشی بهینه ، ما از شبکه های عصبی عمیق استفاده می کنیم و هم یک شبکه عصبی Feedforward و هم یک شبکه حافظه کوتاه مدت کوتاه مدت (LSTM) را ارزیابی می کنیم. به عنوان یک روش یادگیری تقویت ، ما یک روش یادگیری Q را با پخش مجدد تجربه اولویت بندی پیشنهاد می کنیم. برای ارزیابی کاربرد دنیای واقعی رویکرد ما ، ما همچنین در شرایط واقعی بازار یک آزمایش را انجام می دهیم.

ما این مقاله را با معرفی قراردادها برای اختلافات و ارائه تحقیقات پیشرفته و پیشرفته در بخش 2 شروع می کنیم. در بخش 3 ، اجرای خود را با جزئیات توضیح می دهیم و در بخش 4 روند ارزیابی خود و نتایج حاصل از آن را روشن می کنیم. نتیجه گیری در بخش 6 این مقاله را با خلاصه ، یک بحث کوتاه و کار احتمالی آینده به پایان می رساند.

قراردادها برای تفاوت

یک قرارداد برای اختلاف (CFD) ، نوعی از قرارداد مبادله کل بازده ، به دو طرف اجازه می دهد تا عملکرد و درآمد یک دارایی اساسی را برای پرداخت بهره مبادله کنند. به عبارت دیگر ، اگر توسعه قیمت واقعی با شرط بندی آنها مطابقت داشته باشد ، ممکن است بازیکنان اقتصادی در افزایش یا کاهش قیمت و سود شرط بندی کنند. با توجه به احتمال شرط بندی بسیار اهرم ، ممکن است برنده های بالا و همچنین ضررهای بالایی رخ دهد.

بر خلاف سایر مشتقات ، مانند گواهینامه های حذفی ، ضمانت نامه یا معاملات رو به جلو ، CFD اجازه می دهد تا تنظیم مستقل از ارزش های متوقف و سودآور را انجام دهد. اگر دوره زیرین به آستانه مربوطه حمله کند ، تنظیم یک سود سود و توقف از دست دادن به طور خودکار معامله را می بندد. اگر توسعه دارایی با شرط مطابقت نداشته باشد ، اما در جهت مخالف توسعه می یابد ، عمق بوجود می آید که می تواند منجر به تعهدات تأمین مالی اضافی شود. یک سپرده امنیتی ، که از آن به عنوان حاشیه نیز یاد می شود ، هدف از محافظت از معامله را برآورده می کند. از آنجا که تعهدات اضافی بودجه در صورت پیش فرض می تواند به راحتی از حاشیه فراتر رود ، در صورت عدم تعیین ارزش توقف از دست دادن ، معامله گران انفرادی می توانند در مدت زمان بسیار کوتاهی ضررهای بسیار بالایی را متحمل شوند.

در مورد جنبه های حقوقی ، تجارت CFD در حال حاضر با تحریم در ایالات متحده آمریکا روبرو است. طبق یک حکم کلی از مقامات نظارت مالی فدرال (Bundesanstalt für finanzdienstleistundugsaufsicht) ، یک کارگزار در آلمان فقط در صورت عدم مسئولیت اضافی در صورت پیش فرض ممکن است چنین گزینه های سوداگرانه ای را به مشتریان خود ارائه دهد ، بلکه در عوض فقط سپرده امنیتی خود را از دست می دهد.

2. وضعیت هنر

پیش بینی پیشرفته بازار سهام در مقیاس های طولانی تر معمولاً شامل اطلاعات متنی خارجی از فیدهای خبری یا رسانه های اجتماعی بولن و همکاران است.(2011) ؛دینگ و همکاران.(2015) ؛وارگاس و همکاران.(2017). تنها با استفاده از داده های تجاری تاریخی ، چن و همکاران.. اجرای عمیق LSTM توسط Akita و همکاران.(2016) می آموزد قیمت سهام را بر اساس متن خبری ترکیبی با هم و اطلاعات قیمت گذاری خام پیش بینی کند ، و این امکان را برای برنامه های تجاری سودآور فراهم می کند.

با توجه به الگوریتم ها و استراتژی های تجارت با فرکانس بالا ، انواع زیادی از برنامه ها وجود دارد ، از جمله بسیاری از رویکردهای یادگیری ماشین کلاسیک Aldridge (2013). در مورد یادگیری تقویت در تجارت با فرکانس بالا ، مودی و Saffell (1999) یک سیستم یادگیری تقویت را برای بهینه سازی یک استراتژی ارائه داد که شامل موقعیت های طولانی ، کوتاه و خنثی ، بر اساس داده های مالی و کلان است. همچنین رویکردهای یادگیری تقویت کننده برای تجارت با فرکانس بالا در بازارهای ارزی با یادگیری عمیق Dempster و Romahi (2002) وجود دارد. طلا (2003) ؛لیم و گورس (2018).

با این حال ، به بهترین دانش ما ، هیچ تحقیق یادگیری عمیق تقویت شده برای تجارت با فرکانس بالا در قراردادها برای تفاوت وجود ندارد.

3. روش

هدف ما این است که سیاستهای تجاری بهینه را در تنظیمات محیط قابل تنظیم ، با استفاده از یادگیری Q ، همانطور که توسط واتکینز و دایان (1992) پیشنهاد شده است ، پیدا کنیم. برای تقویت راندمان آموزش ، ما از حافظه پخش مجدد تجربه اولویت بندی شده برای همه مدل های خود Schaul و همکاران استفاده می کنیم.(2015). ما از به روزرسانی های ADAGRAD به عنوان یک قانون به روزرسانی وزن Duchi و همکاران استفاده می کنیم.(2011). در مورد وضعیت مشاهده شده ، POMDP زیرین نمودار تیک طول L را ارائه می دهد. نمودار تیک شامل دنباله ای از قیمت های Ask و Bid است که مربوط به حجم معاملات مربوط به ASK و پیشنهادات است. ما ارزش قیمت را برای هر کنه به عنوان p a s k ، p b i d و حجم تجارت به عنوان v a s k ، v b i d نشان می دهیم.

3. 1مدل ها

ما هم یک معماری فید و هم یک معماری LSTM را بررسی می کنیم. هر دو معماری دارای یک لایه ورودی و خروجی یکسان هستند ، اما لایه های پنهان مختلفی دارند. لایه ورودی حاوی حالت S است ، به صورت دنباله داده کنه با طول L. در مورد لایه خروجی ، شبکه عصبی برای هر عمل در فضای عمل A ∈ A ، مقادیر q (s ، a) را تقریب می دهد. برای تقریب این مقادیر ، ما از یک لایه خروجی |الف |نورون ها ، هر نورون با فعال سازی خطی. هر عمل A ∈ A ممکن است از یک سفارش تجاری متفاوت استفاده کند.

3. 1. 1. خوراکی

شبکه عصبی Feedforward ما دارای قسمت پنهان سه لایه متراکم است ، همانطور که در شکل 1 ترسیم شده است. دو لایه اول متراکم شامل 500 واحد خطی اصلاح کننده با تعصب کوچک 0. 1 است. ما از اولیه سازی وزن HE با توزیع یکنواخت برای اولیه کردن وزن استفاده می کنیم. برای به دست آوردن تقریباً همان تعداد وزنه هایی که در معماری LSTM خود داریم ، یک لایه سوم را با 180 واحد خطی اصلاح کننده ، همچنین با تعصب 0. 1 اضافه می کنیم. برای طول ورودی L = 500 و اندازه فضای اکشن |الف |= 3 ، شبکه Feedforward در مجموع 840،540 پارامتر دارد.

3. 1. 2. LSTM

ما از یک شبکه LSTM با گیتس فراموش شده همانطور که توسط گرز و همکاران پیشنهاد شده است استفاده می کنیم.(1999). مانند شبکه Feedforward ، لایه ورودی شامل دنباله ای از داده های تجارت است. در طول آموزش و آزمایش ، طول دنباله را ثابت نگه می داریم. لایه خروجی با استفاده از حالت پنهان لایه LSTM ، با الهام از معماری موجود در Mirowski و همکاران ، تقریب Q-Values خطی را تقریب می دهد.(2016). لایه LSTM پنهان از یک لایه مکرر منفرد با 100 واحد خطی اصلاح کننده تشکیل شده است ، همانطور که در شکل 2 نشان داده شده است. ما با استفاده از توزیع عادی ، وزن دروازه ها را آغاز می کنیم. برای طول ورودی ثابت L = 500 و اندازه فضای عمل از |الف |= 3 ، شبکه LSTM در مجموع 840،300 پارامتر دارد.

3. 2محیط

ما یک منطق بازار ساده را اجرا می کنیم که بر اساس داده های معاملاتی تاریخی در مقیاس زمانی تیک به عنوان پایه ای برای POMDP عمل می کند. محیط زیست اقدامات معاملاتی نمایندگان را بدون تأخیر پردازش می کند ، که تحقیقات تحلیلی را ساده می کند اما عامل مهم تأخیر را کنار می گذارد. برای افزایش محتوای اطلاعات ارائه شده به نماینده در هر مشاهده ، کنه های متوالی برابر را حذف می کنیم. این منجر به کاهش طول دنباله ورودی می شود اما اطلاعات مربوط به مدت زمان خاص یک حالت خاص را دور می کند.

به عنوان یک حالت S ، محیط دنباله ای از کنه های منحصر به فرد L را ارائه می دهد ، از یک نقطه تصادفی T در تاریخ تجارت X شروع می شود. ما هر حالت را برای میانگین مقدار تنظیم می کنیم:

s = x [t: t + l] - x ¯ [t: t + l]

برای هر ایالت S ، نماینده یک عمل را انتخاب می کند. اگر نماینده عمل A = 0 را برای باز کردن تجارت انتخاب کند ، نماینده پاداش 0 را دریافت می کند و حالت بعدی را مشاهده می کند. اگر نماینده تصمیم به افتتاح معامله با یک عمل A ≠ 0 کند ، یک قسمت در این محیط خاتمه می یابد. هنگامی که عامل یک عمل را انجام می دهد ، شبیه سازی تا زمانی که قیمت بازار به سود سود یا ارزش متوقف شدن برسد ، پیش می رود. محیط سپس سود یا ضرر مالی به دست آمده را به عنوان پاداش باز می گرداند ، که توسط یک عامل ثابت اندازه گیری می شود. کدهای شبه در پیوست A کل الگوریتم آموزش را برای یک عامل یادگیری Q در یک بازار CFD شبیه سازی شده توصیف می کند.

4- ارزیابی

برای ارزیابی رویکرد خود ، ما از شاخص DE30 CFD با ارزش اسمی 25 یورو در هر قطعه در اهرم 5 ٪ استفاده می کنیم. ما با تعیین یک عامل مقیاس بندی پاداش کافی ، شرایط مرزی دارایی انتخاب شده را در شبیه سازی خود منعکس می کنیم. حجم تجارت کوچک 0. 01 قطعه منجر به ضریب مقیاس گذاری پاداش C = 0. 25 برای روش آموزش و آزمایش می شود.

به عنوان یک داده داده برای شبیه سازی بازار ما ، ما تاریخچه مربوط به بازار را از ژوئیه 2019 با استفاده از رابط ارائه شده توسط X Open HUB XAPI (n. d.) ثبت کرده ایم. ما پنج نقطه داده در هر ثانیه ضبط کردیم و نقاط داده جانشین بدون تغییر را حذف کردیم. پس از ضبط به مدت یک ماه ، ما داده ها را به مجموعه ای برای شبیه سازی آموزش و مجموعه ای برای شبیه سازی آزمون تقسیم کرده ایم. این امر ما را به یک پایه داده ای از حدود سه میلیون ارزش کنه منحصر به فرد برای محیط آموزش و حدود نیم میلیون کیک منحصر به فرد برای منطق بازار در روش آزمایش ما سوق داد.

در این ارزیابی ، ما از مدل هایی که در بخش 3 توضیح داده شده است با فضای اکشن اندازه |الف |= 3. عمل A = 0 باعث ایجاد سفارش تجارت نمی شود اما باعث می شود عامل منتظر بماند و کنه بعدی را مشاهده کند. برای باز کردن یک موقعیت طولانی ، عامل A = 1 را انتخاب می کند ، در حالی که عمل A = 2 باعث باز شدن یک موقعیت کوتاه می شود.

برای یافتن پارامترهای آموزش خوب برای مدل های خود ، ما یک جستجوی شبکه را در فضایی با اندازه دسته ای ، میزان یادگیری و طول دنباله ورودی انجام داده ایم. ما اندازه دسته b را ارزیابی می کنیم<10 , 50 , 100>، نرخ یادگیری η ∈<10 − 4 , 10 − 5 , 10 − 6>و طول توالی ورودی l ∈<50 , 100 , 250>بشربا مقایسه سهام نهایی پس از 1000 تجارت آزمون ، پیکربندی بهینه پارامتر را پیدا می کنیم. برای معماری Feedforward ، ما پیکربندی بهینه پارامتر آموزش را در (B = 100 ، L = 50 ، η = 10 - 5) می یابیم. در مورد شبکه LSTM تک لایه ، ما بهترین نتیجه آزمایش را برای (B = 10 ، L = 50 ، η = 10 - 4) می یابیم.

4. 1آموزش

برای هر سابقه حافظه ، ما یک حالت شروع S 1 ، عمل انتخابی A ، وضعیت پیگیری S 2 در کنار پاداش به دست آمده R و یک متغیر e داریم. متغیر E به ما می گوید که آیا تجربه پخش شده دارای تجارت بسته است ، از این طریق به یک حالت ترمینال پایان می یابد. در یک دوره آموزشی ، نماینده در مجموع 250،000 مرحله یادگیری را انجام می دهد. برای هر مرحله یادگیری ، ما یک دسته از تجربیات مستقل B (S 1 ، A ، S 2 ، R ، E) را از حافظه پخش مجدد اولویت بندی شده نمونه می گیریم. سپس ، ما بر اساس تفاوت بین پیش بینی شده و Q-Values واقعی ، به روزرسانی وزن ADAGRAD را در شبکه عصبی اعمال می کنیم. در یک ایستگاه کاری استاندارد در حال حاضر ، آموزش کوچکترین مدل Feedforward حدود 15 دقیقه طول می کشد ، در حالی که آموزش مدل بزرگ LSTM دو لایه حدود دو روز طول کشید و با استفاده از یک اجرای در Theano و Lasagne Dieleman و همکاران.(2015) ؛تیم توسعه Theano (2016).

4. 2تست

برای ارزیابی مدل های خود ، ما آزمایشات مربوط به داده های بازار غیب را انجام می دهیم. اگر برای یک عمل بهینه ، پاداش q (S ، A)<0 , the agent does not execute the order, as we want our agent to achieve a profit and not a minimal loss. This increases the time between trades at the benefit of more likely success. We test each feedforward and LSTM network by performing a total of 1000 test trades on unseen data. Each test run starts with an equity of €1000.

از توزیع عمل در شکل 3 ، می بینیم که هم Feedforward و هم عامل LSTM تمایل دارند که بیشتر موقعیت های کوتاه را باز کنند. برای انجام تجارت ، شبکه Feedforward به طور متوسط 2429 کنه را مشاهده می کند ، در حالی که شبکه LSTM قبل از انجام هرگونه اقدام تجاری ، 4654 مشاهدات را منتظر می گذارد. در حالی که شبکه LSTM تمایل به انتظار و مشاهده دارد ، با انتخاب بیشتر عمل A = 0 ، شبکه Feedforward سریعتر تصمیم می گیرد. ما می توانیم افزایش سهام را برای هر دو مدل خود در شکل 3 مشاهده کنیم. علاوه بر این ، به نظر می رسد که شبکه LSTM به دلیل برخورد با توالی های خود از یک مزیت مفهومی برخوردار است. با نگاهی به تفاوت در توزیع سود ، همانطور که در شکل 3 نشان داده شده است ، می فهمیم که شبکه LSTM به سود کمتری می رسد.

5. کاربرد دنیای واقعی

برای اثبات مفهوم در دنیای واقعی با یک حساب نسخه ی نمایشی ، ما از یک معماری LSTM استفاده می کنیم زیرا به نظر می رسد از یک شبکه Feedforward بهتر عمل می کند. در ابتدا ، ما سعی کردیم بهترین مدلی را که پیدا کردیم بدون شرایط مرزی بیشتر استفاده کنیم. مسائل تأخیر باعث شد تا نماینده در مورد مشاهده گذشته تصمیم بگیرد ، دقت زمانی را پایین بیاورد و باعث سود منفی تر شود. همچنین ، دستورات نمایندگان دیر به پایان می رسند ، به گونه ای که دولت قبلاً تغییر کرده است و نماینده قیمت مورد نظر خود را برای تعیین ارزش های سود و متوقف کردن از دست نمی دهد.

برای تأمین مشکلات تأخیر ، ما یک معماری LSTM با یک لایه اضافی از 250 واحد LSTM طراحی کرده ایم ، همانطور که در شکل 4 نشان داده شده است. همچنین ، ما اندازه فضای عمل را به A = | افزایش دادیم. 10 |و یک تابع δ = d p r o f i t (a) را برای نقشه برداری به δ خاص معرفی کنید تا به مقادیر متوقف کردن و سودآوری اضافه شود ، بنابراین امکان پیش بینی گسترش های زیاد را فراهم می آورد:

d p r o f i t (a): = δ = 0 ،: a = 0 δ = 2 ،: a = 1 ، a = 6 δ = 5 ،: a = 2 ، a = 7 δ = 10 ،: a = 3 ، a = 8δ = 25 ،: a = 4 ، a = 9 δ = 50 ،: a = 5 ، a = 10

این راهپیمایی برخی از راهبردهای مربوط به مشکلات مختلف ایجاد شده توسط تأخیر را به وجود آورد. از نظر مفهومی ، این مقادیر دلتا قابل تنظیم به عامل اجازه می دهد تا بزرگی های مختلف تغییرات قیمت را پیش بینی کند. این خطر پیش فرض فوری را کاهش می دهد ، اما به طور بالقوه منجر به ضرر زیاد می شود.

با استفاده از این تنظیمات ، ما شبکه LSTM را با پیکربندی پارامتر آموزش آموزش داده ایم (B = 50 ، L = 250 ، η = 10 - 5). در پویایی یادگیری مربوطه ، همانطور که در شکل 5 نشان داده شده است ، می بینیم که عوامل در حالی که سعی در کاهش تلفات دارند ، برنده های بالقوه بالایی را حفظ می کنند ، که منجر به مازاد کلی در طول آموزش می شود. برای به روز نگه داشتن نماینده با داده های بازار واقعی ، ما شبکه را از زمان تجارت آموزش داده ایم. ما اجازه می دهیم آزمون دنیای واقعی ما به مدت ده روز معاملاتی اجرا شود ، که در آن نماینده 16 معاملات را بدون دخالت دستی باز و بسته کرد. همچنین ، ما یک سیستم پرچین مبتنی بر قانون را فوق العاده می کنیم ، که به عامل اجازه می دهد یک موقعیت طولانی ، یک موقعیت کوتاه و یک موقعیت دلخواه سوم را باز کند. همزمانشکل 6 سود حاصل از عامل و افزایش مربوط به سهام را نشان می دهد.

6. بحث

با مقایسه نتایج شبکه مکرر LSTM با شبکه Feedforward ساده ، می توان اظهار داشت که فرض توالی در داده های معاملاتی ممکن است کمی نتایج یک سیستم یادگیری ماشین را بهبود بخشد. اگرچه سهم ما ثابت می کند که اتومات های تجاری هوشمندانه ممکن است استراتژی های مختلفی را بیاموزند ، در صورت ارائه یک محیط آموزشی مناسب ، ما اثرات تغییر محیط آموزش را بررسی نکردیم. ما در مورد تأثیر تنظیم ریسک خطر در زمان آموزش بررسی نکردیم ، و نه تأثیر اندازه حافظه پخش مجدد بزرگتر یا سایر طرح های یادگیری را از یادگیری Q بررسی نکردیم. ما به جای استفاده از عادی سازی دسته ای با تقسیم توسط انحراف استاندارد ، ما فقط میانگین مقدار را کم کردیم.

ما روش خود را با مفاهیم مرتبط مقایسه نکردیم ، همانطور که در بخش پیشرفته ارائه شده است ، و مقایسه خطوط مختلف برای تحقیقات آینده را ترک می کنیم. در حال حاضر ، ما فقط داده های دوره یک نماد معاملاتی واحد را در نظر گرفته ایم.

در مورد مثال در دنیای واقعی ، ما از یک حساب نسخه ی نمایشی با اعتبار محدود تنها 20 روز معاملاتی استفاده کرده ایم. ما فقط می توانیم از ده روز معاملات برای آزمایش رویکرد خود در یک محیط واقعی استفاده کنیم. گفته می شود ، ما معاملات کافی را مشاهده نکردیم تا در مورد قابلیت اطمینان بلند مدت آن استراتژی مشخص در یک محیط واقعی ، بیانیه ای معتبر ارائه دهیم.

6. 1. کار آینده

برای انجام یک تحقیق مقایسه پایه ، یک شبیه سازی بازار به رابط کاربری نیاز دارد که می تواند داده های حالت خود را در بازنمودهای مختلف ارائه دهد و انواع مختلفی از نظم را تفسیر کند. چنین محیطی همچنین باید منطق تجارت را برای دارایی های مختلف و همچنین مشتقات آنها فراهم کند. همچنین ، یک محیط بازار شبیه سازی شده برای یک مقایسه پایه ممکن است اثرات بازار معاملات را در نظر بگیرد.

با توجه به بازار شبیه سازی شده ما ، ممکن است محیط را به روش های مختلف بهبود بخشیم. اول ، معرفی تأخیر مصنوعی امکان آزمایش هایی را فراهم می کند که الزامات معاملاتی با فرکانس بالا را در نظر می گیرند. این امر باعث می شود شبیه سازی عوامل مختلفی که در شرایط تأخیر متفاوت رقابت می کنند. ثانیا ، ما ممکن است داده های ورودی را از بیش از یک دارایی جمع آوری کنیم تا از همبستگی استفاده کنیم. و سوم ، ما در حال حاضر از تأثیر تصمیمات معاملاتی نمایندگان در توسعه قیمت غفلت می کنیم.

در کار آینده ، ما ممکن است فواید توالی های ورودی جمع شده از دارایی های مختلف را بررسی کنیم ، به عنوان مثال ورودی کامپوزیتی از طلا ، نفت ، نمودارهای شاخص و بازارهای ارزی. ما همچنین ممکن است ورودی را در راه حل های مختلف زمانی ، به عنوان مثال در نمودار روزانه ، ماهانه یا هفتگی ارائه دهیم. یک شبکه عصبی حلقوی ممکن است داده های دوره را از منابع مختلف به منظور بهبود خط مشی بهینه همبستگی کند. با توجه به یک فضای مشاهده گسترده تر ، یک عامل یادگیری تقویت کننده همچنین ممکن است سیاست های پیشرفته تری را بیاموزد ، به عنوان مثال سفارشات را روی بیش از یک دارایی قرار می دهد. روشهای پیچیده تر یادگیری انتقال ممکن است ما را قادر به استفاده مجدد از دانش قبلاً به دست آمده برای بهبود عملکرد دارایی های ناشناخته کند. به عنوان مثال ، ما ممکن است از شبکه های عصبی مترقی برای انتقال دانش به فضاهای اقدام چندگانه استفاده کنیم. این امر امکان یادگیری تجارت بر روی دارایی های متعدد را به طور همزمان ، استفاده از همبستگی ها در یک فضای ورودی بزرگ فراهم می کند.

علاوه بر این ، کار آینده ممکن است ادغام متن اخبار اقتصادی را به عنوان بردارهای کلمه ورودی در نظر بگیرد. به این ترتیب ، پیشنهادات تجاری ارائه شده توسط نمایندگان ما ممکن است به عنوان ورودی برای الگوریتم های تجاری پیشرفته تر که از دانش قبلی بازار استفاده می کنند ، باشد. به عنوان نمونه ، یک سیستم مبتنی بر قانون که شامل دانش طولانی مدت بازار است ، ممکن است از پیشنهادات عامل برای ارائه یک برنامه تجاری کاملاً خودکار و قابل اعتماد استفاده کند. چنین سیستم مبتنی بر قانون ممکن است مانع از باز کردن موقعیت در صورت بالاتر یا زیر آستانه خاصی شود که یک اپراتور انسانی ممکن است مطابق دانش قبلی خود در مورد بازار تعیین کند.

6. 2. نتیجه گیری

برای نتیجه گیری ، مطالعات ما ثابت می کند که یک سیستم معاملاتی با فرکانس بالا وجود دارد که در یک شبیه سازی ، با توجه به تأخیر تقریباً صفر ، از بازار بسیار بهتر است. برنامه دنیای واقعی ما نشان می دهد که پارامترهای مدل اضافی ممکن است تأخیر کمتری را جبران کند. ما یک محیط آموزشی پارامتری را در اختیار شما قرار داده ایم که امکان آموزش چنین نمایندگان یادگیری تقویت را برای سیاست های معاملاتی CFD فراهم می کند. پیاده سازی شبکه های عصبی ما به عنوان اثبات مفهوم برای اتوماتیک معاملاتی هوشمندانه که در فرکانس های بالا فعالیت می کنند ، خدمت می کنند. از آنجا که رویکرد ما از نظر مفهومی امکان یادگیری استراتژی های معاملاتی در مقیاس های زمانی دلخواه را فراهم می کند ، کاربر ممکن است قیمت های بسته و ساعتی یا حتی روزانه را به عنوان پایه داده برای آموزش ارائه دهد.

یکی دیگر از مشاهدات مهم تحقیقات ما ، اهمیت استفاده از یک مجموعه آموزشی را که مطابق با شرایط معاملاتی واقعی است ، نشان می دهد. علاوه بر این ، ما مشاهده می کنیم که اگر معاملات را بدون تنظیم مقادیر متوقف کردن متوقف کنیم ، CFD در موقعیتی باز می شود که مطابق با Obersvations از خطوط مقاومت در قیمت شاخص باشد.

کمک های نویسنده

آزمایش و نوشتن ، N. Z. ؛نظارت ، U. H. ؛همه نویسندگان نسخه منتشر شده نسخه خطی را خوانده و موافقت کرده اند.

کتاب آموزش بورس...

ما را در سایت کتاب آموزش بورس دنبال می کنید

برچسب : نویسنده : محسن زنجانچی بازدید : 31 تاريخ : دوشنبه 16 مرداد 1402 ساعت: 18:49

قراردادها برای تفاوت: یک رویکرد یادگیری تقویت کننده

آخرین مطالب

امکانات وب