<<
>>

Обучение агентов

Очень популярная техника обучения агентов — это алгоритм с поощрением. Например, алгоритм СНеагшщ. Обучение с поощрением предполагает, что агент живет в Марковском процессе и получает поощрение в некоторых состояниях.
Надо найти правильное действие с целью получения максимального дисконтированного будущего дохода агента.

Более формально можно определить алгоритм как проблему поиска оптимального решения на графе посредством обучения с поощрением, в которой поощрения связаны с изменением весов ребер, а не вершин; т.е. функция поощрения задается в виде г(Бпа) —> К. Алгоритм обучения с поощрением должен ис

пользовать последовательность поощрений (политику), которая максимизирует будущий дисконтированный доход. В Q-leamingалгоритме вместо полезностей состояния для агента V(s) считаются величины полезности действия а в состоянии мира s Q(a, s). Эти величины тоже вначале полагаются случайными, а потом сходятся к некоторым значениям в ходе итераций корректировки значения Q(a, s) после каждого действия агента в процессе обучения.

Модель формирования равновесной цены.

Торговая стратегия. Агенты-покупатели и агенты-продавцы выходят на рынок, чтобы торговать товарами и услугами. Агенты-покупатели заявляют bid на покупку товара по данной цене, агенты-продавцы делают предложение на продажу товара по данной цене. Рынок имеет определенный механизм, который определяет, каким образом циркулируют заявки на покупку и продажу и электронной системе коммуникаций и как и производится обмен сообщениями между агентами.

Будем различать два основных вида сообщений:

• bid — сообщение, содержащее информацию о том, за какую цену согласен приобрести товар покупатель;

• ask — сообщение, содержащее информацию о том, за какую цену согласен продать товар продавец.

Существуют различные виды аукционов, которые позволяют покупателям и продавцам определить позиции относительно цены сделки.

Если товар предлагается по данной цене, покупатели на рынке готовы приобрести определенное количество этого товара.

Эта величина называется количеством запрашиваемого по данной цене товара — объемом спроса. Чем выше иена товара, тем меньше объем (уровень) спроса. Если мы начертим график объема спроса в зависимости от цены, то получим плавно спадающую кривую спроса; аналогичным образом, если товар приобретается по данной цене, продавец может продать некоторое количество этих товаров. Количество товара, предлагаемое по данной цене, увеличивается по мере роста цены (рис. 7.4), соответствующая кривая поднимается вверх. Цена, определяемая пересечением кривых спроса и предложения — это точка, где спрос и предложение равны. Следовательно, все участники рынка, желающие заключить сделку по данной цене могут это осуществить. Эта цена определяется как равновесная цена Ро и количество товара, продаваемого по данной пене — это равновесное количество (Зе.

Если торги имеют место при пене ниже равновесной цены, тогда объем спроса (2й больше, чем объем предложения. Избыточный спрос определяется отношением:

В этом случае естественно для покупателя повысить bid, чтобы обеспечить заключение сделки. Аналогично, если существует избыточное предложение, естественное для продавца снизить цену, чтобы обеспечить заключение сделки с покупателем. Та

ким образом, если Qs~Qd >0’ то имеет место избыточное предложение.

Автоматический процесс корректировки цены в процессе автоматических торгов агентов определяется как итерационный процесс в виде разностного соотношения:

Этот процесс сходится к равновесной цене. Коэффициент а, определяющий скорость сходимости, выбирается следующим образом:

цены торгов в долях от равновесной цены, ре — равновесная цена.

Процедуры торгов в мультиагентной системе. Аукционы — общий и простой способ решения задачи размещения ресурсов в мультиагентной модели (рис. 7.5). Медиатором торгов является Центральный аукционерАгенты могут выразить, насколько им необходим товар, посредством своего bid, и центральный аукционер может сделать размещение, основанное на этих bid.

Обозначим v,(5) полезность, которую агент получает в состоянии S. Аналогично, если S — продукт или множество продуктов на продажу, мы можем сказать, что ",-(?) — цена, которую / приписывает S.

Предположим, что эта цена выражается в общей валюте; тогда, v;(?) становится максимальным количеством денег, которое агент / готов заплатить за S.

В простейшем случае оценочная функция отражает полезность агента от обладания данным продуктом. Тогда мы говорим, что агент имеет приватную функцию опенки. С другой стороны, существуют продукты, которые не могут быть потреблены и не удовлетворяют никакой непосредственной полезности, но вес имеют ценность перепродажи. Классический пример — акции. Приобретая акции некоторой компании, покупатель ничего не делает с ними за исключением продажи, и тогда оценка этих акций зависит от величины других факторов, которые известны как функция общего значения. Факторы, от которых зависит оценка, могут быть коррелированны.

Вщы аукционов. Существуют ситуации, когда имеется большое количество агентов и есть единственная вещь, в отношении которой им необходимо вести переговоры о цене. В этих случаях имеет смысл использовать аукционы.

Наиболее общим из всех аукционов является английский — аукцион с объявлением начальной цены с последующим ее нарастанием. Этот стандарт используется во многих аукционных домах, когда аукционер поднимает цену по мере того, как участники выкрикивают более высокие ставки. Как только повышение ставок прекращается, лицо, назвавшее наибольшую цену, платит ее и получает продукт. Эти аукционы иногда имеют начальную, так называемую резервную цену (reservation price), ниже которой продавец не согласен продавать. В английском аукционе общие или коррелированные значения страдают от курса выигравшего. Например, когда покупатель приобретает акцию на английском аукционе, он платит больше, чем кто-то из желавших приобрести данный вид ценной бумаги. В этом случае цена его акции будет меньше, чем он заплатил.

Второй тип аукциона — первая цена в запечатанном конверте — заключается в том, что каждый участник помещает свою ставку в запечатанный конверт, который передает акционеру для выбора наибольшей цены. Победитель должен заплатить цену, указанную в его конверте.

Эти аукционы имеют доминантную стра

тегию. Наилучшая стратегия покупателя — разузнать ставки других участников, чтобы, оценив ситуацию, заявить немного большую цену. Такие аукционы могут бьпь неэффективны, поскольку в результате выигрывает более ловкий игрок.

Датский аукцион с объявлением первоначальной цены и последующим непрерывным ее снижением. В этом аукционе продавец непрерывно снижает цену, пока покупатель не объявит о согласии купить по текущей цене. Анализ показывает, что в данном виде аукциона отсутствует доминантная стратегия. Однако он имеет то преимущество, что скорость аукциона можно регулировать шагом снижения цены.

Двойной аукцион — это способ продажи нескольких единиц одного и того же товара. Данный вид аукциона используется, в основном, на рынках ценных бумаг. Каждый участник помещает приказ на покупку или продажу по определенной цене для некоторого числа экземпляров товара (число акций на рынке ценных бумаг). Когда собраны все приказы, наступает время очистить аукцион. Существует много различных способов очистки двойного аукциона. Например, сравнение пар приказов покупка — продажа. Однако сравнивать пары можно разными способами, и не ясно, какой из способов лучше.

Одной из метрик, которую мы желаем максимизировать или минимизировать, является количеством избыточного дохода, известного трейдерам как спред, т.е. сумма разностей между ценами покупки и продажи. На некоторых аукционах этот избыток остается у аукционера, который старается максимизировать его. Другой способ — это использовать суммарный спред для очистки большего числа приказов.

<< | >>
Источник: В. П. Романов. Информационные технологии моделирования финансовых рынков. 2010

Еще по теме Обучение агентов:

  1. Агенты на рынке
  2. Агенты, их классификация и алгоритмы поведения
  3. Страховые агенты
  4. Трансфер-агенты
  5. Трансфертные агенты
  6. г. Зависимые агенты
  7. Стратегии агентов
  8. Брокер как агент
  9. Принципал и агент
  10. Разработка агентом сценариев будущего
  11. Эмитенты, их агенты и другие непрофессиональные участники.
  12. Порядок исчисления и уплаты налога налоговыми агентами