|
|
Игровые автоматы онлайн бесплатно Чукча18.07.2017Вероятность того, что данная система будет останавливаться в одном и том же состоянии при выполнении одинакового действия, невелика, независимо от того, проводится ли ее обучение в автономном или оперативном режиме. Эмоции вызываются к действию независимо и изменяются в течение времени. Ведь если бы анимат осуществлял аналогичные формы поведения по прошествии небольшого промежутка времени, то игра стала бы скучной, не говоря уже о других недостатках. Это означает, что текущее состояние, относящееся к подкреплению, изменяется автоматически, а это приводит к выбору других действий. Вообще говоря, при использовании этой обучающейся системы приходится уделять много внимания корректировке и проверке различных компонентов, но несмотря на это, она обладает огромным преимуществом перед системами, спроектированными вручную, — способностью приспосабливаться к тенденциям, возникающим в ходе игры. В результате создается изменчивая игровая обстановка, а игровые автоматы онлайн бесплатно чукча становятс более гибкими и способными лучше справляться с противниками. Но в силу того, что выбран именно тот способ моделирования задачи, обеспечивается возможность усваивать в результате обучения только общие тактические формы поведения; возможность усвоения каких-то индивидуальных шаблонов исключена. По своему характеру обучение с подкреплением является статистическим, но позволяет справляться с подобными задачами, если модель состояния явля ется всесторонней (т.е. применяется модель мира, включающая отдельные шаблоны. Для этого требуется больше памяти и вычислительных ресурсов, а продолжительность обучения становится больше, поэтому, если потребуется обеспечить противостоянт индивидуальным стратегиям, может оказаться более приемлемым подход, основании на планировании. С точки зрения технической реализации, обучение действительно является несложным, поскольку для него не требуется модель мира. В варианте, основанном на применении метода Монте-Карло, требуется немного больше кода и больший объем памяти, поскольку приходится отслеживать состояния, встретившиеся в ходе борбы. Применение любого подхода, основанного на динамическом программировании, потребовало бы в данном случае намного больше усилий, поскольку информацию о вероятностях переходов и вознаграждений пришлось бы собирать заранее.
|
||||||||||||||
Студия Крон © 2003: |