Разработка компонентов модуля для агентного моделирования на основе обучения с подкреплением

Заказать уникальную дипломную работу
Тип работы: Дипломная работа
Предмет: Автоматизация
  • 9696 страниц
  • 20 + 20 источников
  • Добавлена 01.06.2010
3 000 руб.
  • Содержание
  • Часть работы
  • Список литературы
  • Вопросы/Ответы
ВВЕДЕНИЕ
ГЛАВА 1. ПОСТАНОВКА ЗАДАЧИ
1.1. Общие сведения о Q-обучении. Обзор алгоритмов
1.2. Постановка задачи разработки модуля
1.3. Выводы
ГЛАВА 2. МАТЕМАТИЧЕСКОЕ ОБЕСПЕЧЕНИЕ БЛОКА МОДЕЛИРОВАНИЯ
2.1. Обучение с подкреплением
2.2. Алгоритмы
2.3. Моделирование
2.4. Выводы
ГЛАВА 3. ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ МОДУЛЯ
3.1. Среда проектирования
3.2. Описание программы
3.3. Результаты расчетов
ГЛАВА 4. ЭКОНОМИЧЕСКАЯ ЧАСТЬ
4.1. Организация и планирование работ
4.2. Экономическое обоснование дипломного проекта
4.3. Конкурентоспособность разработки
4.4 . Социально-экономический аспект
4.5. Выводы
ГЛАВА 5. БЕЗОПАСНОСТЬ ЖИЗНЕДЕЯТЕЛЬНОСТИ
5.1. Анализ опасных и вредных производственных факторов, воздействующих на программиста при работе на ЭВМ
5.2. Расчёт местного освещения
5.3. Пожарная безопасность
5.4. Экологическая безопасность
ЛИТЕРАТУРА
Приложение 1
Приложение 2

Фрагмент для ознакомления

Qосв = 0,03*20*108*8 = 518,4 кВтч
Расчет количества электроэнергии, потребляемой используемым оборудованием, производится по формуле:

Qоб = П * К * Т, (5.17)

где П - паспортная мощность электрооборудования, кВт; К - коэффициент использования мощности оборудования, равный 0,8; Т - время работы электрооборудования в часах. Расчет электроэнергии, потребляемой оборудованием, сведем в таблицу 5.7.
Таблица 5.7.
Наименование оборудования Паспортная мощность, кВт Число единиц оборудования Суммарная потребляемая мощность Время работы оборудования, ч Расход эл.энергии, кВтч IBM PC 0,45 1 0,36 320 115,2 Принтер 0,2 1 0,16 15 2,4 ИТОГО: 117,6
Суммарное количество электроэнергии на освещение и работу оборудования:
Qобщ = 518,4 + 117,6 = 636 кВтч
Полученные расходы различных видов энергии, а также материалы, необходимые для дипломного проектирования, сводим в таблицу 5.8.
Таблица 5.8.
Наименование материалов и энергии Единицы измерения Количество израсходованного материала Плановая цена, (руб.) Суммарная стоимость, (руб.) Энергия: Теплоэнергия Гкал 0,89 312,20 277,86 Водоснабжение м3 3,24 5,50 17,82 Канализация м3 64,80 4,87 315,58 Электроэнергия КВтч 636 0,84 534,24 Всего: 1145,50 Материалы: Дискета шт. 10 8,00 80,00 Картридж для принтера шт. 1 170,00 170,00 Бумага для принтера Пачка 1 80,00 80,00 Всего: 330,00 ИТОГО: 1475,50
Амортизацию оборудования рассчитаем исходя из числа дней проектирования и годовых норм амортизации оборудования. Расходы на амортизацию сведем в таблицу 5.9.
Таблица 5.9.
Наименование оборудования Число ед. Стоимость единицы, руб. Суммарная стоимость, руб. Годовая норма амортизации, % Сумма амортизации, руб. IBM PC 1 7460,00 7460,00 12 264,88 Принтер 1 2700,00 2700,00 12 95,87 ИТОГО: 360,75
Все рассчитанные затраты сведем в таблицу 5.10 - сметы затрат на проектирование программного комплекса. Смета рассчитывается по отдельным статьям, отражающим состав текущих затрат. К основным расходам относятся затраты на материалы, энергию, заработная плата и амортизация. Накладные расходы включают в себя затраты на содержание административно-управленческого персонала, канцелярские и прочие хозяйственные расходы. Накладные расходы принимаем равными 35% от суммы основной и дополнительной заработной платы, включая затраты на социальное страхование.




Таблица 5.10.
№ п/п Наименование статей затрат Сумма, руб. Удельный вес отдельных статей в общей сумме затрат, % 1 Материалы 330,00 2,6 2 Энергетич. затраты в т.ч. 1145,50 9,1 а) электроэнергия 534,24 б) теплоэнергия 277,86 в) водоснабжение 17,82 г) канализация 315,58 3 Основная заработная плата в т.ч.: 5004,56 40 а) Руководитель проекта 2727,73 б) Дипломник 981,82 в) Финансы 395,45 г) Техник по обслуживанию 218,19 д) Консультант по экономике 363,64 е) Консультант по БЖД 272,73 4 Амортизационные отчисления 596,86 4,76 ИТОГО: 7076,92 56,5 5 Дополнительная заработная плата 1000.91 8 6 Отчисления на социальное нужды 2342,13 18,7 7 Накладные расходы 2101,91 16,8 ВСЕГО ЗАТРАТ: 12521,87 100 Расчет оптовой цены разработки
Цена, по которой продается разработанный программный продукт, может быть рассчитана следующим образом:
, где (5.18)

- суммарные затраты на разработку программного комплекса; = 12521,87 из п. 6.3.1;
- число организаций, приобретающих программный комплекс, =1.
руб.
Поскольку для решения данной задачи не существовало другого алгоритма (программы), то целесообразно сопоставить его разработку с решением этой задачи вручную. В этом случае дополнительные, капитальные вложения , связанные с внедрением разработанного программного комплекса, на одного потребителя, вычисляются по формуле:

, где (5.19)

- машинное время, необходимое потребителю для решения задач с помощью разработанного программного продукта, машинных часов/год, = 564;
К – капитальные вложения в ЭВМ, для которой предназначена программа, руб.;
- полезный годовой фонд ЭВМ (за вычетом простоев в ремонте), ч/год.
руб.
Расходы потребителя (руб. в год) на эксплуатацию разработанной программы рассчитываются по формуле:
, где (5.20)

- эксплуатационные затраты, приходящиеся на 1 час машинного времени ЭВМ, = 10,30 руб.;
- срок службы данной программы, лет, = 5;
- амортизационные отчисления с программы, руб./год.
руб.

4.3. Конкурентоспособность разработки

Под конкурентоспособностью следует понимать такую характеристику продукции, которая отражает ее отличие от товара-конкурента, как по степени соответствия конкретной общественной потребности, так и по затратам на ее удовлетворение [20]. Для оценки конкурентоспособности необходимо оценить параметры анализируемой разработки.
Любая разработка имеет два показателя - стоимость приобретения и стоимость эксплуатации. В этом плане пользователь стоит всегда перед задачей приобрести стандарт или заказать индивидуальную разработку.
В первом случае стоимость приобретения сравнительно невелика, однако адаптация программного продукта, его настройка на класс решаемых задач потребует определённые затраты. Самой главной особенностью готовых программных продуктов является то, что с функциональной точки зрения они редко полностью удовлетворяют пользователя, однако их цена ниже. Созданный по индивидуальному заказу программный продукт, как правило, заметно дороже готового, но вполне отвечает требованиям пользователя.
В общем случае стоимость его приобретения значительно выше, но стоимость настройки и эксплуатации существенно ниже, чем в первом варианте.
Обобщая вышесказанное, можно выделить преимущества нашей разработки:
Полностью учтена специфика предприятия;
Малая стоимость настройки и эксплуатации;
Несущественные затраты на обучение персонала.

4.4 . Социально-экономический аспект

Внедрение системы позволит существенно повысить производительность труда грузчиков и облегчить их труд, улучшить качество выполнения работы, сократить сроки подготовки отчетов, а так же составлять всевозможные статистические отчеты.
Это позволит сократить финансовые затраты предприятия, повысить общую производительность труда в целом и повысить эффективность использования оборудования.
Так как в исходном варианте задача решалась вручную, то экономия эксплуатационных расходов у одного потребителя может быть вычислена по формуле:

, (5.21)

где

R – штатная численность работников, решавших задачу вручную, R=4;
- полная заработная плата работника, решавшего задачу вручную, руб./год, =3600,00.
Зэкс - расходы потребителя на эксплуатацию разработанной программы, Зэкс = 8259,57
=1,39*4*3600,00 – 8259,57 = 11756,43 руб.
Экономический эффект (руб./год), получаемый одним потребителем нового алгоритма, вычисляется как

, (5.22)

где - нормативный коэффициент эффективности капитальных вложений, = 0,15.
Э = 8259,57 – 0,15 * 16917,5 = 5721,95 руб.
Полученные технико-экономические показатели сведем в таблицу 5.11.
Таблица 5.11.
Проект Показатели, руб. Капитальные вложения 16810,00 Расходы на приобретение программы 12521,87 Дополнительные капитальные вложения на внедрение 16917,5 Расходы потребителя 8259,57 Годовой экономический эффект 5721,95 Экономия эксплуатационных расходов 11756,43


4.5. Выводы

В данном разделе настоящего дипломного проекта был проведен технико-экономический анализ, имеющихся разработок, и обоснована необходимость разработки данной темы; построен, рассчитан и оптимизирован сетевой график выполнения дипломной работы; определена конкурентная способность разработанной системы ; рассмотрен социально-экономический аспект решения проблемы. В ходе работы над этим разделом было выявлено, что внедрение и использование данного программного продукта экономически эффективно и принесет ожидаемый от него результат.
Затраты на создание программного продукта заметно велики, но с точки зрения потребителя следует различать два аспекта показателя: стоимость приобретения и стоимость эксплуатации. Стоимость приобретения типовых ПП сравнительно невелика, однако его адаптация и настройка на класс решаемых задач потребует определенных затрат. Созданный по индивидуальному заказу, ПП, как правило, заметно дороже готового, но полнее отвечает требованиям пользователя. Следовательно, затраты на производство ПП будут оправданы.
В социально-экономическом плане решение этой задачи необходимо и несет за собой как экономическую выгоду, так и облегчение труда.

Глава 5. Безопасность жизнедеятельности

5.1. Анализ опасных и вредных производственных факторов, воздействующих на программиста при работе на ЭВМ

Классификация ОВПФ.
В соответствии с ГОСТ 12.0.003-74* (“Опасные и вредные производственные факторы. Классификация”) ОВПФ, действующие на оператора ЭВМ, подразделяются на 2 группы:
1) физические;
2) психофизиологические.

Физические.
Физические факторы, действующие на оператора при работе за компьютером сведены в таблицу 1.
№ п/п Группа ОВПФ Нормативно–технический документ 1 Недостаточная освещенность рабочей зоны (недостаток естественного света) СНиП 23–05–95 2 Повышенный уровень вибрации на рабочем месте ГОСТ 12.1.012–90 3 Повышенный уровень шума на рабочем месте ГОСТ 12.1.003–83 4 Повышенная или пониженная температура, влажность, подвижность воздуха рабочей зоны ГОСТ 12.1.005–88 5 Повышенное значение напряжения в электрической цепи, замыкание которой может пройти через тело человека ГОСТ 12.1.038–82 6 Повышенный уровень электромагнитных излучений (напряженность магнитного и электрического поля) ГОСТ 12.1.006–96 Таблица 1. Классификация физических ОВПФ.

2) Психофизиологические:
Повышенное напряжение анализаторов, особенно зрительных и внимания.
Интеллектуальные и эмоциональные нагрузки.
Длительные статические нагрузки и монотонность труда.

Нормирование ОВПФ.
1) Освещенность.
Наименьшая допустимая освещенность рабочих мест определяется характером выполняемой зрительной работы. Характеру зрительной работы оператора ЭВМ соответствует работа средней точности, разряд IV, подразряд “г”.
В таблице 4 приведены нормы искусственной и естественной освещенности согласно СНиП 23-05-95 .
Таблица 4. Нормы освещенности.
Характеристика зрительной работы Искусственное освещение Естественное освещение Совмещенное освещение Освещенность, лк Сочетание нормируемых
величин показателя ослепленности и коэффициента пульсации КЕО, еН, % при системе комбинированного освещения при системе общего освещения при верхнем или комбинированном освещении при боковом освещении при верхнем или комбинированном освещении при боковом освещении всего в том числе от общего Р Кп, % Средней точности 400 200 200 40 20 4 1,5 2,4 0,9 Примечание: Нормы освещенности приведены для газоразрядных источников света.

2) Вибрация.
В соответствии с ГОСТ 12.1.012–90 рабочее место оператора ЭВМ относится к категории 3 технологической типа “B” (технологическая вибрация, воздействующая на операторов стационарных машин или передающаяся на рабочие места, не имеющие источников вибрации; административно–управленческие помещения и помещения для умственного труда).
Нормы технологической вибрации в соответствии с ГОСТ 12.1.012-90 «Вибрация. Общие требования безопасности» представлены в табл. 3.
Таблица 3. Допустимые нормы вибрации на рабочих местах с ПЭВМ.
Средне- геометрические частоты полос Гц Допустимые значения по осям Xo; Yo; Zo Виброскорости м/с*10-2 дБ 1/3 окт 1/1 окт 1/3 окт 1/1 окт 1,6 0,13 88 2 0,089 0,18 85 91 2,5 0,063 82 3,15 0,0445 79 4,0 0,032 0,063 76 82 5 0,025 74 6,3 0,02 72 8 0,016 0,032 70 76 10 0,016 70 12,5 0,016 70 16 0,016 0,028 70 75 20 0,016 70 25 0,016 70 31,5 0,016 0,028 70 75 40 0,016 70 50 0,016 70 63 0,016 0,028 70 75 80 0,016 70 Корректир. знач. 0,028 75
3) Шум.
Шум на рабочем месте не должен превышать допустимых уровней, значения которых приведены в ГОСТ 12.1.003-83 «Шум. Общие требования безопасности».
Уровни звукового давления в различных октавных полосах со среднегеометрическими частотами в Гц приведены в таблице 2.
Таблица 2. Допустимые уровни шума на рабочем месте.

Помещения
Уровни звукового давления (дБ) в октавных полосах со среднегеометрическими частотами (Гц) Уровни
звука, дБА 63 125 250 500 1000 2000 4000 8000 50 Вычислительный центр 71 61 54 49 45 42 40 38
4) Микроклимат.

Микроклимат характеризуется температурой и влажностью воздуха, скоростью его движения, а также интенсивностью радиации. Он должен соответствовать СанПиН 2.2.2.542-96. В таблице 5 приведены параметры микроклимата для работ категории 1а (работы, производимые сидя и не требующие физического напряжения, при которых расход энергии составляет до 120 ккал/ч).
Таблица 5. Требования к параметрам микроклимата в помещении с ПЭВМ.
Параметры микроклимата Значения параметров зимой летом 1. Температура, °C 22 – 24 23 – 25 2. Скорость воздушных масс, м/с 0,1 0,1 – 0,2 3. Относительная влажность, % 40 – 60 40 – 60
Для поддержания в помещении заданного температурного и влажностного режим используется кондиционирование воздуха.

5) Электробезопасность.

В таблице 6 приведены предельно допустимые значения напряжения прикосновения и токи согласно ГОСТ 12.1.038–82.
Таблица 6. Предельно допустимые уровни напряжений прикосновения и токов
Род тока U, В (не более) I , мА, не более Переменный, 50 Гц 2,0 0,3 Постоянный 8,0 1,0 Примечание. Напряжения прикосновения и токи приведены при продолжительности воздействия не более 10 мин.
6) Электромагнитные поля.

В помещении, где предполагается эксплуатация системы, основным источником электромагнитного излучения, электростатического и магнитного полей является ПЭВМ, а точнее, ее монитор.
Допустимые значения параметров, регулируемые СанПиН 2.2.2.542-96 представлены в табл. 7.Таблица7. Нормы по электрическим и магнитным полям
Параметр Допустимые значения 1 Напряженность переменного электрического поля на расстоянии 50 см вокруг дисплея в диапазоне частот 5 Гц … 2 кГц Не более 25 В/м в диапазоне частот 2 кГц … 400 кГц Не более 2,5 В/м 2 Плотность магнитного потока (магнитная индукция) в диапазоне частот 5 Гц … 2 кГц Не более 250 нТл в диапазоне частот 2 кГц … 400 кГц Не более 25 нТл 3 Поверхностный электростатический потенциал экрана дисплея Не более 500 В
Психофизиологические ОВПФ.

Режимы труда и отдыха при работе с ПЭВМ и должны организовываться в соответствии с требованиями СанПиН 2.2.2.542-96:
продолжительность непрерывной работы без регламентированного перерыва не должна превышать 2 часов,
во время регламентированных перерывов с целью снижения нервно-эмоционального напряжения, утомления зрительного аппарата, устранения влияния гиподинамии и гипокинезии, предотвращения утомления необходимо выполнять комплексы физических упражнений,
с целью уменьшения отрицательного влияния монотонности целесообразно применять чередование операций (изменение содержания работ).

5.2. Расчёт местного освещения

1) Определяем тип источника света и необходимые характеристики освещенности рабочего места
В качестве источников местного освещения используем лампы накаливания, т. к. они изготавливаются в широком ассортименте на самые разные мощности и напряжения, непосредственно включаются в сеть без дополнительных аппаратов, работоспособны даже при значительных отклонениях напряжения в сети, и, кроме того компактны.
Использование одного местного освещения запрещено, поэтому применяем комбинированное освещение.
В таблице 4 нормированные характеристики освещенности приведены для газоразрядных ламп. Для ламп накаливания комбинированное освещение должно быть 400 лк, из которых общее освещение 100 лк. Следовательно местный источник света должен обеспечивать освещенность:
Е = 400 – 100 = 300 лк.
Освещенность монитора принимается 200 лк.

Определяем расположение и тип светильника.
Направление света определяется необходимостью объемного восприятия объекта и стремлением не допустить ослепления прямым или отраженным светом. Прямая блесткость появляется в результате наличия источника света непосредственно в поле зрения оператора, отраженная блесткость - в результате наличия внутри поля зрения отражающих ярких поверхностей. Прямую блесткость можно уменьшить, избегая ярких источников света в пределах 60 см от центра поля зрения. Отраженную блесткость можно уменьшить, используя рассеянный свет.
Удобным направление искусственного света считается слева сверху и немного сзади.



Минимальная высота светильника от пола 2.5 м. Принимаем h=2,5м.
Высота рабочего стола примерно hc=0,8м.
Расстояние b=0,8м.
Расстояние с=0,5м.
Высота от светильника до рабочей поверхности:
hп = h - hc = 2.5 - 0.8 = 1,7м.

Определяем освещенность горизонтальной рабочей поверхности и освещенность монитора.

Освещенность точки А рабочей поверхности от точечного источника (в люксах):

где I – сила света по направлению к точке, заданная для светового потока
Фл=1000лм,
a – угол между нормалью и вектором соединяющим источник света и точку рабочей поверхности,
Кз=1,3- коэффициент запаса,
Фл - расчётный световой поток источника света.
Угол а определяется из формулы:

Угол β определяется из формулы:

Тогда
Фл*I= ЕА*1000*Кз*hп2/cos3а=300*1000*1,3*1,72/cos3300=1 211 442 лм.

Для светильников с КСС типа Г (глубокая) I=541,3 при Фл=1000 для а=300 (см.табл. 5.8 [5]).
Тогда требуемый световой поток:
Фл=1 211 442/541,3=2170 лм.
Выбираем светильник с КСС типа Г марки НСП21-200-005, который используется с лампой накаливания Г215-225-500, световой поток которой 2950 лм (см. табл.5.9 и табл.5.3 [5]).
Рассчитываем освещенность создаваемую выбранным светильником:
,
Е

Определяем освещенность в точке В, как точки вертикальной поверхности (считаем, что освещенность в точке В, как в горизонтальной поверхности примерно равна освещенности в точке А):
ЕВ=ЕА*tg(a)*tg(β)=420*tg290*tg320=205 лм.

5.3. Пожарная безопасность

Категории зданий по взрывопожарной и пожарной опасности.
Согласно НПБ 105-03 по взрывоопасной и пожарной опасности, вычислительный центр относится к категории В (твёрдые горючие и трудногорючие вещества и материалы).
В соответствии со СНиП 21-01-97 здания ВЦ имеют вторую степень огнестойкости.
Обеспечение пожарной безопасности.
Пожарная безопасность объекта обеспечивается:
системой предотвращения пожара,
системой противопожарной защиты,
организационно-техническими мероприятиями.

В соответствии с ГОСТ 12.4.009-83 «Пожарная техника для защиты объектов. Основные виды. Размещение и обслуживание» в помещении ВЦ должны иметься первичные средства пожаротушения. При площади помещения 100 м2 это:
углекислотный огнетушитель ОУ-8 — 2 шт.;
СНиП 27.01-97 регламентирует число, размеры и конструкторские решения устройства эвакуационных путей. В соответствии с ним необходимо:
число выходов: 2.
Для обнаружения, оповещения и ликвидации пожаров применяют устройства пожарной автоматики:
система автоматической пожарной сигнализации - станция тревожная оптическая лучевая ТОЛ-10/100,
автоматическая установка пожаротушения - газовая АУП с электропуском типа УАГЭ.

5.4. Экологическая безопасность

Под загрязнением окружающей среды следует понимать не только выброс во внешнюю среду вредных веществ, но также - излишков тепла, шума, излучения.
В настоящее время, при применении современных ЭВМ, удовлетворяющих стандартам на предельно допустимые уровни электромагнитного излучения, помещения ВЦ можно отнести к экологически безопасным объектам, поскольку ЭВМ не загрязняет атмосферу, гидросферу, почву, не наносит вреда флоре и фауне.
Для очистки воздуха в помещениях, удаляемого вентиляционными аспирационными системами от твердых и жидких примесей, применяют различные пылеуловители.
Наиболее перспективными пылеотделителями сухого типа , предназначенными для очистки воздуха от частиц размером >5 мкм, являются ПРП противопоточные ротационные пылеотделители (рис. 3.4).

Рис. 3.4. Противопоточный ротационный пылеотделитель
1—кожух; 2—ротор; З—колесо вентилятора; 4 — бункер.

Пылеотделитель состоит из встроенного в кожух 1 полого ротора 2 с перфорированной поверхностью и колеса вентилятора З. Ротор и колесо вентилятора насажены на общий вал. При работе пылеотделителя запыленный воздух поступает внутрь кожуха, где закручивается вокруг ротора. В результате вращения пылевого потока возникают центробежные силы, под действием которых взвешенные в воздухе частицы пыли стремятся выделиться из него в радиальном направлении. Одновременно на эти частицы в противоположном направлении действуют силы аэродинамического сопротивления. Частицы, центробежная сила которых больше силы аэродинамического сопротивления, отбрасываются к стенкам кожуха и поступают в бункер 4. Очищенный воздух через перфорацию ротора всасывается в вентилятор и затем выводится наружу.
Эффективность очистки ПРП зависит от выбранного соотношения центробежной и аэродинамической сил и теоретически может достигать единицы. Величина центробежной силы является функцией числа оборотов и диаметра ротора, величина аэродинамической силы — функцией скорости просасывания воздуха через перфорацию ротора, т. е. производительность вентилятора.
Исходя из равенства центробежной силы и силы аэродинамического сопротивления воздуха движению частицы пыли, И. А. Шепелев получил формулу для определения производительности ПРП:
Qv=400*π*b*w2*ρп*d2ч/ρв*v
где ρп и ρв —плотность пыли и воздуха, кг/м3 ; dч – диаметр улавливаемых частиц, м; v—коэффициент кинематической вязкости, м2/с ; w— окружная скорость, м/с; b=i*d20/8R — приведенная ширина всасывающего отверстия ротора пылеуловителя, м. Величина b — отношение суммы площадей поперечного сечения отверстий перфорации к длине окружности ротора (2πR); i—количество отверстий, шт.; d0—диаметр отверстий, м.
Диаметр минимальной улавливаемой частицы пыли в этом случае равен:

Сравнение ПРП с циклонами свидетельствует о преимуществах ротационных пылеуловителей. Так, габаритные размеры циклона в 3—4 раза, а удельные энергозатраты на очистку 1000 м газа на 20—40% больше, чем у ПРП при прочих равных условиях. Однако широкое распространение пылеуловители ротационного действия не получили из-за относительной сложности конструкции и процесса эксплуатации по сравнению с другими аппаратами сухой очистки газов от механических загрязнений.






Литература

Таха Х. Введение в исследование операций. М.: 1990.
Холланд Дж. Генетические алгоритмы // В мире науки.1992 N 2-10.
Тарасов В.Б. От многоагентных систем к интеллектуальным организациям: философия, психология, информатика, М.-Эдиториал УРСС, 2002.
Терехов С.А. Нейро-динамическое программирование автономных агентов. Научная сессия МИФИ-2004. VI - научно-техническая конференция "Нейроинформатика - 2004". М: МИФИ,2004,с.111-138.
Bertsekas D.P., Tsitsitlis J.N. Neuro-Dynamic Programming, Belmont, MA: Athenas Scientific,1996.
Sutton, R. S. (1988). “Learning to predict by methods of temporal differences”, Machine Learning, 3: 9-44.
Sutton R. S. and Barto A.G. “Reinforcement learning: an introduction”, MIT Press, Cambridge, MA, 1998.
Rummery G. A. and Niranjan M. “On-line Q-Learning using connectionist systems”, CUED/F-INFENG/TR 166, September 1994.
Peng, J. And Williams, R.J. (1994). “Incremental multi-step Q-learning”, in W. Cohen and H. Hirsh (eds.), Machine Learning: Proceedings of the Eleventh International Conference (ML94), Morgan Kaufmann, New Brunswick, NJ, USA.
Bartо A. G., Sutton R. S. And Anderson C. W. (1983). “Neuron-like elements that can solve difficult learning control problems”, IEEE Transactions on Systems, Man and Cybernetics, 13: 835 846.
Mahadevan S. And Connell J., (1991). “Automatic Programming of Behaviour-based Robots using Reinforcement Learning”, Artificial intelligence, 55, 2.
Tham C. K. And Prager K. W. (1992). “Reinforcement Learning for Multi-linked Manipulator Control”, CUED/G-INFENG/TR 104.
Lin-Long-Ji, Mitchell Tom M. “Memory approaches to reinforcement learning in non-Markovian domains”, CMU-CS-92-138, May 1992.
Sutton R. S. (1989). ”Implementation details of TD(?) procedure for case of vector predictions and backpropagation”, TN87-509.1, GTE Laboratories.
Wilson S. W. (1985), “Knowlege growth in an artificial animal. Proceedings of the First International Conference on Genetic Algorithms and their Applications”.
Prescott T. J. And Mayhew J. E. W. (1992). “Obstacles avoidance through reinforcement learning”, Advances in Neural Information Processing system 4, Morgan Kaufmann, San Mateo, CA, pp.523-530.
Сайт компании Экс Джей Текнолоджис: http://www.xjtek.ru.
Wikipedia: Reinforcement learning
http://ru.wikiversity.org/wiki/Q-learning%2B
http://ru.wikipedia.org/wiki/Матлаб

Приложение 1

Листинг программы

cc;
clc;
m=15;n=15;
Q_mat=zeros(m,n);
SpaceMat=zeros(m,n);

SpaceMat(3:7,3:7)=1;
SpaceMat(10:end-3,8:end)=1;

figure(67);cla;
surf(SpaceMat);
title('space');
pause;



%%%%%%%%%%5%%%%%%%%%%%%%%%%%%%%%%

agent.current.x=1;
agent.current.y=1;
agent.counter=0;
agent.weight=0;



[DESIGION,TRAJECTORY,agent] =get_best_trajectory(agent, SpaceMat);

function [DESIGION,TRAJECTORY,agent] =get_best_trajectory(agent1, SpaceMat)
% input parameters:
% agent1- agent. agent.current.x and agent.current.y- the first position.
% px,py- the coordinate of start position.
% SpaceMat-the plane of free space
% output parameters
% TRAJECTORY- the trajectory matrix;
% DESIGION- the 3-d desigion matrix;DESIGION(x,y,:)- weights of desigion
% in position (x,y)
[m,n]=size(SpaceMat);
agent=agent1;
DESIGION=zeros(m,n,4);


%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
ind=0;
for iei=1:50
agent.current.x=1;
agent.current.y=1;
TRAJECTORY=zeros(m,n);
for iui=1:2009



x_old= agent.current.x;
y_old= agent.current.y;
TRAJECTORY(y_old,x_old)=TRAJECTORY(y_old,x_old)+1;
C=DESIGION(y_old,x_old,:);
YY=permute(C,[3 2 1]);



[agent1,ind]=get_best_next_q_l(agent,YY);
YY
ind
x_=agent1.current.x;y_=agent1.current.y;
weight=0;
if((x_<1)||(y_<1)||(x_>n)||(y_>m))
weight=-100;
agent.counter=agent1.counter;
elseif(SpaceMat(y_,x_)>0)
weight=-100;
agent.counter=agent1.counter;
else
agent=agent1;
end
y_=agent.current.y;x_=agent.current.x;
weight=weight+((y_-y_old)+(x_-x_old))-3;
%weight=weight-3;
agent.counter=agent.counter+1;
DESIGION(y_old,x_old,ind)=DESIGION(y_,x_,ind)+weight;




video=zeros(m,n);
video(find(SpaceMat>0))=4;
video(agent.current.y,agent.current.x)=10;
figure(34);cla;
ai(video);
%pause(1);

if([y_old,x_old]==[m,n])
DESIGION(y_old,x_old,ind)= +1000;
break;
end

if(iui==500)
DESIGION(y_old,x_old,ind)= -1000;
break;
end


end
Uu=mean(DESIGION,3);
figure(356);cla;
subplot(1,2,1);
ai(Uu);
title('weights');

RR=mean(TRAJECTORY,3);
subplot(1,2,2);
ai(RR);
title('trajectory');
pause(1);


end

function [agent,i]=get_best_next_q_l(agent1,YY)
II=find(YY==max(YY));
UI=randperm(size(II,1));

i=II(UI(1));

agent=agent1;
agent.counter=agent.counter+1;
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%


if(i==1)agent.current.x=agent.current.x+1;end
if(i==2)agent.current.x=agent.current.x-1;end
if(i==3)agent.current.y=agent.current.y+1;end
if(i==4)agent.current.y=agent.current.y-1;end

end
Приложение 2

Результаты работы программы




































q-learning.m

get_best_trajectory.m

внешний цикл
попытки найти траекторию
i = 1, …, 50

внутренний цикл
время поиска пути
t (2009

Q - m x n x k матрица

выбор оптимального решения

агент
current point
weight
counter


обновление весов

отображение позиции

отображение траектории

Проверка:
достиг цели?
уложился ли в лимит времени?

1.Таха Х. Введение в исследование операций. М.: 1990.
2.Холланд Дж. Генетические алгоритмы // В мире науки.1992 N 2-10.
3.Тарасов В.Б. От многоагентных систем к интеллектуальным организа-циям: философия, психология, информатика, М.-Эдиториал УРСС, 2002.
4.Терехов С.А. Нейро-динамическое программирование автономных агентов. Научная сессия МИФИ-2004. VI - научно-техническая конфе-ренция "Нейроинформатика - 2004". М: МИФИ,2004,с.111-138.
5.Bertsekas D.P., Tsitsitlis J.N. Neuro-Dynamic Programming, Belmont, MA: Athenas Scientific,1996.
6.Sutton, R. S. (1988). “Learning to predict by methods of temporal differ-ences”, Machine Learning, 3: 9-44.
7.Sutton R. S. and Barto A.G. “Reinforcement learning: an intro-duction”, MIT Press, Cambridge, MA, 1998.
8.Rummery G. A. and Niranjan M. “On-line Q-Learning using con-nectionist systems”, CUED/F-INFENG/TR 166, September 1994.
9.Peng, J. And Williams, R.J. (1994). “Incremental multi-step Q-learning”, in W. Cohen and H. Hirsh (eds.), Machine Learning: Proceedings of the Eleventh International Conference (ML94), Mor-gan Kaufmann, New Brunswick, NJ, USA.
10.Bartо A. G., Sutton R. S. And Anderson C. W. (1983). “Neu-ron-like elements that can solve difficult learning control problems”, IEEE Transactions on Systems, Man and Cybernetics, 13: 835 846.
11.Mahadevan S. And Connell J., (1991). “Automatic Programming of Behav-iour-based Robots using Reinforcement Learning”, Artificial intelligence, 55, 2.
12.Tham C. K. And Prager K. W. (1992). “Reinforcement Learning for Multi-linked Manipulator Control”, CUED/G-INFENG/TR 104.
13.Lin-Long-Ji, Mitchell Tom M. “Memory approaches to reinforcement learn-ing in non-Markovian domains”, CMU-CS-92-138, May 1992.
14.Sutton R. S. (1989). ”Implementation details of TD(?) procedure for case of vector predictions and backpropagation”, TN87-509.1, GTE Laboratories.
15.Wilson S. W. (1985), “Knowlege growth in an artificial animal. Proceedings of the First International Conference on Genetic Algorithms and their Applications”.
16.Prescott T. J. And Mayhew J. E. W. (1992). “Obstacles avoid-ance through reinforcement learning”, Advances in Neural Information Processing system 4, Morgan Kaufmann, San Mateo, CA, pp.523-530.
17.Сайт компании Экс Джей Текнолоджис: http://www.xjtek.ru.
18.Wikipedia: Reinforcement learning
19.http://ru.wikiversity.org/wiki/Q-learning%2B
20.http://ru.wikipedia.org/wiki/Матлаб


Вопрос-ответ:

Что такое агентное моделирование?

Агентное моделирование - это подход к моделированию систем, основанный на поведении и взаимодействии независимых агентов.

Что такое обучение с подкреплением?

Обучение с подкреплением - это метод машинного обучения, в котором агент обучается на основе получаемых наград и пытается максимизировать общую награду.

Какие алгоритмы используются в модуле для агентного моделирования?

В модуле используются различные алгоритмы для обучения с подкреплением, такие как Q-обучение, SARSA, DQN и другие.

Какие результаты были получены при использовании модуля для агентного моделирования?

При использовании модуля были получены результаты моделирования, позволяющие оценить эффективность различных стратегий поведения агентов в заданной системе.

Какую программу использовали для разработки модуля для агентного моделирования?

Для разработки модуля использовалась специализированная среда проектирования, которая предоставляет необходимые инструменты для создания, настройки и тестирования моделей агентов.

Что такое агентное моделирование?

Агентное моделирование - это метод моделирования, в котором система разбивается на небольшие автономные части, называемые агентами, которые взаимодействуют друг с другом и с окружающей средой. Этот метод используется для изучения сложных систем, таких как социальные и экономические.

Что такое обучение с подкреплением?

Обучение с подкреплением - это метод машинного обучения, в котором агент обучается принимать решения на основе получаемых наград или штрафов в результате взаимодействия с окружающей средой. Агент стремится максимизировать свою общую награду через подбор оптимальных действий в различных ситуациях.

Какие алгоритмы используются в обучении с подкреплением?

В обучении с подкреплением используются различные алгоритмы, такие как Q-обучение, SARSA, DQN и т.д. Эти алгоритмы основаны на идее оценки состояний и действий с помощью функции ценности Q.

Какое программное обеспечение используется для разработки модуля?

Для разработки модуля используется специальная среда проектирования. Она обеспечивает удобную среду разработки и тестирования модуля обучения с подкреплением. В статье проводится описание программы и приводятся результаты расчетов.