Self-Study as an Argument for the Survival Function of an Autonomous Virtual Character
Table of contents
Share
Metrics
Self-Study as an Argument for the Survival Function of an Autonomous Virtual Character
Annotation
PII
S207751800004813-3-1
DOI
10.18254/S207751800004813-3
Publication type
Article
Статус публикации
Published
Authors
Evgeny Grishin 
Affiliation: Independent Researcher and Inventor
Address: Russian Federation, Moscow
Abstract

The article is devoted to the downward approach to the modeling of intelligent machines. It is shown that within the framework of the downward approach, the problem of the “explanability” of the grounds for the decisions made by the intellectual machine is easily solved. A universal structure of the iterative act is proposed: “decision-making - behavior”, as “syllogism”. The criterion of effectiveness of any decision-making algorithm modeled as a set of syllogisms is formulated. The use by the character of a model multiple, accelerated play of activity in the process of forming a group of performers of the script roles is considered. A distinction has been made between the types of self-learning of a character by adaptive specificity: cognitive (cognitive) adaptation to environmental conditions, and functional (behavioral) adaptation to environmental conditions.

Keywords
self-study, adaptive behavior, decision-making, relevance, pertinence, behavior, artificial intelligence
Received
16.12.2018
Date of publication
30.03.2019
Number of characters
32718
Number of purchasers
11
Views
249
Readers community rating
0.0 (0 votes)
Cite Download pdf

To download PDF you should sign in

1 Есть достаточно оснований для того, чтобы определить самообучение как важнейшее условие в процессе принятия решений виртуальным персонажем, осуществляющим автономное, адаптивное и целесообразное поведение для его самовыживания и саморазвития [1]. Адаптивное поведение персонажа в изменяющейся Среде тесно связано с проблемой принятия им адекватных решений на каждой ступени иерархии временных периодов, начиная с элементарного шага поведения.
2 Сделаем попытку моделирования универсальной схемы элементарного шага процесса принятия решений (ППР) и связанного с ним поведения персонажа. Схема элементарного шага «ППР-Поведение» должна быть применима для каждой из ступеней иерархии временных периодов персонажа и должна находиться в тесной связи с самообучением персонажа. Дадим некоторые определения в рамках применяемой модели ППР-Поведение.
3 Сформулируем собственное представление о понятии Информация применительно к ППР персонажа: Информация есть совокупность двух последовательных символьных или образных сообщений (сигналов); первое называется «запрос, пертинентный потребности», второе – «ответ, релевантный запросу».
4 Запрос, пертинентный потребности это просьба персонажа к источнику в Среде (Биржа, другой персонаж), обусловленная его потребностью в выживании, о направлении ему предложений (последовательно во времени) по возможным исполнителям конкретной роли в его сценарии, со сведениями о надёжности и кредитной истории исполнителей.
5 Ответ, релевантный запросу - это направление источником персонажу последовательно во времени потока сообщений с соответствующими запросу предложениями по возможным исполнителям указанной роли в сценарии персонажа, с требуемыми сведениями об исполнителях.
6 Требование пертинентности и релевантности [7], на наш взгляд, есть необходимое условие для восприятия сообщений как «информации». Несоответствие указанным условиям позволяет считать сообщение «шумом» («спамом», «фейком»), или «дезинформацией».
7 Понятие «Принятие решения» персонажем подразумевает:
8
  • Определение цели деятельности по удовлетворению актуальной потребности.
  • Разработка сценария деятельности с перечнем ролей (средств).
  • Обработка информации, как передача запроса к источнику (генератору) вариантов исполнителей ролей в Среде и получение ответа в виде потока предложений со сведениями об исполнителях.
  • Анализ и выбор по некоему критерию одного варианта исполнителя роли из потока вариантов, генерируемых одним из источников в Среде.
  • Прекращение поиска и анализа новых вариантов.
  • Переход к поиску исполнителей следующей роли, или к исполнению поведения с выбранными исполнителями ролей в Среде.
9 Понятие «Поведение» подразумевает наличие у персонажа:
10
  • «рекурсивного пошагового алгоритма поведения»,
  • «календарного плана исполнения ролей и расхода/дохода ресурсов в сценарии»,
  • «интерпретатора алгоритма поведения и алгоритма-контролёра плана»,
11 Событие есть материальное действие, совершённое индивидом как исполнение или неисполнение им роли в некотором сценарии, или умозаключение индивида типа «субъект-предикат», имеющие место быть в Среде, о чём может быть сформулирована Информация, предназначенная для передачи от одного индивида к другому в виде сообщения (сигнала).
12 Событие, о котором формулируется информация, как сообщение (сигнал), рассматривается с двух точек зрения – пространственной и временной.
13 Сообщение (сигнал) о событии в пространстве – это ответ на запрос персонажа: кто предлагается как исполнитель роли в сценарии, какова его цена, каковы компетенции, чьи рекомендации, поручительства и т.д.
14 Сообщение (сигнал) о событии во времени (прошлом или будущем) – это ответ на запрос персонажа:
15
  • Какова степень уверенности в исполнении роли априори (доопытная оценка вероятности исполнения роли данным исполнителем в будущем)?
  • Каков фактический результат исполнений аналогичных ролей данным исполнителем, происшедших в прошлом, в сравнении с планом (апостериори)?
16 Рассмотрим также дихотомию на множестве ранее ожидаемых и потом происшедших событий:
17 1. Назовём «регулярными событиями» подмножество событий, сведения о которых пришли в ответ на запросы от источников, и удовлетворяют следующим требованиям эталона:
18
  1. в прошлом события были ожидаемыми с высокой вероятностью появления (= > 0,7) и затем происходили,
  2. в прошлом события были ожидаемыми с высокой вероятностью не появления (= > 0,7) и затем не происходили.
19 Обозначим признаком «1» те события, которые при измерении подтвердили принадлежность события к данному подмножеству «регулярных событий».
20 2. Назовём «случайными событиями» подмножество событий, сведения о которых пришли в ответ на запросы от источников, и удовлетворяют следующим требованиям эталона:
21
  • в прошлом события не были ожидаемыми (или были ожидаемыми с высокой вероятностью не появления = > 0,7), но в последующем происходили,
  • в прошлом события были ожидаемыми с высокой вероятностью появления (= > 0,7), но в последующем не происходили,
22 Обозначим признаком «0» принадлежность таких событий к данному подмножеству «случайных событий».
23 Предположим далее, что любой процесс принятия решений, осуществляемый персонажем (живым или искусственным организмом), как алгоритм, состоит из элементарных актов – условных переходов, моделируемых формализмом «силлогизм». В данном случае силлогизм рассматривается как символическое отношение, которое состоит из левой части (антецедент), правой части (консеквент), и знака между ними «-->», означающего, что в зависимости от результатов измерений событий-условий в антецеденте будет запущена на исполнение одна соответствующая группа из двух альтернативных групп событий-действий в консеквенте.
24 В антецеденте перечисляются события, группирующиеся как ряд условий, ряд допущений и ряд (ресурсных) ограничений, которые при измерении должны быть определены как «регулярные», для того, чтобы была запущена на исполнение целевая группа событий-действий, записанная в консеквенте. Измерение хотя бы одного события в антецеденте как «случайного» приводит к выбору альтернативной группы событий-действий. В консеквенте записываются две группы событий-действий, целевая и альтернативная. Одна из них должна быть выбрана для запуска на исполнение после измерения фактических результатов исполнения событий-условий, записанных в антецеденте.
25 Измерение есть последовательное чтение интерпретатором событий-сигналов из Среды, принятых рецепторами, как фактических значений признаков, и сравнение (компарация) их с некими значениями-эталонами. Совпадение или превышение фактического значения над эталоном есть признак «1», иначе – признак «0».
26 Исполнение есть запись интерпретатором события-действия из консеквента в эффектор для произведения им действия в Среде, если все события-сигналы в антецеденте – регулярные (признак – «1»), или рекурсивный возврат интерпретатором на вход алгоритма, если хотя бы одно событие-сигнал – случайное (признак – «0»), и переход к анализу следующего сообщения.
27 Выбор и запуск целевой группы событий-действий означает принятие персонажем решения о вставлении выбранного исполнителя роли в план-график сценария. Выбор альтернативной группы событий-действий означает непринятие персонажем решения о данном исполнителе роли, рекурсивный возврат в начало алгоритма, и расход ресурса на ожидание очередного сообщения о новом исполнителе роли.
28 Когда приняты решения по исполнителям всех ролей сценария, предусмотрен этап модельного многократного ускоренного проигрывания деятельности (ММ УПД): в момент наступления «календарного» срока исполнения очередной роли имитируется случайность исхода: генерируется случайное число, которое сравнивается с запланированной вероятностью исполнения роли данным исполнителем. Если случайное число окажется равным или меньше запланированной вероятности, то роль считается исполненной. В противном случае роль не считается исполненной.
29 Модельное многократное ускоренное проигрывание деятельности (сопоставлением случайного числа с вероятностями исполнения выбранных исполнителей ролей) позволяет персонажу рассчитать общую вероятность выполнения сценария проекта по времени и по доходам/расходам, и принять решение:
30
  • оставить набранную группу исполнителей,
  • заменить всю группу на новых исполнителей, или
  • заменить отдельных исполнителей новыми.
31 После повторения всех процедур измерений и замены всех или части исполнителей на новых повторяется ускоренное многократное проигрывание деятельности (сопоставлением случайного числа с вероятностями исполнения выбранных исполнителей ролей). И так далее, пока расчёт общей вероятности выполнения сценария проекта по времени и по доходам/расходам не совпадёт с неким эталоном, эмпирически заданным конструктором. Лишь тогда запускается деятельность в соответствии с планом-графиком сценария, сопряжённым с реальным календарём.
32 Изложенное применение в процессе формирования группы исполнителей сценария модельного многократного ускоренного проигрывания деятельности (ММ УПД) следует рассматривать как один из методов самообучения персонажа (как игра с самим собой).
33 Таким образом, в силлогизме, как модели акта принятия решения, отражено целостное представление персонажа о принятии решения, учитывающее:
34
  • представление о происходящем в пространстве,
  • представление о фактически происшедшем в прошлом времени,
  • представление о планируемых вариантах событий в будущем времени
  • представление о настоящем времени как о моменте измерения факта прошедшего события и соответствующего выбора варианта плана будущего события.
35 Результативность ППР зависит от способности конструктора алгоритма:
36
  • Предварительно составить список событий, адекватный ситуации в текущей Среде, включающий условия, допущения и ограничения, для записи в антецедент.
  • Предварительно адекватно оценить максимумы значений эталонов для компарации с ними фактического результата в каждой итерации измерения значения каждого из событий-сигналов от рецепторов,
  • Назначить периодичность дискретного снижения эталона компарации и задать предел снижения, с целью минимизировать число итераций анализа потока исполнителей, до получения признака «1» по каждому исполнителю, и при этом не допустить выбора ненадёжных исполнителей.
  • Определить критерием оптимального решения момент превышения предполагаемых затрат на продолжение итераций поиска вариантов над предполагаемыми доходами от продолжения поиска, и прекращение перебора новых вариантов.
  • Найти адекватный баланс между большими затратами на продолжение поиска надёжного варианта и будущими вероятными затратами на ликвидацию последствий от неисполнения роли дешёвого, но ненадёжного варианта.
37 Отсюда вывод: критерием результативности любого алгоритма принятия решений, смоделированного в виде набора силлогизмов является минимизация числа итераций перебора и измерений вариантов исполнителей до получения признака «1» по всем условиям, допущениям и ограничениям в антецеденте каждого силлогизма для запуска на исполнение целевой, а не альтернативной, группы событий-действий, записанных в консеквенте каждого силлогизма.
38 Перейдём к рассмотрению прочих процессов самообучения:
39 1. Различим виды Самообучения персонажа по адаптационной специфике:
40
  • Когнитивная (познавательная) адаптация к условиям Среды
  • Функциональная (поведенческая) адаптация к условиям Среды
41 1.1. Самообучение как когнитивная (познавательная) адаптация персонажа есть строительство его понятийной (семантической) модели Среды, модели знаний (know what), приспособление её к изменяющейся Среде, и сохранение тем самым устойчивости (Целостности) существования персонажа на длительных промежутках времени. Примеры решаемых проблем: распознавание образов, классификация, абстракция, индукция (обобщение), дедукция (конкретизация) и другие концептуальные проблемы.
42 Когнитивная адаптация персонажа включает следующие процессы:
43
  • пошаговую генерацию новых семантических элементов модели («порождение»),
  • пошаговую генерацию случайных связей элементов модели («мутации»),
  • закрепление в структуре тех связей, которые наиболее устойчивы к изменяющимся условиям Среды («отбор» во времени),
  • разрушение неустойчивых связей и элементов.
44 Примером модели когнитивной адаптации может служить концепция ситуационного управления [1]. В её рамках разрабатываются алгоритмы последовательного преобразования детального описания состояния игровой Среды во все более обобщенное описание. В результате формируется обобщенный образ текущего состояния игровой Среды, с которым может связываться некоторое последующее действие управляющей системы из ограниченного набора действий (пример - принцип светофора: подготовка к прерыванию действия (жёлтый), разрешение действия (зелёный), запрет действия (красный)). Иначе говоря, в определенной степени здесь решаются задачи распознавания образов, классификации и обобщения.
45 Для моделирования когнитивной адаптации также хорошо подходят генетические алгоритмы, поскольку в их основе лежит теория эволюции видов – происхождение видов и самообучение видов самовыживанию [5].Задачу моделирования когнитивной адаптации призваны решать ныне широко распространённые нейронные сети [5].
46 1.2. Самообучение как функциональная (поведенческая) адаптация персонажа есть его способность во времени быстро анализировать, запоминать и продолжительно использовать в поведении информацию о потоке таких классов текущих ситуаций Среды, действия на основе которых эффективно приводят к накоплению и сохранению материального ресурса персонажа (know how). Примеры поведения: Игры (с нулевой и с ненулевой суммой), Охота, Борьба, Кооперация, вообще любой вид деятельности персонажа, связанный с пошаговыми затратами и пополнением его жизненного ресурса. Смысл поведенческого самообучения персонажа таков: при сравнительно небольших затратах ресурсов на обучение в течение короткого периода времени получается значительно больший выигрыш ресурсов в существенно более длительном периоде существования персонажа за счет использовании полученных навыков в самообучении. Функциональное (поведенческое) самообучение персонажа включает два неравных по времени периода, следующих попеременно друг за другом.
47 Первый, кратковременный, период (собственно «Cамообучение»):
48
  • Анализ, классификация и запоминание персонажем различных последовательно предъявляемых Средой ситуаций по их внешним параметрам (размерам, форме, весу, субстрату, скорости, цене, и т.д.),
  • обязательное исполнение некоторых стандартных действий персонажем (по приобретению или сохранению Ресурса) при распознавании класса каждой появившейся ситуации,
  • запоминание информации о результате действия, исполненного персонажем в ситуации каждого данного класса (удача/неудача в приобретении или сохранении Ресурса),
  • упорядочение персонажем ситуаций по степени результативности совершённых в них действий,
  • определение порогового (удовлетворительного) значения результативности действий для персонажа,
  • группировка класса ситуаций, действия в которых дают результативность равной или выше пороговой, с целью последующего выполнения персонажем действий «в бою» при появлении одной из данных ситуаций, или «пропуск хода» при появлении любых других ситуаций.
49 Второй, длительный, период - Целенаправленное поведение персонажа в Среде («Бой»). Здесь поведение также основывается на постоянной классификации персонажем ситуаций Среды. Но теперь уже персонаж не должен обязательно исполнять какое-либо действие при появлении ситуации того или иного класса. Теперь действие персонажа (по приобретению или сохранению ресурса) осуществляется на основе произведенного ранее самообучения (т.е. при появлении только таких ситуаций, действия в которых дают результативность выше пороговой). Иначе говоря, выработанный в результате предыдущего периода самообучения параметр результативности с некоторым пороговым значением служит персонажу критерием принятия решений о его действиях (или «пропуске хода») в последующем пошаговом поведении «в бою».
50 В случае ряда неудачных результатов пошагового поведения во втором периоде («в бою») персонаж может ускоренно перейти к новому периоду Самообучения. Если по результатам нового периода Самообучения выясняется, что характеристики Среды незначительно ухудшились или улучшились, время второго периода сохраняется или увеличивается. Если характеристики Среды существенно изменились и результативность поведения снизилась, время второго периода («боя») сокращается, и следующий период Самообучения наступает быстрее.
51 Все изложенное допустимо при следующих предположениях:
52
  • вопросы понятийной классификации и обобщения описаний ситуаций Среды изначально решены, или
  • исполнение периода функционального самообучения персонажа начинается после периода работы блока когнитивной адаптации, осуществившего понятийную классификацию и обобщение описаний ситуаций Среды.
53 Далее, определим принципиальное различение двух групп ситуаций Среды с точки зрения того, где может помочь функциональное (поведенческое) Самообучение персонажа.
54 Ситуации относительной определенности, которые характеризуются следующим:
55
  • Ситуация распознается и оценивается персонажем с точки зрения возможных результатов действий.
  • Персонаж на основе имеющейся информации может принять решение: действовать в данной ситуации или пропустить шаг, с целью ожидания более приемлемого варианта.
56 Примеры: Тир, Охота, Соревнования, Война, Компьютерные и некоторые карточные Игры с чётко установленными правилами многоходового взаимодействия. Иначе говоря, это ситуации, в которых персонаж делает ход или пропускает ход в ответ на понятный ему текущий ход партнера (стихии) в серии ходов.
57 Ситуации неопределенности, которые характеризуются следующим:
58
  • Текущая ситуация понятийно распознается персонажем, но у него нет оснований для её оценки с точки зрения возможных результатов его действий.
  • Персонаж имеет в памяти ряд предыдущих похожих ситуаций, которые он может анализировать как историю предыдущих действий (собственных и чужих) и прогнозировать на свой страх и риск результаты своих подобных действий в текущей ситуации.
  • Персонаж обязан действовать на каждом текущем шаге (пропуск шага невозможен).
59 Пример: Игровые автоматы, шашки, шахматы, Го, некоторые карточные игры. Иначе говоря, это ситуации, в которых первый ход (и может быть, единственный) делает Персонаж.
60 Можно сделать вывод, что функциональное Самообучение помогает персонажу только в первом случае – в ситуациях с относительной определенностью. В ситуациях с неопределенностью персонаж должен пользоваться подсказкой со стороны «учителя» (обучение с подкреплением), или нарабатывать собственный опыт методом проб и ошибок на свой страх и риск.
61 2. Далее нами будет рассматриваться Самообучение как функциональная (поведенческая) адаптация персонажа, понимаемая в следующих смыслах:
62 2.1. Самобучение как процесс оценки целесообразности принятия решения персонажем-организатором о заключении одиночной форвардной сделки в некоем проекте с персонажем-исполнителем роли, предлагающим на данном шаге конкретный вариант поставки в будущем товара/услуги по конкретной цене и качеству, притом, что поток поступления аналогичных предложений от других персонажей распределён во времени и продолжается. Принятие решения персонажем-организатором прекращает процесс поиска им новых предложений, и запускает процесс реализации исполнения заключённой сделки в будущем.
63 Процесс оценки целесообразности заключения одиночной сделки включает следующие обязательные процедуры:
64
  • Идентификация персонажа2, появившегося в «поле зрения» персонажа1, (при переборе поступающих от Биржи вариантов предложений Исполнителей на определенную Роль в Проекте, организуемом Персонажем1, каждый Исполнитель определяется своим идентификатором – именем, уникальным признаком).
  • Восстановление (Формирование) «досье» персонажа2 - статистики результатов исполнения персонажем2 сделок на разные Роли с оценками по каждому результату:
  • Восстановление из памяти Персонажа1 статистики результатов исполнения персонажем2 его Роли в предыдущих взаимодействиях с Персонажем1,
  • Получение персонажем1 от информатора сообщений о результатах исполнения персонажем2 ролей в проектах других персонажей,
  • Начальное использование персонажем1 неизвестного персонажа2 как исполнителя в требуемой роли на свой страх и риск для получения статистики на собственном опыте.
  • Анализ и Отнесение персонажем1 «досье» персонажа2 к определенному классу с конкретной оценкой вероятности будущего положительного результата от приглашения персонажа2 на требуемую роль в проекте.
  • Принятие решения персонажем1 о заключении сделки с персонажем2 на исполнение им требуемой роли в проекте (на основе соотнесения оценки вероятности исполнения сделки и определенным образом обоснованной нормы вероятности исполнения). Принятие решения о не заключении сделки означает продолжение перебора поступающих из Среды (от Биржи) вариантов предложений Исполнителей на данную Роль в Проекте.
  • Оценка персонажем1 результата исполнения персонажем2 роли в проекте по наступлении срока: исполнено/не исполнено по времени, по цене и качеству в процентах от договора.
  • Запись Оценки в «досье» персонажа2 для использования её в последующих сделках персонажа2 как его «кредитной истории».
65 2.2. Самобучение как процесс оценки персонажем целесообразности того или иного варианта собственного поведения (действия/бездействия) на каждом текущем шаге продолжающегося процесса рассматривается на примере Тира:
66 2.2.1. Тир. Самообучение персонажа перед Боем
67 Персонажу дают 20 патронов для Самообучения стрельбе по мишеням. Персонажу известно, что:
68
  • мишени появляются по одной последовательно на каждом такте,
  • мишени могут быть разного размера,
  • вероятность попадания в мишень пропорциональна ее размеру,
  • время между моментами появления мишеней одинаковое.
69 Персонажу заранее неизвестно, что:
70
  • число размеров мишеней - 10,
  • какого размера мишень появится следующей,
  • какова частота появления мишеней разных размеров.
71 При появлении мишени персонаж должен сразу определить ее размер и обязательно выстрелить один раз, независимо от того, какого она размера. Персонажу сразу объявляется результат: при попадании в мишень - стандартный Выигрыш (Приз минус Страховка), при промахе - стандартный Проигрыш (Страховка).
72 Цель Самообучения персонажа перед Боем:
73
  • Запомнить, Выигрыш или Проигрыш был при стрельбе в мишени каждого размера,
  • Определить закон: зависимость частоты появления мишеней от их размера (равномерная, прямо- или обратно-пропорциональная),
  • Установить и запомнить тот минимальный размер мишени, меньше которого «в бою» в мишень не имеет смысла стрелять (высоковероятен Проигрыш), а больше которого - стрелять обязательно (высоковероятен Выигрыш).
74 Следует отметить, что в данном случае задача самообучения персонажа меткой стрельбе не ставится, и должна рассматриваться специально, исходя из вышеизложенных принципов. Здесь же считается, что персонаж уже обучен навыкам владения оружием.
75 2.2.2. Тир. Бой.
76 У персонажа есть 80 патронов для боевой стрельбы по мишеням (по одному патрону на одну появившуюся мишень). Как и при Самообучении, количество размеров мишеней – 10. На каждом такте обязательно появляется одна мишень, размер которой заранее персонажу неизвестен. Частота появления мишеней разных размеров может быть неодинаковой. Однако персонаж считает, что этот закон теперь ему уже известен в результате обучения и он может делать предположения относительно того, как часто может появляться требуемый размер мишени. В то же время Стрелок должен сделать предположение о числе шагов периода боя, в течение которого этот закон не будет меняться. При снижении результативности боя в процессе боя или по его окончании персонаж должен будет начать следующий период Самообучения.
77 Для выживания персонажу дается начальный Жизненный ресурс. Он будет порциями тратиться на каждом шаге (пропуск хода в ожидании подходящей мишени или выстрел), и должен на том или ином шаге пополняться Выигрышем от попадания в мишень. Если остаток «Жизненный ресурс + Выигрыши – Затраты» стал равным нулю, персонаж Бой проигрывает.
78 Теперь, при появлении мишени, персонаж должен определить ее размер и решить, стрелять ему или нет, в зависимости от того, меньше размер мишени, чем тот минимальный, установленный при Самообучении, или больше. Персонаж может решить не стрелять, но тогда на каждый шаг ожидания следующей мишени будет порциями тратиться Жизненный Ресурс. И с каждым новым появлением мишени, произведен выстрел или нет, затраты Ресурсов на шаг Жизни будут вычитаться из Жизненного Ресурса.
79 При выстреле и попадании в мишень персонажу сразу объявляется Выигрыш, при промахе - Затраты, которые добавляются к жизненным ресурсам или вычитаются из них. Выигрыш равен размеру Приза за вычетом Страховки и Затрат на ожидание (поиск) требуемой мишени. Проигрыш равен сумме Страховки и Затрат на ожидание (поиск) Варианта.
80 Цель дообучения персонажа во время Боя:
81
  • Научиться определять, сколько шагов после произведенного выстрела можно не стрелять, если нет достойной мишени, притом, что на ожидание каждой следующей мишени тратятся ресурсы, которых может и не хватить до конца Боя.
  • Научиться гибко изменять требования к минимальному размеру мишени, до которого в нее ещё следует стрелять, в зависимости от остатка жизненного ресурса и от размера затрат ресурсов на каждый жизненный шаг.
82 Цель эксперимента - продемонстрировать целесообразность затрат на самообучение персонажа, сравнивая средние суммы выигрыша на один выстрел в период самообучения и в бою. Самообучение считается успешным, если из 10-ти пар «самообучение-бой» 6 раз средняя сумма выигрыша персонажа на выстрел в бою будет выше, чем в период самообучения. При этом в каждой паре «самообучение-бой» могут изменяться параметры:
83
  • размер приза за попадание в мишень,
  • затраты на шаг ожидания/действия,
  • функция зависимости частоты (вероятности) появления мишени от ее размера (вероятности попадания в мишень).
84

Эксперимент на действующей модели самообучения персонажа показал, что, по крайней мере, в 7 случаях из 10 средняя сумма выигрыша Персонажа на выстрел в бою была выше, чем в период самообучения (Табл. 1).

85

2.3. Процесс периодического рефлексивного «расцикливания» при рекурсивно повторяющихся однотипных шагах Поведения персонажа предполагает наличие механизма прерывания для периодической оценки степени достижения конкретной Цели персонажа и для корректировки параметров поведения с учетом изменившихся обстоятельств [ 6 ]. Создание модели такого механизма расцикливания предполагает введение и определение следующих составляющих:

86
  • Критерий оценки достижения Цели персонажа,
  • Способ измерения Критерия (Способ оценки степени достижения Цели).
  • Контрольная величина объема Ресурсов (Времени или Денег), после периодических затрат которых в поведении персонажа должно производиться прерывание для очередной оценки степени достижения Цели по вышеуказанному критерию. Эта величина объема ресурсов должна каждый раз корректироваться по результатам оценки – увеличиваться при приближении Цели и уменьшаться при удалении от нее.
  • Регулятор – параметр поведения персонажа для изменения темпа достижения Цели, который корректируется по результатам каждой оценки, с учетом результатов предыдущих корректировок. Пример: положение дросселя подачи топливной смеси в карбюраторе, как регулятора частоты оборотов двигателя.
  • Память для запоминания позиций Регулятора, характера и степени влияния каждой позиции на темп достижения Цели при различных обстоятельствах.
87 В табл. 2 сведена семантика параметров «Критерий оценки достижения Цели» и «Регулятор ускорения/замедления темпа расхода Ресурсов» для шести уровней принятия решений и самообучения персонажа. Таблица 2
Уровни самообучения Персонажа Критерий оценки достижения Цели Регулятор ускорения/замедления темпа расхода Ресурсов
1. Пошаговое Поведение в текущей Деятельности Размер Эффекта Поведения (Отношение Выигрыша / Проигрыша к Затратам) Размер Ставки в Рулетке
2. Поисковое Поведение при принятии Решений на этапах разрешения Проблем, при выборе Исполнителей Нового проекта и при заключении Сделки по Найму на Работу Нахождение Варианта реше-ния с Вероятностью испол-нения не ниже Пороговой за минимальное Время поиска Малые снижения Пороговой Вероятности исполнения Вариантов в заданных Пределах при контрольных прерываниях Времени поиска
3. Конкретная Деятельность по исполнению запущенных в ней проектов Размер Эффекта Деятельности (Отношение Выручки к Затратам) Предел изменения Пороговой Вероятности исполнения Вариантов при принятии решений. Предел изменения Пороговой кредитной Ставки.
4. Удовлетворение конкретной Потребности через исполнение той Деятельности, которая удовлетворяет ее в наибольшей степени. Степень приближения к Норме удовлетворения данной Потребности Величина Затрат Времени и Денег на тот вид Деятельности, который удовлетворяет данную Потребность в наибольшей степени.
5. Поддержание высокого Настроения Дня через удовлетво-рение всех Потребностей. Степень приближения к Норме Настроения Дня Величина Затрат Времени на Анализ и на Обеспечение равномерности удовлетворения всех Потребностей.
6. Достижение наивысшего качества Жизни за счет высокого Настроения в каждый День Жизни. Значение параметра «Качество Жизни» как производного от Настроений каждого Дня. Изменение Структуры Предпочтений (Весов) на множестве Потребностей. Изменение степени аморальности Поведения.
88 Выводы
89 Вышеизложенный подход, разработанный автором в период до 2010 г., иллюстрирует разницу между парадигмой Know What - когнитивной (познавательной) адаптацией искусственных нейронных сетей к условиям Среды, и парадигмой Know How - функциональной (поведенческой) адаптацией рефлексивных программных моделей к условиям Среды. И одновременно показывает необходимость и целесообразность симбиоза этих двух подходов при решении проблем самообучения персонажей многоагентных систем.
90 В работе [2] изложено представление о восходящей и нисходящей парадигмах Искусственного Интеллекта. Целесообразно будет привести цитату из материала статьи, демонстрирующую существенное совпадение представлений в статье [2] и представлений автора данной работы о целесообразности параллельного развития этих двух подходов к средствам и инструментам адаптации автономных агентов к условиям среды:
91 «Искусственные нейронные сети — это пример структурного подхода и восходящей парадигмы в целом. Родоначальником восходящей парадигмы является Марвин Мински. Он написал книгу «Персептроны», в которой дал детально проработанную теорию персептронов и, в общем, открыл всё направление изучения искусственных нейронных сетей. Нисходящую парадигму ввёл Джон Маккарти после Дартмутского семинара в 1956 г. Он исходил из того, что моделирование высших психологических функций возможно только через использование символьных или семиотических систем. И в рамках этой парадигмы выделяются такие подходы, как символьный, логический и агентный.
92 Символьный подход основан на гипотезе Ньюэлла и Саймона, которая гласит, что обработка символьной информации является необходимым условием возникновения интеллекта. Соответственно, в основе символьного подхода лежит символьная математика, то есть использование формальных правил для преобразования формул.
93 Логический подход стоит рядом с символьным и их часто смешивают. Он основан на формальной логике, исчислении предикатов и подобных математических формализмах. Основная суть подхода — формальный вывод новых знаний на основе имеющихся. Подход используется при представлении и обработке знаний. Наиболее известным представителем является технология автоматического доказательства теорем.
94 Наконец, агентный подход. Он основан на недавней идее о том, что нет никакого смысла полностью моделировать все тонкие функции человеческого интеллекта, но достаточно заложить в ИИ-систему понятия о рациональности. Рациональность — это достижение поставленных целей наиболее оптимальным или хотя бы субоптимальным способом. И рациональные агенты выполняют именно такую задачу. Это одно из самых актуальных сегодня направлений в области Искусственного Интеллекта, и наиболее яркой технологией здесь является роевой интеллект. А также все методы поиска и методы оптимизации тоже используются именно в этом подходе.
95 Прорыв в области Искусственного Интеллекта может быть осуществлён в рамках гибридной парадигмы. Эта парадигма является промежуточной между восходящей и нисходящей, и может брать из каждой только лучшие свойства».
96 Ряд авторов [3,4] отмечают принципиальный недостаток искусственных нейронных сетей – их неспособность объяснять, на каких основаниях ими принимается то или иное решение. Как показано выше, предложенная в статье модель ИИ на основе правил, в отличие от нейросетей, полностью разрешает «объяснительную» проблему, в силу наличия самой символьно-логической структуры построения правил. Способность персонажа принимать результативные (приближающие к цели) решения, в свою очередь, может быть развита в результате самообучения на базе вышеизложенных в статье принципов адаптивного поведения в текущей Среде.

References

1. Barrat Dzh. Poslednee izobretenie chelovechestva: Iskusstvennyj intellekt i konets ehry Homo sapiens. Al'pina nonfikshn, 2015.

2. Voskhodyaschaya i niskhodyaschaya paradigmy Iskusstvennogo Intellekta. https://zen.yandex.ru/media/aiqcnt/voshodiascaia-i-nishodiascaia-paradigmy-iskusstvennogo-intellekta-5bffd921b540de00aa18ee23

3. Vyacheslav Golovanov. Dejstvitel'no li iskusstvennyj intellekt nepostizhim?  Avtor originala: Aaron M. Bornstein. https://habr.com/ru/post/372673/

4. Filippovich Yu.N., Filippovich A.Yu. Sistemy iskusstvennogo intellekta. http://it-laim.ru/Education/Course/AI/Lections/intro/ch2p5.html

5. K. Egorov, M. Churakov. Geneticheskie algoritmy. yury.name/internet/03ia-seminar-note.doc

6. Grishin E.A. Avtonomnyj virtual'nyj agent kak kvazi-lichnost' // Iskusstvennye obschestva. 2018. T. 13. №4 URL: https://artsoc.jes.su/s207751800000134-6-1

7. Vikipediya. Relevantnost' i pertinentnost'. https://ru.wikipedia.org/wiki/Relevantnost'_ (informatsionnyj_poisk)