Как сегодня понимают интеллект
Как сегодня понимают интеллект
Аннотация
Код статьи
S207751800016769-4-1
Тип публикации
Статья
Статус публикации
Опубликовано
Авторы
Хасанов Рустам Юрьевич 
Аффилиация: МГУ имени М. В. Ломоносова
Адрес: Российская Федерация, Москва
Аннотация

Статья посвящена осмыслению способов объяснения интеллектуальных способностей в свете новых разработок в области искусственного интеллекта и открытий, связанных с изучением сложного адаптивного поведения животных на основе системы вознаграждения. В работе обозреваются последние достижения в области построения биологически правдоподобных алгоритмов обучения, цель которых объяснить большой объем накопившихся данных из области нейронаук о функционировании системы вознаграждения. В рамках этого подхода предлагаются алгоритмы обучения с подкреплением как основа для любого рода познавательной деятельности. Понимание интеллекта как набора гибких адаптивных способностей для достижения цели дает новую концептуальную схему для объяснения работы мозга на функциональном уровне. Формирование прогнозов на будущее, построение временных шагов и существование внутренней системы оценки в таких системах психологически и биологически правдоподобно и потенциально может стать новой вехой в изучении интеллекта. 

Ключевые слова
алгоритмы обучения, интеллект, интеллектуальные способности, система вознаграждения, когнитивные способности, обучение с подкреплением
Классификатор
Получено
16.07.2021
Дата публикации
16.09.2021
Всего подписок
14
Всего просмотров
1049
Оценка читателей
0.0 (0 голосов)
Цитировать Скачать pdf
Доступ к дополнительным сервисам
Дополнительные сервисы только на эту статью
1

Интеллект обычно понимается как группа способностей, которые позволяют организовать деятельность человека или животного в правильном порядке. Для обнаружения правильного порядка действий часто приходится размышлять, а именно подсчитывать или прикидывать то, что необходимо сделать, разрабатывать последовательность действий в среде обитания. Интеллект тесно ассоциирован с понятием мышление, говорят, что интеллект это способность мыслить определённым образом, совершать мыслительные операции определенного рода. Тогда способность совершать мыслительные операции определенного рода называем интеллектуальной способностью. 

2 И мышление, и интеллект изучают различные науки. Например, теория познания изучает то, каким образом человек приобретает знания о мире и формирует их в своем уме, нейробиология изучает субстрат мыслительных операций, психология изучает процессы решения задач и способы, которые выбирает для этого человек. Направление исследований искусственный интеллект (ИИ) пытается симулировать и репродуцировать некоторые мыслительные операции на искусственном носителе.
3 Большинство исследований интеллекта посвящено человеку, но также можно встретить большое число работ об интеллекте животных, это приматы и врановые, галки, дельфины, слоны, собаки, кошки и др. Таким образом исследование интеллекта сегодня производится параллельно в разных областях знаний. Исследования ИИ сосредоточены на возможности повторения успехов человека, например, они хотят научить машину обучаться, распознавать слуховые и зрительные образы, использовать язык, обобщать знания (генерализация), имитировать действия других (подражание), ориентироваться в изменяющейся среде и уметь самостоятельно ставить задачи. Для когнитивных психологов и зоопсихологов при изучении интеллекта дело обстоит иным образом. Строятся определенного вида задания, которые человек и животные с различным успехом выполняют. На основании таких заданий или тестов выделяются "higher cognitive abilities" [3]. Список способностей формируется в соответствии с конкретными результатами теста, а механизмы такого решения остаются в черном ящике.
4 Когнитивные психологи часто используют собственную терминологию, например говорят о памяти, внимании, логическом мышлении, подразумевая ментальные операции в автоматическом и сознательном режиме. Выделяют задачи:
5
  • на постоянство объекта (память об объекте, который временно вне зоны взора),
  • тест на отложенную награду (контроль импульсивного поведения),
  • ментальное путешествие во времени,
  • выявление причин (вывод по аналогии, или путем исключения),
  • узнавание себя в зеркале,
  • орудийная деятельность
  • теория разума.
6

Такие когнитивные способности прямым образом не переносятся на те задачи, которые сегодня решаются методами ИИ. Однако в новой статье «Reward is enough» [15] сотрудники компании Deepmind предлагают гипотезу о том, что все способности, связанные с интеллектом, можно объяснить с помощью обучения с подкреплением агента в среде. Они распространяют свои выводы на живые существа. Обучение с подкреплением — это отдельный раздел алгоритмов ИИ, существенным отличием которого является обучение агента в изменяющихся условиях среды. Выбор таких алгоритмов предлагается в случае, если невозможно предобучиться на всем объеме данных для решения задачи.

7 Обучение с подкреплением расширяет набор возможных интеллектуальных операций для ИИ, так как предлагает способ для искусственного агента выделять закономерности в изменяющейся среде, в рамках подходов глубокого обучения алгоритмы обучения с подкреплением также реализуются. Интеллект в рамках такого подхода понимается как «гибкая» способность для достижения различных целей. Такие «гибкие» способности могут быть сформулированы для робота или живого существа, с помощью задачи поиска максимальной награды. Если такие задачи решаются на основе нейронных сетей, то есть возможность говорить не только о симуляции, но и о репродукции когнитивных функций и объяснении механизмов ответственных за интеллектуальные способности, открыть "черный ящик" разума. Предполагается, что различного вида разум может формулировать задачи и решать их, действуя в интересах личной выгоды (поиск максимальной награды).
8 Проводя сравнение между искусственными и естественными агентами, нельзя пропустить физическую и анатомическую определенность мозговых структур, ассоциированных с мышлением и реализующих интеллектуальные способности. Такой переход от уровня реализации к алгоритмическому уровню предлагается провести в терминах коннекционизма. Биологические детали, и особенности строения отдельных нейронов, а также дополнительные важные функциональные связи в таком случае не учитываются, упор делается на то, что человек и машина пользуются одинаковыми алгоритмами, правилами, делающими возможным вычисление весовых коэффициентов сети связанных элементов. Коннекционистская интуиция, относительно связанных функциональных групп нейронов, как функциональных примитивов биологической системы, на основе которых реализуются алгоритмы обучения, является отчасти подтвержденной.
9

Для коннекционизма вопрос функциональной декомпозиции, которая определяет внутреннюю (физическую) структуру примитивных операций внутри мозга решается на основе алгоритмов обучения нейронных сетей. Алгоритмы обучения и архитектура нейросети определяют функциональный и алгоритмический уровень по Д. Марру. Первые алгоритмы обучения нейросетей с подкреплением пытались воспроизвести оперантное обуславливание и павловское обучение [11], которое происходит на уровне функционирования целого организма. В обоих случаях вознаграждение (и у машин, и у животных) вызывает обучение. В случае собаки Павлова, на рассмотрение предлагаются звонок, еда и (как результат) выделение слюны. Если часто повторять звонок, у собаки будет выделяться слюна, без еды. Звонок предсказывает получение еды. Этот тип обучения происходит автоматически, собака не предпринимает никаких действий. Такой тип обучения (ассоциативное обучение) хорошо воспроизводится алгоритмами подкрепления, для него не нужно активное действие.

10

Детали такого обучения могут быть описаны с помощью настройки весов в сети с помощью различных алгоритмов подкрепления, предложенных Ф. Розеннблатом в работе Персептроны. Он описывает несколько систем подкрепления, для обучения своей машины с учителем и в автоматическом режиме. В случае обучения с учителем система управления подкрепления — это человек-оператор, он определяет как машина справилась с задачей, в случае автоматического обучения система подкрепления — это составная часть программы персептрона. Правила подкрепления, которые использует человек или сама машина могут быть самые разные. Простейший случай такой, если синапс участвовал в проведении сигнала увеличить его на значение сигнала подкрепления Х (увеличить силу связи), если нет – оставить таким же. Персептрон может обучиться в автоматическом режиме в случае системы подкрепления с коррекцией ошибки. В таком случае Розенблатт предлагает, что машина в случае ошибки уменьшает силу синапсов, участвовавших в проведении сигнала на значение сигнала подкрепления Х, а в случае правильного ответа не меняет силы синапсов. Для Ф. Розенблатта автоматическая настройка коэффициентов достаточна для обучения. Он аргументируя свою точку зрения, говорит, что павловское обучение не требует мотивации и не зависит от него, делая поправку на то, что порой в эксперименте с условным подкреплением невозможно различить внимание и мотивацию. Предполагается что за установление временной связи (условного рефлекса) ответственны веса соединений нейронов, которые проводили сигнал, приведший к награде. Для объединения всех нейронов участвующих в решении задачи у млекопитающих и врановых [8] используется дофамин [5]. Можно представить, что именно он в живых системах используется для фиксации значения сигнала подкрепления Х, но это не всегда так.

11 В случае оперантного обуславливания, требуется активное участие животного. Лабораторная мышь или крыса случайно нажимает на педаль в клетке, получает еду, она воспроизводит это действие и снова получает еду. Мышь установила ассоциацию между педалью и едой – это оперантное обуславливание. Алгоритм обучения (и собаки, и мыши) включает вознаграждение в виде еды. Поведение животного модифицируется при получении вознаграждения – это обучение. Но оперантное обуславливание животного нацелено на получение награды в результате целой серии действий. Алгоритм состоит из (1) изучения ситуации, (2) совершения случайного действия, (3) совершения этого действия. Если ошибки нет (4) запомнить действие. (4) Иначе корректировка случайного действия и возвращение к шагу (2). Животное должно запомнить всю цепочку действий, приведших ее к награде, а не только последнее действие. Животное выполняет знакомые процедурные движения и случайные новые. Если новые движения приносят награду, то они запоминаются.
12

Внутренняя оценка полезности действий может быть обманута с помощью электрической стимуляции области перегородки мозга, как в случае экспериментов Д. Олдса и П. Милнера [10]. В этот раз крыса или человек попадает в цикл стереотипных действий, которые производят работу, направленную на получение электрического стимула в область перегородки мозга, и животное и человек отдают предпочтение нажатию на кнопку электростимуляции в сравнении с едой, водой, сексом. Интеллект возникает при решении задач, связанных с биологическими потребностями и направлен на решение задач заранее определенных биологией (или программистом) целей. Размыкание цепочки этих связей в искусственном случае (при хирургическом вмешательстве) приводит к вырожденному случаю стереотипного поведения, преодолеть которое невозможно. Помещение такого рода процессов, связанных с желанием и мотивацией в сердцевину нашей психики было предложено, например в качестве термина "протосамость". По выражению некоторых биологов "протосамость" является фундаментальным уровнем развития психики [1].

13 В эксперименте с электростимуляцией подкорковых структур мозга человека мы также можем узнать о переживании "от первого лица", то есть о психологической интерпретации формирующейся потребности. Человек сообщает что испытывает приятные ощущения в случае нажатия кнопки, подающей ток, или раздражение в случае долгого отсутствия стимуляции. При отсутствии нарушения цепочки связей в системе вознаграждения методами инвазивной электростимуляции, можно изучить естественные пути иннервации подкорковых центров, связанных с порождением у нас эмоций и мотиваций.
14

Отметим важную роль дофамина в работе систем вознаграждения [4]. Его роль не сводится только к синхронизации корковых сетей во время получения награды. Дофаминовые нейроны активируются в ответ на предсказуемые и непредсказуемые стимулы вознаграждения, а также зависят от понимания структуры задачи. Теория прогнозирования ошибки (reward prediction error) предлагает способ объяснения работы дофамина в мозге положительного и отрицательного подкрепления. Мы строим предсказание относительно будущего, если оно ошибочно происходит выброс дофамина, пропорциональный силе ошибки. Импульс активности дофаминовых нейронов кодирует разницу между фактическим и ожидаемым результатом действия [14]. Эта теория подкрепляется открытием эффекта блокировки [6], который сводится к тому, что уже обученное животное не реагирует на второй (новый) условный стимул, который подается вместе со уже обученным (первым) условным стимулом. Первый стимул, которому обучили, блокирует обучение второму стимулу. Объясняется это тем, что второй стимул не обладает эффектом новизны. Он находится в поле зрения животного вместе с первым и это значит, что ошибки прогнозирования при его появлении не происходит. На психологическом уровне, при достаточном внимании также может быть испытано чувство удивления или страха, которое также может оказывать влияние на пластические процессы в мозге во время обучения. Чем больше наше ошибочное предсказание, тем сильнее ответ дофаминовых нейронов.

15 Теория кодирования временной разницы поддерживает и развивает представления об активности дофаминовых нейронов и объясняет большее количество данных. Сигнал дофаминовых нейронов в такой модели также программируется алгоритмом обучения и управляется прогнозами о будущих возможных наградах, он называется алгоритм временной разницы. Алгоритм предсказывает значение ошибки прогнозирования, затем собирает фактические значения суммирует их и сравнивает с изначальной оценкой. Значение обновления (update value) соотносится со средним значением частоты всех дофаминовых нейронов. Такой алгоритм критикуется в виду того, что ответ для положительного и отрицательного подкрепления усредняется и функционально не различается.
16

В новой работе команда DeepMind предлагает собственную модель алгоритма обучения с подкреплением на основе параллельного и распределенного кодирования временной разницы (distributed reinforcement learning). Вместо усреднённого значения возможных прогнозов предлагается параллельное вычисление прогноза для каждой задачи с фиксированной ценой вознаграждения. Авторы утверждают, что такая модель хорошо предсказывает асимметрию ответов дофаминовых нейронов на положительные и отрицательные ошибки прогнозирования. Для объяснения любви к рискованному поведению также предлагаются алгоритмы с подкреплением [9].

17

"Положим" что нейросеть и крыса выбирают путь в лабиринте, где спрятан сыр. Проведем серию экспериментов, после обучения нейросеть основанная на обучении с подкреплением будет воспроизводить один и тот же алгоритм действий, в то время как крыса будет в редких случаях ошибаться, проявляя «болезненное любопытство». Человек также показывает интерес к проверке плохих, проверенных ранее гипотез, а также осознанно нарушает ранее выученные правила. Это особенность позволяет предположить, что обучение на организменном уровне обуславливается не одним алгоритмом, но связанно с высшими когнитивными функциями. Повышенная реакция дофаминовых нейронов на маловероятные стимулы, азарт, любопытство или прокрастинация также предлагаются в моделях обучения с подкреплением [2, 12]. Объясняются и познавательные способности, которые есть у человека и животных, но нет у искусственного интеллекта, например, метапознание. Метапознание это знание о своем собственном знании, или способность эффективно использовать свой прошлый опыт применительно к новым задачам. Метапознавательные когнитивные способности включают в себя регуляцию собственной мотивации. Например, спросив себя зачем мне это нужно и поняв зачем это нужно, можно намного быстрее приобрести навык. Абстрактное знание о поставленной задаче влияет на ход выполнения этой задачи, ускоряя обучение. Например, обезьяны способны понять обратную задачу без предобучения. Если в задаче требуется смотреть вправо для получения награды, а затем в следующей задаче требуется смотреть влево для получения награды, то для понимания структуры второй задачи не требуется предобучение. Для объяснения таких способностей исследователи ИИ предлагают усложнить парадигму и выходят за рамки одного алгоритма. Например, в статье [15] разработчица компании DeepMind Джейн Ванг с коллегами предлагает префронтальную кору на место, в котором реализуются метапознанавательные способности в совокупности с системой вознаграждения. В приведенной работе авторы рассуждают о способности машин обучаться обучению и предлагают собственную разработку когнитивного агента на основе LSTM сети который симулирует метапознавательную деятельность. Модель реализует гипотезу, согласно которой дофаминовые нейроны способны кодировать значения стимулов посредством процесса абстрактного вывода, без привязки к реальному вознаграждению. Она представляет, как можно изобразить работу префронтальной коры в виде рекуррентной сети, связанной с подкорковыми центрами дорсальным стриатумом и медиодорсальным таламусом и образующей кортико-стриальную петлю.

18 Современные алгоритмы обучения нейросетей используют вычислительные преимущества автоматов, для нахождения правильного вида функций путем перебора огромного количества их вариантов, чего не бывает в реальных условиях. Нейросеть наивна, и не знает априорных принципов устройства мира, поэтому количество обучающих примеров для нейросетей должно быть достаточно высоким, чтобы была возможна индукция логики окружающей среды из набора предложенных данных, обычно это приводит к большому числу попыток или использованию биологически неправдоподобных алгоритмов. Современные исследования построения моделей мозга также используют преимущества искусственных вычислительных систем для ускорения достижения желаемого результата (программирования когнитивных функций). Поиск естественных алгоритмов, которые реализуют когнитивные функции, может оказаться трудоемким из-за случайного характера эволюции. Реальные животные обладают эксклюзивным набором существенных признаков, которые не могут сравниваться между собой. Животные по-разному справляются с задачами когнитивных психологов и не всегда очевидно какие задачи нужно подбирать чтобы выявить определенные интеллектуальные способности. Скорее всего наряду с различиями в экологической нише и форме тела существуют различия в интеллектуальных способностях. Задача построения модели мозга таким образом не может обойти проблему правильного способа экспликации алгоритмов для реальных животных. То есть важно то, как мы выбираем элементарные события из общего набора физических и химических процессов, происходящих в мозге и утверждаем, что они правильным образом объясняют целенаправленное поведение животного.
19

В то же время обучение животных связанно с хорошо понятным набором ситуаций, в которых они ориентируются. Для организмов с развитой нервной системой необходимо ориентироваться в совершенно особенном мире, где существует только одна попытка для осознания правила взаимодействия со средой, без возможности эволюционной адаптации. Эти условия хорошо отображает Умвельт - то есть набор особенностей перцепции и символического отражения физической среды обитания организмом. Этот перцептивный мир параллельно, то есть одновременно представляет набор возможных объектов и вещей для выбора и действия. Все они выбираются также исходя из соответствия возможности целевого взаимодействия с ними и отражены в алгоритмах обучения с подкреплением. В виду того, что целевые функции у организмов разные, предметы и вещи этого перцептуального мира также имеют свои уникальные характеристики необходимые для жизнедеятельности конкретного животного [12]. Умение группировать наборы данных в виде относительно устойчивых объектов этого перцептуального мира, особенность которых состоит в возможности их перегруппировки (в условном пространстве) относительно друг друга без потери их единичности и целостности является трудным местом для когнитивных биологов при разработке когнитивных задач.

20 В настоящей работе представлена новая программа исследований на стыке ИИ и когнитивной науки, предлагающая обучение с подкреплением в качестве универсального механизма управления процессами выработки новых реакций у животных. Алгоритмы обучения с подкреплением могут дать начало всем формам интеллектуального поведения. Такое предложение развивает понимание интеллектуальных способностей в терминах вычислительной нейронауки и коннекционизма и предлагает фундамент для всякой интеллектуальной деятельности как приобретенной в ходе эволюции способности организовывать действия в среде определенным образом на основе проб и ошибок. Живой или искусственный агент, согласно этой гипотезе, исследует среду обитания, реализует свои познавательные функции с помощью алгоритмов обучения с подкреплением и ему таких алгоритмов достаточно. Все без исключения когнитивные акты включая особенности перцепции физической среды обитания, зависящие от биологической определенности организма (формы тела, экологической ниши и способов реализации его биологических функций), могут быть описаны в рамках этой парадигмы.

Библиография

1. Damasio A. R., Grabowski T. J., Bechara A., Damasio H., Ponto L.L.B., Parvizi J., Hichwa R.D. Subcortical and cortical brain activity during the feeling of self-generated emotions"й2000. Nature Neuroscienceйэ3. P. 1049п1056.

2. Deepak Path Pulkit Agrawal, Alexei A. Efros and Trevor Darrell.йCuriosity-driven Exploration by Self-supervised Prediction. NTSL. 2017.

3. Gunturkun, O., & Bugnyar, T. Cognition without Cortex. Trends in Cognitive Sciences. 2016. э 20(4). ░. 291п303.

4. Haber S.N., The place of dopamine in the cortico-basal ganglia circuit.йNeuroscience. 2014. э 282. P. 248-257.

5. Houk J. C., Adams C. M., Barto, A. G. A model of how the basal ganglia generate and use neural signals that predict reinforcement. in Models of Information Processing in the Basal Ganglia (eds. Houk, J.C., Davis, D.G.) MIT Press. Cambridge. MA. USA. 1995. P.249п270.

6. Kamin L. Selective association and conditioning. In Fundamental Issues in Associative Learning (Mackintosh, N.J. and Honig, F.W.K., eds).1969. P. 42п64

7. Kandel E. R. The biology of memory: a forty-year perspective. Neuroscience. Vol. 2. э. 41. P. 12748п12756.

8. Kubikova L., Kostal L. Dopaminergic system in birdsong learning and maintenance. J Chem Neuroanat. 2010. Vol. 39(2). P.112-123.

9. Niv Y., Duff M.O., Dayan P. Dopamine, uncertainty and TD learning.йBehavioral Brain Function. 2005. Vol. 1. P. 6.

10. Olds J., Milner P. "Positive reinforcement produced by electrical stimulation of septal area and other regions of rat brain".йJournal of Comparative and Physiological Psychology. 1954.йVol. 47й(6). P. 419п427.й

11. Rosenblatt F. The perceptron: A probabilistic model for information storage and organization in the brain Cornell Aeronautical Laboratory Psychological Review 1958. Vol. 65. э. 6.

12. Savinov N. et all. Episodic Curiosity through Reachability // arXiv:1810.02274 [cs, stat]. 2019.

13. Schaffner J. et al. Neural codes in early sensory areas maximize fitness //bioRxiv. п 2021.

14. Schultz W. Dopamine reward prediction error coding.йDialogues Clin Neuroscience. 2016. Vol. 18(1). P. 23-32.

15. Silver D. et all. Reward is enough // Artificial Intelligence. 2021. (299). C. 103535.

16. Wang, J. X., Kurth-Nelson, Z., Kumaran, D., Tirumala, D., Soyer, H., Leibo, J. Z., и Botvinick, M. Prefrontal cortex as a meta-reinforcement learning system. Nature Neuroscience. 2018. Vol. 21(6). P. 860п868.

Комментарии

Сообщения не найдены

Написать отзыв
Перевести