How Intelligence is Understood Today
Table of contents
Share
QR
Metrics
How Intelligence is Understood Today
Annotation
PII
S207751800016769-4-1
Publication type
Article
Статус публикации
Published
Authors
Rustam Khasanov 
Affiliation: Moscow state university
Address: Russian Federation, Moscow
Abstract

The article is devoted to understanding the ways of explaining intellectual abilities in the light of new developments in the field of artificial intelligence and discoveries related to the study of complex adaptive animal behavior based on the reward system. The paper reviews the latest advances in the development of biologically plausible learning algorithms, the purpose of which is to explain the large amount of accumulated data from the field of neuroscience. Within the framework of this approach, reinforcement learning algorithms are proposed as the basis for any kind of cognitive activity. Understanding intelligence as a set of flexible adaptive abilities to achieve a goal provides a new conceptual framework for explaining how the brain works at a functional level. The formation of forecasts for the future, the construction of time steps and the existence of an internal assessment system in such systems is psychologically and biologically plausible and can potentially become a new milestone in the study of intelligence.

Keywords
learning algorithms, intelligence, intellectual ability, reward system, higer cognitive ability, reinforcement learning
Received
16.07.2021
Date of publication
16.09.2021
Number of purchasers
14
Views
1050
Readers community rating
0.0 (0 votes)
Cite Download pdf
Additional services access
Additional services for the article
1

Интеллект обычно понимается как группа способностей, которые позволяют организовать деятельность человека или животного в правильном порядке. Для обнаружения правильного порядка действий часто приходится размышлять, а именно подсчитывать или прикидывать то, что необходимо сделать, разрабатывать последовательность действий в среде обитания. Интеллект тесно ассоциирован с понятием мышление, говорят, что интеллект это способность мыслить определённым образом, совершать мыслительные операции определенного рода. Тогда способность совершать мыслительные операции определенного рода называем интеллектуальной способностью. 

2 И мышление, и интеллект изучают различные науки. Например, теория познания изучает то, каким образом человек приобретает знания о мире и формирует их в своем уме, нейробиология изучает субстрат мыслительных операций, психология изучает процессы решения задач и способы, которые выбирает для этого человек. Направление исследований искусственный интеллект (ИИ) пытается симулировать и репродуцировать некоторые мыслительные операции на искусственном носителе.
3 Большинство исследований интеллекта посвящено человеку, но также можно встретить большое число работ об интеллекте животных, это приматы и врановые, галки, дельфины, слоны, собаки, кошки и др. Таким образом исследование интеллекта сегодня производится параллельно в разных областях знаний. Исследования ИИ сосредоточены на возможности повторения успехов человека, например, они хотят научить машину обучаться, распознавать слуховые и зрительные образы, использовать язык, обобщать знания (генерализация), имитировать действия других (подражание), ориентироваться в изменяющейся среде и уметь самостоятельно ставить задачи. Для когнитивных психологов и зоопсихологов при изучении интеллекта дело обстоит иным образом. Строятся определенного вида задания, которые человек и животные с различным успехом выполняют. На основании таких заданий или тестов выделяются "higher cognitive abilities" [3]. Список способностей формируется в соответствии с конкретными результатами теста, а механизмы такого решения остаются в черном ящике.
4 Когнитивные психологи часто используют собственную терминологию, например говорят о памяти, внимании, логическом мышлении, подразумевая ментальные операции в автоматическом и сознательном режиме. Выделяют задачи:
5
  • на постоянство объекта (память об объекте, который временно вне зоны взора),
  • тест на отложенную награду (контроль импульсивного поведения),
  • ментальное путешествие во времени,
  • выявление причин (вывод по аналогии, или путем исключения),
  • узнавание себя в зеркале,
  • орудийная деятельность
  • теория разума.
6

Такие когнитивные способности прямым образом не переносятся на те задачи, которые сегодня решаются методами ИИ. Однако в новой статье «Reward is enough» [15] сотрудники компании Deepmind предлагают гипотезу о том, что все способности, связанные с интеллектом, можно объяснить с помощью обучения с подкреплением агента в среде. Они распространяют свои выводы на живые существа. Обучение с подкреплением — это отдельный раздел алгоритмов ИИ, существенным отличием которого является обучение агента в изменяющихся условиях среды. Выбор таких алгоритмов предлагается в случае, если невозможно предобучиться на всем объеме данных для решения задачи.

7 Обучение с подкреплением расширяет набор возможных интеллектуальных операций для ИИ, так как предлагает способ для искусственного агента выделять закономерности в изменяющейся среде, в рамках подходов глубокого обучения алгоритмы обучения с подкреплением также реализуются. Интеллект в рамках такого подхода понимается как «гибкая» способность для достижения различных целей. Такие «гибкие» способности могут быть сформулированы для робота или живого существа, с помощью задачи поиска максимальной награды. Если такие задачи решаются на основе нейронных сетей, то есть возможность говорить не только о симуляции, но и о репродукции когнитивных функций и объяснении механизмов ответственных за интеллектуальные способности, открыть "черный ящик" разума. Предполагается, что различного вида разум может формулировать задачи и решать их, действуя в интересах личной выгоды (поиск максимальной награды).
8 Проводя сравнение между искусственными и естественными агентами, нельзя пропустить физическую и анатомическую определенность мозговых структур, ассоциированных с мышлением и реализующих интеллектуальные способности. Такой переход от уровня реализации к алгоритмическому уровню предлагается провести в терминах коннекционизма. Биологические детали, и особенности строения отдельных нейронов, а также дополнительные важные функциональные связи в таком случае не учитываются, упор делается на то, что человек и машина пользуются одинаковыми алгоритмами, правилами, делающими возможным вычисление весовых коэффициентов сети связанных элементов. Коннекционистская интуиция, относительно связанных функциональных групп нейронов, как функциональных примитивов биологической системы, на основе которых реализуются алгоритмы обучения, является отчасти подтвержденной.
9

Для коннекционизма вопрос функциональной декомпозиции, которая определяет внутреннюю (физическую) структуру примитивных операций внутри мозга решается на основе алгоритмов обучения нейронных сетей. Алгоритмы обучения и архитектура нейросети определяют функциональный и алгоритмический уровень по Д. Марру. Первые алгоритмы обучения нейросетей с подкреплением пытались воспроизвести оперантное обуславливание и павловское обучение [11], которое происходит на уровне функционирования целого организма. В обоих случаях вознаграждение (и у машин, и у животных) вызывает обучение. В случае собаки Павлова, на рассмотрение предлагаются звонок, еда и (как результат) выделение слюны. Если часто повторять звонок, у собаки будет выделяться слюна, без еды. Звонок предсказывает получение еды. Этот тип обучения происходит автоматически, собака не предпринимает никаких действий. Такой тип обучения (ассоциативное обучение) хорошо воспроизводится алгоритмами подкрепления, для него не нужно активное действие.

10

Детали такого обучения могут быть описаны с помощью настройки весов в сети с помощью различных алгоритмов подкрепления, предложенных Ф. Розеннблатом в работе Персептроны. Он описывает несколько систем подкрепления, для обучения своей машины с учителем и в автоматическом режиме. В случае обучения с учителем система управления подкрепления — это человек-оператор, он определяет как машина справилась с задачей, в случае автоматического обучения система подкрепления — это составная часть программы персептрона. Правила подкрепления, которые использует человек или сама машина могут быть самые разные. Простейший случай такой, если синапс участвовал в проведении сигнала увеличить его на значение сигнала подкрепления Х (увеличить силу связи), если нет – оставить таким же. Персептрон может обучиться в автоматическом режиме в случае системы подкрепления с коррекцией ошибки. В таком случае Розенблатт предлагает, что машина в случае ошибки уменьшает силу синапсов, участвовавших в проведении сигнала на значение сигнала подкрепления Х, а в случае правильного ответа не меняет силы синапсов. Для Ф. Розенблатта автоматическая настройка коэффициентов достаточна для обучения. Он аргументируя свою точку зрения, говорит, что павловское обучение не требует мотивации и не зависит от него, делая поправку на то, что порой в эксперименте с условным подкреплением невозможно различить внимание и мотивацию. Предполагается что за установление временной связи (условного рефлекса) ответственны веса соединений нейронов, которые проводили сигнал, приведший к награде. Для объединения всех нейронов участвующих в решении задачи у млекопитающих и врановых [8] используется дофамин [5]. Можно представить, что именно он в живых системах используется для фиксации значения сигнала подкрепления Х, но это не всегда так.

11 В случае оперантного обуславливания, требуется активное участие животного. Лабораторная мышь или крыса случайно нажимает на педаль в клетке, получает еду, она воспроизводит это действие и снова получает еду. Мышь установила ассоциацию между педалью и едой – это оперантное обуславливание. Алгоритм обучения (и собаки, и мыши) включает вознаграждение в виде еды. Поведение животного модифицируется при получении вознаграждения – это обучение. Но оперантное обуславливание животного нацелено на получение награды в результате целой серии действий. Алгоритм состоит из (1) изучения ситуации, (2) совершения случайного действия, (3) совершения этого действия. Если ошибки нет (4) запомнить действие. (4) Иначе корректировка случайного действия и возвращение к шагу (2). Животное должно запомнить всю цепочку действий, приведших ее к награде, а не только последнее действие. Животное выполняет знакомые процедурные движения и случайные новые. Если новые движения приносят награду, то они запоминаются.
12

Внутренняя оценка полезности действий может быть обманута с помощью электрической стимуляции области перегородки мозга, как в случае экспериментов Д. Олдса и П. Милнера [10]. В этот раз крыса или человек попадает в цикл стереотипных действий, которые производят работу, направленную на получение электрического стимула в область перегородки мозга, и животное и человек отдают предпочтение нажатию на кнопку электростимуляции в сравнении с едой, водой, сексом. Интеллект возникает при решении задач, связанных с биологическими потребностями и направлен на решение задач заранее определенных биологией (или программистом) целей. Размыкание цепочки этих связей в искусственном случае (при хирургическом вмешательстве) приводит к вырожденному случаю стереотипного поведения, преодолеть которое невозможно. Помещение такого рода процессов, связанных с желанием и мотивацией в сердцевину нашей психики было предложено, например в качестве термина "протосамость". По выражению некоторых биологов "протосамость" является фундаментальным уровнем развития психики [1].

13 В эксперименте с электростимуляцией подкорковых структур мозга человека мы также можем узнать о переживании "от первого лица", то есть о психологической интерпретации формирующейся потребности. Человек сообщает что испытывает приятные ощущения в случае нажатия кнопки, подающей ток, или раздражение в случае долгого отсутствия стимуляции. При отсутствии нарушения цепочки связей в системе вознаграждения методами инвазивной электростимуляции, можно изучить естественные пути иннервации подкорковых центров, связанных с порождением у нас эмоций и мотиваций.
14

Отметим важную роль дофамина в работе систем вознаграждения [4]. Его роль не сводится только к синхронизации корковых сетей во время получения награды. Дофаминовые нейроны активируются в ответ на предсказуемые и непредсказуемые стимулы вознаграждения, а также зависят от понимания структуры задачи. Теория прогнозирования ошибки (reward prediction error) предлагает способ объяснения работы дофамина в мозге положительного и отрицательного подкрепления. Мы строим предсказание относительно будущего, если оно ошибочно происходит выброс дофамина, пропорциональный силе ошибки. Импульс активности дофаминовых нейронов кодирует разницу между фактическим и ожидаемым результатом действия [14]. Эта теория подкрепляется открытием эффекта блокировки [6], который сводится к тому, что уже обученное животное не реагирует на второй (новый) условный стимул, который подается вместе со уже обученным (первым) условным стимулом. Первый стимул, которому обучили, блокирует обучение второму стимулу. Объясняется это тем, что второй стимул не обладает эффектом новизны. Он находится в поле зрения животного вместе с первым и это значит, что ошибки прогнозирования при его появлении не происходит. На психологическом уровне, при достаточном внимании также может быть испытано чувство удивления или страха, которое также может оказывать влияние на пластические процессы в мозге во время обучения. Чем больше наше ошибочное предсказание, тем сильнее ответ дофаминовых нейронов.

15 Теория кодирования временной разницы поддерживает и развивает представления об активности дофаминовых нейронов и объясняет большее количество данных. Сигнал дофаминовых нейронов в такой модели также программируется алгоритмом обучения и управляется прогнозами о будущих возможных наградах, он называется алгоритм временной разницы. Алгоритм предсказывает значение ошибки прогнозирования, затем собирает фактические значения суммирует их и сравнивает с изначальной оценкой. Значение обновления (update value) соотносится со средним значением частоты всех дофаминовых нейронов. Такой алгоритм критикуется в виду того, что ответ для положительного и отрицательного подкрепления усредняется и функционально не различается.
16

В новой работе команда DeepMind предлагает собственную модель алгоритма обучения с подкреплением на основе параллельного и распределенного кодирования временной разницы (distributed reinforcement learning). Вместо усреднённого значения возможных прогнозов предлагается параллельное вычисление прогноза для каждой задачи с фиксированной ценой вознаграждения. Авторы утверждают, что такая модель хорошо предсказывает асимметрию ответов дофаминовых нейронов на положительные и отрицательные ошибки прогнозирования. Для объяснения любви к рискованному поведению также предлагаются алгоритмы с подкреплением [9].

17

"Положим" что нейросеть и крыса выбирают путь в лабиринте, где спрятан сыр. Проведем серию экспериментов, после обучения нейросеть основанная на обучении с подкреплением будет воспроизводить один и тот же алгоритм действий, в то время как крыса будет в редких случаях ошибаться, проявляя «болезненное любопытство». Человек также показывает интерес к проверке плохих, проверенных ранее гипотез, а также осознанно нарушает ранее выученные правила. Это особенность позволяет предположить, что обучение на организменном уровне обуславливается не одним алгоритмом, но связанно с высшими когнитивными функциями. Повышенная реакция дофаминовых нейронов на маловероятные стимулы, азарт, любопытство или прокрастинация также предлагаются в моделях обучения с подкреплением [2, 12]. Объясняются и познавательные способности, которые есть у человека и животных, но нет у искусственного интеллекта, например, метапознание. Метапознание это знание о своем собственном знании, или способность эффективно использовать свой прошлый опыт применительно к новым задачам. Метапознавательные когнитивные способности включают в себя регуляцию собственной мотивации. Например, спросив себя зачем мне это нужно и поняв зачем это нужно, можно намного быстрее приобрести навык. Абстрактное знание о поставленной задаче влияет на ход выполнения этой задачи, ускоряя обучение. Например, обезьяны способны понять обратную задачу без предобучения. Если в задаче требуется смотреть вправо для получения награды, а затем в следующей задаче требуется смотреть влево для получения награды, то для понимания структуры второй задачи не требуется предобучение. Для объяснения таких способностей исследователи ИИ предлагают усложнить парадигму и выходят за рамки одного алгоритма. Например, в статье [15] разработчица компании DeepMind Джейн Ванг с коллегами предлагает префронтальную кору на место, в котором реализуются метапознанавательные способности в совокупности с системой вознаграждения. В приведенной работе авторы рассуждают о способности машин обучаться обучению и предлагают собственную разработку когнитивного агента на основе LSTM сети который симулирует метапознавательную деятельность. Модель реализует гипотезу, согласно которой дофаминовые нейроны способны кодировать значения стимулов посредством процесса абстрактного вывода, без привязки к реальному вознаграждению. Она представляет, как можно изобразить работу префронтальной коры в виде рекуррентной сети, связанной с подкорковыми центрами дорсальным стриатумом и медиодорсальным таламусом и образующей кортико-стриальную петлю.

18 Современные алгоритмы обучения нейросетей используют вычислительные преимущества автоматов, для нахождения правильного вида функций путем перебора огромного количества их вариантов, чего не бывает в реальных условиях. Нейросеть наивна, и не знает априорных принципов устройства мира, поэтому количество обучающих примеров для нейросетей должно быть достаточно высоким, чтобы была возможна индукция логики окружающей среды из набора предложенных данных, обычно это приводит к большому числу попыток или использованию биологически неправдоподобных алгоритмов. Современные исследования построения моделей мозга также используют преимущества искусственных вычислительных систем для ускорения достижения желаемого результата (программирования когнитивных функций). Поиск естественных алгоритмов, которые реализуют когнитивные функции, может оказаться трудоемким из-за случайного характера эволюции. Реальные животные обладают эксклюзивным набором существенных признаков, которые не могут сравниваться между собой. Животные по-разному справляются с задачами когнитивных психологов и не всегда очевидно какие задачи нужно подбирать чтобы выявить определенные интеллектуальные способности. Скорее всего наряду с различиями в экологической нише и форме тела существуют различия в интеллектуальных способностях. Задача построения модели мозга таким образом не может обойти проблему правильного способа экспликации алгоритмов для реальных животных. То есть важно то, как мы выбираем элементарные события из общего набора физических и химических процессов, происходящих в мозге и утверждаем, что они правильным образом объясняют целенаправленное поведение животного.
19

В то же время обучение животных связанно с хорошо понятным набором ситуаций, в которых они ориентируются. Для организмов с развитой нервной системой необходимо ориентироваться в совершенно особенном мире, где существует только одна попытка для осознания правила взаимодействия со средой, без возможности эволюционной адаптации. Эти условия хорошо отображает Умвельт - то есть набор особенностей перцепции и символического отражения физической среды обитания организмом. Этот перцептивный мир параллельно, то есть одновременно представляет набор возможных объектов и вещей для выбора и действия. Все они выбираются также исходя из соответствия возможности целевого взаимодействия с ними и отражены в алгоритмах обучения с подкреплением. В виду того, что целевые функции у организмов разные, предметы и вещи этого перцептуального мира также имеют свои уникальные характеристики необходимые для жизнедеятельности конкретного животного [12]. Умение группировать наборы данных в виде относительно устойчивых объектов этого перцептуального мира, особенность которых состоит в возможности их перегруппировки (в условном пространстве) относительно друг друга без потери их единичности и целостности является трудным местом для когнитивных биологов при разработке когнитивных задач.

20 В настоящей работе представлена новая программа исследований на стыке ИИ и когнитивной науки, предлагающая обучение с подкреплением в качестве универсального механизма управления процессами выработки новых реакций у животных. Алгоритмы обучения с подкреплением могут дать начало всем формам интеллектуального поведения. Такое предложение развивает понимание интеллектуальных способностей в терминах вычислительной нейронауки и коннекционизма и предлагает фундамент для всякой интеллектуальной деятельности как приобретенной в ходе эволюции способности организовывать действия в среде определенным образом на основе проб и ошибок. Живой или искусственный агент, согласно этой гипотезе, исследует среду обитания, реализует свои познавательные функции с помощью алгоритмов обучения с подкреплением и ему таких алгоритмов достаточно. Все без исключения когнитивные акты включая особенности перцепции физической среды обитания, зависящие от биологической определенности организма (формы тела, экологической ниши и способов реализации его биологических функций), могут быть описаны в рамках этой парадигмы.

References

1. Damasio A. R., Grabowski T. J., Bechara A., Damasio H., Ponto L.L.B., Parvizi J., Hichwa R.D. Subcortical and cortical brain activity during the feeling of self-generated emotions"j2000. Nature Neurosciencejeh3. P. 1049p1056.

2. Deepak Path Pulkit Agrawal, Alexei A. Efros and Trevor Darrell.jCuriosity-driven Exploration by Self-supervised Prediction. NTSL. 2017.

3. Gunturkun, O., & Bugnyar, T. Cognition without Cortex. Trends in Cognitive Sciences. 2016. eh 20(4). ░. 291p303.

4. Haber S.N., The place of dopamine in the cortico-basal ganglia circuit.jNeuroscience. 2014. eh 282. P. 248-257.

5. Houk J. C., Adams C. M., Barto, A. G. A model of how the basal ganglia generate and use neural signals that predict reinforcement. in Models of Information Processing in the Basal Ganglia (eds. Houk, J.C., Davis, D.G.) MIT Press. Cambridge. MA. USA. 1995. P.249p270.

6. Kamin L. Selective association and conditioning. In Fundamental Issues in Associative Learning (Mackintosh, N.J. and Honig, F.W.K., eds).1969. P. 42p64

7. Kandel E. R. The biology of memory: a forty-year perspective. Neuroscience. Vol. 2. eh. 41. P. 12748p12756.

8. Kubikova L., Kostal L. Dopaminergic system in birdsong learning and maintenance. J Chem Neuroanat. 2010. Vol. 39(2). P.112-123.

9. Niv Y., Duff M.O., Dayan P. Dopamine, uncertainty and TD learning.jBehavioral Brain Function. 2005. Vol. 1. P. 6.

10. Olds J., Milner P. "Positive reinforcement produced by electrical stimulation of septal area and other regions of rat brain".jJournal of Comparative and Physiological Psychology. 1954.jVol. 47j(6). P. 419p427.j

11. Rosenblatt F. The perceptron: A probabilistic model for information storage and organization in the brain Cornell Aeronautical Laboratory Psychological Review 1958. Vol. 65. eh. 6.

12. Savinov N. et all. Episodic Curiosity through Reachability // arXiv:1810.02274 [cs, stat]. 2019.

13. Schaffner J. et al. Neural codes in early sensory areas maximize fitness //bioRxiv. p 2021.

14. Schultz W. Dopamine reward prediction error coding.jDialogues Clin Neuroscience. 2016. Vol. 18(1). P. 23-32.

15. Silver D. et all. Reward is enough // Artificial Intelligence. 2021. (299). C. 103535.

16. Wang, J. X., Kurth-Nelson, Z., Kumaran, D., Tirumala, D., Soyer, H., Leibo, J. Z., i Botvinick, M. Prefrontal cortex as a meta-reinforcement learning system. Nature Neuroscience. 2018. Vol. 21(6). P. 860p868.

Comments

No posts found

Write a review
Translate