大脑海马体藏有学习本质的秘密，这是DeepMind新发现

2024-05-23 23:53| 来源: 网络整理| 查看: 265

维金编译自 DeepMind博客等量子位出品 | 公众号 QbitAI

DeepMind在神经科学和人工智能结合的探索上又有新进展。

海马体“预测地图”

有没有想过这些问题：你是如何选择的上班路线，你是如何决定搬家去哪里，下棋的时候你是怎么决定走出那一步？

所有这些场景中，其实都存在一个估计：你的决策在未来能获得多大的回报。

这很微妙，你考虑的未来越远，可能出现的情况总数就会更多。理解我们这方面的行为是神经科学研究的一个重要课题，而在人工智能研究中，开发能有效预测未来回报的系统也是个关注重点。

在《自然神经科学》（Nature Neuroscience）上新发布的论文中，DeepMind将神经科学知识应用于机器学习中的数学理论，从而带来关于学习和记忆本质的新见解。

具体来说，DeepMind认为，大脑中的一块区域，即海马体，对这个问题提供了独特的解决方案。海马体运用被DeepMind称作“预测地图”的机制来高度总结未来的事件。

传统观点认为，海马体只反映动物当前的状态，尤其是在迷宫穿梭等空间任务中。这种观点获得了很多支持，因为在啮齿动物的海马体中发现了“位置细胞”：当动物处于特定位置时，这些细胞将会被激活。

（量子位注：2014年诺贝尔生理或医学奖，被授予了美英双国籍的神经生物学家John O’Keefe以及挪威的神经生物学家May-Britt Moser和Edvard Moser夫妇，以表彰他们在位置细胞和格点细胞上的神经生理学工作。他们的研究发现了位于大脑海马及内嗅皮层中的一些对空间位置有特异性的特殊神经元，这些神经元构成了一个精巧的定位系统，使人们能够认知自己在空间中所处的位置，并帮助人们进行导航。）

尽管这种理论可以解释许多神经生理学发现，但无法完全解释，为何海马体也参与了其他功能，例如记忆、关系推理和决策。

DeepMind的新理论认为，在计算未来最大回报的过程中，思维导航是种更常见的问题。DeepMind的结论来自于人工智能研究的子学科强化学习。这种学习方法关注不断试错的系统。

DeepMind的关键思路是，为了估计未来回报，人工智能agent（智能体）必须首先估计，在每种状态下预计能获得多少立即回报，随后根据每种状态未来发生的可能性评估这些回报。通过总结所有可能状态下的加权回报，agent可以得出对未来回报的估计。

类似的，DeepMind认为海马体代表了全部状态，即海马体预测到的未来所有状态。

例如，如果你即将下班（即当前状态），那么海马体会做出这样的预测：你很快就会动身，前往学校接孩子，最后回到距离更远的家中。

通过判断每个当前状态与预期后续状态的关系，海马体可以对未来事件做出高度的总结，这种行为的学名是“后续表现”。DeepMind认为，这种特殊形式的预测地图使大脑可以在回报不断变化的环境中迅速适应环境，同时不必对未来展开计算开销极高的模拟。

【本文地址】

公司简介

联系我们