知道“怎么知道”的历史, 深度去学习“深度学习”
魏忠
深度学习这个词汇,原来是一个专业的人工智能词汇,它从诞生到成型走过了70年的时间。随着人工智能的发展和广为人知,教育界对这个词汇有一种滥用的倾向,我非常担心像“转基因”这个词汇一样,多数使用者见到词汇就见文生义。今天我想解释一下什么是“深度学习”以及教育学中的“深度学习”语义应有的概念内涵,并对网络深度学习的作用做个小结,以堵住异化该词汇的趋势。
时间从神奇的年代说起。1937年,12岁的性格怪癖的皮茨自学了罗素的数学原理,并开始给罗素写信,15岁在芝加哥,他溜到著名哲学数学教授卡尔奈普办公室奚落这位教授花费十年写的东西是错误的,且扬长而去,害得这位教授满芝加哥找这个天才,也直到这时,皮茨才稳定地享受到了3年温饱的午餐,这一年是1940年。
1943年是一个神奇的年份,皮茨在芝加哥大学的校园遇到著名的神经生物学教授麦克洛克,麦克洛克与罗素、卡尔奈普一样爱才,他把18岁的打扫卫生的皮茨接到家里彻夜长谈,麦克洛克把谈话内容记录下来,写下了奠定人工智能基础的论文《神经活动中思想内在性的逻辑演算》,并通过神经信号的激活与开关传递,建立了一套人脑运算的信息模型,两个人都惊呼“我们知道了人类是怎么知道的了”。
还是这一年,有人安排了普林斯顿的一场聚会,聚會的是香浓、冯·诺依曼、维纳、麦克洛克这样一些大咖,都是后来被称为科技巨匠的人,这些人围绕着18岁的少年皮茨,问他一个又一个问题,他的回答可以写成一本教科书……
见面结束后,甚至没有高中文凭的皮茨被大咖中的维纳录取为MIT的博士研究生。维纳从他那里得到启发创立了控制论,冯·诺依曼学习他的论文创立了冯·诺依曼架构并构建了世界上第一台电脑,麦克洛克与他合作始创了神经网络,卡尔纳普完成了逻辑的形式化,而香浓的信息论从他这里得到重组通用的验证。除了这几位大咖在他一己之力的托举下开创了一个时代外,他的MIT的同学罗森布拉特(F. Rosenblatt)也受他的启发提出了感知机。
皮茨以一个深层次的公式——M-P模型和广博的知识架构,启发了一个时代,最终推动了今天人工智能深度学习模型的到来。而最初做这一切的原因,是为了反对弗洛伊德浅层学习的分析心理学的研究方法。
再次回到1943年,皮茨和麦克洛克共同的一个朋友发现芝加哥大学的校园里有两个人极力反对弗洛伊德学说,那个时候弗洛伊德如日中天,主宰着心理学。这两个人还有一个共同的爱好就是都特别推崇一个几百年前的数学家——莱布尼茨。莱布尼茨与弗洛伊德最大的学术区别在于,莱布尼茨认为人们的概念和语义及思想是可以通过机械和工具的推导得到证明和计算的,而弗洛伊德的东西则完全从分析事物表面开始,也就是弗洛伊德从一个医学博士走向完全不符合循证医学的大样本随机双盲实验。皮茨与麦克洛克就是从推崇深度的莱布尼茨和反对浅层的弗洛伊德开始来开启这个时代的。
讲到这里,我们要回到弗洛伊德的“浅度学习”。弗洛伊德作为一个心理学和教育学大师,用自己的一生的“课程”,向麦克洛克证明了什么是“浅学习”,我们今天如果梳理弗洛伊德一生的成就和经历,并将其设置成为一门课的话,可以看看什么是“浅学习”的课程。
弗洛伊德“浅层心理学”如下。
知识:
①精神分析学概论;
②梦的疑释;
③潜意识;
④动力心理学;
⑤人格心理学;
⑥变态心理学;
⑦图腾与禁忌;
⑧死本能理论。
技能:
①催眠;
②性欲;
③玩笑;
④日常生活心理学。
体验:
①星期三研究小组作为领导;
②心理分析协会作为领导;
③分裂出个体心理学;
④分裂出荣格;
⑤分裂出***。
也就是说,弗洛伊德的学习教科书是平铺的、基于分析的、没有纵深的、无法证明也无法证伪的,知识章节是平行的,技能章节是没有工具延续的,体验章节是只作为发号施令的,学科也是突然兴盛突然衰败无人发展和继承的。
皮茨不同,他率领后来的深度学习跟随者们,用一生和接力也写了一份深度学习的课程——皮茨:“深度学习原理”。
知识:
①学科基础:化学、物理学、历史学、植物学无人能比;
②人工智能基础:神经元数学表达和网络模型的MP方法;
③数字符号计算方法;
④与维诺的概率论结合的三维神经模型;
⑤控制论基础:与维诺的电子与机械结合;
⑥计算机基础:冯·诺依曼架构;
⑦视觉与大脑信号处理;
⑧1968年感知机神经网络;
⑨1986年BP神经网络;
⑩2006年深度神经网络。
技能:
①罗素:数学原理;
②自然数学、逻辑学;
③要饭与扫地;
④维纳:概率论;
⑤麦克洛克:生物学基础;
⑥鲁道夫·卡尔奈普哲学和逻辑系统;
⑦维纳:控制论;
⑧希腊语、拉丁语语言天才。
体验:
①追随罗素;
②挑战鲁道夫·卡尔奈普;
③追随麦克洛克;
④追随维纳;
⑤挑战维纳;
⑥加入小组;
⑦挑战蛙眼实验。
皮茨等人于弗洛伊德最大的分歧在于他们认为“弗洛伊德思想本无需笼罩一层弗洛伊德式的神秘主义或牵扯上自我与本我之间的挣扎”。既然不同意神秘主义与概念之间的挣扎,对逻辑不容许有半点污秽的皮茨以及他的继承者们,把人类思想这个问题,从“浅层思维”引向深层思维。一般来讲,我们讲循证医学,讲科学的证伪,讲实验精神,还是停留在表象的概念或者工具上,而深度学习这个概念,已经形成了一系列不能颠覆的数学和计算机工具,这些工具包含感知、输入、输出、深层、表层、隐含层、全局、局部、分步计算、迭代、循环、非线性、初始化、训练集、测试集、标签、特征提取、分类器,今天,稍微经过人工智能训练的人理解不了上述词汇的界定,就引用“深度学习”这个语义到处滥用,导致污名和异化该词汇。而如果非得需要一个大众的语义去形成这个时代的“深度学习的概念”的话,我极力反对用“弗洛伊德式”的平铺的分析哲学去“浅学习”这个词汇。事实上,这些词汇并不难理解,如果不从事人工智能专业的教育者,能够主动地按照这些内涵去界定深度与浅度的学习,至少专业的人,不会反感,“深度学习”这个词汇,也不至于被污名化。
感知、输入、输出:皮茨和麦克洛克从感知与激活开始,到逻辑电路和输入输出,建立了神经网络的基本构成。一个学习系统的基础是感知,是数码化的逻辑,是对教育和学生活动的输入输出的教育学的严格定义。目前的在线学习给出了一般学习一个数码化的可以研究的数字空间,然而这种定义直到今天还是停留在弗洛伊德分析心理层面。
深层、表层、隐含层、全局、局部、分步计算:表层处理局部信息、深层处理全局信息,中间若干个隐含层,形成一个深度分布的计算系统,输入层处理底层信息,输出层处理概念信息和判断信息。如果是一个教育的人工智能系统,通过底层的抬头率直接处理总体的学生判断信息,是违背深度学习原理的,这种“过度信息化”不但不利于学习,反而是对人工智能的高度的曲解。
迭代、循环、非线性:一个学习的知识系统要有从概括到分类、从分类到纵深的循环;技能也要经过手脚五官的协调训练,从管理工具到技术工具的协调使用,一个体验系统要完成从项目的提出问题、发现问题、协作、解决问题的循环过程。通过知识、技能、体验本身内部的循环,再加上知识技能体验之间的迭代完成学习过程的螺旋上升。突破往往是产生在不符合预期的非线性奇异点上,在教育学上,这叫做教育经验。
初始化、训练集、测试集、标签、特征提取、分类器:通过网络学习的大样本可以实现随机双盲实验,通过训练与测试以及教育专家的经验判断对优异学习进行标签化的工作,通过模型计算而不是专家判断进行特征学习行为的提取,这些都是深度学习给我们的启示。一位教师不是仅仅通过教育学学习就能掌握教育真知的,眼界有限的教师对教育的评价和标签会打错的,那么,如何建立一个最小的数据集进行准确的分类呢?
前向输入、反向传播、有监督、无监督、自学习:通过无监督的前向输出(教育目标)估计教育和学习创新,通过有监督的事后反馈进行学习行为和要素的误差分解(是不是有点像错题本),通过一个循环和迭代不断训练出来一个自学习的系统。
卷积、池化、降维与全连接:一个学习系统和一位教师要避免过度依赖数据而产生的“过拟合现象”,通過不断的教改和表演及折腾学生来获得教育是不道德的,深度学习有一系列办法通过自身的数据变换降维。
浅层是快乐的,深层是痛苦的,也许悲剧是人生的根,痛苦是思考的根,风来了,风走了,留下有根的,吹走不会生长的萍。
这次疫情,带来了3亿中国人在网上学习,深度的网络逻辑不应带来浅层次的集体狂欢。世界上总有那么一些天才,他们痛苦,他们吹哨,人们往往以为他们只有勇气和常识,其实我们误解了他们,他们超前于时代,亲眼看到了未来,具有深度思维的逻辑,但是现实不能给他们支持和佐证,他们着急,他们解决问题,他们英年早逝,我们不能忘记总结,不能只记住他们表层的名字而忘记名字背后深层次的概念逻辑,去随便使用和异化这样一个词汇,而不了解这个词汇背后的内涵和边界,如果这样,我们对不起悲情者们的奋斗。
用这句话纪念一样被表层记忆的疫情期间李文亮医生和他做的深层次不被我们理解的事情,不是仅仅勇气这么简单。
4月23日是皮茨的生日,快到了,也纪念一下一个吹哨一个时代却一分钱好处没得、一天好日子也没有过过的天才,我想人生再来一次,他还会选择这样的“深度悲剧人生”。