秦曾昌,2005年获得英国布里斯托大学(univerity of britol)人工智能方向博士,2005年10月—2006年1月在该校工程数学系任教;2006年2月—2008年2月在美国加州大学伯克利分校(univerity of california berkeley)电子与计算机系任博士后研究员(bt fellow),在模糊逻辑创始人lotf zadeh教授的研究组从事文本挖掘和智能搜索的研究;2008年3月到英国牛津大学(univerity of oxford)optimor lab任研究员,并兼任牛津大学统计系访问研究员;自2009年起,在北京航空航天大学自动化学院任教,同年入选人才支持计划;2010年在美国卡内基梅隆大学(carnegie mellon univerity)机器人所做访问学者;2018年—2019年兼任keep首席科学家;2019年起兼任编程猫首席科学家。在人工智能与其交领域出版英文专著一本,发表ci/ei检索技术120余篇,主要研究领域涉及不确定理论、机器学、多媒体检索、机器视觉、自然语言处理、医疗影像与计算博弈。研究工作之余积极投入青科技教育工作,发表科普译作活人能捐献心脏吗地球上有从不犯错的人吗,获得上海市科普图书;曾担任青科技创新大赛“小小科学家”、英特尔国际工程大奖赛等赛事的终审评委,以及我国次太空授课专家组成员。
精彩内容:
4.1 像人一样学 顾名思义,“机器学”是研究如何机器像人一样学,并让机器通过学来掌握解决问题的能力。早在 2001 年我(本书作者)准备出国读时,申请了很多与计算机和人工智能相关的专业,当次看到“机器学”这个词时,脑中浮现出这样的画面 :一个机器人通过观察人类掌握了人类的本领。幸运的是,我被布里斯托大学的机器学硕士专业录取并选择了这个专业,从而开始正式进入人工智能领域中这个重要的分支。在过去的 20 年里,我见证了这一研究领域从默默无闻到举世瞩目的变化。 学与搜索 纵观科学发展的过程,我们首先观察自然现象,然后用定量的观察数据来描述。为了解释数据背后的,科学家用数学语言,即公式或方程来拟合观察数据。如果提出的公式不但能很好地拟合过去的数据,还可以很好地预测未来将要发生的数据,那么这个公式或者方程则会成为公认的科学理论。同理,机器学也是接近一样的过程 :首先我们收集一些用于训练机器的数据,然后利用自己的经验来设这些数据生成的规律或者分类的标准是由某一种类型的函数所定义的,我们的目标是根据给定的数据来“训练”出这些函数的参数,这个过程是机器“学”的过程。一个典型的机器学过程如图 41 所示。线拟合是指用一个线函数通过调整参数来拟合给定的训练数据。图41(a)是给定的训练数据,图 41(b)、(c)、(d)中虑了用不同的线方程来拟合给定数据,其中图 41(d)中表示的参数是拟合优选的线方程。 设我们给定的一组数据是由面坐标所定义的,我们想用一个函数来描述横坐标 x 与纵坐标 y 的关系,我们可以设它们的关系是线关系,用 y = ax b 来表示,我们要做的是找到合适的 a 与 b 的值,从而确定一条合适的曲线来拟合给定的数据。所以从这个角度来讲,我们可以将机器学的过程看成是给定模型下的参数调整。如果由参数 a 和 b 构成了一个新的空间,这个空间中的每一个点 a’和b’以图 41 中的例子来说明, 都能构成一条直线 y = a x b 所以我们需要的是在这个 a 和 b 所构成的“设空间”中搜索 出合适的参数来解释(或者说拟合)给定的训练数据。这是机器学的一个核心思想,机 器学可以看成是在由参数构成的设空间中进行搜索。 还有一个重要但是没有回答的问题是我们如何去设什么类型的函数,比如给定一些 数据(如图 42 中的彩圆点) ,我们可以用直线(红) 、二次多项式(黑)或者更复杂 的多项式(绿)来拟合这些数据,即找到红圆点和蓝圆点之间的边界。我们通过不断 学,找到的优选参数如图 42 中的 3 条线所示。在这 个案例中,你会发现红直线无论怎么调参数,也无 法更好地描述边界。而绿的曲线虽然可以地把 数据分开,但是因为数据中大概率会夹杂着很多噪音, 绿的曲线把噪音也拟合了。这类似于为了去一个 期待已久的音乐会, 你买了一副高、 超清晰的耳机, 的确你在现场可以把音乐听得很清楚,但是如果耳机 太灵敏,音乐厅里的咳嗽声、翻东西甚至地板摩擦的 图42??欠拟合与过拟合的定描述 声音你也听得一清二楚,反而干扰了你对音乐的欣赏, 这种情况叫做“过拟合” 。相对应地,红直线所代表的分类函数是“欠拟合” ,而黑的 二次多项式函数在两者之间找到了一个比较好的衡。在实际的研究中,我们可以使用与训 练数据不同但是分布相同的一组数据来验证并找到优选的分界函数, 这组数据称为测试数据。 学的类型 如果要将机器学分几个大范畴的话, 可以根据数据是否有标签大致分为监督学、 非监督学和增强学(还有一个小类别是半监督学,这里暂且忽略) 。监督学的英文 是 upervied learning,顾名思义,是指有一个“导师”为所有的数据提供一个标签。比如 给定的一幅图像是小猫或是小 ;给定的一个手写数字是 0 或是 8 ;给定一段是肯定的 106 或是否定的 ; 给定一张人脸是开心、悲伤或是愤怒的。这些标签都是通过人的经验和判断来 给定的,我们来利用数据特征与标签的关联关系建立一个机器学的数学模型来进行描述。 k 近邻是一种较为容易理解的监督学算法。 我们对于一个陌生数据标签或类别的判断, 取决于这个数据 k 个“邻居”的标签,即用邻居中用得多的标签作为新数据的标签。想象 一下,设一个班级的同学只喜欢两种运动,一种 旧不懂中文,他们只是在遵循规则而已。塞尔以此为依据认为神经网络不足以让人工智能具 备自己的思维。另一些反对者也认为人工神经网络的学是为了更好地执行某一项特定的任 务,因此也不会让人工智能具有思维意
以下为对购买帮助不大的评价