集团直发,全新正版书籍,假一罚四,放心选购。24小时内发货,可开发票。
¥ 86.1 6.2折 ¥ 139 全新
库存3件
作者(美) 伦纳德·阿佩尔辛著
出版社清华大学出版社
ISBN9787302618140
出版时间2022-11
装帧平装
开本其他
定价139元
货号4233457
上书时间2024-11-26
开放式解决问题的能力对于数据科学职业至关重要。遗憾的是,这些能力不能仅通过阅读获得。要成为问题解决者,你必须坚持不懈地解决难题。考虑到这一点,我围绕案例研究构思了本书:以现实世界情况为模型的开放式问题。案例研究范围从在线广告分析到使用新闻数据跟踪疾病暴发。完成这些案例研究后,你将可以开始你的数据科学事业。
本书的目标读者
本书的目标读者是具有基本的分析基础且有兴趣转行到数据科学职业的人。我的设想是,他也许是一位想探索更多的分析机会的经济学大四学生,或者是一位已经毕业的化学专业学生正在寻找以数据为中心的职业道路。又或者,读者可能是一位成功的前端Web开发人员,其数学背景非常有限,但也想尝试数据科学。本书的潜在读者都没有上过数据科学课程,这让他们在进行各种数据分析时感到力不从心。本书的目的是消除这些技能缺陷。
本书的读者需要了解Python编程的最基本知识。自学Python入门知识的水平应该能足以探索本书中的练习。至于数学知识,读者只需要理解基本的高中三角函数即可。
本书组织结构
本书包含5个难度由浅入深的案例研究。每个案例研究都以你需要解决的问题的详细陈述开始。问题陈述之后是用2~5章介绍解决问题所需的数据科学技能。这些技能部分涵盖了Python基础库以及数学和算法技术。每个案例研究的最后一章都描述了问题的解决方案。
案例研究1与基本概率论有关。
●第1章讨论如何使用简单的Python计算概率。
●第2章介绍概率分布的概念。该章还介绍Matplotlib可视化库,通过它可以对分布进行可视化。
●第3章讨论如何使用随机模拟来估计概率。该章引入NumPy数值计算库,从而促进有效的模拟执行。
●第4章包含案例研究的解决方案。
案例研究2从概率扩展到统计。
●第5章介绍中心性和离散性的简单统计测量。该章还介绍SciPy科学计算库,其中包含一个有用的统计模块。
●第6章深入探讨可用于进行统计预测的中心极限定理。
●第7章讨论各种统计推断技术,这些技术可用于将有趣的数据模式与随机噪声区分开。此外,该章说明了错误使用推理的危险以及如何更好地避免这些危险发生。
●第8章介绍Pandas库,可用于在统计分析之前对表格数据进行预处理。
●第9章包含案例研究的解决方案。
案例研究3侧重于介绍地理数据的无监督聚类。
●第10章介绍如何使用中心性度量将数据聚类到组中。该章还引入scikit-learn库以促进高效聚类。
●第11章侧重于介绍地理数据提取和可视化。在该章中,使用GeoNamesCache库从文本中进行提取并使用Cartopy地图绘制库实现可视化。
●第12章包含案例研究的解决方案。
案例研究4侧重于介绍使用大规模数值计算的自然语言处理。
●第13章说明如何使用矩阵乘法有效地计算文本之间的相似度。NumPy的内置矩阵优化被广泛用于此目的。
●第14章展示如何利用降维来进行更有效的矩阵分析。该章结合scikit-learn的降维方法讨论数学理论。
●第15章将自然语言处理技术应用于超大文本数据集。该章讨论如何更好地探索和聚类这类文本数据。
●第16章展示如何使用Beautiful Soup HTML解析库从在线数据中提取文本。
●第17章包含案例研究的解决方案。
案例研究5侧重于对网络理论和监督机器学习的讨论。
●第18章结合NetworkX图分析库介绍基本网络理论。
●第19章展示如何利用网络流在网络数据中寻找聚类。该章将概率模拟和矩阵乘法用于实现有效的聚类。
●第20章介绍一种基于网络理论的简单监督机器学习算法。该章还使用scikit-learn说明常见的机器学习评估技术。
●第21章讨论其他机器学习技术,这些技术依赖内存高效的线性分类器。
●第22章深入探讨之前介绍的监督学习方法的缺陷。随后使用非线性决策树分类器来规避这些缺陷。
●第23章包含案例研究的解决方案。
本书的每一章都建立在前几章中介绍的算法和库的基础上。因此,我们鼓励你从头到尾阅读本书,以减少困惑。但如果你已经熟悉书中的某些内容,可直接跳过它们。最后,强烈建议你在阅读解决方案之前自己解决每个案例研究的问题。独立解决每一个问题将使本书的价值最大化。
另外,读者可扫描封底二维码,来下载源代码。
● 网页抓取
● 使用聚类算法组织数据集
● 可视化复杂的多变量数据集
● 训练决策树机器学习算法
Leonard Apeltsin是Anomaly的数据科学主管。他的团队应用高级分析来发现医疗保健欺诈、浪费和滥用的情况。在加盟Anomaly之前,Leonard领导了Primer AI的机器学习开发工作;Primer AI是一家专门从事自然语言处理的初创公司。作为创始成员,Leonard帮助Primer AI团队从4名员工发展到近100名员工。在进入创业公司之前,Leonard在学术界工作,他发现了遗传相关疾病的隐藏模式。他的发现发表在《科学》和《自然》杂志的附属期刊上。Leonard拥有卡内基梅隆大学的生物学和计算机科学学士学位,以及加州大学旧金山分校的生物信息学博士学位。
数据科学项目有很多灵活的部分,需要练习和技巧才能让所有代码、算法、数据集、格式和可视化协调工作。本书将引导你完成5个真实项目,包括根据新闻标题跟踪疾病暴发、分析社交网络以及在广告点击数据中寻找相关模式。
《Python数据科学项目实战》并不止于表面理论和简单示例。在完成每个项目时,你将学习如何解决常见问题,例如数据丢失、混乱的数据以及与构建模型不匹配的算法。你将了解详细的设置说明和常见故障的全面解决方案。最后,通过完成这些项目,你将对自己的技能充满信心。
— 没有更多了 —
以下为对购买帮助不大的评价