《深入大型数据集:并行与分布化Python代码》-J.T. 沃勒翰

《深入大型数据集:并行与分布化Python代码》-J.T. 沃勒翰
内容简介
本书共分3部分,主要介绍如何使用Python语言来处理大型数据集。第1部分介绍map和reduce编程风格,以及Python中基础的map和reduce函数,并介绍如何将对象持久化,通过惰性函数和并行函数来加快大型数据集的处理速度。第2部分介绍Hadoop和Spark框架,以及如何使用mrjob库来编写Hadoop作业,如何实现PageRank算法,如何使用Spark来实现决策树和随机森林的机器学习模型。第3部分重点介绍云计算和云存储的基础知识,包括如何通过boto3的Python库将文件上传到AWS S3服务,以及如何在AWS的EMR集群中运行分布式的Hadoop和Spark作业。本书适合有一定Python编程基础,且希望掌握大型数据集处理能力的开发人员和数据科学家阅读。
下载地址
宝阳读书网 style= 此处内容已经被作者隐藏,请输入验证码查看内容
验证码:
请关注本站微信公众号,回复“验证码”,获取验证码。在微信里搜索“ BoyangLee李宝阳”或者“ boyanglee2022”或者微信扫描右侧二维码都可以关注本站微信公众号。
详情页vip购买

免责声明: 本站所有资源搜集于互联网,所提供下载链接也是站外链接,网站本身不存储任何相关资源文件, 如资源下载链接侵犯到版权方,请发送邮件到1401211620@qq.com,站长核实后会第一时间移除,谢谢!

二维码

联系管理员

在线咨询: 点击这里给我发消息

邮箱:1401211620@qq.com