ISBN/价格: | 978-7-302-57508-5:CNY79.00 |
---|---|
作品语种: | chi |
出版国别: | CN 110000 |
题名责任者项: | Python大数据处理库PySpark实战/.汪明著 |
出版发行项: | 北京:,清华大学出版社:,2021 |
载体形态项: | 310页:;+图:;+21cm |
提要文摘: | 本书分为7章, 第1章介绍大数据的基本概念、常用的大数据分析工具; 第2章介绍Spark作为大数据处理的特点和算法; 第3章介绍Spark实战环境的搭建, 涉及Windows和Linux操作系统; 第4章介绍如何灵活应用PySpark对数据进行操作; 第5章介绍PySpark ETL处理, 涉及PySpark读取数据、对数据进行统计分析等数据处理相关内容; 第6章介绍PySpark如何利用MLib库进行分布式机器学习 (Titanic 幸存者预测); 第7章介绍一个PySpark和Kafka结合的实时项目。 |
题名主题: | 数据处理 |
中图分类: | TP274 |
个人名称等同: | 汪明 著 |
记录来源: | CN 91MARC 20210613 |