ISBN/价格: | 978-7-302-49327-3:CNY58.00 |
---|---|
作品语种: | chi |
出版国别: | CN 110000 |
题名责任者项: | 数据清洗/.主编李法平 |
出版发行项: | 北京:,清华大学出版社:,2018.06 |
载体形态项: | xii, 238页:;+图:;+26cm |
丛编项: | 大数据应用人才培养系列教材 |
提要文摘: | 本书共分为8章: 第1章主要介绍数据清洗的概念、任务和流程, 数据标准化概念及数据仓库技术等; 第2章主要介绍Windows和类UNIX操作系统下的数据常规格式、数据编码及数据类型转换; 第3章介绍ETL概念、数据清洗的技术路线、ETL工具及ETL子系统等; 第4章介绍Excel、Kettle、OpenRefine、Data Wrangler和Hawk的安装及使用等; 第5章介绍Kettle下文本文件抽取、Web数据抽取、数据库数据抽取等; 第6章介绍数据清洗步骤、数据检验、数据错误处理、数据质量评估及数据加载; 第7章介绍网页结构, 利用网络爬虫技术进行数据采集, 利用JavaScript技术进行行为日志数据采集等; 第8章介绍RDBMS的数据清洗方法和数据脱敏处理技术等。 |
题名主题: | 数据处理 技术培训 教材 |
中图分类: | TP274 |
个人名称等同: | 李法平 主编 |
记录来源: | CN CDT 20180825 |