大数据时代的来临引领着无数的技术变革的同时也在悄无声息地改变着各行各业。随着大数据技术的发展和传统技术的革新,现在医疗、交通、金融等多个行业已经可以使用大数据技术来处理海量的数据了,如我们可通过对用户用为日志的分析得到精准的分析完成精准营销、个性服务等目标,本书为实现海量数据分析提供了技术指导。本书主要以Hadoop应用开发技术为主线,使用书籍数据分析项目贯穿权属讲解其各组件的功能和使用方法以及数据采集、存储、分析等知识。全书知识点的讲解由浅入深,使每一位读者都能有所收获,也保持了整本书的知识深度。本书主要涉及六个项目,即Hadoop介绍、数据采集与分布式文件存储、分布式数据处理、离线数据分析、数据迁移以及数据可视化,严格按照生产环境中的操作流程对知识体系进行编排。使用循序渐进的方式从数据的采集、存储、清洗、分析、数据迁移一直到分析结果的可视化展示对知识点进行讲解。
大连职业技术学院是大连市政府直属的高等院校,全国百所“国家示范性高等职业院校”之一,国家优质高等专科学校,辽宁省双高建设校,辽宁省“兴辽卓越院校”和“兴辽卓越专业群”项目A档建设单位,全国职业教育先进单位、全国中部和东北地区服务贡献50强、辽宁省普通高校毕业生就业工作先进单位,全国职业院校传统技艺传承示范基地、全国职业院校非遗教育传承示范基地。天津滨海迅腾科技集团有限公司(以下简称:迅腾科技)成立于2008年,系国家高新技术企业、天津市瞪羚企业、天津市第一批产教融合型企业,公司历经14年发展,现在公司主营业务是以与高职院校共建专业共建、产业学院、混合所有制学院和教育教学装备研发及IT服务外包为主。迅腾科技自主研发并出版发行基于工作过程项目化教材100余种,同时开发了100余种配套数字化教学资源库及教学标准,大数据实践教学平台、工业互联网关键技术平台等产品;制定了产业学院5个岗位标准,“企业模拟舱式”实训基地建设标准等。迅腾科技在职业教育产教融合校企合作领域深耕10余年,形成了可复制、可推广的基于“双链、双基地、N赋能”迅腾模式,对产业学院项目落地经验丰富,具有深厚的职业教育教学资源和技术积累。因此,双方在职业教育新兴业务领域,拥有深厚的合作基础。
项目一 初识大数据
项目导言
任务一 了解大数据
任务描述
任务技能
任务二 准备大数据处理环境
任务描述
任务技能
任务实施
项目总结
英语角
课后习题
项目二 数据采集与分布式文件存储
项目导言
任务一 使用Shell操作HDFS
任务描述
任务技能
任务实施
任务二 使用Python hdfs库操作HDFS
任务描述
任务技能
任务实施
任务三 配置Flume采集
任务描述
任务技能
任务实施
项目总结
英语角
课后习题
项目三 分布式数据处理
项目导言
任务一 编写MapReduce数据处理程序
任务描述
任务技能
任务实施
任务二 运行MapReduce数据处理程序
任务描述
任务技能
任务实施
项目总结
英语角
课后习题
项目四 离线数据分析
项目导言
任务一 使用Hive存储数据
任务描述
任务技能
任务实施
任务二 使用Hive统计数据
任务描述
任务技能
任务实施
项目总结
英语角
课后习题
项目五 数据迁移
项目导言
任务一 使用Sqoop实现数据迁移
任务描述
任务技能
任务实施
任务二 使用DataX实现数据迁移
任务描述
任务技能
任务实施
项目总结
英语角
课后习题
项目六 数据可视化
项目导言
任务一 基于Flask创建数据可视化项目
任务描述
任务技能
任务实施
任务二 基于Echarts可视化数据
任务描述
任务技能
任务实施
项目总结
英语角
课后习题






