《Hadoop权威指南》第二版
基本信息
打开支付宝首页搜“673273051”领红包,领到大红包的小伙伴赶紧使用哦!
相关书籍
- 《数据库设计教程.pdf》[]
- 《Storage.Networks.(Comp)网络存储》英文原版[]
- 《尚学堂_肖斌_Hadoop课程》开放式课程[MP4][]
- 《腾云云计算和大数据时代网络技术揭秘》电子书[]
- 《云端时代杀手级应用:大数据分析》电子书[]
- 《数据库技术》电子书 []
- 《大话数据库》高清电子书[]
- 《数据存储、恢复与安全应用实践》电子书[]
- 《数据库原理与实务》高清文字版[]
内容介绍
䏿–‡å: Hadoopæƒå¨æŒ‡å—
原å: Hadoop: The Definitive Guide
作者: Tom White
译者: 周æ•奇
é’±å«å®
金澈清
王晓玲
图书分类: 软件
èµ„æºæ ¼å¼: PDF
版本: 第二版
出版社: 清åŽå¤§å¦å‡ºç‰ˆç¤¾
书å·: 9787302257585
å‘行时间: 2011å¹´7月4æ—¥
地区: 大陆
è¯è¨€: ç®€ä½“ä¸æ–‡
简介:
目录:
《hadoopæƒå¨æŒ‡å—(第2版)》
第1ç« åˆè¯†hadoop 1
æ•°æ®ï¼æ•°æ®ï¼ 1
æ•°æ®å˜å‚¨ä¸Žåˆ†æž 3
与其他系统相比 4
关系型数æ®åº“管ç†ç³»ç»Ÿ 4
ç½‘æ ¼è®¡ç®— 6
志愿计算 8
hadoop å‘å±•ç®€å² 9
apache hadoopå’Œhadoop生æ€åœˆ 12
第2ç« å…³äºŽmapreduce 15
一个气象数æ®é›† 15
æ•°æ®çš„æ ¼å¼ 15
使用unix工具进行数æ®åˆ†æž 17
使用hadoopåˆ†æžæ•°æ® 18
map阶段和reduce阶段 18
æ¨ªå‘æ‰©å±• 27
åˆå¹¶å‡½æ•° 30
è¿è¡Œä¸€ä¸ªåˆ†å¸ƒå¼çš„mapreduce作业 33
hadoop的streaming 33
.ruby版本 33
python版本 36
hadoop pipes 37
编译è¿è¡Œ 38
第3ç« hadoopåˆ†å¸ƒå¼æ–‡ä»¶ç³»ç»Ÿ 41
hdfs的设计 41
hdfs的概念 43
æ•°æ®å— 43
namenodeå’Œdatanode 44
å‘½ä»¤è¡ŒæŽ¥å£ 45
基本文件系统æ“作 46
hadoop文件系统 47
æŽ¥å£ 49
javaæŽ¥å£ 51
从hadoop urlä¸è¯»å–æ•°æ® 51
通过filesystem apiè¯»å–æ•°æ® 52
å†™å…¥æ•°æ® 55
目录 57
查询文件系统 57
åˆ é™¤æ•°æ® 62
æ•°æ®æµ 62
文件读å–å‰–æž 62
æ–‡ä»¶å†™å…¥å‰–æž 65
一致模型 68
通过 distcpå¹¶è¡Œæ‹·è´ 70
ä¿æŒ hdfs 集群的å‡è¡¡ 71
hadoop的归档文件 71
使用hadoop归档文件 72
ä¸è¶³ 73
第4ç« hadoop i/o 75
æ•°æ®å®Œæ•´æ€§ 75
hdfs的数æ®å®Œæ•´æ€§ 75
localfilesystem 76
checksumfilesystem 77
压缩 77
codec 78
压缩和输入切分 83
在mapreduceä¸ä½¿ç”¨åŽ‹ç¼© 84
åºåˆ—化 86
writableæŽ¥å£ 87
writableç±» 89
实现定制的writable类型 96
åºåˆ—化框架 101
avro 103
便®æ–‡ä»¶çš„æ•°æ®ç»“æž„ 116
写入sequencefile 117
mapfile 123
第5ç« mapreduceåº”ç”¨å¼€å‘ 129
é…ç½®api 130
åˆå¹¶å¤šä¸ªæºæ–‡ä»¶ 131
å¯å˜çš„æ‰©å±• 132
é…置开å‘环境 132
é…ç½®ç®¡ç† 132
辅助类genericoptionsparser,tool和toolrunner 135
编写å•元测试 138
mapper 138
reducer 140
本地è¿è¡Œæµ‹è¯•æ•°æ® 141
在本地作业è¿è¡Œå™¨ä¸Šè¿è¡Œä½œä¸š 141
æµ‹è¯•é©±åŠ¨ç¨‹åº 145
在集群上è¿è¡Œ 146
打包 146
å¯åŠ¨ä½œä¸š 146
mapreduceçš„webç•Œé¢ 148
获å–结果 151
作业调试 153
使用远程调试器 158
作业调优 160
分æžä»»åŠ¡ 160
mapreduceçš„å·¥ä½œæµ 163
将问题分解æˆmapreduce作业 163
è¿è¡Œç‹¬ç«‹çš„作业 165
第6ç« mapreduce的工作机制 167
剖æžmapreduce作业è¿è¡Œæœºåˆ¶ 167
作业的æäº¤ 167
作业的åˆå§‹åŒ– 169
ä»»åŠ¡çš„åˆ†é… 169
任务的执行 170
进度和状æ€çš„æ›´æ–° 170
ä½œä¸šçš„å®Œæˆ 172
失败 173
任务失败 173
tasktracker失败 175
jobtracker失败 175
作业的调度 175
fair scheduler 176
capacity scheduler 177
shuffleå’ŒæŽ’åº 177
map端 177
reduce端 179
é…置的调优 180
任务的执行 183
æŽ¨æµ‹å¼æ‰§è¡Œ 183
é‡ç”¨jvm 184
跳过å记录 185
任务执行环境 186
第7ç« mapreduceçš„ç±»åž‹ä¸Žæ ¼å¼ 189
mapreduce的类型 189
默认的mapreduce作业 192
è¾“å…¥æ ¼å¼ 198
输入分片与记录 198
文本输入 209
二进制输入 213
多ç§è¾“å…¥ 214
æ•°æ®åº“输入(和输出) 215
è¾“å‡ºæ ¼å¼ 215
文本输出 216
二进制输出 216
多个输出 217
延迟输出 224
æ•°æ®åº“输出 224
第8ç« mapreduce的特性 225
计数器 225
内置计数器 225
用户定义的java计数器 227
用户定义的streaming计数器 232
æŽ’åº 232
准备 232
éƒ¨åˆ†æŽ’åº 233
æ€»æŽ’åº 237
äºŒæ¬¡æŽ’åº 241
è”æŽ¥ 247
mapç«¯è”æŽ¥ 247
reduceç«¯è”æŽ¥ 249
边数æ®åˆ†å¸ƒ 252
利用jobconfæ¥é…置作业 252
分布å¼ç¼“å˜ 253
mapreduce库类 257
第9ç« æž„å»ºhadoop集群 259
集群规范 259
网络拓扑 261
集群的构建和安装 263
安装java 264
创建hadoop用户 264
安装hadoop 264
测试安装 265
sshé…ç½® 265
hadoopé…ç½® 266
é…ç½®ç®¡ç† 267
环境设置 269
hadoop守护进程的关键属性 273
hadoop守护进程的地å€å’Œç«¯å£ 278
hadoop的其他属性 279
创建用户å¸å· 280
安全性 281
kerberoså’Œhadoop 282
委托令牌 284
其他安全性改进 285
åˆ©ç”¨åŸºå‡†æµ‹è¯•ç¨‹åºæµ‹è¯•hadoop集群 286
hadoopåŸºå‡†æµ‹è¯•ç¨‹åº 287
用户的作业 289
云上的hadoop 289
amazon ec2上的hadoop 290
第10ç« ç®¡ç†hadoop 293
hdfs 293
永久性数æ®ç»“æž„ 293
å®‰å…¨æ¨¡å¼ 298
日志审计 300
工具 300
监控 305
日志 305
åº¦é‡ 306
javaç®¡ç†æ‰©å±•(jmx) 309
维护 312
日常管ç†è¿‡ç¨‹ 312
委任节点和解除节点 313
å‡çº§ 316
第11ç« pig简介 321
安装与è¿è¡Œpig 322
执行类型 322
è¿è¡Œpigç¨‹åº 324
grunt 324
pig latin编辑器 325
示例 325
生æˆç¤ºä¾‹ 327
与数æ®åº“比较 328
piglatin 330
结构 330
è¯å¥ 331
è¡¨è¾¾å¼ 335
类型 336
æ¨¡å¼ 338
函数 342
用户自定义函数 343
过滤udf 343
计算udf 347
åŠ è½½udf 348
æ•°æ®å¤„ç†æ“作 351
åŠ è½½å’Œå˜å‚¨æ•°æ® 351
è¿‡æ»¤æ•°æ® 352
åˆ†ç»„ä¸Žè¿žæŽ¥æ•°æ® 354
对数æ®è¿›è¡ŒæŽ’åº 359
组åˆå’Œåˆ†å‰²æ•°æ® 360
pig实战 361
å¹¶è¡Œå¤„ç† 361
傿•°ä»£æ¢ 362
第12ç« hive 365
安装hive 366
hive外壳环境 367
示例 368
è¿è¡Œhive 369
é…ç½®hive 369
hiveæœåŠ¡ 371
metastore 373
å’Œä¼ ç»Ÿæ•°æ®åº“进行比较 375
读时模å¼(schema on read)vs.写时模å¼(schema on write) 376
æ›´æ–°ã€äº‹åŠ¡å’Œç´¢å¼• 376
hiveql 377
æ•°æ®ç±»åž‹ 378
æ“作和函数 380
表 381
托管表(managed tables)和外部表(external tables) 381
分区(partitions)和桶(buckets) 383
å˜å‚¨æ ¼å¼ 387
å¯¼å…¥æ•°æ® 392
表的修改 394
表的丢弃 395
æŸ¥è¯¢æ•°æ® 395
排åº(sorting)å’Œèšé›†(aggregating) 395
imapreduce脚本 396
连接 397
åæŸ¥è¯¢ 400
视图(view) 401
用户定义函数(user-defined functions) 402
编写udf 403
编写udaf 405
第13ç« hbase 411
hbasics 411
背景 412
概念 412
æ•°æ®æ¨¡åž‹çš„“旋风之旅†412
实现 413
安装 416
测试驱动 417
客户机 419
java 419
avro,rest,以åŠthrift 422
示例 423
æ¨¡å¼ 424
åŠ è½½æ•°æ® 425
web查询 428
hbase和rdbms的比较 431
æˆåŠŸçš„æœåŠ¡ 432
hbase 433
实例:hbase在streamy.com的使用 433
praxis 435
版本 435
hdfs 436
用户接å£(ui) 437
度é‡(metrics) 437
模å¼è®¾è®¡ 438
计数器 438
批é‡åŠ è½½(bulkloading) 439
第14ç« zookeeper 441
安装和è¿è¡Œzookeeper 442
示例 443
zookeeperä¸çš„组æˆå‘˜å…³ç³» 444
创建组 444
åŠ å…¥ç»„ 447
列出组æˆå‘˜ 448
zookeeperæœåŠ¡ 451
æ•°æ®æ¨¡åž‹ 451
æ“作 453
实现 457
一致性 458
ä¼šè¯ 460
çŠ¶æ€ 462
使用zookeeperæ¥æž„建应用 463
é…ç½®æœåŠ¡ 463
å…·æœ‰å¯æ¢å¤æ€§çš„zookeeper应用 466
锿œåŠ¡ 470
生产环境ä¸çš„zookeeper 473
坿¢å¤æ€§å’Œæ€§èƒ½ 473
é…ç½® 474
第15ç« å¼€æºå·¥å…·sqoop 477
获å–sqoop 477
一个导入的例å 479
生æˆä»£ç 482
å…¶ä»–åºåˆ—化系统 482
深入了解数æ®åº“导入 483
导入控制 485
导入和一致性 485
直接模å¼å¯¼å…¥ 485
ä½¿ç”¨å¯¼å…¥çš„æ•°æ® 486
导入的数æ®ä¸Žhive 487
导入大对象 489
执行导出 491
深入了解导出 493
导出与事务 494
导出和sequencefile 494
第16ç« å®žä¾‹åˆ†æž 497
hadoop 在last.fm的应用 497
last.fm:社会音ä¹å²ä¸Šçš„é©å‘½ 497
hadoop a last.fm 497
用hadoop产生图表 498
track statisticsç¨‹åº 499
总结 506
hadoop和hive在facebook的应用 506
概è¦ä»‹ç» 506
hadoop a facebook 506
凿ƒ³çš„使用情况案例 509
hive 512
问题与未æ¥å·¥ä½œè®¡åˆ’ 516
nutch æœç´¢å¼•擎 517
èƒŒæ™¯ä»‹ç» 517
æ•°æ®ç»“æž„ 518
nutch系统利用hadoop进行数æ®å¤„ç†çš„精选实例 521
总结 530
rackspaceçš„æ—¥å¿—å¤„ç† 531
ç®€å² 532
选择hadoop 532
收集和å˜å‚¨ 532
日志的mapreduce模型 533
关于cascading 539
å—æ®µã€å…ƒç»„å’Œç®¡é“ 540
æ“作 542
tap类,scheme对象和flow对象 544
cascading实战 545
çµæ´»æ€§ 548
hadoop和cascading在sharethis的应用 549
总结 552
在apache hadoop上的tbå—节数é‡çº§æŽ’åº 553
使用pigå’Œwukongæ¥æŽ¢ç´¢10亿数é‡çº§è¾¹çš„ 网络图 556
测é‡ç¤¾åŒº 558
æ¯ä¸ªäººéƒ½åœ¨å’Œæˆ‘说è¯ï¼štwitter回å¤å…³ç³»å›¾ 558
degree(度) 560
对称链接 561
社区æå– 562
附录a 安装apache hadoop 565
附录b cloudera's distribution for hadoop 571
附录c 准备ncdcå¤©æ°”æ•°æ® 573
索引
内容介ç»ï¼š
《hadoopæƒå¨æŒ‡å—(第2版)》从hadoop的缘起开始,由浅入深,结åˆç†è®ºå’Œå®žè·µï¼Œå…¨æ–¹ä½åœ°ä»‹ç»hadoopè¿™ä¸€é«˜æ€§èƒ½å¤„ç†æµ·é‡æ•°æ®é›†çš„ç†æƒ³å·¥å…·ã€‚全书共16ç« ï¼Œ3个附录,涉åŠçš„主题包括:haddoop简介;mapreduce简介;hadoopåˆ†å¸ƒå¼æ–‡ä»¶ç³»ç»Ÿï¼›hadoopçš„i/oã€mapreduce应用程åºå¼€å‘ï¼›mapreduce的工作机制;mapreduceçš„ç±»åž‹å’Œæ ¼å¼ï¼›mapreduce的特性;如何构建hadoop集群,如何管ç†hadoopï¼›pig简介;hbase简介;hive简介;zookeeper简介;开æºå·¥å…·sqoop,最åŽè¿˜æä¾›äº†ä¸°å¯Œçš„æ¡ˆä¾‹åˆ†æžã€‚
《hadoopæƒå¨æŒ‡å—(第2版)》是hadoopæƒå¨å‚考,程åºå‘˜å¯ä»Žä¸æŽ¢ç´¢å¦‚ä½•åˆ†æžæµ·é‡æ•°æ®é›†ï¼Œç®¡ç†å‘˜å¯ä»¥ä»Žä¸äº†è§£å¦‚何安装与è¿è¡Œhadoop集群。
googleå¸å›½çš„基石是什么?mapreduce算法!å¼€æºé¡¹ç›®hadoop作为它的一个具体实现,å¯ä»¥è½»æ¾ç”¨äºŽæž„建和维护一个å¯é 性高ã€ä¼¸ç¼©æ€§å¼ºçš„分布å¼ç³»ç»Ÿã€‚
作者tomwhite作为hadoop的项目负责人,通过自己对hadoopå’Œhadoop社区的ç†è§£ï¼ŒåŒ–ç¹ä¸ºç®€ï¼Œç”¨æµ…显易懂的è¯è¨€ä»‹ç»äº†hadoop能åšä»€ä¹ˆï¼Œæ€Žä¹ˆåšæ‰èƒ½å……åˆ†å‘æŒ¥hadoop的优势,hadoop能够和哪些开æºå·¥å…·ç»“åˆä½¿ç”¨ã€‚这是一本主题丰富ã€è®²è§£é€å½»çš„æƒå¨å‚考书,å¯å¸®åŠ©ç¨‹åºå‘˜äº†è§£åˆ†æžæµ·é‡æ•°æ®é›†çš„ç»†æžæœ«èŠ‚ï¼Œå¸®åŠ©ç®¡ç†å‘˜æŽŒæ¡æå»ºå’Œè¿è¡Œhadoop集群的具体过程。
ç»è¿‡ä¿®è®¢å’Œæ›´æ–°çš„第2版概述了hadoop的最新动æ€ï¼Œä¾‹å¦‚hiveã€sqoopå’Œavroç‰ã€‚书ä¸è¿˜æä¾›äº†æ¡ˆä¾‹åˆ†æžæ¥å¸®åŠ©è¯»è€…äº†è§£å¦‚ä½•ç”¨hadoopæ¥è§£å†³å…·ä½“的问题。如果想充分利用数æ®ï¼Œä»Žä¸æŒ–掘出有价值的è§è§£æˆ–è€…è§‚ç‚¹ï¼Œæ¯«æ— ç–‘é—®ï¼Œè¿™æœ¬ä¹¦å°†æ˜¯æ‚¨ä¸å¯æˆ–缺的é‡è¦å‚考。
使用hadoopåˆ†å¸ƒå¼æ–‡ä»¶ç³»ç»Ÿ(hdfs)æ¥å˜å‚¨å¤§åž‹æ•°æ®é›†ï¼Œç„¶åŽç”¨mapreduce对这些数æ®é›†æ‰§è¡Œåˆ†å¸ƒå¼è®¡ç®—
hadoop的数æ®å’Œiï¼o构建å—(用ååŽ‹ç¼©ã€æ•°æ®å®Œæ•´æ€§ã€åºåˆ—化和æŒä¹…处ç†)
探究mapreducc应用开å‘ä¸å¸¸è§çš„陷阱和高级特性
设计,构建和管ç†é—¨adoop专用集群或在云上è¿è¡Œhadoop
使用pigè¿™ç§é«˜çº§çš„æŸ¥è¯¢è¯è¨€æ¥è¿›è¡Œå¤§è§„模数æ®å¤„ç†
使用hive(hadoop的数æ®ä»“库系统)æ¥åˆ†æžæ•°æ®é›†
使用hbase(hadoop的数æ®åº“)æ¥å¤„ç†ç»“构化数æ®å’ŒåŠç»“构化数æ®
深入介ç»zookeeperï¼Œä¸€ä¸ªç”¨åæž„建分布å¼ç³»ç»Ÿçš„å作类型工具箱
内容截图:
