課程簡介
隨著大數(shù)據(jù)時代的快速到來,以及大數(shù)據(jù)在生產(chǎn)生活中迅速應用,大數(shù)據(jù)領域如雨后春筍般的出現(xiàn)大量的新技術(shù),如Hadoop、Spark等技術(shù),大數(shù)據(jù)領域的數(shù)據(jù)處理、統(tǒng)計分析、數(shù)據(jù)挖掘、機器學習、人工智能、大數(shù)據(jù)應用開發(fā)等各種不同類型的計算操作,應用范圍廣泛、前景非常廣闊。本課程是尹老師多年大數(shù)據(jù)工作經(jīng)驗的總結(jié)和歸納,從實際業(yè)務案例為入口,使學員從理論層到實操層面系統(tǒng)的學習數(shù)據(jù)處理技術(shù)、數(shù)據(jù)挖掘、數(shù)據(jù)創(chuàng)新應用,使學員深入理解大數(shù)據(jù)分析工具。通過本課程的學習,學員即可以正確的分析企業(yè)的數(shù)據(jù),為管理者、決策層提供數(shù)據(jù)支撐。
Hadoop生態(tài)系統(tǒng)是大數(shù)據(jù)技術(shù)事實標準,是大數(shù)據(jù)思想、理念、機制的具體實現(xiàn),是整個大數(shù)據(jù)技術(shù)中公認的核心框架和具有極強的使用價值與研究價值。Hadoop 系統(tǒng)是一款開源軟件,能夠處理海量的各種結(jié)構(gòu)(包括結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化)的數(shù)據(jù)。
Yarn是基于Hadoop的分布式集群資源管理框架;隨著Hadoop集群應用的廣泛,以及集群的規(guī)模越來越大,人們發(fā)現(xiàn)Hadoop MRv1存在諸多問題,因此Hadoop MRv2誕生,即現(xiàn)在的YARN,解決了4000節(jié)點的上限問題。
基于 Hadoop 的解決方案能夠幫助企業(yè)應對多個大數(shù)據(jù)挑戰(zhàn),包括:
1、分析海量(PB 級或者更多)的數(shù)據(jù)
Hadoop 能夠分析所有數(shù)據(jù),使得分析更準確,預測更精確;
2、從多個數(shù)據(jù)類型的組合中獲得新的洞察力
將來自多個數(shù)據(jù)源的不同類型的數(shù)據(jù)進行結(jié)合分析,發(fā)現(xiàn)新的數(shù)據(jù)關(guān)系和洞察力;
3、存儲大量的數(shù)據(jù)
由于它不依賴于高端硬件,且是可擴展的,所以使存儲大量數(shù)據(jù)變得經(jīng)濟有效;
4、數(shù)據(jù)發(fā)現(xiàn)(data discovery)和研究的沙箱
Hadoop 提供了一個地方,數(shù)據(jù)科學家可在此發(fā)現(xiàn)新的數(shù)據(jù)關(guān)系和相互依賴性。
工業(yè)和信息化部電信研究院于2014年5月發(fā)布的“大數(shù)據(jù)白皮書”中指出:
“2012 年美國聯(lián)邦政府就在全球率先推出“大數(shù)據(jù)行動計劃(Big data initiative)”,重點在基礎技術(shù)研究和公共部門應用上加大投入。在該計劃支持下,加州大學伯克利分校開發(fā)了完整的大數(shù)據(jù)開源軟件平臺“伯克利數(shù)據(jù)分析軟件棧(Berkeley Data Analytics Stack),其中的內(nèi)存計算軟件Spark的性能比Hadoop 提高近百倍,對產(chǎn)業(yè)界大數(shù)據(jù)技術(shù)走向產(chǎn)生巨大影響”
----來源:工業(yè)和信息化部電信研究院
Spark是成為替代MapReduce架構(gòu)的大數(shù)據(jù)分析技術(shù),Spark的大數(shù)據(jù)生態(tài)體系包括流處理、圖技術(shù)、機器學習等各個方面,并且已經(jīng)成為Apache頂級項目,可以預計的是2014年下半年到2015年在社區(qū)和商業(yè)應用上會有爆發(fā)式的增長。
國內(nèi)外一些大型互聯(lián)網(wǎng)公司已經(jīng)部署了Spark,并且它的高性能已經(jīng)得到實踐的證明。國外Yahoo已在多個項目中部署Spark,尤其在信息推薦的項目中得到深入的應用;國內(nèi)的淘寶、愛奇異、優(yōu)酷土豆、網(wǎng)易、baidu、騰訊等大型互聯(lián)網(wǎng)企業(yè)已經(jīng)將Spark應用于自己的生產(chǎn)系統(tǒng)中。國內(nèi)外的應用開始越來越廣泛。Spark正在逐漸走向成熟,并在這個領域扮演更加重要的角色。
目標收益
1、大數(shù)據(jù)在行業(yè)、領域中的應用案例及實踐;案例涉及到Hadoop、Hbase、Spark、Flink、kafka、es、redis等開發(fā)組件的應用案例及實踐;
2、應用案例及實踐是如何搭建的、相關(guān)技術(shù)組件在實際使用過程中的注意事項及關(guān)鍵點;搭建就是指基礎組件如何搭建應用;
3、在反欺詐方面(羊毛黨)、安全方面、金融方面、風控方面,這四個方面的應用案例及實踐,重點講反欺詐方面(羊毛黨);
4、從思想到技術(shù)再到實操,深入系統(tǒng)的剖析大數(shù)據(jù)思想、大數(shù)據(jù)技術(shù)、大數(shù)據(jù)實踐,使學員全面的、正確的認識大數(shù)據(jù),并通過動手實踐編寫大數(shù)據(jù)挖掘程序,使學員深入理解大數(shù)據(jù);
5、使學員深入理解Hadoop、Hbase、Spark、Flink、kafka、es、redis為代表的大數(shù)據(jù)分布式技術(shù)框架;
6、使學員掌握Hadoop、Hbase、Spark、Flink、kafka、es、redis大數(shù)據(jù)編程技術(shù),能夠達到大數(shù)據(jù)挖掘的目的;
7、從代碼實踐的角度剖析大數(shù)據(jù)分布式技術(shù)執(zhí)行的具體過程并具備大數(shù)據(jù)開發(fā)能力;
通過分享大數(shù)據(jù)在金融結(jié)算方面的應用案例,如反欺詐、金融風險防范、金融數(shù)據(jù)分析可利用的價值方向等,加深對大數(shù)據(jù)的理解。
培訓對象
1、對大數(shù)據(jù)的數(shù)據(jù)分析、數(shù)據(jù)挖掘感興趣的企業(yè)或者個人;
2、適合于想通過數(shù)據(jù)化決策防范風險等相關(guān)的企業(yè)或者個人;
3、對大數(shù)據(jù)、分布式存儲、分析等感興趣的人員;
4、大型網(wǎng)站、電商網(wǎng)站等運維人員;
5、云計算、大數(shù)據(jù)從業(yè)者;
6、熟悉Hadoop生態(tài)體系,想了解和學習Hadoop與Spark整合在企業(yè)應用實戰(zhàn)案例的朋友;
7、系統(tǒng)架構(gòu)師、系統(tǒng)分析師、高級程序員、資深開發(fā)人員;
8、牽涉到大數(shù)據(jù)處理的數(shù)據(jù)中心運行、規(guī)劃、設計負責人;
9、政府機關(guān),金融保險、移動互聯(lián)網(wǎng)等大數(shù)據(jù)單位的負責人;
10、高校、科研院所大數(shù)據(jù)研究人員,涉及到大數(shù)據(jù)與分布式數(shù)據(jù)處理的人員;
11、數(shù)據(jù)倉
課程大綱
大數(shù)據(jù)在行業(yè)、領域中的應用案例及實踐 |
1、大數(shù)據(jù)在行業(yè)、領域中的應用案例及實踐 2、什么是大數(shù)據(jù) 3、大數(shù)據(jù)概念 4、大數(shù)據(jù)誕生的歷史背景 5、大數(shù)據(jù)來自于哪家企業(yè)? 6、Google大數(shù)據(jù)解決思路 7、大數(shù)據(jù)的特征 8、錯誤觀點剖析:大數(shù)據(jù)數(shù)據(jù)量大,價值密度低 9、Google四篇論文的剖析 10、普通數(shù)據(jù)與大數(shù)據(jù)之間的區(qū)別 11、大數(shù)據(jù)應用現(xiàn)狀 12、大數(shù)據(jù)發(fā)展趨勢 13、大數(shù)據(jù)生態(tài)體系介紹 14、大數(shù)據(jù)優(yōu)勢 15、大數(shù)據(jù)的核心技術(shù) 16、Hadoop是大數(shù)據(jù)架構(gòu)的事實標準 17、大數(shù)據(jù)時代的思路 18、大數(shù)據(jù)價值鏈體系剖析 19、大數(shù)據(jù)的核心技術(shù) 20、大數(shù)據(jù)解決方案 21、大數(shù)據(jù)云計算規(guī)劃實施路線圖 22、大數(shù)據(jù)適用的場景剖析 23、大數(shù)據(jù)技術(shù)應用障礙分析 24、案例分享:馬云預測經(jīng)濟危機案例剖析 |
搭建基礎組件如何搭建應用 |
1、大數(shù)據(jù)與成本投入的關(guān)系剖析 2、大數(shù)據(jù)與云計算之間的關(guān)系剖析 3、大數(shù)據(jù)與虛擬化之間的關(guān)系剖析 4、大數(shù)據(jù)與供應商剖析 |
大數(shù)據(jù)企業(yè)級開發(fā)組件的應用案例及實踐案例 |
1、Hadoop、HBase、Spark、Flink、kafka、es、redis等開發(fā)組件的應用案例及實踐 2、實例分享:淘寶雙十一 a)2013年雙十一 b)2014年雙十一 c)2015年雙十一 d)2016年雙十一 e)2017年雙十一 3、雙十一背后的開源技術(shù) 4、大數(shù)據(jù)靈魂大數(shù)據(jù)技術(shù) 5、實例分享:騰訊QQ 6、騰訊IM后臺架構(gòu) 7、實例分享:微信 8、實例分享:百度文庫 9、電商大戰(zhàn) 10、打車大戰(zhàn) 11、淘寶創(chuàng)新:支付寶和余額寶 12、微信創(chuàng)新:微信紅包和支付寶紅包 |
Hadoop生態(tài)體系 |
1、什么是Hadoop 2、Hadoop由來介紹 3、Google四篇論文的剖析 a)GFS、MapReduce、BigTable、Chubby 4、Hadoop的四大核心組件 5、Hadoop相關(guān)概念 b)塊、副本 6、Hadoop的四大核心組件 7、Hadoop生態(tài)體系介紹 8、Pig Hadoop客戶端 9、HBase大數(shù)據(jù)分布式NoSQL列式數(shù)據(jù)庫 10、Hive大數(shù)據(jù)的數(shù)據(jù)倉庫 11、Zookeeper分布式協(xié)調(diào)器 12、Sqoop大數(shù)據(jù)導入導出工具 13、Avro大數(shù)據(jù)系列化工具 14、Chukwa大數(shù)據(jù)分布式數(shù)據(jù)收集系統(tǒng) 15、Cassandra大數(shù)據(jù)分布式NoSQL列式數(shù)據(jù)庫 16、Ambari提供監(jiān)控、管理Hadoop資源的工具 17、Mahout Hadoop數(shù)據(jù)挖掘算法庫 18、Spark大數(shù)據(jù)內(nèi)存計算框架 19、Tez通用的數(shù)據(jù)流框架 20、Apache與CDH大數(shù)據(jù)平臺方案區(qū)別 21、Hadoop1.0與Hadoop2.0區(qū)別 |
Hadoop開發(fā)組件HDFS的應用案例及實踐 |
1、HDFS架構(gòu)剖析 2、NameNode、DataNode、SecondaryNameNode介紹 3、NodeName高可靠性最佳實踐 4、DataNode中Block劃分的原理和具體存儲方式 5、CLI操作HDFS 6、Java操作HDFS 7、RESTful操作HDFS 8、動態(tài)修改Hadoop的Replication數(shù)目 9、Hadoop序列化 10、Hadoop流壓縮 11、Hadoop RPC 12、SequenceFile與MapFile 13、Hadoop Avro 14、案例剖析:Hadoop與RAID之間的關(guān)系 |
Hadoop開發(fā)組件MapReduce的應用案例及實踐 |
1、MapReduce算法剖析 2、MapReduce數(shù)據(jù)輸入和輸出; 3、MapReduce編程思想 4、MapReduce命令操作 5、MapReduce運行過程解析 6、Hadoop的調(diào)度器介紹 7、Combiner的使用原則 8、Partitioner的使用最佳實踐 9、MapReduce排序算法剖析 10、用Streaming寫MapReduce程序 11、MapReduce 程序的單元測試程序; 12、Hadoop API 的深度鉆研; 13、實踐性的開發(fā)竅門和技術(shù); 14、Partitioners 和 Reducers; 15、子查詢、觸發(fā)器等常見性能問題分析及優(yōu)化; 16、MapReduce 作業(yè)中實現(xiàn)不同數(shù)據(jù)集的連接操作; 17、MapReduce與HDFS內(nèi)核知識以及如何編寫MapReduce程序 18、用Java寫MapReduce程序,用Streaming寫MapReduce程序 19、調(diào)試MapReduce代碼的策略,利用localjobrunner在本地測試MapReduce代碼 20、Partitioners和Reducers如何一起工作,定制化Partitioners 21、定制Writable和WritableComparable 22、按需定制WritableComparables與InputFormats處理復雜的數(shù)據(jù)類型 23、用SequenceFile和Avro數(shù)據(jù)文件存儲二進制數(shù)據(jù) 24、利用MapReduce編寫、執(zhí)行連接操作以整合不同數(shù)據(jù)集合 25、用于現(xiàn)實世界數(shù)據(jù)分析所需的高級HadoopAPI主題 26、案例:Java語言編寫MapReduce程序、運行MapReduce程序、查看運行結(jié)果 27、案例:Java語言編寫MapReduce實現(xiàn)馬云預測經(jīng)濟案例 |
Hadoop開發(fā)組件YARN的應用案例及實踐 |
1、YARN介紹 2、YARN的設計思想 3、YARN的核心組件 4、YARN為核心的生態(tài)系統(tǒng) 5、Yarn的HA機制 6、YARN應用程序編寫 7、YARN/MapReduce的工作原理 8、ResourceManager深入剖析 9、ClientRMService與AdminService 10、NodeManager深入剖析 11、Container |
Hadoop開發(fā)組件Zookeeper的應用案例及實踐 |
1、Zookeeper介紹 2、Paxos算法 3、Paxos 算法應用場景 4、Zookeeper的數(shù)據(jù)模型 5、Zookeeper的節(jié)點 6、Zookeeper的角色 7、Zookeeper工作原理 8、Leader選舉 9、部署ZooKeeper 10、Shell操作Zookeeper 11、Java程序操作Zookeeper 12、Zookeeper典型使用場景 |
HBase開發(fā)組件的應用案例及實踐 |
1、HBase介紹 2、HBase的特點 3、HBase邏輯模型 4、HBase列族與列 5、HBase時間戳 6、行式數(shù)據(jù)庫 vs 列式數(shù)據(jù)庫 7、HBase物理模型 8、數(shù)據(jù)存儲結(jié)構(gòu):LSM 9、HBase的REST接口 10、HBase安裝部署 11、HBase Shell 12、倒排索引 13、開發(fā)實踐分享:微博 14、HBase應用 15、HBase Filter 16、HBase Coprocessor |
Spark開發(fā)組件的應用案例及實踐 |
1、Scala介紹 2、Mesos介紹 3、Spark介紹 4、Spark架構(gòu)剖析 5、Spark RDD計算模型解析 6、Spark開發(fā)分析 7、Spark的執(zhí)行機制解析 8、Spark的調(diào)試與任務分配 9、Spark與MapReduce對比分析 10、Spark的容錯機制剖析 11、Spark集群部署 12、Spark Shell 13、構(gòu)建與運行Spark應用 14、Spark RDD操作剖析 15、Shark基于Spark的綜合應用 16、Spark作業(yè)測試解析 17、Spark的性能調(diào)優(yōu) 18、Spark生態(tài)體系剖析 19、Spark應用現(xiàn)狀 20、Spark應用優(yōu)勢 21、Spark應用案例 22、Spark案例解析 |
Spark MLlib開發(fā)組件的應用案例及實踐 |
1、Spark MLlib概述 2、Spark MLlib算法庫介紹 3、Spark MLlib架構(gòu)剖析 4、Spark MLlib機器學習算法剖析 5、數(shù)據(jù)類型 6、基本統(tǒng)計算法 7、分類與回歸 8、協(xié)同過濾 9、聚類 10、降維 11、特征提取與轉(zhuǎn)換 12、頻繁模式挖掘 13、評價指標 14、Spark MLlib編程 15、Spark MLlib APIs介紹 16、Spark MLlib機器學習算法應用實戰(zhàn) 17、Spark MLlib實戰(zhàn)案例:數(shù)據(jù)聚類分析案例剖析 |
Flink開發(fā)組件的應用案例及實踐 |
1、Apache Flink流式計算模型 2、Apache Flink兩種數(shù)據(jù)集 a)無界數(shù)據(jù)集 b)有界數(shù)據(jù)集 3、Flink-sink 4、SSL設置 5、Flink的UI界面使用 6、Flink的文件系統(tǒng)的支持 7、Flink-WorkCount 8、Flink執(zhí)行模型 9、DataStream開發(fā) 10、DataStream Transformations 11、Map、FlatMap、Filter、KeyBy、Reduce、Aggregations 12、Physical partitioning 13、Task chaining and resource groups 14、Windows 15、WindowAll、WindowApply、WindowReduce、WindowFold、 16、Window Assigners 17、Tumbling Windows 18、Sliding Windows 19、Session Windows 20、Global Windows 21、Window Functions 22、Triggers 23、實戰(zhàn)案例:Apache Flink流計算實踐案例 |
Kafka開發(fā)組件的應用案例及實踐 |
1、Kafka誕生背景剖析 2、什么是Kafka 3、Kafka特征剖析 4、Kafka應用場景 5、Kafka架構(gòu)剖析 6、Broker 7、Producer 8、Consumers 9、Topics 10、Leader 11、Follower 12、隊列模式(queuing) 13、發(fā)布-訂閱模式(publish-subscribe) 14、Kafka創(chuàng)建topic、發(fā)送消息、消費消息 15、數(shù)據(jù)傳輸?shù)氖聞斩x 16、數(shù)據(jù)的持久化 17、Kafka存儲在硬盤上的消息格式 18、Kafka開發(fā)組件的應用案例及實踐 |
ES開發(fā)組件的應用案例及實踐 |
1、ElasticSearch概述 2、ElasticSearch產(chǎn)生背景 3、ElasticSearch介紹 4、ElasticSearch vs Solr 5、ElasticSearch vs 關(guān)系型數(shù)據(jù)庫 6、ElasticSearch架構(gòu) 7、ElasticSearch工作原理 8、ElasticSearch在大數(shù)據(jù)中的應用 9、ElasticSearch應用場景 10、ES開發(fā)組件的應用案例及實踐 11、索引Index 12、索引查詢get 13、索引判斷exists 14、索引更新update 15、索引刪除delete 16、索引批量操作bulk 17、索引批量查詢mget 18、SearchType類型與原理 19、SearchType使用 20、Query查詢詳解 21、aggregation聚合案例 22、ElasticSearch 分頁 23、多索引和多類型查詢 24、極速查詢原理 25、極速查詢實現(xiàn) |
Redis開發(fā)組件的應用案例及實踐 |
1、內(nèi)存數(shù)據(jù)庫的興起背景 2、CAP理論 3、BASE思想 4、RWN理論 5、NoSQL數(shù)據(jù)庫 6、Redis簡介 7、Redis的適用場景 8、Redis的企業(yè)應用案例 9、Redis應用及實戰(zhàn) 10、Redis數(shù)據(jù)庫原理 11、Redis數(shù)據(jù)庫應用 12、Redis開發(fā)實踐(倒排索引) 13、Redis開發(fā)調(diào)試 14、Redis優(yōu)化 15、Redis發(fā)布訂閱機制剖析 16、Redis開發(fā)組件的應用案例及實踐 |
大數(shù)據(jù)在反欺詐中的應用案例 |
1、在反欺詐方面(羊毛黨)的應用案例及實踐,重點講反欺詐方面(羊毛黨) 2、在安全方面應用案例及實踐 3、在金融方面的應用案例及實踐 4、在風控方面的應用案例及實踐 5、反欺詐的理論依據(jù) 6、反欺詐的價值 7、反欺詐能達到的目的 8、反欺詐的原則 9、反欺詐的相關(guān)技術(shù) 10、基于用戶的交易行為判斷洗錢行為 11、傳統(tǒng)反欺詐介紹 12、洗錢行為特征 13、大數(shù)據(jù)提升反欺詐管理能力 14、大數(shù)據(jù)在反欺詐中的應用 15、大數(shù)據(jù)識別欺詐風險 16、具體反欺詐數(shù)據(jù)應用理論 17、具體反欺詐數(shù)據(jù)分析流程 18、具體反欺詐數(shù)據(jù)分析方法 19、具體反欺詐數(shù)據(jù)分析步驟 20、案例剖析:基于相似度算法的洗錢行為發(fā)現(xiàn) 21、案例剖析:大數(shù)據(jù)在海量金融交易業(yè)務中發(fā)現(xiàn)欺詐行為 |
大數(shù)據(jù)在行業(yè)、領域中的應用案例及實踐 1、大數(shù)據(jù)在行業(yè)、領域中的應用案例及實踐 2、什么是大數(shù)據(jù) 3、大數(shù)據(jù)概念 4、大數(shù)據(jù)誕生的歷史背景 5、大數(shù)據(jù)來自于哪家企業(yè)? 6、Google大數(shù)據(jù)解決思路 7、大數(shù)據(jù)的特征 8、錯誤觀點剖析:大數(shù)據(jù)數(shù)據(jù)量大,價值密度低 9、Google四篇論文的剖析 10、普通數(shù)據(jù)與大數(shù)據(jù)之間的區(qū)別 11、大數(shù)據(jù)應用現(xiàn)狀 12、大數(shù)據(jù)發(fā)展趨勢 13、大數(shù)據(jù)生態(tài)體系介紹 14、大數(shù)據(jù)優(yōu)勢 15、大數(shù)據(jù)的核心技術(shù) 16、Hadoop是大數(shù)據(jù)架構(gòu)的事實標準 17、大數(shù)據(jù)時代的思路 18、大數(shù)據(jù)價值鏈體系剖析 19、大數(shù)據(jù)的核心技術(shù) 20、大數(shù)據(jù)解決方案 21、大數(shù)據(jù)云計算規(guī)劃實施路線圖 22、大數(shù)據(jù)適用的場景剖析 23、大數(shù)據(jù)技術(shù)應用障礙分析 24、案例分享:馬云預測經(jīng)濟危機案例剖析 |
搭建基礎組件如何搭建應用 1、大數(shù)據(jù)與成本投入的關(guān)系剖析 2、大數(shù)據(jù)與云計算之間的關(guān)系剖析 3、大數(shù)據(jù)與虛擬化之間的關(guān)系剖析 4、大數(shù)據(jù)與供應商剖析 |
大數(shù)據(jù)企業(yè)級開發(fā)組件的應用案例及實踐案例 1、Hadoop、HBase、Spark、Flink、kafka、es、redis等開發(fā)組件的應用案例及實踐 2、實例分享:淘寶雙十一 a)2013年雙十一 b)2014年雙十一 c)2015年雙十一 d)2016年雙十一 e)2017年雙十一 3、雙十一背后的開源技術(shù) 4、大數(shù)據(jù)靈魂大數(shù)據(jù)技術(shù) 5、實例分享:騰訊QQ 6、騰訊IM后臺架構(gòu) 7、實例分享:微信 8、實例分享:百度文庫 9、電商大戰(zhàn) 10、打車大戰(zhàn) 11、淘寶創(chuàng)新:支付寶和余額寶 12、微信創(chuàng)新:微信紅包和支付寶紅包 |
Hadoop生態(tài)體系 1、什么是Hadoop 2、Hadoop由來介紹 3、Google四篇論文的剖析 a)GFS、MapReduce、BigTable、Chubby 4、Hadoop的四大核心組件 5、Hadoop相關(guān)概念 b)塊、副本 6、Hadoop的四大核心組件 7、Hadoop生態(tài)體系介紹 8、Pig Hadoop客戶端 9、HBase大數(shù)據(jù)分布式NoSQL列式數(shù)據(jù)庫 10、Hive大數(shù)據(jù)的數(shù)據(jù)倉庫 11、Zookeeper分布式協(xié)調(diào)器 12、Sqoop大數(shù)據(jù)導入導出工具 13、Avro大數(shù)據(jù)系列化工具 14、Chukwa大數(shù)據(jù)分布式數(shù)據(jù)收集系統(tǒng) 15、Cassandra大數(shù)據(jù)分布式NoSQL列式數(shù)據(jù)庫 16、Ambari提供監(jiān)控、管理Hadoop資源的工具 17、Mahout Hadoop數(shù)據(jù)挖掘算法庫 18、Spark大數(shù)據(jù)內(nèi)存計算框架 19、Tez通用的數(shù)據(jù)流框架 20、Apache與CDH大數(shù)據(jù)平臺方案區(qū)別 21、Hadoop1.0與Hadoop2.0區(qū)別 |
Hadoop開發(fā)組件HDFS的應用案例及實踐 1、HDFS架構(gòu)剖析 2、NameNode、DataNode、SecondaryNameNode介紹 3、NodeName高可靠性最佳實踐 4、DataNode中Block劃分的原理和具體存儲方式 5、CLI操作HDFS 6、Java操作HDFS 7、RESTful操作HDFS 8、動態(tài)修改Hadoop的Replication數(shù)目 9、Hadoop序列化 10、Hadoop流壓縮 11、Hadoop RPC 12、SequenceFile與MapFile 13、Hadoop Avro 14、案例剖析:Hadoop與RAID之間的關(guān)系 |
Hadoop開發(fā)組件MapReduce的應用案例及實踐 1、MapReduce算法剖析 2、MapReduce數(shù)據(jù)輸入和輸出; 3、MapReduce編程思想 4、MapReduce命令操作 5、MapReduce運行過程解析 6、Hadoop的調(diào)度器介紹 7、Combiner的使用原則 8、Partitioner的使用最佳實踐 9、MapReduce排序算法剖析 10、用Streaming寫MapReduce程序 11、MapReduce 程序的單元測試程序; 12、Hadoop API 的深度鉆研; 13、實踐性的開發(fā)竅門和技術(shù); 14、Partitioners 和 Reducers; 15、子查詢、觸發(fā)器等常見性能問題分析及優(yōu)化; 16、MapReduce 作業(yè)中實現(xiàn)不同數(shù)據(jù)集的連接操作; 17、MapReduce與HDFS內(nèi)核知識以及如何編寫MapReduce程序 18、用Java寫MapReduce程序,用Streaming寫MapReduce程序 19、調(diào)試MapReduce代碼的策略,利用localjobrunner在本地測試MapReduce代碼 20、Partitioners和Reducers如何一起工作,定制化Partitioners 21、定制Writable和WritableComparable 22、按需定制WritableComparables與InputFormats處理復雜的數(shù)據(jù)類型 23、用SequenceFile和Avro數(shù)據(jù)文件存儲二進制數(shù)據(jù) 24、利用MapReduce編寫、執(zhí)行連接操作以整合不同數(shù)據(jù)集合 25、用于現(xiàn)實世界數(shù)據(jù)分析所需的高級HadoopAPI主題 26、案例:Java語言編寫MapReduce程序、運行MapReduce程序、查看運行結(jié)果 27、案例:Java語言編寫MapReduce實現(xiàn)馬云預測經(jīng)濟案例 |
Hadoop開發(fā)組件YARN的應用案例及實踐 1、YARN介紹 2、YARN的設計思想 3、YARN的核心組件 4、YARN為核心的生態(tài)系統(tǒng) 5、Yarn的HA機制 6、YARN應用程序編寫 7、YARN/MapReduce的工作原理 8、ResourceManager深入剖析 9、ClientRMService與AdminService 10、NodeManager深入剖析 11、Container |
Hadoop開發(fā)組件Zookeeper的應用案例及實踐 1、Zookeeper介紹 2、Paxos算法 3、Paxos 算法應用場景 4、Zookeeper的數(shù)據(jù)模型 5、Zookeeper的節(jié)點 6、Zookeeper的角色 7、Zookeeper工作原理 8、Leader選舉 9、部署ZooKeeper 10、Shell操作Zookeeper 11、Java程序操作Zookeeper 12、Zookeeper典型使用場景 |
HBase開發(fā)組件的應用案例及實踐 1、HBase介紹 2、HBase的特點 3、HBase邏輯模型 4、HBase列族與列 5、HBase時間戳 6、行式數(shù)據(jù)庫 vs 列式數(shù)據(jù)庫 7、HBase物理模型 8、數(shù)據(jù)存儲結(jié)構(gòu):LSM 9、HBase的REST接口 10、HBase安裝部署 11、HBase Shell 12、倒排索引 13、開發(fā)實踐分享:微博 14、HBase應用 15、HBase Filter 16、HBase Coprocessor |
Spark開發(fā)組件的應用案例及實踐 1、Scala介紹 2、Mesos介紹 3、Spark介紹 4、Spark架構(gòu)剖析 5、Spark RDD計算模型解析 6、Spark開發(fā)分析 7、Spark的執(zhí)行機制解析 8、Spark的調(diào)試與任務分配 9、Spark與MapReduce對比分析 10、Spark的容錯機制剖析 11、Spark集群部署 12、Spark Shell 13、構(gòu)建與運行Spark應用 14、Spark RDD操作剖析 15、Shark基于Spark的綜合應用 16、Spark作業(yè)測試解析 17、Spark的性能調(diào)優(yōu) 18、Spark生態(tài)體系剖析 19、Spark應用現(xiàn)狀 20、Spark應用優(yōu)勢 21、Spark應用案例 22、Spark案例解析 |
Spark MLlib開發(fā)組件的應用案例及實踐 1、Spark MLlib概述 2、Spark MLlib算法庫介紹 3、Spark MLlib架構(gòu)剖析 4、Spark MLlib機器學習算法剖析 5、數(shù)據(jù)類型 6、基本統(tǒng)計算法 7、分類與回歸 8、協(xié)同過濾 9、聚類 10、降維 11、特征提取與轉(zhuǎn)換 12、頻繁模式挖掘 13、評價指標 14、Spark MLlib編程 15、Spark MLlib APIs介紹 16、Spark MLlib機器學習算法應用實戰(zhàn) 17、Spark MLlib實戰(zhàn)案例:數(shù)據(jù)聚類分析案例剖析 |
Flink開發(fā)組件的應用案例及實踐 1、Apache Flink流式計算模型 2、Apache Flink兩種數(shù)據(jù)集 a)無界數(shù)據(jù)集 b)有界數(shù)據(jù)集 3、Flink-sink 4、SSL設置 5、Flink的UI界面使用 6、Flink的文件系統(tǒng)的支持 7、Flink-WorkCount 8、Flink執(zhí)行模型 9、DataStream開發(fā) 10、DataStream Transformations 11、Map、FlatMap、Filter、KeyBy、Reduce、Aggregations 12、Physical partitioning 13、Task chaining and resource groups 14、Windows 15、WindowAll、WindowApply、WindowReduce、WindowFold、 16、Window Assigners 17、Tumbling Windows 18、Sliding Windows 19、Session Windows 20、Global Windows 21、Window Functions 22、Triggers 23、實戰(zhàn)案例:Apache Flink流計算實踐案例 |
Kafka開發(fā)組件的應用案例及實踐 1、Kafka誕生背景剖析 2、什么是Kafka 3、Kafka特征剖析 4、Kafka應用場景 5、Kafka架構(gòu)剖析 6、Broker 7、Producer 8、Consumers 9、Topics 10、Leader 11、Follower 12、隊列模式(queuing) 13、發(fā)布-訂閱模式(publish-subscribe) 14、Kafka創(chuàng)建topic、發(fā)送消息、消費消息 15、數(shù)據(jù)傳輸?shù)氖聞斩x 16、數(shù)據(jù)的持久化 17、Kafka存儲在硬盤上的消息格式 18、Kafka開發(fā)組件的應用案例及實踐 |
ES開發(fā)組件的應用案例及實踐 1、ElasticSearch概述 2、ElasticSearch產(chǎn)生背景 3、ElasticSearch介紹 4、ElasticSearch vs Solr 5、ElasticSearch vs 關(guān)系型數(shù)據(jù)庫 6、ElasticSearch架構(gòu) 7、ElasticSearch工作原理 8、ElasticSearch在大數(shù)據(jù)中的應用 9、ElasticSearch應用場景 10、ES開發(fā)組件的應用案例及實踐 11、索引Index 12、索引查詢get 13、索引判斷exists 14、索引更新update 15、索引刪除delete 16、索引批量操作bulk 17、索引批量查詢mget 18、SearchType類型與原理 19、SearchType使用 20、Query查詢詳解 21、aggregation聚合案例 22、ElasticSearch 分頁 23、多索引和多類型查詢 24、極速查詢原理 25、極速查詢實現(xiàn) |
Redis開發(fā)組件的應用案例及實踐 1、內(nèi)存數(shù)據(jù)庫的興起背景 2、CAP理論 3、BASE思想 4、RWN理論 5、NoSQL數(shù)據(jù)庫 6、Redis簡介 7、Redis的適用場景 8、Redis的企業(yè)應用案例 9、Redis應用及實戰(zhàn) 10、Redis數(shù)據(jù)庫原理 11、Redis數(shù)據(jù)庫應用 12、Redis開發(fā)實踐(倒排索引) 13、Redis開發(fā)調(diào)試 14、Redis優(yōu)化 15、Redis發(fā)布訂閱機制剖析 16、Redis開發(fā)組件的應用案例及實踐 |
大數(shù)據(jù)在反欺詐中的應用案例 1、在反欺詐方面(羊毛黨)的應用案例及實踐,重點講反欺詐方面(羊毛黨) 2、在安全方面應用案例及實踐 3、在金融方面的應用案例及實踐 4、在風控方面的應用案例及實踐 5、反欺詐的理論依據(jù) 6、反欺詐的價值 7、反欺詐能達到的目的 8、反欺詐的原則 9、反欺詐的相關(guān)技術(shù) 10、基于用戶的交易行為判斷洗錢行為 11、傳統(tǒng)反欺詐介紹 12、洗錢行為特征 13、大數(shù)據(jù)提升反欺詐管理能力 14、大數(shù)據(jù)在反欺詐中的應用 15、大數(shù)據(jù)識別欺詐風險 16、具體反欺詐數(shù)據(jù)應用理論 17、具體反欺詐數(shù)據(jù)分析流程 18、具體反欺詐數(shù)據(jù)分析方法 19、具體反欺詐數(shù)據(jù)分析步驟 20、案例剖析:基于相似度算法的洗錢行為發(fā)現(xiàn) 21、案例剖析:大數(shù)據(jù)在海量金融交易業(yè)務中發(fā)現(xiàn)欺詐行為 |