課程簡介
隨著大數(shù)據(jù)時(shí)代的快速到來,以及大數(shù)據(jù)在生產(chǎn)生活中迅速應(yīng)用,大數(shù)據(jù)領(lǐng)域如雨后春筍般的出現(xiàn)大量的新技術(shù),如Hadoop、Spark等技術(shù),大數(shù)據(jù)領(lǐng)域的數(shù)據(jù)處理、統(tǒng)計(jì)分析、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、人工智能、大數(shù)據(jù)應(yīng)用開發(fā)等各種不同類型的計(jì)算操作,應(yīng)用范圍廣泛、前景非常廣闊。本課程是尹老師多年大數(shù)據(jù)工作經(jīng)驗(yàn)的總結(jié)和歸納,從實(shí)際業(yè)務(wù)案例為入口,使學(xué)員從理論層到實(shí)操層面系統(tǒng)的學(xué)習(xí)數(shù)據(jù)處理技術(shù)、數(shù)據(jù)挖掘、數(shù)據(jù)創(chuàng)新應(yīng)用,使學(xué)員深入理解大數(shù)據(jù)分析工具。通過本課程的學(xué)習(xí),學(xué)員即可以正確的分析企業(yè)的數(shù)據(jù),為管理者、決策層提供數(shù)據(jù)支撐。
Hadoop生態(tài)系統(tǒng)是大數(shù)據(jù)技術(shù)事實(shí)標(biāo)準(zhǔn),是大數(shù)據(jù)思想、理念、機(jī)制的具體實(shí)現(xiàn),是整個(gè)大數(shù)據(jù)技術(shù)中公認(rèn)的核心框架和具有極強(qiáng)的使用價(jià)值與研究價(jià)值。Hadoop 系統(tǒng)是一款開源軟件,能夠處理海量的各種結(jié)構(gòu)(包括結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化)的數(shù)據(jù)。
Yarn是基于Hadoop的分布式集群資源管理框架;隨著Hadoop集群應(yīng)用的廣泛,以及集群的規(guī)模越來越大,人們發(fā)現(xiàn)Hadoop MRv1存在諸多問題,因此Hadoop MRv2誕生,即現(xiàn)在的YARN,解決了4000節(jié)點(diǎn)的上限問題。
基于 Hadoop 的解決方案能夠幫助企業(yè)應(yīng)對(duì)多個(gè)大數(shù)據(jù)挑戰(zhàn),包括:
1、分析海量(PB 級(jí)或者更多)的數(shù)據(jù)
Hadoop 能夠分析所有數(shù)據(jù),使得分析更準(zhǔn)確,預(yù)測更精確;
2、從多個(gè)數(shù)據(jù)類型的組合中獲得新的洞察力
將來自多個(gè)數(shù)據(jù)源的不同類型的數(shù)據(jù)進(jìn)行結(jié)合分析,發(fā)現(xiàn)新的數(shù)據(jù)關(guān)系和洞察力;
3、存儲(chǔ)大量的數(shù)據(jù)
由于它不依賴于高端硬件,且是可擴(kuò)展的,所以使存儲(chǔ)大量數(shù)據(jù)變得經(jīng)濟(jì)有效;
4、數(shù)據(jù)發(fā)現(xiàn)(data discovery)和研究的沙箱
Hadoop 提供了一個(gè)地方,數(shù)據(jù)科學(xué)家可在此發(fā)現(xiàn)新的數(shù)據(jù)關(guān)系和相互依賴性。
工業(yè)和信息化部電信研究院于2014年5月發(fā)布的“大數(shù)據(jù)白皮書”中指出:
“2012 年美國聯(lián)邦政府就在全球率先推出“大數(shù)據(jù)行動(dòng)計(jì)劃(Big data initiative)”,重點(diǎn)在基礎(chǔ)技術(shù)研究和公共部門應(yīng)用上加大投入。在該計(jì)劃支持下,加州大學(xué)伯克利分校開發(fā)了完整的大數(shù)據(jù)開源軟件平臺(tái)“伯克利數(shù)據(jù)分析軟件棧(Berkeley Data Analytics Stack),其中的內(nèi)存計(jì)算軟件Spark的性能比Hadoop 提高近百倍,對(duì)產(chǎn)業(yè)界大數(shù)據(jù)技術(shù)走向產(chǎn)生巨大影響”
----來源:工業(yè)和信息化部電信研究院
Spark是成為替代MapReduce架構(gòu)的大數(shù)據(jù)分析技術(shù),Spark的大數(shù)據(jù)生態(tài)體系包括流處理、圖技術(shù)、機(jī)器學(xué)習(xí)等各個(gè)方面,并且已經(jīng)成為Apache頂級(jí)項(xiàng)目,可以預(yù)計(jì)的是2014年下半年到2015年在社區(qū)和商業(yè)應(yīng)用上會(huì)有爆發(fā)式的增長。
國內(nèi)外一些大型互聯(lián)網(wǎng)公司已經(jīng)部署了Spark,并且它的高性能已經(jīng)得到實(shí)踐的證明。國外Yahoo已在多個(gè)項(xiàng)目中部署Spark,尤其在信息推薦的項(xiàng)目中得到深入的應(yīng)用;國內(nèi)的淘寶、愛奇異、優(yōu)酷土豆、網(wǎng)易、baidu、騰訊等大型互聯(lián)網(wǎng)企業(yè)已經(jīng)將Spark應(yīng)用于自己的生產(chǎn)系統(tǒng)中。國內(nèi)外的應(yīng)用開始越來越廣泛。Spark正在逐漸走向成熟,并在這個(gè)領(lǐng)域扮演更加重要的角色。
目標(biāo)收益
1、大數(shù)據(jù)在行業(yè)、領(lǐng)域中的應(yīng)用案例及實(shí)踐;案例涉及到Hadoop、Hbase、Spark、Flink、kafka、es、redis等開發(fā)組件的應(yīng)用案例及實(shí)踐;
2、應(yīng)用案例及實(shí)踐是如何搭建的、相關(guān)技術(shù)組件在實(shí)際使用過程中的注意事項(xiàng)及關(guān)鍵點(diǎn);搭建就是指基礎(chǔ)組件如何搭建應(yīng)用;
3、在反欺詐方面(羊毛黨)、安全方面、金融方面、風(fēng)控方面,這四個(gè)方面的應(yīng)用案例及實(shí)踐,重點(diǎn)講反欺詐方面(羊毛黨);
4、從思想到技術(shù)再到實(shí)操,深入系統(tǒng)的剖析大數(shù)據(jù)思想、大數(shù)據(jù)技術(shù)、大數(shù)據(jù)實(shí)踐,使學(xué)員全面的、正確的認(rèn)識(shí)大數(shù)據(jù),并通過動(dòng)手實(shí)踐編寫大數(shù)據(jù)挖掘程序,使學(xué)員深入理解大數(shù)據(jù);
5、使學(xué)員深入理解Hadoop、Hbase、Spark、Flink、kafka、es、redis為代表的大數(shù)據(jù)分布式技術(shù)框架;
6、使學(xué)員掌握Hadoop、Hbase、Spark、Flink、kafka、es、redis大數(shù)據(jù)編程技術(shù),能夠達(dá)到大數(shù)據(jù)挖掘的目的;
7、從代碼實(shí)踐的角度剖析大數(shù)據(jù)分布式技術(shù)執(zhí)行的具體過程并具備大數(shù)據(jù)開發(fā)能力;
通過分享大數(shù)據(jù)在金融結(jié)算方面的應(yīng)用案例,如反欺詐、金融風(fēng)險(xiǎn)防范、金融數(shù)據(jù)分析可利用的價(jià)值方向等,加深對(duì)大數(shù)據(jù)的理解。
培訓(xùn)對(duì)象
1、對(duì)大數(shù)據(jù)的數(shù)據(jù)分析、數(shù)據(jù)挖掘感興趣的企業(yè)或者個(gè)人;
2、適合于想通過數(shù)據(jù)化決策防范風(fēng)險(xiǎn)等相關(guān)的企業(yè)或者個(gè)人;
3、對(duì)大數(shù)據(jù)、分布式存儲(chǔ)、分析等感興趣的人員;
4、大型網(wǎng)站、電商網(wǎng)站等運(yùn)維人員;
5、云計(jì)算、大數(shù)據(jù)從業(yè)者;
6、熟悉Hadoop生態(tài)體系,想了解和學(xué)習(xí)Hadoop與Spark整合在企業(yè)應(yīng)用實(shí)戰(zhàn)案例的朋友;
7、系統(tǒng)架構(gòu)師、系統(tǒng)分析師、高級(jí)程序員、資深開發(fā)人員;
8、牽涉到大數(shù)據(jù)處理的數(shù)據(jù)中心運(yùn)行、規(guī)劃、設(shè)計(jì)負(fù)責(zé)人;
9、政府機(jī)關(guān),金融保險(xiǎn)、移動(dòng)互聯(lián)網(wǎng)等大數(shù)據(jù)單位的負(fù)責(zé)人;
10、高校、科研院所大數(shù)據(jù)研究人員,涉及到大數(shù)據(jù)與分布式數(shù)據(jù)處理的人員;
11、數(shù)據(jù)倉
課程大綱
大數(shù)據(jù)在行業(yè)、領(lǐng)域中的應(yīng)用案例及實(shí)踐 |
1、大數(shù)據(jù)在行業(yè)、領(lǐng)域中的應(yīng)用案例及實(shí)踐 2、什么是大數(shù)據(jù) 3、大數(shù)據(jù)概念 4、大數(shù)據(jù)誕生的歷史背景 5、大數(shù)據(jù)來自于哪家企業(yè)? 6、Google大數(shù)據(jù)解決思路 7、大數(shù)據(jù)的特征 8、錯(cuò)誤觀點(diǎn)剖析:大數(shù)據(jù)數(shù)據(jù)量大,價(jià)值密度低 9、Google四篇論文的剖析 10、普通數(shù)據(jù)與大數(shù)據(jù)之間的區(qū)別 11、大數(shù)據(jù)應(yīng)用現(xiàn)狀 12、大數(shù)據(jù)發(fā)展趨勢 13、大數(shù)據(jù)生態(tài)體系介紹 14、大數(shù)據(jù)優(yōu)勢 15、大數(shù)據(jù)的核心技術(shù) 16、Hadoop是大數(shù)據(jù)架構(gòu)的事實(shí)標(biāo)準(zhǔn) 17、大數(shù)據(jù)時(shí)代的思路 18、大數(shù)據(jù)價(jià)值鏈體系剖析 19、大數(shù)據(jù)的核心技術(shù) 20、大數(shù)據(jù)解決方案 21、大數(shù)據(jù)云計(jì)算規(guī)劃實(shí)施路線圖 22、大數(shù)據(jù)適用的場景剖析 23、大數(shù)據(jù)技術(shù)應(yīng)用障礙分析 24、案例分享:馬云預(yù)測經(jīng)濟(jì)危機(jī)案例剖析 |
搭建基礎(chǔ)組件如何搭建應(yīng)用 |
1、大數(shù)據(jù)與成本投入的關(guān)系剖析 2、大數(shù)據(jù)與云計(jì)算之間的關(guān)系剖析 3、大數(shù)據(jù)與虛擬化之間的關(guān)系剖析 4、大數(shù)據(jù)與供應(yīng)商剖析 |
大數(shù)據(jù)企業(yè)級(jí)開發(fā)組件的應(yīng)用案例及實(shí)踐案例 |
1、Hadoop、HBase、Spark、Flink、kafka、es、redis等開發(fā)組件的應(yīng)用案例及實(shí)踐 2、實(shí)例分享:淘寶雙十一 a)2013年雙十一 b)2014年雙十一 c)2015年雙十一 d)2016年雙十一 e)2017年雙十一 3、雙十一背后的開源技術(shù) 4、大數(shù)據(jù)靈魂大數(shù)據(jù)技術(shù) 5、實(shí)例分享:騰訊QQ 6、騰訊IM后臺(tái)架構(gòu) 7、實(shí)例分享:微信 8、實(shí)例分享:百度文庫 9、電商大戰(zhàn) 10、打車大戰(zhàn) 11、淘寶創(chuàng)新:支付寶和余額寶 12、微信創(chuàng)新:微信紅包和支付寶紅包 |
Hadoop生態(tài)體系 |
1、什么是Hadoop 2、Hadoop由來介紹 3、Google四篇論文的剖析 a)GFS、MapReduce、BigTable、Chubby 4、Hadoop的四大核心組件 5、Hadoop相關(guān)概念 b)塊、副本 6、Hadoop的四大核心組件 7、Hadoop生態(tài)體系介紹 8、Pig Hadoop客戶端 9、HBase大數(shù)據(jù)分布式NoSQL列式數(shù)據(jù)庫 10、Hive大數(shù)據(jù)的數(shù)據(jù)倉庫 11、Zookeeper分布式協(xié)調(diào)器 12、Sqoop大數(shù)據(jù)導(dǎo)入導(dǎo)出工具 13、Avro大數(shù)據(jù)系列化工具 14、Chukwa大數(shù)據(jù)分布式數(shù)據(jù)收集系統(tǒng) 15、Cassandra大數(shù)據(jù)分布式NoSQL列式數(shù)據(jù)庫 16、Ambari提供監(jiān)控、管理Hadoop資源的工具 17、Mahout Hadoop數(shù)據(jù)挖掘算法庫 18、Spark大數(shù)據(jù)內(nèi)存計(jì)算框架 19、Tez通用的數(shù)據(jù)流框架 20、Apache與CDH大數(shù)據(jù)平臺(tái)方案區(qū)別 21、Hadoop1.0與Hadoop2.0區(qū)別 |
Hadoop開發(fā)組件HDFS的應(yīng)用案例及實(shí)踐 |
1、HDFS架構(gòu)剖析 2、NameNode、DataNode、SecondaryNameNode介紹 3、NodeName高可靠性最佳實(shí)踐 4、DataNode中Block劃分的原理和具體存儲(chǔ)方式 5、CLI操作HDFS 6、Java操作HDFS 7、RESTful操作HDFS 8、動(dòng)態(tài)修改Hadoop的Replication數(shù)目 9、Hadoop序列化 10、Hadoop流壓縮 11、Hadoop RPC 12、SequenceFile與MapFile 13、Hadoop Avro 14、案例剖析:Hadoop與RAID之間的關(guān)系 |
Hadoop開發(fā)組件MapReduce的應(yīng)用案例及實(shí)踐 |
1、MapReduce算法剖析 2、MapReduce數(shù)據(jù)輸入和輸出; 3、MapReduce編程思想 4、MapReduce命令操作 5、MapReduce運(yùn)行過程解析 6、Hadoop的調(diào)度器介紹 7、Combiner的使用原則 8、Partitioner的使用最佳實(shí)踐 9、MapReduce排序算法剖析 10、用Streaming寫MapReduce程序 11、MapReduce 程序的單元測試程序; 12、Hadoop API 的深度鉆研; 13、實(shí)踐性的開發(fā)竅門和技術(shù); 14、Partitioners 和 Reducers; 15、子查詢、觸發(fā)器等常見性能問題分析及優(yōu)化; 16、MapReduce 作業(yè)中實(shí)現(xiàn)不同數(shù)據(jù)集的連接操作; 17、MapReduce與HDFS內(nèi)核知識(shí)以及如何編寫MapReduce程序 18、用Java寫MapReduce程序,用Streaming寫MapReduce程序 19、調(diào)試MapReduce代碼的策略,利用localjobrunner在本地測試MapReduce代碼 20、Partitioners和Reducers如何一起工作,定制化Partitioners 21、定制Writable和WritableComparable 22、按需定制WritableComparables與InputFormats處理復(fù)雜的數(shù)據(jù)類型 23、用SequenceFile和Avro數(shù)據(jù)文件存儲(chǔ)二進(jìn)制數(shù)據(jù) 24、利用MapReduce編寫、執(zhí)行連接操作以整合不同數(shù)據(jù)集合 25、用于現(xiàn)實(shí)世界數(shù)據(jù)分析所需的高級(jí)HadoopAPI主題 26、案例:Java語言編寫MapReduce程序、運(yùn)行MapReduce程序、查看運(yùn)行結(jié)果 27、案例:Java語言編寫MapReduce實(shí)現(xiàn)馬云預(yù)測經(jīng)濟(jì)案例 |
Hadoop開發(fā)組件YARN的應(yīng)用案例及實(shí)踐 |
1、YARN介紹 2、YARN的設(shè)計(jì)思想 3、YARN的核心組件 4、YARN為核心的生態(tài)系統(tǒng) 5、Yarn的HA機(jī)制 6、YARN應(yīng)用程序編寫 7、YARN/MapReduce的工作原理 8、ResourceManager深入剖析 9、ClientRMService與AdminService 10、NodeManager深入剖析 11、Container |
Hadoop開發(fā)組件Zookeeper的應(yīng)用案例及實(shí)踐 |
1、Zookeeper介紹 2、Paxos算法 3、Paxos 算法應(yīng)用場景 4、Zookeeper的數(shù)據(jù)模型 5、Zookeeper的節(jié)點(diǎn) 6、Zookeeper的角色 7、Zookeeper工作原理 8、Leader選舉 9、部署ZooKeeper 10、Shell操作Zookeeper 11、Java程序操作Zookeeper 12、Zookeeper典型使用場景 |
HBase開發(fā)組件的應(yīng)用案例及實(shí)踐 |
1、HBase介紹 2、HBase的特點(diǎn) 3、HBase邏輯模型 4、HBase列族與列 5、HBase時(shí)間戳 6、行式數(shù)據(jù)庫 vs 列式數(shù)據(jù)庫 7、HBase物理模型 8、數(shù)據(jù)存儲(chǔ)結(jié)構(gòu):LSM 9、HBase的REST接口 10、HBase安裝部署 11、HBase Shell 12、倒排索引 13、開發(fā)實(shí)踐分享:微博 14、HBase應(yīng)用 15、HBase Filter 16、HBase Coprocessor |
Spark開發(fā)組件的應(yīng)用案例及實(shí)踐 |
1、Scala介紹 2、Mesos介紹 3、Spark介紹 4、Spark架構(gòu)剖析 5、Spark RDD計(jì)算模型解析 6、Spark開發(fā)分析 7、Spark的執(zhí)行機(jī)制解析 8、Spark的調(diào)試與任務(wù)分配 9、Spark與MapReduce對(duì)比分析 10、Spark的容錯(cuò)機(jī)制剖析 11、Spark集群部署 12、Spark Shell 13、構(gòu)建與運(yùn)行Spark應(yīng)用 14、Spark RDD操作剖析 15、Shark基于Spark的綜合應(yīng)用 16、Spark作業(yè)測試解析 17、Spark的性能調(diào)優(yōu) 18、Spark生態(tài)體系剖析 19、Spark應(yīng)用現(xiàn)狀 20、Spark應(yīng)用優(yōu)勢 21、Spark應(yīng)用案例 22、Spark案例解析 |
Spark MLlib開發(fā)組件的應(yīng)用案例及實(shí)踐 |
1、Spark MLlib概述 2、Spark MLlib算法庫介紹 3、Spark MLlib架構(gòu)剖析 4、Spark MLlib機(jī)器學(xué)習(xí)算法剖析 5、數(shù)據(jù)類型 6、基本統(tǒng)計(jì)算法 7、分類與回歸 8、協(xié)同過濾 9、聚類 10、降維 11、特征提取與轉(zhuǎn)換 12、頻繁模式挖掘 13、評(píng)價(jià)指標(biāo) 14、Spark MLlib編程 15、Spark MLlib APIs介紹 16、Spark MLlib機(jī)器學(xué)習(xí)算法應(yīng)用實(shí)戰(zhàn) 17、Spark MLlib實(shí)戰(zhàn)案例:數(shù)據(jù)聚類分析案例剖析 |
Flink開發(fā)組件的應(yīng)用案例及實(shí)踐 |
1、Apache Flink流式計(jì)算模型 2、Apache Flink兩種數(shù)據(jù)集 a)無界數(shù)據(jù)集 b)有界數(shù)據(jù)集 3、Flink-sink 4、SSL設(shè)置 5、Flink的UI界面使用 6、Flink的文件系統(tǒng)的支持 7、Flink-WorkCount 8、Flink執(zhí)行模型 9、DataStream開發(fā) 10、DataStream Transformations 11、Map、FlatMap、Filter、KeyBy、Reduce、Aggregations 12、Physical partitioning 13、Task chaining and resource groups 14、Windows 15、WindowAll、WindowApply、WindowReduce、WindowFold、 16、Window Assigners 17、Tumbling Windows 18、Sliding Windows 19、Session Windows 20、Global Windows 21、Window Functions 22、Triggers 23、實(shí)戰(zhàn)案例:Apache Flink流計(jì)算實(shí)踐案例 |
Kafka開發(fā)組件的應(yīng)用案例及實(shí)踐 |
1、Kafka誕生背景剖析 2、什么是Kafka 3、Kafka特征剖析 4、Kafka應(yīng)用場景 5、Kafka架構(gòu)剖析 6、Broker 7、Producer 8、Consumers 9、Topics 10、Leader 11、Follower 12、隊(duì)列模式(queuing) 13、發(fā)布-訂閱模式(publish-subscribe) 14、Kafka創(chuàng)建topic、發(fā)送消息、消費(fèi)消息 15、數(shù)據(jù)傳輸?shù)氖聞?wù)定義 16、數(shù)據(jù)的持久化 17、Kafka存儲(chǔ)在硬盤上的消息格式 18、Kafka開發(fā)組件的應(yīng)用案例及實(shí)踐 |
ES開發(fā)組件的應(yīng)用案例及實(shí)踐 |
1、ElasticSearch概述 2、ElasticSearch產(chǎn)生背景 3、ElasticSearch介紹 4、ElasticSearch vs Solr 5、ElasticSearch vs 關(guān)系型數(shù)據(jù)庫 6、ElasticSearch架構(gòu) 7、ElasticSearch工作原理 8、ElasticSearch在大數(shù)據(jù)中的應(yīng)用 9、ElasticSearch應(yīng)用場景 10、ES開發(fā)組件的應(yīng)用案例及實(shí)踐 11、索引Index 12、索引查詢get 13、索引判斷exists 14、索引更新update 15、索引刪除delete 16、索引批量操作bulk 17、索引批量查詢mget 18、SearchType類型與原理 19、SearchType使用 20、Query查詢?cè)斀?br/>21、aggregation聚合案例 22、ElasticSearch 分頁 23、多索引和多類型查詢 24、極速查詢?cè)?br/>25、極速查詢實(shí)現(xiàn) |
Redis開發(fā)組件的應(yīng)用案例及實(shí)踐 |
1、內(nèi)存數(shù)據(jù)庫的興起背景 2、CAP理論 3、BASE思想 4、RWN理論 5、NoSQL數(shù)據(jù)庫 6、Redis簡介 7、Redis的適用場景 8、Redis的企業(yè)應(yīng)用案例 9、Redis應(yīng)用及實(shí)戰(zhàn) 10、Redis數(shù)據(jù)庫原理 11、Redis數(shù)據(jù)庫應(yīng)用 12、Redis開發(fā)實(shí)踐(倒排索引) 13、Redis開發(fā)調(diào)試 14、Redis優(yōu)化 15、Redis發(fā)布訂閱機(jī)制剖析 16、Redis開發(fā)組件的應(yīng)用案例及實(shí)踐 |
大數(shù)據(jù)在反欺詐中的應(yīng)用案例 |
1、在反欺詐方面(羊毛黨)的應(yīng)用案例及實(shí)踐,重點(diǎn)講反欺詐方面(羊毛黨) 2、在安全方面應(yīng)用案例及實(shí)踐 3、在金融方面的應(yīng)用案例及實(shí)踐 4、在風(fēng)控方面的應(yīng)用案例及實(shí)踐 5、反欺詐的理論依據(jù) 6、反欺詐的價(jià)值 7、反欺詐能達(dá)到的目的 8、反欺詐的原則 9、反欺詐的相關(guān)技術(shù) 10、基于用戶的交易行為判斷洗錢行為 11、傳統(tǒng)反欺詐介紹 12、洗錢行為特征 13、大數(shù)據(jù)提升反欺詐管理能力 14、大數(shù)據(jù)在反欺詐中的應(yīng)用 15、大數(shù)據(jù)識(shí)別欺詐風(fēng)險(xiǎn) 16、具體反欺詐數(shù)據(jù)應(yīng)用理論 17、具體反欺詐數(shù)據(jù)分析流程 18、具體反欺詐數(shù)據(jù)分析方法 19、具體反欺詐數(shù)據(jù)分析步驟 20、案例剖析:基于相似度算法的洗錢行為發(fā)現(xiàn) 21、案例剖析:大數(shù)據(jù)在海量金融交易業(yè)務(wù)中發(fā)現(xiàn)欺詐行為 |
大數(shù)據(jù)在行業(yè)、領(lǐng)域中的應(yīng)用案例及實(shí)踐 1、大數(shù)據(jù)在行業(yè)、領(lǐng)域中的應(yīng)用案例及實(shí)踐 2、什么是大數(shù)據(jù) 3、大數(shù)據(jù)概念 4、大數(shù)據(jù)誕生的歷史背景 5、大數(shù)據(jù)來自于哪家企業(yè)? 6、Google大數(shù)據(jù)解決思路 7、大數(shù)據(jù)的特征 8、錯(cuò)誤觀點(diǎn)剖析:大數(shù)據(jù)數(shù)據(jù)量大,價(jià)值密度低 9、Google四篇論文的剖析 10、普通數(shù)據(jù)與大數(shù)據(jù)之間的區(qū)別 11、大數(shù)據(jù)應(yīng)用現(xiàn)狀 12、大數(shù)據(jù)發(fā)展趨勢 13、大數(shù)據(jù)生態(tài)體系介紹 14、大數(shù)據(jù)優(yōu)勢 15、大數(shù)據(jù)的核心技術(shù) 16、Hadoop是大數(shù)據(jù)架構(gòu)的事實(shí)標(biāo)準(zhǔn) 17、大數(shù)據(jù)時(shí)代的思路 18、大數(shù)據(jù)價(jià)值鏈體系剖析 19、大數(shù)據(jù)的核心技術(shù) 20、大數(shù)據(jù)解決方案 21、大數(shù)據(jù)云計(jì)算規(guī)劃實(shí)施路線圖 22、大數(shù)據(jù)適用的場景剖析 23、大數(shù)據(jù)技術(shù)應(yīng)用障礙分析 24、案例分享:馬云預(yù)測經(jīng)濟(jì)危機(jī)案例剖析 |
搭建基礎(chǔ)組件如何搭建應(yīng)用 1、大數(shù)據(jù)與成本投入的關(guān)系剖析 2、大數(shù)據(jù)與云計(jì)算之間的關(guān)系剖析 3、大數(shù)據(jù)與虛擬化之間的關(guān)系剖析 4、大數(shù)據(jù)與供應(yīng)商剖析 |
大數(shù)據(jù)企業(yè)級(jí)開發(fā)組件的應(yīng)用案例及實(shí)踐案例 1、Hadoop、HBase、Spark、Flink、kafka、es、redis等開發(fā)組件的應(yīng)用案例及實(shí)踐 2、實(shí)例分享:淘寶雙十一 a)2013年雙十一 b)2014年雙十一 c)2015年雙十一 d)2016年雙十一 e)2017年雙十一 3、雙十一背后的開源技術(shù) 4、大數(shù)據(jù)靈魂大數(shù)據(jù)技術(shù) 5、實(shí)例分享:騰訊QQ 6、騰訊IM后臺(tái)架構(gòu) 7、實(shí)例分享:微信 8、實(shí)例分享:百度文庫 9、電商大戰(zhàn) 10、打車大戰(zhàn) 11、淘寶創(chuàng)新:支付寶和余額寶 12、微信創(chuàng)新:微信紅包和支付寶紅包 |
Hadoop生態(tài)體系 1、什么是Hadoop 2、Hadoop由來介紹 3、Google四篇論文的剖析 a)GFS、MapReduce、BigTable、Chubby 4、Hadoop的四大核心組件 5、Hadoop相關(guān)概念 b)塊、副本 6、Hadoop的四大核心組件 7、Hadoop生態(tài)體系介紹 8、Pig Hadoop客戶端 9、HBase大數(shù)據(jù)分布式NoSQL列式數(shù)據(jù)庫 10、Hive大數(shù)據(jù)的數(shù)據(jù)倉庫 11、Zookeeper分布式協(xié)調(diào)器 12、Sqoop大數(shù)據(jù)導(dǎo)入導(dǎo)出工具 13、Avro大數(shù)據(jù)系列化工具 14、Chukwa大數(shù)據(jù)分布式數(shù)據(jù)收集系統(tǒng) 15、Cassandra大數(shù)據(jù)分布式NoSQL列式數(shù)據(jù)庫 16、Ambari提供監(jiān)控、管理Hadoop資源的工具 17、Mahout Hadoop數(shù)據(jù)挖掘算法庫 18、Spark大數(shù)據(jù)內(nèi)存計(jì)算框架 19、Tez通用的數(shù)據(jù)流框架 20、Apache與CDH大數(shù)據(jù)平臺(tái)方案區(qū)別 21、Hadoop1.0與Hadoop2.0區(qū)別 |
Hadoop開發(fā)組件HDFS的應(yīng)用案例及實(shí)踐 1、HDFS架構(gòu)剖析 2、NameNode、DataNode、SecondaryNameNode介紹 3、NodeName高可靠性最佳實(shí)踐 4、DataNode中Block劃分的原理和具體存儲(chǔ)方式 5、CLI操作HDFS 6、Java操作HDFS 7、RESTful操作HDFS 8、動(dòng)態(tài)修改Hadoop的Replication數(shù)目 9、Hadoop序列化 10、Hadoop流壓縮 11、Hadoop RPC 12、SequenceFile與MapFile 13、Hadoop Avro 14、案例剖析:Hadoop與RAID之間的關(guān)系 |
Hadoop開發(fā)組件MapReduce的應(yīng)用案例及實(shí)踐 1、MapReduce算法剖析 2、MapReduce數(shù)據(jù)輸入和輸出; 3、MapReduce編程思想 4、MapReduce命令操作 5、MapReduce運(yùn)行過程解析 6、Hadoop的調(diào)度器介紹 7、Combiner的使用原則 8、Partitioner的使用最佳實(shí)踐 9、MapReduce排序算法剖析 10、用Streaming寫MapReduce程序 11、MapReduce 程序的單元測試程序; 12、Hadoop API 的深度鉆研; 13、實(shí)踐性的開發(fā)竅門和技術(shù); 14、Partitioners 和 Reducers; 15、子查詢、觸發(fā)器等常見性能問題分析及優(yōu)化; 16、MapReduce 作業(yè)中實(shí)現(xiàn)不同數(shù)據(jù)集的連接操作; 17、MapReduce與HDFS內(nèi)核知識(shí)以及如何編寫MapReduce程序 18、用Java寫MapReduce程序,用Streaming寫MapReduce程序 19、調(diào)試MapReduce代碼的策略,利用localjobrunner在本地測試MapReduce代碼 20、Partitioners和Reducers如何一起工作,定制化Partitioners 21、定制Writable和WritableComparable 22、按需定制WritableComparables與InputFormats處理復(fù)雜的數(shù)據(jù)類型 23、用SequenceFile和Avro數(shù)據(jù)文件存儲(chǔ)二進(jìn)制數(shù)據(jù) 24、利用MapReduce編寫、執(zhí)行連接操作以整合不同數(shù)據(jù)集合 25、用于現(xiàn)實(shí)世界數(shù)據(jù)分析所需的高級(jí)HadoopAPI主題 26、案例:Java語言編寫MapReduce程序、運(yùn)行MapReduce程序、查看運(yùn)行結(jié)果 27、案例:Java語言編寫MapReduce實(shí)現(xiàn)馬云預(yù)測經(jīng)濟(jì)案例 |
Hadoop開發(fā)組件YARN的應(yīng)用案例及實(shí)踐 1、YARN介紹 2、YARN的設(shè)計(jì)思想 3、YARN的核心組件 4、YARN為核心的生態(tài)系統(tǒng) 5、Yarn的HA機(jī)制 6、YARN應(yīng)用程序編寫 7、YARN/MapReduce的工作原理 8、ResourceManager深入剖析 9、ClientRMService與AdminService 10、NodeManager深入剖析 11、Container |
Hadoop開發(fā)組件Zookeeper的應(yīng)用案例及實(shí)踐 1、Zookeeper介紹 2、Paxos算法 3、Paxos 算法應(yīng)用場景 4、Zookeeper的數(shù)據(jù)模型 5、Zookeeper的節(jié)點(diǎn) 6、Zookeeper的角色 7、Zookeeper工作原理 8、Leader選舉 9、部署ZooKeeper 10、Shell操作Zookeeper 11、Java程序操作Zookeeper 12、Zookeeper典型使用場景 |
HBase開發(fā)組件的應(yīng)用案例及實(shí)踐 1、HBase介紹 2、HBase的特點(diǎn) 3、HBase邏輯模型 4、HBase列族與列 5、HBase時(shí)間戳 6、行式數(shù)據(jù)庫 vs 列式數(shù)據(jù)庫 7、HBase物理模型 8、數(shù)據(jù)存儲(chǔ)結(jié)構(gòu):LSM 9、HBase的REST接口 10、HBase安裝部署 11、HBase Shell 12、倒排索引 13、開發(fā)實(shí)踐分享:微博 14、HBase應(yīng)用 15、HBase Filter 16、HBase Coprocessor |
Spark開發(fā)組件的應(yīng)用案例及實(shí)踐 1、Scala介紹 2、Mesos介紹 3、Spark介紹 4、Spark架構(gòu)剖析 5、Spark RDD計(jì)算模型解析 6、Spark開發(fā)分析 7、Spark的執(zhí)行機(jī)制解析 8、Spark的調(diào)試與任務(wù)分配 9、Spark與MapReduce對(duì)比分析 10、Spark的容錯(cuò)機(jī)制剖析 11、Spark集群部署 12、Spark Shell 13、構(gòu)建與運(yùn)行Spark應(yīng)用 14、Spark RDD操作剖析 15、Shark基于Spark的綜合應(yīng)用 16、Spark作業(yè)測試解析 17、Spark的性能調(diào)優(yōu) 18、Spark生態(tài)體系剖析 19、Spark應(yīng)用現(xiàn)狀 20、Spark應(yīng)用優(yōu)勢 21、Spark應(yīng)用案例 22、Spark案例解析 |
Spark MLlib開發(fā)組件的應(yīng)用案例及實(shí)踐 1、Spark MLlib概述 2、Spark MLlib算法庫介紹 3、Spark MLlib架構(gòu)剖析 4、Spark MLlib機(jī)器學(xué)習(xí)算法剖析 5、數(shù)據(jù)類型 6、基本統(tǒng)計(jì)算法 7、分類與回歸 8、協(xié)同過濾 9、聚類 10、降維 11、特征提取與轉(zhuǎn)換 12、頻繁模式挖掘 13、評(píng)價(jià)指標(biāo) 14、Spark MLlib編程 15、Spark MLlib APIs介紹 16、Spark MLlib機(jī)器學(xué)習(xí)算法應(yīng)用實(shí)戰(zhàn) 17、Spark MLlib實(shí)戰(zhàn)案例:數(shù)據(jù)聚類分析案例剖析 |
Flink開發(fā)組件的應(yīng)用案例及實(shí)踐 1、Apache Flink流式計(jì)算模型 2、Apache Flink兩種數(shù)據(jù)集 a)無界數(shù)據(jù)集 b)有界數(shù)據(jù)集 3、Flink-sink 4、SSL設(shè)置 5、Flink的UI界面使用 6、Flink的文件系統(tǒng)的支持 7、Flink-WorkCount 8、Flink執(zhí)行模型 9、DataStream開發(fā) 10、DataStream Transformations 11、Map、FlatMap、Filter、KeyBy、Reduce、Aggregations 12、Physical partitioning 13、Task chaining and resource groups 14、Windows 15、WindowAll、WindowApply、WindowReduce、WindowFold、 16、Window Assigners 17、Tumbling Windows 18、Sliding Windows 19、Session Windows 20、Global Windows 21、Window Functions 22、Triggers 23、實(shí)戰(zhàn)案例:Apache Flink流計(jì)算實(shí)踐案例 |
Kafka開發(fā)組件的應(yīng)用案例及實(shí)踐 1、Kafka誕生背景剖析 2、什么是Kafka 3、Kafka特征剖析 4、Kafka應(yīng)用場景 5、Kafka架構(gòu)剖析 6、Broker 7、Producer 8、Consumers 9、Topics 10、Leader 11、Follower 12、隊(duì)列模式(queuing) 13、發(fā)布-訂閱模式(publish-subscribe) 14、Kafka創(chuàng)建topic、發(fā)送消息、消費(fèi)消息 15、數(shù)據(jù)傳輸?shù)氖聞?wù)定義 16、數(shù)據(jù)的持久化 17、Kafka存儲(chǔ)在硬盤上的消息格式 18、Kafka開發(fā)組件的應(yīng)用案例及實(shí)踐 |
ES開發(fā)組件的應(yīng)用案例及實(shí)踐 1、ElasticSearch概述 2、ElasticSearch產(chǎn)生背景 3、ElasticSearch介紹 4、ElasticSearch vs Solr 5、ElasticSearch vs 關(guān)系型數(shù)據(jù)庫 6、ElasticSearch架構(gòu) 7、ElasticSearch工作原理 8、ElasticSearch在大數(shù)據(jù)中的應(yīng)用 9、ElasticSearch應(yīng)用場景 10、ES開發(fā)組件的應(yīng)用案例及實(shí)踐 11、索引Index 12、索引查詢get 13、索引判斷exists 14、索引更新update 15、索引刪除delete 16、索引批量操作bulk 17、索引批量查詢mget 18、SearchType類型與原理 19、SearchType使用 20、Query查詢?cè)斀?br/>21、aggregation聚合案例 22、ElasticSearch 分頁 23、多索引和多類型查詢 24、極速查詢?cè)?br/>25、極速查詢實(shí)現(xiàn) |
Redis開發(fā)組件的應(yīng)用案例及實(shí)踐 1、內(nèi)存數(shù)據(jù)庫的興起背景 2、CAP理論 3、BASE思想 4、RWN理論 5、NoSQL數(shù)據(jù)庫 6、Redis簡介 7、Redis的適用場景 8、Redis的企業(yè)應(yīng)用案例 9、Redis應(yīng)用及實(shí)戰(zhàn) 10、Redis數(shù)據(jù)庫原理 11、Redis數(shù)據(jù)庫應(yīng)用 12、Redis開發(fā)實(shí)踐(倒排索引) 13、Redis開發(fā)調(diào)試 14、Redis優(yōu)化 15、Redis發(fā)布訂閱機(jī)制剖析 16、Redis開發(fā)組件的應(yīng)用案例及實(shí)踐 |
大數(shù)據(jù)在反欺詐中的應(yīng)用案例 1、在反欺詐方面(羊毛黨)的應(yīng)用案例及實(shí)踐,重點(diǎn)講反欺詐方面(羊毛黨) 2、在安全方面應(yīng)用案例及實(shí)踐 3、在金融方面的應(yīng)用案例及實(shí)踐 4、在風(fēng)控方面的應(yīng)用案例及實(shí)踐 5、反欺詐的理論依據(jù) 6、反欺詐的價(jià)值 7、反欺詐能達(dá)到的目的 8、反欺詐的原則 9、反欺詐的相關(guān)技術(shù) 10、基于用戶的交易行為判斷洗錢行為 11、傳統(tǒng)反欺詐介紹 12、洗錢行為特征 13、大數(shù)據(jù)提升反欺詐管理能力 14、大數(shù)據(jù)在反欺詐中的應(yīng)用 15、大數(shù)據(jù)識(shí)別欺詐風(fēng)險(xiǎn) 16、具體反欺詐數(shù)據(jù)應(yīng)用理論 17、具體反欺詐數(shù)據(jù)分析流程 18、具體反欺詐數(shù)據(jù)分析方法 19、具體反欺詐數(shù)據(jù)分析步驟 20、案例剖析:基于相似度算法的洗錢行為發(fā)現(xiàn) 21、案例剖析:大數(shù)據(jù)在海量金融交易業(yè)務(wù)中發(fā)現(xiàn)欺詐行為 |