課程簡介
通過 詳盡的實(shí)例, 帶領(lǐng)學(xué)員學(xué)習(xí)python爬取相關(guān)的知識(shí). 通過workshop的形式, 以實(shí)踐的方式讓學(xué)員上手python爬取項(xiàng)目. 同時(shí)關(guān)注新的爬取技術(shù), 高并發(fā)與分布式, 機(jī)器學(xué)習(xí)等技術(shù), 并灌輸以敏捷開發(fā), 持續(xù)集成的思想, 全面提升學(xué)院的戰(zhàn)斗力.
目標(biāo)收益
a) 熟悉python的使用
b) 了解現(xiàn)有python爬取框架的使用
c) 培養(yǎng)解決問題能力,通過workshop的形式,完成python爬取項(xiàng)目
d) 敏捷開發(fā),持續(xù)集成思想的灌輸
培訓(xùn)對(duì)象
a) 在校大學(xué)生
b) 剛實(shí)用python進(jìn)入職場的小白學(xué)員
c) 從業(yè)三五年且對(duì)python爬取依然有興趣pythoner
課程大綱
python開發(fā)基礎(chǔ) |
1.1 python介紹 1.1.1 python的起源 1.1.2 python介紹 1.2 基礎(chǔ)語法 1.2.1 選擇,條件控制語句 1.2.2 內(nèi)置類型 1.2.3 函數(shù)與類 1.2.4 異常捕獲 1.3 進(jìn)階語法 1.3.1 鏈表解析 1.3.2 with語句 1.3.2 裝飾器 1.3.3 異步語法 1.4 高效開發(fā) 1.4.1 開發(fā)環(huán)境的搭建 1.4.2 pycharm, vim, vscode等的使用與快捷鍵 1.4.3 版本管理, 虛擬環(huán)境管理 1.4.4 git使用 |
爬蟲開發(fā)入門 |
2.1 何為爬蟲 2.1.1 爬蟲的定義與用途 2.1.2 爬蟲的幾個(gè)部分: 爬取,存儲(chǔ), 分析,通告,展示 2.2 搭建測試站點(diǎn) 2.2.1 html, css, js基礎(chǔ) 2.2.2 flask基礎(chǔ) 2.3 爬蟲起步 2.3.1 urlib使用 2.3.2 requests使用 2.3.3 beautifulsoup使用 2.3.4 文件讀寫 |
爬蟲進(jìn)階 |
3.1 主流python框架介紹 3.1.1 scrapy的使用 3.1.2 selenium的使用 3.2 使用數(shù)據(jù)庫來存儲(chǔ) 3.2.1 postgres介紹 3.2.2 redis介紹 3.2.3 elasticsearch介紹 3.3 高性能與分布式 3.3.1 python的并發(fā)與并行 3.3.2 多進(jìn)程,多線程,多協(xié)程 3.3.3 消息隊(duì)列 3.3.4 docker 3.4 其它相關(guān) 3.4.1 郵件發(fā)送 3.4.2 數(shù)據(jù)分析 3.4.3 數(shù)據(jù)展示 |
爬蟲實(shí)戰(zhàn) | 以workershop的形式,帶領(lǐng)學(xué)員,利用學(xué)到的知識(shí),完成一個(gè)或多個(gè)(視時(shí)間而定)python爬取項(xiàng)目 |
爬取展望 | 新的方式與方法: 介紹新的的有意思的爬取方式,如使用chrome的headless模式進(jìn)行爬取, 使用及其學(xué)習(xí)的方式識(shí)別圖片中的內(nèi)容等 |
python開發(fā)基礎(chǔ) 1.1 python介紹 1.1.1 python的起源 1.1.2 python介紹 1.2 基礎(chǔ)語法 1.2.1 選擇,條件控制語句 1.2.2 內(nèi)置類型 1.2.3 函數(shù)與類 1.2.4 異常捕獲 1.3 進(jìn)階語法 1.3.1 鏈表解析 1.3.2 with語句 1.3.2 裝飾器 1.3.3 異步語法 1.4 高效開發(fā) 1.4.1 開發(fā)環(huán)境的搭建 1.4.2 pycharm, vim, vscode等的使用與快捷鍵 1.4.3 版本管理, 虛擬環(huán)境管理 1.4.4 git使用 |
爬蟲開發(fā)入門 2.1 何為爬蟲 2.1.1 爬蟲的定義與用途 2.1.2 爬蟲的幾個(gè)部分: 爬取,存儲(chǔ), 分析,通告,展示 2.2 搭建測試站點(diǎn) 2.2.1 html, css, js基礎(chǔ) 2.2.2 flask基礎(chǔ) 2.3 爬蟲起步 2.3.1 urlib使用 2.3.2 requests使用 2.3.3 beautifulsoup使用 2.3.4 文件讀寫 |
爬蟲進(jìn)階 3.1 主流python框架介紹 3.1.1 scrapy的使用 3.1.2 selenium的使用 3.2 使用數(shù)據(jù)庫來存儲(chǔ) 3.2.1 postgres介紹 3.2.2 redis介紹 3.2.3 elasticsearch介紹 3.3 高性能與分布式 3.3.1 python的并發(fā)與并行 3.3.2 多進(jìn)程,多線程,多協(xié)程 3.3.3 消息隊(duì)列 3.3.4 docker 3.4 其它相關(guān) 3.4.1 郵件發(fā)送 3.4.2 數(shù)據(jù)分析 3.4.3 數(shù)據(jù)展示 |
爬蟲實(shí)戰(zhàn) 以workershop的形式,帶領(lǐng)學(xué)員,利用學(xué)到的知識(shí),完成一個(gè)或多個(gè)(視時(shí)間而定)python爬取項(xiàng)目 |
爬取展望 新的方式與方法: 介紹新的的有意思的爬取方式,如使用chrome的headless模式進(jìn)行爬取, 使用及其學(xué)習(xí)的方式識(shí)別圖片中的內(nèi)容等 |