課程簡(jiǎn)介
通過(guò) 詳盡的實(shí)例, 帶領(lǐng)學(xué)員學(xué)習(xí)python爬取相關(guān)的知識(shí). 通過(guò)workshop的形式, 以實(shí)踐的方式讓學(xué)員上手python爬取項(xiàng)目. 同時(shí)關(guān)注新的爬取技術(shù), 高并發(fā)與分布式, 機(jī)器學(xué)習(xí)等技術(shù), 并灌輸以敏捷開(kāi)發(fā), 持續(xù)集成的思想, 全面提升學(xué)院的戰(zhàn)斗力.
目標(biāo)收益
a) 熟悉python的使用
b) 了解現(xiàn)有python爬取框架的使用
c) 培養(yǎng)解決問(wèn)題能力,通過(guò)workshop的形式,完成python爬取項(xiàng)目
d) 敏捷開(kāi)發(fā),持續(xù)集成思想的灌輸
培訓(xùn)對(duì)象
a) 在校大學(xué)生
b) 剛實(shí)用python進(jìn)入職場(chǎng)的小白學(xué)員
c) 從業(yè)三五年且對(duì)python爬取依然有興趣pythoner
課程大綱
python開(kāi)發(fā)基礎(chǔ) |
1.1 python介紹 1.1.1 python的起源 1.1.2 python介紹 1.2 基礎(chǔ)語(yǔ)法 1.2.1 選擇,條件控制語(yǔ)句 1.2.2 內(nèi)置類(lèi)型 1.2.3 函數(shù)與類(lèi) 1.2.4 異常捕獲 1.3 進(jìn)階語(yǔ)法 1.3.1 鏈表解析 1.3.2 with語(yǔ)句 1.3.2 裝飾器 1.3.3 異步語(yǔ)法 1.4 高效開(kāi)發(fā) 1.4.1 開(kāi)發(fā)環(huán)境的搭建 1.4.2 pycharm, vim, vscode等的使用與快捷鍵 1.4.3 版本管理, 虛擬環(huán)境管理 1.4.4 git使用 |
爬蟲(chóng)開(kāi)發(fā)入門(mén) |
2.1 何為爬蟲(chóng) 2.1.1 爬蟲(chóng)的定義與用途 2.1.2 爬蟲(chóng)的幾個(gè)部分: 爬取,存儲(chǔ), 分析,通告,展示 2.2 搭建測(cè)試站點(diǎn) 2.2.1 html, css, js基礎(chǔ) 2.2.2 flask基礎(chǔ) 2.3 爬蟲(chóng)起步 2.3.1 urlib使用 2.3.2 requests使用 2.3.3 beautifulsoup使用 2.3.4 文件讀寫(xiě) |
爬蟲(chóng)進(jìn)階 |
3.1 主流python框架介紹 3.1.1 scrapy的使用 3.1.2 selenium的使用 3.2 使用數(shù)據(jù)庫(kù)來(lái)存儲(chǔ) 3.2.1 postgres介紹 3.2.2 redis介紹 3.2.3 elasticsearch介紹 3.3 高性能與分布式 3.3.1 python的并發(fā)與并行 3.3.2 多進(jìn)程,多線程,多協(xié)程 3.3.3 消息隊(duì)列 3.3.4 docker 3.4 其它相關(guān) 3.4.1 郵件發(fā)送 3.4.2 數(shù)據(jù)分析 3.4.3 數(shù)據(jù)展示 |
爬蟲(chóng)實(shí)戰(zhàn) | 以workershop的形式,帶領(lǐng)學(xué)員,利用學(xué)到的知識(shí),完成一個(gè)或多個(gè)(視時(shí)間而定)python爬取項(xiàng)目 |
爬取展望 | 新的方式與方法: 介紹新的的有意思的爬取方式,如使用chrome的headless模式進(jìn)行爬取, 使用及其學(xué)習(xí)的方式識(shí)別圖片中的內(nèi)容等 |
python開(kāi)發(fā)基礎(chǔ) 1.1 python介紹 1.1.1 python的起源 1.1.2 python介紹 1.2 基礎(chǔ)語(yǔ)法 1.2.1 選擇,條件控制語(yǔ)句 1.2.2 內(nèi)置類(lèi)型 1.2.3 函數(shù)與類(lèi) 1.2.4 異常捕獲 1.3 進(jìn)階語(yǔ)法 1.3.1 鏈表解析 1.3.2 with語(yǔ)句 1.3.2 裝飾器 1.3.3 異步語(yǔ)法 1.4 高效開(kāi)發(fā) 1.4.1 開(kāi)發(fā)環(huán)境的搭建 1.4.2 pycharm, vim, vscode等的使用與快捷鍵 1.4.3 版本管理, 虛擬環(huán)境管理 1.4.4 git使用 |
爬蟲(chóng)開(kāi)發(fā)入門(mén) 2.1 何為爬蟲(chóng) 2.1.1 爬蟲(chóng)的定義與用途 2.1.2 爬蟲(chóng)的幾個(gè)部分: 爬取,存儲(chǔ), 分析,通告,展示 2.2 搭建測(cè)試站點(diǎn) 2.2.1 html, css, js基礎(chǔ) 2.2.2 flask基礎(chǔ) 2.3 爬蟲(chóng)起步 2.3.1 urlib使用 2.3.2 requests使用 2.3.3 beautifulsoup使用 2.3.4 文件讀寫(xiě) |
爬蟲(chóng)進(jìn)階 3.1 主流python框架介紹 3.1.1 scrapy的使用 3.1.2 selenium的使用 3.2 使用數(shù)據(jù)庫(kù)來(lái)存儲(chǔ) 3.2.1 postgres介紹 3.2.2 redis介紹 3.2.3 elasticsearch介紹 3.3 高性能與分布式 3.3.1 python的并發(fā)與并行 3.3.2 多進(jìn)程,多線程,多協(xié)程 3.3.3 消息隊(duì)列 3.3.4 docker 3.4 其它相關(guān) 3.4.1 郵件發(fā)送 3.4.2 數(shù)據(jù)分析 3.4.3 數(shù)據(jù)展示 |
爬蟲(chóng)實(shí)戰(zhàn) 以workershop的形式,帶領(lǐng)學(xué)員,利用學(xué)到的知識(shí),完成一個(gè)或多個(gè)(視時(shí)間而定)python爬取項(xiàng)目 |
爬取展望 新的方式與方法: 介紹新的的有意思的爬取方式,如使用chrome的headless模式進(jìn)行爬取, 使用及其學(xué)習(xí)的方式識(shí)別圖片中的內(nèi)容等 |