課程描述INTRODUCTION
日程安排SCHEDULE
課程大綱Syllabus
數(shù)據(jù)挖掘處理課程
一、數(shù)據(jù)挖掘導論
數(shù)據(jù)挖掘的基本任務與步驟:目標、數(shù)據(jù)探索、數(shù)據(jù)預處理、建模、模型評價
有監(jiān)督學習
無監(jiān)督學習和半監(jiān)督學習算法模型
Sklean 數(shù)據(jù)挖掘和機器學習算法庫介紹
大數(shù)據(jù)建模常見問題
問題引出:客戶行為分析-用戶用電異常的識別
二、Python 編程快速入門
Python 編程環(huán)境與語法快速入門
基礎數(shù)據(jù)結構:字符串處理及應用
數(shù)據(jù)結構:列表、元組、集合、字典
Python 控制流:IF 與 while、for 循環(huán)
函數(shù)與模塊定義
Python 文件讀寫
Python 面向對象編程思想
Python 異常處理
實驗:
—— 讀寫 CSV 文件
—— 處理 Excel 文件
三、Python 數(shù)據(jù)分析進階
Python 并行編程:多線程與多進程實現(xiàn)
—— 進程與線程概念
—— 進程同步機制
—— 多進程實現(xiàn)
—— 多線程實現(xiàn)
輕松訪問數(shù)據(jù)庫
—— 連接訪問 Sqlite
—— 操縱 MySQL
—— Python 的對象關系映射模型
實驗:
—— 多進程讀取超大文件
—— SQLite 讀寫練習南京?杭州?上海
四、Scikit-learn 數(shù)據(jù)預處理實踐
數(shù)據(jù)統(tǒng)計量:期望/方差/偏度/峰度
協(xié)方差和相關系數(shù)、方差與標準差
數(shù)據(jù)描述:集中趨勢、離散程度、分位數(shù)
數(shù)據(jù)可視化:直方圖、盒圖、散點圖
數(shù)據(jù)預處理基本方法
數(shù)據(jù)歸一化方法
對數(shù)據(jù)進行降維,主成分分析 PCA
實驗:
—— 利用隨機森林做特征篩選
—— 數(shù)據(jù)預處理:歸一化、缺失值處理
—— 降維 PCA 實現(xiàn)
—— 找出較好的特征組合:PCA 與 LDA 效果對比
—— 隨機森林評估特征重要性
五、Python 數(shù)據(jù)分析進階
高性能矩陣計算工具 Numpy:
—— Numpy 數(shù)組與元素索引
—— 矩陣計算
—— 通用函數(shù)、計算統(tǒng)計量
以表格處理數(shù)據(jù)——高級數(shù)據(jù)分析包
—— Pandas:數(shù)據(jù)框架 Dataframe
—— 快速索引數(shù)據(jù)
—— 常用函數(shù)
—— 快速可視化分析
—— 匯總與統(tǒng)計
實驗:基于 Pandas 的數(shù)據(jù)預處理
六、數(shù)據(jù)可視化分析
Matplotlib 繪圖庫介紹
快速繪圖
常見繪圖函數(shù):散點圖、柱狀圖、盒圖
圖片處理
三維繪圖演示
Pandas 快速繪圖南京?杭州?上海
實驗:
—— 繪制常見統(tǒng)計圖
—— 利用 Pandas 獲取數(shù)據(jù)并繪圖
七、Scikit-Learn 數(shù)據(jù)挖掘實踐
數(shù)值預測:Logistic/Softmax 回歸/隨機森林
梯度下降算法:BGD 與 SGD 介紹
Sklean 決策樹算法實現(xiàn): ID3、C4.5、CART 決策樹算法
用 Bagging 改善分類性能
隨機森林方法
決策樹用于分析挖掘的建模實現(xiàn)和決策樹的評估
Sklean 決策樹算法應用編程
實驗:
—— 用隨機森林預測數(shù)值
—— 決策樹編程演示
—— 決策樹分析客戶數(shù)據(jù)
八、 Scikit-Learn 數(shù)據(jù)挖掘實踐
支持向量機 SVM
線性可分軟間隔 SVM
損失函數(shù)的理解
支持向量回歸 SVR
不平衡數(shù)據(jù)集的處理
分類器性能評價
支持向量機的參數(shù)調(diào)優(yōu)
分類器性能評價
實驗:
—— 銀行信貸客戶分類
—— Grid 法調(diào)參
—— 不平衡分布對性能的影響
—— 交叉驗證
—— 多分類器性能比較:ROC 曲線
—— 問題討論:用電異常行為識別
九、無監(jiān)督學習:Scikit-Learn 聚類分析
Jaccard 相似度
Pearson 相關系數(shù)與余弦相似度南京?杭州?上海
層次聚類
K-means 聚類
半監(jiān)督 AP 聚類算法及其應用
密度聚類 DBSCAN
聚類評價和結果指標
實驗:
—— K-Means 算法原理和實現(xiàn)
—— 密度聚類
—— 比較不同的聚類算法
—— 問題討論:客戶分級
十、神經(jīng)網(wǎng)絡實踐
神經(jīng)網(wǎng)絡基本原理
淺層神經(jīng)網(wǎng)絡與深層網(wǎng)絡分析
神經(jīng)網(wǎng)絡用于數(shù)值預測
神經(jīng)網(wǎng)絡用于分類
Scikit-Learn 神經(jīng)網(wǎng)絡實現(xiàn)
案例分享:阿里云天池賽電力 AI:預測用電量
十一、Python 數(shù)據(jù)挖掘項目實踐
根據(jù)客戶數(shù)據(jù)集特點,完成數(shù)據(jù)的預處理、特征篩選
客戶流失問題建模與分類
客戶分級建模
解決方案討論
大數(shù)據(jù)挖掘技術的發(fā)展
案例分享:用戶畫像
需新增重點內(nèi)容:
基于阿里MAXCOMPUTE的相關PYTHON函數(shù)學習
多增加PYTHON機器學習的實驗課
大數(shù)據(jù)應用解決實踐方法及案例
數(shù)據(jù)挖掘處理課程
轉載:http://www.moqiwei.com/gkk_detail/273039.html
已開課時間Have start time
- 尹傳亮
大數(shù)據(jù)營銷內(nèi)訓
- 數(shù)字技術與數(shù)字工具應用 王文琭
- 醫(yī)療行業(yè)數(shù)字化營銷趨勢及實 王文琭
- 《銀行數(shù)據(jù)驅動經(jīng)營方法論與 宗錦(
- 數(shù)字經(jīng)濟與數(shù)據(jù)技術應用與變 王文琭
- 數(shù)字經(jīng)濟時代銀行開展數(shù)字化 李勇
- 大數(shù)據(jù)應用現(xiàn)狀與未來發(fā)展重 胡國慶
- 《數(shù)據(jù)資源入表與數(shù)據(jù)治理》 鐘凱
- 以需求為導向的大數(shù)據(jù)精準營 張世民
- 數(shù)智化領域新技術與典型應用 胡國慶
- 政府數(shù)字化轉型實務 焦波
- 《跨境電商全鏈路AI賦能轉 黃光偉
- 數(shù)字時代下的營銷趨勢 韓天成