課程描述INTRODUCTION
武漢數(shù)據(jù)分析方法與技巧培訓課程大綱



日程安排SCHEDULE
課程大綱Syllabus
課程背景
介紹大數(shù)據(jù)的概念和特征,面向安全的大數(shù)據(jù)分析的目的是希望從大數(shù)據(jù)中分析出異常行為或攻擊事件,尤其是未知且未感知的攻擊和異常。從原理的層面對適用于異常檢測的大數(shù)據(jù)分析算法做了詳細介紹,然后介紹大類數(shù)據(jù)分析的兩大思路,即告警驅動的分析方法和數(shù)據(jù)驅動的分析方法。舉例說明如何利用前述的分析算法和分析思路獲得期望的分析結果。
課程收益
通過學習,使學員了解大數(shù)據(jù)的概念和特征、如何將大數(shù)據(jù)分析方法用于安全分析、如何從大數(shù)據(jù)中發(fā)現(xiàn)異常行為和攻擊事件、如何發(fā)現(xiàn)未知攻擊和異常、如何發(fā)現(xiàn)未感知的攻擊和異常。
課程大綱
第一章 大數(shù)據(jù)分析概述
介紹大數(shù)據(jù)的概念和特征,面向安全的大數(shù)據(jù)分析的目的是希望從大數(shù)據(jù)中分析出異常行為或攻擊事件,尤其是未知且未感知的攻擊和異常。
1、大數(shù)據(jù)(Big data)的前世今生
假如我們有了一個數(shù)據(jù)預報臺,就像為企業(yè)裝上了一個GPS和雷達,企業(yè)的出海將會更有把握。——馬云2012年網(wǎng)商大會演講
2、大數(shù)據(jù)的4V特征
. 1V-Volume,數(shù)據(jù)體量巨大。從TB級別,躍升到PB級別
. 2V- Variety,數(shù)據(jù)類型繁多。網(wǎng)絡日志、圖片、視頻、地理位置信息、購物等等
. 3V- Value,價值密度低。以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅一兩秒
. 4V- Velocity, 處理速度快。1秒定律。這一點和傳統(tǒng)的data mining有著本質不同
3、大數(shù)據(jù)的價值
. 縱向:消費者、企業(yè)與價值鏈
. 橫向:“大交易數(shù)據(jù)”(比如支付寶的交易數(shù)據(jù))和“大交互數(shù)據(jù)”(比如一些社交網(wǎng)站,移動互聯(lián)網(wǎng)新媒體等)
. 兩類數(shù)據(jù)融合:容易洞察“客戶足跡”,掌控消費趨勢、開發(fā)創(chuàng)新產品和推進*營銷
第二章 適用于異常檢測的大數(shù)據(jù)分析算法原理
1、經典統(tǒng)計方法
. 組合優(yōu)化
. EM優(yōu)化
2、聚類分析算法
例如,我們可以根據(jù)各個銀行網(wǎng)點的儲蓄量、人力資源狀況、營業(yè)面積、特色功能、網(wǎng)點級別、所處功能區(qū)域等因素情況,將網(wǎng)點分為幾個等級,再比較各銀行之間不同等級網(wǎng)點數(shù)量對比狀況。
. 直接聚類法
. 最短距離聚類法
. 最遠距離聚類法
3、相似性分析算法
. 檢測效率高
. 相似列表片段
4、關聯(lián)分析算法
關聯(lián)算法是數(shù)據(jù)挖掘中的一類重要算法。1993年,R.Agrawal等人首次提出了挖掘顧客交易數(shù)據(jù)中項目集間的關聯(lián)規(guī)則問題,其核心是基于兩階段頻繁集思想的遞推算法。該關聯(lián)規(guī)則在分類上屬于單維、單層及布爾關聯(lián)規(guī)則,典型的算法是Aprior算法。
5、分類算法
. 決策樹
. 貝葉斯
. K-近鄰
. 基于關聯(lián)規(guī)則的分類
. 集成學習
6、文本分析
. (I)用映射或變換的方法把原始特征變換為較少的新特征。
. (2)從原始特征中挑選出一些*代表性的特征。
. (3)根據(jù)專家的知識挑選最有影響的特征。
. (4)用數(shù)學的方法進行選取,找出*分類信息的特征,這種方法是一種比較*的方法,人為因素的干擾較少,尤其適合于文本自動分類挖掘系統(tǒng)的應用。
第三章 面向安全的大數(shù)據(jù)分析思路
1、可分析數(shù)據(jù)
. 可靠性數(shù)據(jù)分析
. 智能數(shù)據(jù)分析
. 多元統(tǒng)計分析
2、分析的過程
數(shù)據(jù)是信息的載體,也是今后系統(tǒng)要處理的主要對象。因此,必須對系統(tǒng)調查中所有搜集的數(shù)據(jù)以及統(tǒng)計處理數(shù)據(jù)的過程進行分析和整理。如有不清楚的問題,應立刻返回去弄清楚;如發(fā)現(xiàn)有數(shù)據(jù)不全、采集過程不合理、處理過程不暢、數(shù)據(jù)分析不深入等問題,應在本次分析過程中研究解決。
. 流動
. 變換
. 存貯
3、基于各種期待結果的分析場景
. 黑盒測試
. 測試用例
. 性能測試
總結課程總結
轉載:http://www.cticoncepts.com/gkk_detail/15597.html