2016年3月24日 星期四

DM/ML: 預備知識:資料型態

**# 資料**

- 資料型態
    - 資料物件
        - 一筆記錄,由許多屬性(亦可稱為維度)組合而成。
    - 資料集
        - 多筆資料物件的集合

- 資料特性
    - Qualitative(定性)/Categorical(類別型):無法計算
        - 名目(差異性)
        - 順序(順序性)
            - 門牌號碼
            - 金屬硬度
            - 等級
    - Quantitative(定量)/Numenical(數字型):可以計算
        - 區間(加和減)
            - 日期
        - 比例(乘和除)
            - 電子現金
    - Discrete Data(離散型資料):經由計數的方法取得資料
        - 班上有多少人
        - 目前有多少產品
        - 產品的不合格品有多少
    - Continuous Data(連續型資料):經由量測的方法取得資料
        - 溫度
        - 長度
        - 寬度

- 資料集型態
    - 紀錄資料
        - 記錄資料
        - 交易資料
        - 資料矩陣
    - 圖形資料
        - 物件間的關係
        - 物件本身即為圖形
    - 順序資料
        - 時序性
            - 具有時間關聯
        - 序列性
            - 具有順序關聯
        - 時間序列
            - 時序性的特例,本身是一段時間測量的結果
        - 空間資料
            - 具有空間屬性,例如包含某個區域的特性

- 資料集特性
    - 維度
    - 稀疏性
    - 解析度

- 資料品質的議題
    - 資料品質的主要處理步驟
        - 資料清理
        - 使用演算法容忍資料品質不佳的問題
    - 資料品質的問題
        - 測量誤差和資料搜集誤差
        - 雜訊以及人為疏失
        - 精確度、偏誤及正確性
        - 離群值
        - 遺漏值
            - 刪除資料物件或屬性
            - 遺漏值估計
                - 使用相似的樣本來估計
                - 最近鄰近點的平均值來估計
                - 最常出現的屬性值取代
            - 忽略
        - 不一致
        - 重複性

- 資料前處理
    - 聚合
        - 例如減少變數,365天縮減為12個月
    - 抽樣
        - 隨機抽樣
            - 抽樣後放回
            - 抽樣後不放回
        - 分層抽樣
            - 不同類型的資料都有相同的抽樣率
            - 不同類型的資料依照資料比例來決定抽樣數量
        - 漸進式抽樣
            - 一開始樣本較少,然後慢慢增加至獲得足夠樣本為止。
    - 維度縮減:亦即將舊有的屬性結合成新的屬性,主要作法為特徵選取
        - 維度的問題
            - 維度增加可能增加稀疏性
        - 維度的縮減
            - 線性代數
                - 主成份分析(Principal components analysis, PCA)
                - 奇異值分解(Singular value decomposition, SVD)
            - 特徵選取:將一些重複及無關的屬性過濾,選取條件則是特徵權重。像是SVM或是計算Cosine相似度後的物件。
                - 嵌入法
                    - 決定自己所要用的屬性或是需忽略的屬性
                - 過濾法
                    - 可選擇相關度較低的屬性
                - 包裝法
                    - 找出最好的屬性,但不會處理可能的特徵組合
            - 二元化或離散化
                - 二元化:將類別值指定至整數區間
                    - 將個整數轉成二元值,則需要個二元屬性來表示,
                - 離散化:通常用在分類或是關聯式分析
                    - 監督式離散化
                        - 純度(Purity)
                        - 亂度(Entropy)
                    - 非監督式離散化
                        - K-means
            - 變數轉換
                - 正規化或標準化

- 資料物件的相似度、不相似度與相關度
    - 定義:
        - 相似度
            - 為資料物件間的相同程度,相似度越高,則越相似,而其值僅會介於0~1之間,不為負值;
        - 不相似度
            - 和距離則是同義詞,距離越大,則不相似度越高。
        - 相關度
            - 具有二元或是連續屬性的二個物件,可以用線性函式來計算相關性,也可稱為相似度。
    - 距離計算
        - 歐式距離
        - 曼哈頓距離
        - 切比雪夫距離
        - 閔可夫斯基距離
        - 標準化歐式距離
        - 馬氏距離
        - 漢名距離
    - 相似度計算
        - 夾角餘弦(Cosine相似度)
        - 簡單配對係數(Simple matching coefficient, SMC)
        - Jaccard係數
        - Extended Jaccard係數(Tanimoto係數)
    - 相關度計算
        - 皮爾森相關係數
        - Bregman分散度

沒有留言:

張貼留言