**# 資料**
- 資料型態
- 資料物件
- 一筆記錄,由許多屬性(亦可稱為維度)組合而成。
- 資料集
- 多筆資料物件的集合
- 資料特性
- Qualitative(定性)/Categorical(類別型):無法計算
- 名目(差異性)
- 順序(順序性)
- 門牌號碼
- 金屬硬度
- 等級
- Quantitative(定量)/Numenical(數字型):可以計算
- 區間(加和減)
- 日期
- 比例(乘和除)
- 電子現金
- Discrete Data(離散型資料):經由計數的方法取得資料
- 班上有多少人
- 目前有多少產品
- 產品的不合格品有多少
- Continuous Data(連續型資料):經由量測的方法取得資料
- 溫度
- 長度
- 寬度
- 資料集型態
- 紀錄資料
- 記錄資料
- 交易資料
- 資料矩陣
- 圖形資料
- 物件間的關係
- 物件本身即為圖形
- 順序資料
- 時序性
- 具有時間關聯
- 序列性
- 具有順序關聯
- 時間序列
- 時序性的特例,本身是一段時間測量的結果
- 空間資料
- 具有空間屬性,例如包含某個區域的特性
- 資料集特性
- 維度
- 稀疏性
- 解析度
- 資料品質的議題
- 資料品質的主要處理步驟
- 資料清理
- 使用演算法容忍資料品質不佳的問題
- 資料品質的問題
- 測量誤差和資料搜集誤差
- 雜訊以及人為疏失
- 精確度、偏誤及正確性
- 離群值
- 遺漏值
- 刪除資料物件或屬性
- 遺漏值估計
- 使用相似的樣本來估計
- 最近鄰近點的平均值來估計
- 最常出現的屬性值取代
- 忽略
- 不一致
- 重複性
- 資料前處理
- 聚合
- 例如減少變數,365天縮減為12個月
- 抽樣
- 隨機抽樣
- 抽樣後放回
- 抽樣後不放回
- 分層抽樣
- 不同類型的資料都有相同的抽樣率
- 不同類型的資料依照資料比例來決定抽樣數量
- 漸進式抽樣
- 一開始樣本較少,然後慢慢增加至獲得足夠樣本為止。
- 維度縮減:亦即將舊有的屬性結合成新的屬性,主要作法為特徵選取
- 維度的問題
- 維度增加可能增加稀疏性
- 維度的縮減
- 線性代數
- 主成份分析(Principal components analysis, PCA)
- 奇異值分解(Singular value decomposition, SVD)
- 特徵選取:將一些重複及無關的屬性過濾,選取條件則是特徵權重。像是SVM或是計算Cosine相似度後的物件。
- 嵌入法
- 決定自己所要用的屬性或是需忽略的屬性
- 過濾法
- 可選擇相關度較低的屬性
- 包裝法
- 找出最好的屬性,但不會處理可能的特徵組合
- 二元化或離散化
- 二元化:將類別值指定至整數區間
- 將個整數轉成二元值,則需要個二元屬性來表示,
- 離散化:通常用在分類或是關聯式分析
- 監督式離散化
- 純度(Purity)
- 亂度(Entropy)
- 非監督式離散化
- K-means
- 變數轉換
- 正規化或標準化
- 資料物件的相似度、不相似度與相關度
- 定義:
- 相似度
- 為資料物件間的相同程度,相似度越高,則越相似,而其值僅會介於0~1之間,不為負值;
- 不相似度
- 和距離則是同義詞,距離越大,則不相似度越高。
- 相關度
- 具有二元或是連續屬性的二個物件,可以用線性函式來計算相關性,也可稱為相似度。
- 距離計算
- 歐式距離
- 曼哈頓距離
- 切比雪夫距離
- 閔可夫斯基距離
- 標準化歐式距離
- 馬氏距離
- 漢名距離
- 相似度計算
- 夾角餘弦(Cosine相似度)
- 簡單配對係數(Simple matching coefficient, SMC)
- Jaccard係數
- Extended Jaccard係數(Tanimoto係數)
- 相關度計算
- 皮爾森相關係數
- Bregman分散度
沒有留言:
張貼留言