《離語》轉載請注明來源:思兔閱讀sto.ist
?
3?數據類型轉換數據類型往往會影響到後續的數據處理分析
環節y因此y需要明確每個字段的數據類型y比如y來自a表的
學號是字符型y而來自b表的字段是日期型y在數據清洗的時候
就需要對二者的數據類型進行統一處理
本小章還未完,請點擊下一頁繼續閱讀後麵精彩內容!
?
4?重複值處理重複值的存在會影響數據分析和挖掘結果的準
確性y所以y在數據分析和建模之前需要進行數據重複性檢驗y
如果存在重複值y還需要進行重複值的刪除。
在進行數據清洗時y需要注意如下事項x
?
1?數據清洗時優先進行缺失值異常值和數據類型轉換的操作y最後進
行重複值的處理
?
2?在對缺失值異常值進行處理時y要根據業務的需求進行處理y這些
處理並不是一成不變的y常見的填充包括x統計值填充?常用的統計值有
均值中位數眾數?前/後值填充?一般使用在前後數據存在關聯的情
況下y比如數據是按照時間進行記錄的?零值填充。
在進行數據清洗時y需要注意如下事項x
?
3?在數據清洗之前y最為重要的對數據表的查看y要了解表的結構和發
現需要處理的值y這樣才能將數據清洗徹底
?
4?數據量的大小也關係著數據的處理方式
?
5?在導入數據表後y一般需要將所有列一個個地進行清洗y來保證數據
處理的徹底性y有些數據可能看起來是可以正常使用的y實際上在進行處
理時可能會出現問題?比如某列數據在查看時看起來是數值類型y但是其
實這列數據的類型卻是字符串y這就會導致在進行數值操作時無法使用?。
數據處理常常涉及數據集成操作y即將來自多個數據源的數
據y結合在一起形成一個統一的數據集合y以便為數據處理
工作的順利完成提供完整的數據基礎
在數據集成過程中y需要考慮解決以下幾個問題x
?
1?模式集成問題
?
2?冗餘問題
?
3?數據值衝突檢測與消除問題。
常見的數據轉換策略包括x
?
1?平滑處理幫助除去數據中的噪聲y常用的方法包括分箱回歸
和聚類等
?
2?聚集處理對數據進行彙總操作例如y每天的數據經過彙總操
作可以獲得每月或每年的總額這一操作常用於構造數據立方體或對數
據進行多粒度的分析
?
3?數據泛化處理用更抽象的概念來取代低層次的數據對象例如y
街道屬性可以泛化到更高層次的概念y如城市國家y再比如年齡屬性
可以映射到更高層次的概念y如青年中年和老年。
規範化處理將屬性值按比例縮放y使之落入一個特定的區間y
比如0~1常用的數據規範化方法包括min-max規範化z-score規範化
和小數定標規範化等
?
5?屬性構造處理根據已有屬性集構造新的屬性y後續數據處理直
接使用新增的屬性例如y根據已知的質量和體積屬性y計算出新的屬
性密度。
我怎麼又困了。