《離語》轉載請注明來源:思兔閱讀sto.ist
分布式消息訂閱分發也是一種常見的數據采集方式y其中ykaa就是一種具有代
表性的產品kaa是由linkedin公司開發的一種高吞吐量的分布式發布訂閱消息
係統y用戶通過kaa係統可以發布大量的消息y同時也能實時訂閱消費消息
kaa的架構包括以下組件x話題生產者服務代理消費者。
etl是英文extract-transform-load的縮寫y常用於數據倉庫中的數據采
集和預處理環節顧名思義yetl從原係統中抽取數據y並根據實際商務
需求對數據進行轉換y並把轉換結果加載到目標數據存儲中可以看出y
etl既包含了數據采集環節y也包含了數據預處理環節
kettle是一款國外開源的etl工具y使用java語言編寫y可以在
windowslinuxunix上運行y數據抽取高效穩定。
網絡數據采集是指通過網絡爬蟲或網站公開應用程序編程接口等方式從
網站上獲取數據信息該方法可以將非結構化數據從網頁中抽取出來y
將其存儲為統一的本地數據文件y並以結構化的方式存儲它支持圖片
音頻視頻等文件的采集y文件與正文可以自動關聯網絡數據采集的
應用領域十分廣泛y包括搜索引擎與垂直搜索平台搭建與運營y綜合門
戶與行業門戶地方門戶專業門戶網站數據支撐與流量運營y電子政
務與電子商務平台的運營y知識管理與知識共享y企業競爭情報係統的
運營ybi商業智能係統y信息諮詢與信息增值y信息安全和信息監控等。
數據清洗的主要應用領域包括數據倉庫與數據挖掘數據質量管理
?
1?數據倉庫與數據挖掘數據清洗對於數據倉庫與數據挖掘應用來
說y是核心和基礎y它是獲取可靠有效數據的一個基本步驟數據倉
庫是為了支持決策分析的數據集合y在數據倉庫領域y數據清洗一般是
應用在幾個數據庫合並時或者多個數據源進行集成時例如y消除數據
庫中的重複記錄數據挖掘是建立在數據倉庫基礎上的增值技術y在數
據挖掘領域y經常會遇到挖掘出來的特征數據存在各種異常情況y如數
據缺失數據值異常等對於這些情況y如果不加以處理y就會直接影
響到最終挖掘模型的使用效果y甚至會使得創建模型任務失敗因此y
在數據挖掘過程中y數據清洗是第一步。
數據質量管理數據質量管理貫穿數據生命周期的全過程在
數據生命周期中y可以通過數據質量管理的方法和手段y在數據生成
使用消亡的過程裡y及時發現有缺陷的數據y然後借助數據管理手
段y將數據正確化和規範化y從而達到符合要求的數據質量標準總
體而言y數據質量管理覆蓋質量評估數據去噪數據監控數據探
查數據清洗數據診斷等方麵y而在這個過程中y數據清洗是決定
數據質量好壞的重要因素。
數據清洗按照實現方式y可以分為手工清洗和自動清洗
?
1?手工清洗x手工清洗是通過人工方式對數據進行檢查y發現數據中
的錯誤這種方式比較簡單y隻要投入足夠的人力物力財力y也能
發現所有錯誤y但效率低下在大數據量的情況下y手工清洗數據幾乎
是不可能的
?
2?自動清洗x自動清洗是通過專門編寫的計算機應用程序來進行數據
清洗這種方法能解決某個特定的問題y但不夠靈活y特彆是在清理過
程需要反複進行時?一般來說,數據清理一遍就達到要求的很少?y程序
複雜y清理過程變化時工作量大而且y這種方法也沒有充分利用目前
數據庫提供的強大的數據處理能力。
數據清洗主要是對缺失值重複值異常值和數據類型有誤的數據
進行處理y數據清洗的內容主要包括四點
?
1?缺失值處理由於調查編碼和錄入誤差y數據中可能存在
一些缺失值y需要給予適當的處理常用的處理方法有x估算
整例刪除變量刪除和成對刪除
?
2?異常值處理根據每個變量的合理取值範圍和相互關係y檢
查數據是否合乎要求y發現超出正常範圍邏輯上不合理或者相
互矛盾的數據。
數據清洗主要是對缺失值重複值異常值和數據類型有誤的數據
進行處理y數據清洗的內容主要包括四點