客氣了一句後,徐良也不再浪費時間。
“今天演講的題目是:大數據、雲計算和人工智能對未來的影響!
首先,讓我們明確一點,什麼是數據?
在很多人的印象中,數字就是數據,或者必須是由數字構成的。
其實不然,數據要比數字大得多。
互聯網上任何內容,比如文字、圖片和視頻都是數據。
醫院裡包括醫學影像在內的所有檔案也是數據;
公司和工廠裡的各種設計圖紙也是數據;
出土文物上的文字、圖示,甚至它們的尺寸、材料,也都是數據。
甚至我們人類的活動本身,也可以看做是一種特殊的數據。
全世界各個領域的數據不斷向外擴展,漸漸形成了另一個特點,那就是很多數據開始出現交叉。
各個維度的數據從點和線漸漸練成了網。
或者說,數據之間的關聯性極大的增強,在這樣的背景下,就出現了大數據。”
頓了一下,徐良調整了一下PPT。
“那麼數據和大數據怎麼運用呢?
大致可以分為以下流程。
獲取數據→分析數據→建立模型→預測未知。
我們舉一個簡單的例子。
現在我們想要了解一家電影院的觀眾年齡分布,以便做市場推廣。
假定我們把觀眾群分為15歲以下,16~25歲,26~40歲和41歲及以上四個人群。
要了解每個人群的比例,一個簡單的辦法就是到電影院門口去問一問那些看電影的人的年齡。
比如我們通過調查了解到大約有343人在15歲以下,459人在16~25歲,386人在26~40歲,490人在41歲及以上。
根據這個數據,我們大致可以得出以下結論:
15歲及以下的觀眾占20%左右,16~25歲的觀眾超過四分之一,但不到三成;
26~40歲的觀眾略少於四分之一,41歲及以上的觀眾最多,大約占到三成。
但是,如果我們隻在周末的晚上抽樣調查10個人,我們就會發現。
有三個15歲及以下的觀眾,五個16~25歲的觀眾,2個26~40歲的觀眾。
我們顯然不能說25歲以下的觀眾占了八成,而41歲及以上的中年人從來不來電影院,這樣的結論。
但我想各位也都承認一點,在統計樣本不充分的情況下,得到的結果跟實際結果存在很大的偏差。
所以,越想要得到準確的統計結果,需要的統計數據量就越大。
在上麵的例子中,統計的樣本總數是1678人。
但是如果我們一定要說‘41歲及以上的觀眾就是29.2%’,或者‘15歲及以下觀眾一定超過20%’。