2012-01-06

Big Data 是什麼 ?

應該有不少人和阿舍一樣,看到「Big Data」這二個字的時候,就以為是指超大量的資料旳意思,其實,這麼說 Big Data 就太小看它了,人家可是有更深和更廣泛的含意哩 ! 不過,在開始介紹 Big Data 之前,再回來講一下 Big Data 的中文,阿舍有看過有人翻成「海量資料」,也有人翻成「巨量資料」,但是,阿舍覺得就用「大資料」來翻,可能會更貼近原文的意思吧 ! 但是,看起來是有點搞笑哩 ! 呵 ! 算了,還是用巨量資料好了...

圖片來源 R-Blogger.com
阿舍看過幾篇對於 Big Data 做定義和解釋的文章,大部份都認同 Big Data 指的是對於大量資料處理的工具、程序、方法和流程等的集合,而不是單單指資料的本身而己,因為大量資料在沒有做任何處理以前,就資料本身來說,是不會有任何價值的,所以,需要經過適當的萃取才會有價值,可是,為什麼需要發展 Big Data 的相關技術呢 ? 現在的資料庫技術沒有辦法處理嗎 ? 關於這個問題,就要先來談一下 Big Data 所要處理的 Data 是怎樣的資料哩 !

Big Data 的議題會受到企業重視,主要是因為現在企業所要收集的資料不再只是文字的類型,還 包括有影音和圖像,同時,資料來源的方式也不同,除了傳統的人工輸入和系統計算產生的資料以外,還包含網路上每日產生的大量資料,而這些資料產生的速度遠超過人工和現行資料庫所能處理的能力,另外,資訊化已經走過數十個年頭,許多大型和有年紀的企業也已經累積出相當龐大的資料量,因此,不論是新進或舊有的資料,企業都希望能夠從這些超大量資料中,透過一些方法和工具能夠在很短的時間內,取出可以幫助企業迅速應變的資訊哩 !

那麼所謂的 Big Data 工具指的是什麼 ? 阿舍查了一下,目前有推出 Big Data 的廠商不少,從硬體、軟體到整合服務廠商,都有在推 Big Data 的解決方案,每一家的做法都略有不同,有純的軟體技術、有軟、硬整合,也有軟體加顧問客製的方式,但是,阿舍發現 Big Data 使用的技術其實並不怎麼新奇,主要是利用平行運算、搜尋和客製搜尋等技術,不過,這些技術也都不是什麼很容易就能弄出來的技術哩 ! 一般來說,Big Data 處理的資料量會在 Petabyte 以上,就是要買 1000 顆 1TB 的硬碟來組才有會 1 PB 哩 ! 如果還是無法想像,請看這裡


更新:

隨著技術的進步,Big Data 的發展重心已經從技術回到資料本身,也就是說,對於處理超大量資料的技術已經成熟並變成一種服務,像是 Goolge 的雲端服務平台便有提供處理 Big Data 的服務,而且,價格並不算貴,所以,個人和企業想要運用 Big Data 的門檻已經大大降低,因此,目前 Big Data 的發展重心則是回到資料建模的部份,就是如何從超大量的資料裡整理出可用的或意想不到的應用,不過,這並不是簡單的資料分類就能達成,所以,才會新興起「資料科學家 (data scientist)」的新職稱和職業,這些人的工作就是專門利用 Big  Data 的工具來運用資料的哩 !  ....



順便看看:


參考資料
http://en.wikipedia.org/wiki/Big_data
http://www-01.ibm.com/software/data/bigdata/
http://www.zdnet.com/blog/virtualization/what-is-big-data/1708
http://radar.oreilly.com/2011/01/data-warehouse-big-data.html
http://www.informationweek.com/news/galleries/software/info_management/...


[+] Ubuntu 指令新手會用到的35個技法 - 這是以阿舍的使用經驗編寫出來的電子書,三天內應該就看的完,學的起來哩 ! 有空就參考一下囉 ! ... ^^=

關於阿舍

好文不藏私,請多分享囉!! ^^=



1 則留言 :

蕭創仁 提到...

can you tell me which company involve this? I am interesting.

張貼留言

如果留言後,發現留言不見了,這通常是因為 Goolge 把它認為是垃圾留言了,請用信件通知阿舍調整 ( ayubiz@gmail.com )。謝謝 !