HBase是否適合做資料探勘?

時間 2021-05-06 19:01:58

1樓:

HBase做DM的結果儲存應該會好一點,但個人覺得不是很適合做DM的輸入。DM時需要的資料及資料處理,用Hive之類的會好一些。

2樓:孔德雨

hadoop 系來做資料探勘,主流是hdfs + hive的表現層。 按天分表(檔案),然後用hive 做HQL查詢。 hbase 用來做資料探勘沒必要。

3樓:李永會

可以用,沒問題。但是hbase的運維成本較高。如果你們有專人來維護,或者對資料的可靠性要求不高,兩點有一點符合就可以用。

hbase是好,但是要維護的好,才能發揮其強大的功能。而且在運營中的各種問題是一定會出現的,很多要能夠做到及時修改原始碼。

4樓:趙大飛

HBase表的設計是一門藝術,要知道它低層的資料塊分布狀況,根據分布特性,設計出有別於傳統關聯式資料庫的表。若設計得好,查詢搜尋的效率可以倍增,若設計不好,不如用回傳統的關聯式資料庫好了!

5樓:mysqlops

Hbase屬於NoSQL資料庫產品,也即NoSQL都是列式儲存,為此你要進行分析的資料特點要轉換成NoSQL資料庫適合儲存的資料,也即Key-Value刑,另外對你所描述的業務資料資訊,不是特別清楚:

「我們有乙個系統,每天會從各個地方弄過來n多log,所有log都有共同的乙個key(手機號碼)。通過map reduce將這些log彙總成乙個json串,就可以得到這個手機的一些資訊。然後將這些資訊存在資料庫中,每天更新,更新量在4kw左右。

這些資料每天還會用map reduce來做資料探勘(總量在4億)。」

大致可以梳理的資訊:

1.每天會獲得大量的LOG日誌資訊;

2.每個LOG檔案的名稱KEY為手機號碼;

3.利用hadoop運算,將每個LOG檔案的資訊拼接成JSON串格式,也即Key-Value;

4.將獲得的資料儲存到資料庫中,對於已經儲存的Key資料(也即手機號碼),即更新,每天更新量大概4KW條數;

5.使用Map reduce進行資料探勘的運算,當下資料總量是40KW條數;

6.資料分析需要使用範圍搜尋,也即不根據KEY進行搜尋,那麼使用NoSQL產品的優勢就不存在了,具體Hbase是否做這方面的支援,我不清楚,因為無具體使用的經驗,只是粗略了解而已。

Python 是一門適合做資料探勘的語言嗎?

Python作為資料探勘來使用再適合不過了,作為程式設計肯定會有諸多不同的想法,只有使用一門開發效率高的語言才能測試其想法是否可行,只要想法OK其他的就簡單了 hhhhhhhhh depends。如果你想用別人做好的成熟的輪子,那 python 是不二之選。因為 python 輪子多而且全,比如 n...

如何衡量自己是否適合做研究?

Luminous 985研究生,目前研二馬上研三,這個階段,大概是對科研有一些了解了,不像研一的小屁孩,覺得什麼都好。那說一下自己的看法,適不適合做研究,我覺得有個人因素也有外部因素。首先個人,我身邊以後讀博的同學都有乙個共性,能耐下心來看文獻寫東西,我就比較毛糙,讀東西有點淺,深讀經常讀不下去,這...

13款macbook air是否適合做java webapp 開發 從後台到前端

saiji chan 筆記本低壓i5應該也上一代的筆記本標壓i5效能相當,筆記本標壓i5效能相當於早二代的台式電腦標準版的i3。個人覺得現在的筆記本低壓i5對於開發而言應該夠用了。程式開發更看重是記憶體,所以筆記本最好把記憶體加到8G 個人覺得不適合。首先如果你用OS X系統,覺得很多win下工具都...