2020-05-15 8:06:06
星環(huán)科技一站式大數(shù)據(jù)平臺(tái)Transwarp Data Hub(TDH)每年都會(huì)有大版本更新迭代,5月15日在星環(huán)科技2020春季新品發(fā)布會(huì)上推出的7.0版本,主打一站式多模異構(gòu)數(shù)據(jù)處理,打破了行業(yè)內(nèi)普遍存在的不同數(shù)據(jù)庫(kù)產(chǎn)品切換的不便利,通過一個(gè)平臺(tái)處理多種數(shù)據(jù)模型,用戶無需維護(hù)多種數(shù)據(jù)庫(kù)即將成為現(xiàn)實(shí)。
數(shù)年來,星環(huán)科技一直堅(jiān)持自主研發(fā),逐年推動(dòng)技術(shù)進(jìn)步,2013年星環(huán)科技創(chuàng)立時(shí)就從大數(shù)據(jù)的四個(gè)角度來定義產(chǎn)品,來解決大數(shù)據(jù)的4個(gè)V的需求,數(shù)據(jù)量大、數(shù)據(jù)的種類多、數(shù)據(jù)的實(shí)時(shí)性要求高、要從數(shù)據(jù)中發(fā)掘價(jià)值。TDH是可以用于解決大數(shù)據(jù)四個(gè)V的一站式平臺(tái)解決方案,①大量化(volume),采用分布式計(jì)算和分布式存儲(chǔ)框架,充分利用計(jì)算機(jī)集群的整體計(jì)算和存儲(chǔ)能力,解決了數(shù)據(jù)大量化問題。② 速度化(velocity):采用實(shí)時(shí)流處理引擎,解決了用戶對(duì)數(shù)據(jù)處理時(shí)效性的需求 ③ 多樣化(variety):處理的數(shù)據(jù)類型不再局限于結(jié)構(gòu)化數(shù)據(jù),能同時(shí)處理文本數(shù)據(jù)、圖數(shù)據(jù)等非結(jié)構(gòu)化數(shù)據(jù)。 ④價(jià)值提升(value):充分利用數(shù)據(jù),用于多種數(shù)據(jù)模型的分析,提升數(shù)據(jù)價(jià)值。
滿足客戶需求應(yīng)運(yùn)而生的TDH7.0
經(jīng)過七年的不懈努力,產(chǎn)生了發(fā)布會(huì)上看到的Transwarp Data Hub 7.0的整體構(gòu)思。TDH從最初的一個(gè)多工具組合平臺(tái),逐步經(jīng)演變成為一個(gè)多模型數(shù)據(jù)處理平臺(tái)。目前,各種大數(shù)據(jù)技術(shù)應(yīng)用越來越廣泛。對(duì)于一些單一的典型場(chǎng)景,業(yè)界有了知名的解決方案,例如:結(jié)構(gòu)化數(shù)據(jù)使用Hive;動(dòng)態(tài)列模型使用Bigtable、Hbase;文檔處理使用MogoDB;圖數(shù)據(jù)使用Neo4j;搜索引擎ElasticSearch,等等。但在實(shí)際應(yīng)用中,用戶的使用場(chǎng)景日趨復(fù)雜,處理多模型的需求日趨廣泛。在處理多模型的需求時(shí),用戶不得不采用多工具組合的混合方法,但這種混合方法的運(yùn)維過于復(fù)雜,必須要維護(hù)多種數(shù)據(jù)庫(kù)來滿足不同模型的需求。因此,用戶迫切需要一個(gè)統(tǒng)一的平臺(tái)解決日益多樣靈活的各類需求。
TDH7.0作為一個(gè)多模型的數(shù)據(jù)處理平臺(tái)可以提供統(tǒng)一的數(shù)據(jù)操作/查詢語言 SQL、統(tǒng)一的數(shù)據(jù)計(jì)算引擎、統(tǒng)一的分布式存儲(chǔ)管理系統(tǒng)、統(tǒng)一的資源管理框架,滿足利用一個(gè)多模異構(gòu)平臺(tái),處理多種數(shù)據(jù)的需求。產(chǎn)品從上而下劃分為五個(gè)層次:①SQL層:開發(fā)了統(tǒng)一的SQL引擎,兼容各種不同的SQL方言;②計(jì)算層:開發(fā)了統(tǒng)一的計(jì)算引擎,進(jìn)行統(tǒng)一的計(jì)算任務(wù)優(yōu)化和分發(fā);③存儲(chǔ)模型層,TDH一個(gè)平臺(tái)支持七種不同的存儲(chǔ)模型,適用于不同的應(yīng)用場(chǎng)景,包括:圖存儲(chǔ) Graph Storage、文檔存儲(chǔ) Document Storage、全文檢索 Full-text Search、鍵值存儲(chǔ) Key-Value Storage、行列混合存儲(chǔ) Row-Columnar Storage 、時(shí)空地理存儲(chǔ) Sequential Geospatial Storage、非結(jié)構(gòu)化對(duì)象存儲(chǔ) Unstructured Object Storage。④存儲(chǔ)管理層:開發(fā)了統(tǒng)一的存儲(chǔ)管理引擎,提供數(shù)據(jù)塊分布管理、數(shù)據(jù)多副本一致性管理、文件服務(wù)管理等功能;⑤資源調(diào)度層,開發(fā)了統(tǒng)一的資源調(diào)度框架,通過容器化編排,統(tǒng)一調(diào)度計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)資源。
TDH7.0多模型數(shù)據(jù)處理平臺(tái)三大核心優(yōu)勢(shì)
優(yōu)勢(shì)一:極大提升了各個(gè)產(chǎn)品的效率。如果同一份數(shù)據(jù)需要進(jìn)行多種不同模型分析:分析查詢、模糊匹配查詢、關(guān)系推理查詢。TDH可以針對(duì)不同需求采用多種最優(yōu)存儲(chǔ)模型:分析查詢采用行列混合存儲(chǔ);模糊匹配查詢采用全文檢索;關(guān)系推理查詢采用圖數(shù)據(jù)存儲(chǔ)。多種模式的存儲(chǔ),可以使各場(chǎng)景下的查詢分析性能都得到極大優(yōu)化。
優(yōu)勢(shì)二:便捷的應(yīng)用開發(fā)。在傳統(tǒng)混合模型中,不同模型數(shù)據(jù)間做關(guān)聯(lián)分析,需要進(jìn)行跨數(shù)據(jù)庫(kù)的數(shù)據(jù)導(dǎo)入導(dǎo)出,十分復(fù)雜。而我們的產(chǎn)品采用了統(tǒng)一的數(shù)據(jù)管理,一個(gè)簡(jiǎn)單的SQL語句就可以直接進(jìn)行關(guān)聯(lián)查詢,如同操作同一個(gè)數(shù)據(jù)庫(kù)一般,使應(yīng)用開發(fā)變得十分便捷。
優(yōu)勢(shì)三:降低運(yùn)維成本。在傳統(tǒng)混合模型中,不同模型需要運(yùn)維不同數(shù)據(jù)庫(kù)。特別當(dāng)同一份數(shù)據(jù)存儲(chǔ)于多數(shù)據(jù)庫(kù)時(shí),數(shù)據(jù)一致性成為極大挑戰(zhàn)。此外,數(shù)據(jù)總體情況的運(yùn)維,需要各個(gè)運(yùn)維子系統(tǒng)匯總并二次開發(fā),運(yùn)維成本巨大。而我們的產(chǎn)品采用了統(tǒng)一的數(shù)據(jù)管理,在產(chǎn)品底層服務(wù)中直接保障數(shù)據(jù)一致性,同時(shí)對(duì)多模型的數(shù)據(jù)進(jìn)行整體運(yùn)維,是天然的一體化系統(tǒng)。
星環(huán)科技新一代搜索產(chǎn)品Transwarp New Search重磅推出
隨著新一代信息技術(shù)的發(fā)展,圍繞著數(shù)據(jù)的采集、傳輸、存儲(chǔ)、管理、分析、應(yīng)用各環(huán)節(jié)的大數(shù)據(jù)技術(shù)異?;钴S。同時(shí),數(shù)據(jù)庫(kù)的技術(shù)也日新月異。除了傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù),也誕生了許多非關(guān)系數(shù)據(jù)庫(kù)相關(guān)的新興技術(shù)。說到分析型非關(guān)系數(shù)據(jù)庫(kù),就不得不提到一類典型的業(yè)務(wù):全文搜索。
作為廣泛應(yīng)用于TDH7.0中的全文檢索產(chǎn)品,星環(huán)科技經(jīng)過幾年的自主研發(fā),在這次發(fā)布會(huì)上推出了新一代搜索產(chǎn)品Transwarp New Search。相比常見的開源產(chǎn)品,Transwarp New Search在性能方面有更加亮眼的優(yōu)勢(shì),在數(shù)據(jù)服務(wù)上限、數(shù)據(jù)安全性、數(shù)據(jù)恢復(fù)速度、數(shù)據(jù)讀寫速度、SQL計(jì)算性能,擴(kuò)展功能等方面都有大幅的迭代和提升。
將數(shù)據(jù)服務(wù)上限提升10倍:星環(huán)科技對(duì)內(nèi)存使用進(jìn)行了優(yōu)化,采用了獨(dú)創(chuàng)的堆外技術(shù)(Off-Heap)、冷卻技術(shù)(Cooling)和自適應(yīng)段合并算法(Self-Adaption Segment Merge),節(jié)省了內(nèi)存使用。因此,單節(jié)點(diǎn)單實(shí)例的數(shù)據(jù)量上限提升至50TB左右,是開源ES方案的五倍,大大提升了磁盤的利用率,降低了用戶的硬件成本。此外,星環(huán)科技拋棄了開源產(chǎn)品P2P架構(gòu),采用分布式一致性協(xié)議(raft)來管理集群,將集群規(guī)模上限從100節(jié)點(diǎn)左右提升到200節(jié)點(diǎn)以上。
數(shù)據(jù)安全性顯著提高:星環(huán)科技拋棄了主從最終一致性模型,采用了分布式一致性協(xié)議(raft)來保證數(shù)據(jù)的強(qiáng)一致性。即使極端的斷電場(chǎng)景,也能保證數(shù)據(jù)一致性,數(shù)據(jù)安全大大提升。此外,還提供了回收站功能。用戶誤刪除數(shù)據(jù)后,可以便捷的恢復(fù)數(shù)據(jù)。產(chǎn)品使用更安全、更放心。
數(shù)據(jù)恢復(fù)速度快10倍:星環(huán)科技對(duì)寫入數(shù)據(jù)做了細(xì)粒度的標(biāo)記控制,單點(diǎn)故障數(shù)據(jù)恢復(fù)時(shí),采用增量數(shù)據(jù)拷貝方式,啟動(dòng)時(shí)間加快,數(shù)分鐘內(nèi)完成。而開源產(chǎn)品集群規(guī)模上百節(jié)點(diǎn)時(shí),單點(diǎn)故障恢復(fù)時(shí)間超過一小時(shí)。
數(shù)據(jù)讀寫速度更快:星環(huán)科技產(chǎn)品對(duì)讀寫線程資源的管理更嚴(yán)格、更精細(xì),既保證集群穩(wěn)定性,又盡力充分使用資源,使讀寫性能更優(yōu),并提供了Bulkload功能,批量寫入速度和穩(wěn)定性大幅提高。與開源產(chǎn)品相比,節(jié)省存儲(chǔ)資源20%,提升查詢速率2倍。
良好的SQL計(jì)算性能:星環(huán)科技引入了自主研發(fā)的分布式計(jì)算引擎,兼容開源ES的接口,同時(shí)很好的對(duì)接了SQL的生態(tài)。除了單點(diǎn)查詢之外,大幅提升了復(fù)雜聚合分析性能。語法上,星環(huán)科技的產(chǎn)品支持標(biāo)準(zhǔn)SQL,也支持SQL擴(kuò)展搜索語義,以及Oracle、DB2等SQL方言,對(duì)數(shù)據(jù)庫(kù)用戶更友好,學(xué)習(xí)、遷移成本更低。
擴(kuò)展功能:支持pdf/word/excel等常用格式文檔的存儲(chǔ)和搜索;提供中、維、藏、英、法、日、韓、德、西、葡等語言分詞器,方便用戶處理不同語言的文本;支持文章相似度匹配、關(guān)鍵字提取、摘要提取等自然語言處理功能;支持時(shí)空地理數(shù)據(jù)的存儲(chǔ)和分析;可配套使用星環(huán)科技安全軟件(Transwarp Guardian),獲取優(yōu)質(zhì)的安全服務(wù),包括:用戶認(rèn)證、用戶授權(quán)、安全審計(jì)、數(shù)據(jù)傳輸存儲(chǔ)加密等諸多功能;可配套使用星環(huán)科技管理軟件(Transwarp Manager),獲取集群安裝、運(yùn)維、監(jiān)控、管理方面的優(yōu)質(zhì)服務(wù)。
來源:北國(guó)網(wǎng)
聲明:
1、中國(guó)周刊網(wǎng)所有自采新聞(含圖片),未經(jīng)允許不得轉(zhuǎn)載或鏡像,授權(quán)轉(zhuǎn)載應(yīng)在授權(quán)范圍內(nèi)使用,并注明來源。
2、部分內(nèi)容轉(zhuǎn)自其他媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
3、如因作品內(nèi)容、版權(quán)和其他問題需要同本網(wǎng)聯(lián)系的,請(qǐng)?jiān)?0日內(nèi)進(jìn)行。
編輯:楊文博