首頁(yè) > 期刊 > 自然科學(xué)與工程技術(shù) > 信息科技 > 電信技術(shù) > 數(shù)據(jù)采集與處理 > 大數(shù)據(jù)隨機(jī)樣本劃分模型及相關(guān)分析計(jì)算技術(shù) 【正文】
摘要:設(shè)計(jì)了一種新的適用于大數(shù)據(jù)的管理和分析模型大數(shù)據(jù)隨機(jī)樣本劃分(Random samplepartition,RSP)模型,它是將大數(shù)據(jù)文件表達(dá)成一系列RSP數(shù)據(jù)塊文件的集合,分布存儲(chǔ)在集群節(jié)點(diǎn)上。RSP的生成操作使每個(gè)RSP數(shù)據(jù)塊的分布與大數(shù)據(jù)的分布保持統(tǒng)計(jì)意義上的一致,因此,每個(gè)RSP數(shù)據(jù)塊是大數(shù)據(jù)的一個(gè)隨機(jī)樣本數(shù)據(jù),可以用來(lái)估計(jì)大數(shù)據(jù)的統(tǒng)計(jì)特征,或建立大數(shù)據(jù)的分類(lèi)和回歸模型。基于RSP模型,大數(shù)據(jù)的分析任務(wù)可以通過(guò)對(duì)RSP數(shù)據(jù)塊的分析來(lái)完成,不需要對(duì)整個(gè)大數(shù)據(jù)進(jìn)行計(jì)算,極大地減少了計(jì)算量,降低了對(duì)計(jì)算資源的要求,提高了集群系統(tǒng)的計(jì)算能力和擴(kuò)展能力。本文首先給出RSP模型的定義、理論基礎(chǔ)和生成方法;然后介紹基于RSP數(shù)據(jù)塊的漸近式集成學(xué)習(xí)Alpha計(jì)算框架;之后討論基于RSP模型和Alpha框架的大數(shù)據(jù)分析相關(guān)計(jì)算技術(shù),包括:數(shù)據(jù)探索與清洗、概率密度函數(shù)估計(jì)、有監(jiān)督子空間學(xué)習(xí)、半監(jiān)督集成學(xué)習(xí)、聚類(lèi)集成和異常點(diǎn)檢測(cè);最后討論RSP模型在分而治之大數(shù)據(jù)分析和抽樣方法上的創(chuàng)新,以及RSP模型和Alpha計(jì)算框架實(shí)現(xiàn)大規(guī)模數(shù)據(jù)分析的優(yōu)勢(shì)。
注:因版權(quán)方要求,不能公開(kāi)全文,如需全文,請(qǐng)咨詢(xún)雜志社
主管單位:中國(guó)科學(xué)技術(shù)協(xié)會(huì);主辦單位:中國(guó)電子學(xué)會(huì);儀器儀表學(xué)會(huì);信號(hào)處理學(xué)會(huì);中國(guó)一汽儀表學(xué)會(huì);中國(guó)物理學(xué)會(huì);微弱信號(hào)檢測(cè)學(xué)會(huì);南京航空航天大學(xué)
一對(duì)一咨詢(xún)服務(wù)、簡(jiǎn)單快捷、省時(shí)省力
了解更多 >直郵到家、實(shí)時(shí)跟蹤、更安全更省心
了解更多 >去除中間環(huán)節(jié)享受低價(jià),物流進(jìn)度實(shí)時(shí)通知
了解更多 >正版雜志,匹配度高、性?xún)r(jià)比高、成功率高
了解更多 >