本發(fā)明公開了一種基于強(qiáng)化學(xué)習(xí)的序列推薦數(shù)據(jù)權(quán)重優(yōu)化系統(tǒng)和方法,旨在解決序列推薦中數(shù)據(jù)權(quán)重分配不合理導(dǎo)致的模型性能不足問題。所述系統(tǒng)包括策略網(wǎng)絡(luò)、內(nèi)存緩沖、性能評(píng)估、權(quán)重更新模塊:策略網(wǎng)絡(luò)以多層級(jí)融合Actor架構(gòu)生成連續(xù)權(quán)重調(diào)整動(dòng)作,內(nèi)...