Google開(kāi)源TensorFlow強(qiáng)化學(xué)習(xí)框架示例分析,很多新手對(duì)此不是很清楚,為了幫助大家解決這個(gè)難題,下面小編將為大家詳細(xì)講解,有這方面需求的人可以來(lái)學(xué)習(xí)下,希望你能有所收獲。
十載的廣西網(wǎng)站建設(shè)經(jīng)驗(yàn),針對(duì)設(shè)計(jì)、前端、開(kāi)發(fā)、售后、文案、推廣等六對(duì)一服務(wù),響應(yīng)快,48小時(shí)及時(shí)工作處理。全網(wǎng)營(yíng)銷推廣的優(yōu)勢(shì)是能夠根據(jù)用戶設(shè)備顯示端的尺寸不同,自動(dòng)調(diào)整廣西建站的顯示方式,使網(wǎng)站能夠適用不同顯示終端,在瀏覽器中調(diào)整網(wǎng)站的寬度,無(wú)論在任何一種瀏覽器上瀏覽網(wǎng)站,都能展現(xiàn)優(yōu)雅布局與設(shè)計(jì),從而大程度地提升瀏覽體驗(yàn)。創(chuàng)新互聯(lián)從事“廣西網(wǎng)站設(shè)計(jì)”,“廣西網(wǎng)站推廣”以來(lái),每個(gè)客戶項(xiàng)目都認(rèn)真落實(shí)執(zhí)行。谷歌宣布開(kāi)源基于 TensorFlow 的強(qiáng)化學(xué)習(xí)框架——Dopamine。
強(qiáng)化學(xué)習(xí)是一種人工智能(AI)技術(shù),它使用獎(jiǎng)勵(lì)(或懲罰)來(lái)驅(qū)動(dòng)agent朝著特定目標(biāo)前進(jìn),比如之前大火的Alpha Go擊敗人類頂尖圍棋選手,還有在 Dota2 對(duì)戰(zhàn)人類職業(yè)玩家的Open AI Five。同時(shí),強(qiáng)化學(xué)習(xí)也是DeepMind 的深度Q 網(wǎng)絡(luò)(DQN)的核心部分,可以在多個(gè)workers 中分配學(xué)習(xí),例如,在Atari 2600游戲中實(shí)現(xiàn)“超人”性能。麻煩的是,強(qiáng)化學(xué)習(xí)框架需要時(shí)間來(lái)掌握一個(gè)目標(biāo),往往是不靈活的,也不夠穩(wěn)定。
這就是谷歌提出替代方案的原因:基于TensorFlow的開(kāi)源強(qiáng)化學(xué)習(xí)框架——Dopamine,從今天開(kāi)始,它可以從Github獲得。
(https://github.com/google/dopamine/tree/master/docs#downloads)
谷歌研究人員表示,他們開(kāi)源的這個(gè) TensorFlow 強(qiáng)化學(xué)習(xí)框架強(qiáng)調(diào)三點(diǎn):靈活、穩(wěn)定和可重復(fù)性。
受到主要組件之一大腦中獎(jiǎng)勵(lì)動(dòng)機(jī)行為行為的啟發(fā),以及反映神經(jīng)科學(xué)和強(qiáng)化學(xué)習(xí)的研究之間的聯(lián)系,這個(gè)平臺(tái)的目的是使推測(cè)性研究推動(dòng)根本性的發(fā)現(xiàn),此版本還包括一組闡明如何使用整個(gè)框架的colabs。
易用性
為此,它包括了一套精心編寫的代碼(15個(gè)Python文件),專注于Arcade學(xué)習(xí)環(huán)境(一個(gè)用視頻游戲評(píng)估AI技術(shù)的平臺(tái))以及四種不同的機(jī)器學(xué)習(xí)模型:上述提到的深度Q 網(wǎng)絡(luò)(DQN); C51; Rainbow agent的一個(gè)簡(jiǎn)化版本; Implicit Quantile Network agent。清晰和簡(jiǎn)潔是這個(gè)框架設(shè)計(jì)中的兩個(gè)關(guān)鍵考慮因素。
可重復(fù)性
為了實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)的可重復(fù)性,代碼在Arcade學(xué)習(xí)環(huán)境支持的60個(gè)游戲中提供完整的測(cè)試覆蓋率和訓(xùn)練數(shù)據(jù)(采用JSON和Python pickle格式),并遵循標(biāo)準(zhǔn)化結(jié)果以進(jìn)行實(shí)證評(píng)估的最佳實(shí)踐。
基準(zhǔn)測(cè)試
對(duì)于新的研究者來(lái)說(shuō),對(duì)自己的想法進(jìn)行快速的基準(zhǔn)測(cè)試是非常重要的。谷歌提供四個(gè)智能體的完整訓(xùn)練數(shù)據(jù),包括ALE 支持的60 個(gè)游戲,格式為Python pickle 文件(對(duì)于使用谷歌框架訓(xùn)練的智能體)和JSON 數(shù)據(jù)文件(用于對(duì)比其他框架訓(xùn)練的智能體)。谷歌還提供了一個(gè)網(wǎng)站,研究者可以使用該網(wǎng)站對(duì)所有提供智能體在所有60 個(gè)游戲中的訓(xùn)練運(yùn)行進(jìn)行快速可視化。
谷歌的4 個(gè)智能體在Seaquest 上的訓(xùn)練運(yùn)行(Seaquest 是ALE 支持的Atari
除此之外,谷歌還推出了一個(gè)網(wǎng)站,允許開(kāi)發(fā)人員將多個(gè)訓(xùn)練中智能體的運(yùn)行情況快速可視化。它還提供經(jīng)過(guò)訓(xùn)練的模型、原始統(tǒng)計(jì)日志和TensorFlow event files,用于TensorBoard動(dòng)態(tài)圖的繪制,TensorBoard是一個(gè)web應(yīng)用可視化套件。
“我們的希望是,我們的框架的靈活性和易用性將使研究人員能夠嘗試新的思想,無(wú)論是漸進(jìn)的還是激進(jìn)的?!?/p>
看完上述內(nèi)容是否對(duì)您有幫助呢?如果還想對(duì)相關(guān)知識(shí)有進(jìn)一步的了解或閱讀更多相關(guān)文章,請(qǐng)關(guān)注創(chuàng)新互聯(lián)-成都網(wǎng)站建設(shè)公司行業(yè)資訊頻道,感謝您對(duì)創(chuàng)新互聯(lián)的支持。
當(dāng)前題目:Google開(kāi)源TensorFlow強(qiáng)化學(xué)習(xí)框架示例分析-創(chuàng)新互聯(lián)
網(wǎng)頁(yè)路徑:http://m.rwnh.cn/article5/dspjoi.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供App開(kāi)發(fā)、商城網(wǎng)站、服務(wù)器托管、品牌網(wǎng)站設(shè)計(jì)、標(biāo)簽優(yōu)化、網(wǎng)站收錄
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容