五月天青色头像情侣网名,国产亚洲av片在线观看18女人,黑人巨茎大战俄罗斯美女,扒下她的小内裤打屁股

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

1.強(qiáng)化學(xué)習(xí)能解決什么問(wèn)題

2023-02-19 11:46 作者:李富貴bilibili  | 我要投稿

2016年和2017年最具影響力的AlphaGo大勝世界圍棋冠軍李世石和柯潔事件,其核心算法就用到強(qiáng)化學(xué)習(xí)算法Research (deepmind.com)。2022年第大熱的ChatGPT也用到了reinforcement learning from human feedback (RLHF)。如今,強(qiáng)化學(xué)習(xí)正在各行各業(yè)開花結(jié)果,成為學(xué)術(shù)界和工業(yè)界追捧的熱點(diǎn)。到底強(qiáng)化學(xué)習(xí)解決其中什么問(wèn)題呢?

一句話來(lái)說(shuō),強(qiáng)化學(xué)習(xí)所能解決的問(wèn)題是智能決策問(wèn)題,更確切地說(shuō)是序貫決策問(wèn)題。

什么是序貫決策問(wèn)題?就是需要連續(xù)不斷地做出決策,才能實(shí)現(xiàn)最終目標(biāo)的問(wèn)題。



案例A:非線性二級(jí)擺系統(tǒng)

問(wèn)題描述:該系統(tǒng)由一個(gè)臺(tái)車(黑色矩形)和兩個(gè)擺桿組成,課控制輸入為臺(tái)車的左右運(yùn)動(dòng),該系統(tǒng)目的是讓兩級(jí)擺穩(wěn)定在豎直位置。

在控制系統(tǒng)理論中,解決該問(wèn)題的基本思路是先對(duì)兩級(jí)擺系統(tǒng)建立精確的動(dòng)力學(xué)模型,然后基于模型和各種非線性的理論設(shè)計(jì)控制方法?;趶?qiáng)化學(xué)習(xí)的方法,則不需要建模,也不需要設(shè)計(jì)控制器,只需構(gòu)建一個(gè)強(qiáng)化學(xué)習(xí)算法,讓二級(jí)擺系統(tǒng)自己去學(xué)習(xí)就可以了。

序貫決策問(wèn)題:臺(tái)車和擺桿每個(gè)狀態(tài)下,給出應(yīng)該施加給臺(tái)車什么方向、多大的力的連續(xù)決策問(wèn)題,一邊使整個(gè)系統(tǒng)逐漸收斂到兩個(gè)擺豎直的狀態(tài)。

案例B:訓(xùn)練好的AlphaGo與柯潔對(duì)戰(zhàn)的第二局

序貫決策問(wèn)題:AlphaGo根據(jù)當(dāng)前的棋局狀態(tài)做出該下那個(gè)子的連續(xù)決策,以便贏得比賽。

案例C:模擬機(jī)器人模擬摔倒后爬起

序貫決策問(wèn)題:機(jī)器人需要判斷每個(gè)狀態(tài)下,每個(gè)關(guān)節(jié)的力矩,以便能夠站立起來(lái)。

案例D:ChatGPT智能問(wèn)答機(jī)器人

序貫決策問(wèn)題:需要判斷當(dāng)前用戶提取的問(wèn)題,ChatGPT應(yīng)該回答什么,使得用戶體驗(yàn)最好。


1.強(qiáng)化學(xué)習(xí)能解決什么問(wèn)題的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國(guó)家法律
马尔康县| 岐山县| 林西县| 车致| 疏勒县| 郑州市| 衡水市| 大石桥市| 巴林左旗| 三江| 建水县| 正安县| 安乡县| 芦溪县| 新源县| 建湖县| 临清市| 平陆县| 兰州市| 长寿区| 修水县| 尉氏县| 大同市| 犍为县| 肥西县| 安吉县| 福建省| 华坪县| 浦江县| 清新县| 辽宁省| 汝城县| 兴文县| 连平县| 通州区| 卢龙县| 读书| 桦南县| 寿光市| 如皋市| 新巴尔虎右旗|