獎勵函數 - CASE 報科學

人工智慧&電腦、資料科學

目標博弈──人工智慧創造力的缺陷

2020 年 06 月 24 日2021 年 12 月 28 日 intern 獎勵函數, 目標博弈

人工智慧也可能會偷懶騙人？錯誤的設計可能會使得AI為了獲得獎勵而抄捷徑脫軌演出，做出令人啼笑皆非的行為。

Read more

人工智慧&電腦、資料科學

給AI一個安全、舒適的學習環境

2020 年 03 月 05 日2022 年 01 月 03 日 intern 受限, 強化學習, 成本函數, 探索, 獎勵函數

這不是什麼住商廣告，而是OpenAI專為強化學習AI開發的學習工具──Safety Gym，讓AI能在錯誤中學習，卻又不會危及周遭其他人的安全。

Read more

人工智慧&電腦、資料科學

AI也玩捉迷藏！？

2019 年 12 月 05 日2022 年 01 月 03 日 intern OpenAI, 強化學習, 演化運算, 獎勵函數

OpenAI近期發表了一篇有趣的研究，展現了以強化學習訓練出的多個智慧體能夠彼此合作、競爭，甚至能找到並利用模擬環境中的漏洞，表現出複雜行為。

Read more