전체 글
-
AndroidWorld 설치를 위한 환경설정카테고리 없음 2024. 8. 24. 18:48
[Code repository]: https://github.com/google-research/android_world GitHub - google-research/android_world: AndroidWorld is an environment and benchmark for autonomous agentsAndroidWorld is an environment and benchmark for autonomous agents - google-research/android_worldgithub.com 안드로이드 월드는 컴퓨터를 제어하는 인공지능 연구를 위한 벤치마크입니다. 이 환경은 본래 리눅스 또는 macOS에서 동작하도록 개발되었습니다. 윈도우에서 이 환경을 실행시키려면 추가적인 설정들이 필요합니다...
-
벨만 최적방정식의 수렴성카테고리 없음 2022. 12. 20. 15:27
강화학습을 처음 공부하면 마르코프 의사결정 과정에서는 최소한 하나 이상의 최적 정책이 존재한다는 정리를 배우게 된다. 많은 RL 논문에서 이 정리와 비슷한 방식으로 개념을 증명한다. 본 글에서는 왜 하나의 최적 정책이 존재할 수 있는가? 에 대해 정리한 내용이다. 필요한 배경지식은 다음과 같다. Background Markov Decision Process Policy, Return, Bellman Equation 거리공간(Metric Spaces) 코시수열(Cauchy Sequence) 축약사상(Contraction mapping) 바나흐고정점정리(Banach Fixed Point Theorem) Markov Decision Process 마르코프 의사결정 과정은 $$ 5개의 튜플로 구성된 이산시간 랜..
-
RNN Policy 에 관하여 - (1)Reinforcement Learning 2022. 10. 14. 16:28
강화학습을 여러 문제에 적용하면서 보통은 Policy의 아키텍처를 FC layer나 CNN으로 설정한다. Partially Observable한 문제를 해결하기 위해 state를 쌓아서 policy input으로 많이 사용하는데 RNN을 사용해서 해결할 수도 있다. Policy에 단지 RNN을 추가했을 뿐인데 전체적인 학습 과정에서 꽤나 변화가 발생한다. 이번 포스팅에서는 RNN Policy의 전반적인 내용을 정리한다. 1. RNN 보통 시퀀스를 처리하는 RNN의 구조는 위 그림과 같다. 원에 해당하는 것은 변수들이고 사각형은 뉴럴네트워크다. RNN은 이전시점의 은닉상태 $h_{t-1}$와 현재 시점의 입력 $x_{t}$을 받아서 $h_{t}$를 출력한다. RNN이 LSTM 인지, GRU 인지에 따라 $..
-
Variational Inference 관련 내용 정리Math 2022. 9. 26. 15:18
Variational Inference는 확률을 추론하는 문제를 위한 알고리즘이다. 확률 계산이 불가능한 상황에서 임의의 확률분포를 도입하고 최적화 문제로 바꾸어서 근사적인 방법으로 문제를 푼다. Variational Inference를 알기 위해서는 다음과 같은 지식들을 알면 좋다. Probabilistic Graphical Model Probabilistic Inference Bayesian Inference 1. Probabilistic Graphical Model 랜덤변수들의 집합이 있다고 할 때, 그 랜덤변수들 간의 의존성(dependency)를 보기 쉽게 그래프로 표현한 것을 확률적 그래프 모델(Probabilistic Graphical Model)이라고 한다. PGM의 종류로는 세 가지가 있..
-
[Paper Review] - Deep Reinforcement Learning at the Edge of the Statistical PrecipiceReinforcement Learning 2022. 9. 18. 20:47
논문을 읽은 이유 강화학습 논문을 구현하고 실험을 재현할 때, 논문대로 잘나오지 않는 것들이 너무나도 많았다. 하이퍼파라미터, 네트워크를 똑같이 설정했는데도 그대로 나오지 않았다. 이 때문에 performance metric에 문제가 있거나 실험횟수가 너무 적어서 그런 것이 아닌가 생각을 했어서 관련 논문을 찾다가 이 논문을 발견했다. 논문에서는 구간추정에 기반한 metric을 사용해야 한다고 주장한다. 논문을 제대로 이해하려면 통계적 추론에 대한 배경지식(신뢰구간, 가설검정)이 필요하다. TL;DR 강화학습에서 에이전트의 성능을 비교하기 위해 사분위수 평균(interquartile mean score)을 사용할 것을 제안한다. 점추정치 (normalized median, mean score)로만 결론을..
-
[Paper Review] - Beyond Tabula-Rasa: a Modular Reinforcement Learning Approach for Physically Embedded 3D SokobanReinforcement Learning 2022. 9. 2. 19:48
논문을 읽은 이유 우리의 뇌 중에서 브로카 영역이 언어를 담당한다고 알려진 것처럼, 뇌의 각 부위들이 특정 역할을 담당한다는 내용을 뇌과학책에서 보았다. 비슷한 원리로 강화학습의 에이전트의 정책 또는 정책을 근사하는 뉴럴 네트워크를 여러 모듈로 나누어서 각자의 역할을 담당하는 그런 연구가 없을까 하는 와중에 논문을 발견해서 읽게 되었다. TL;DR 강화학습의 구성요소들을 여러 모듈로 나누어서 문제를 푸는 방식을 제안했다. Mujoco 기반의 Sokoban 문제에서 기존 10%도 안되던 테스크 성공률은 70퍼센트 넘게 개선했다. 생각해볼 것들 Tabula rasa의 의미? -> 위키백과에 따르면 어떤 인간이 태어날 때에는 정신적인 어떠한 기제도 미리 갖추지 않고 마음이 '빈' 백지와도 같은 상태로 태어나며..
-
최적화 관련 내용 정리Math 2022. 9. 2. 11:28
최적화: 주어진 제약조건 하에서 목적함수의 값을 최소 또는 최대로 하는 해를 구하는 문제. 현실 속에서 문제를 푸는 방법 1. 문제를 최적화 문제로 formulation 상수, 변수, 제약조건, 목적함수를 통해 문제 구성 2. 알고리즘을 통한 해 구하기 3. 계산 결과를 분석, 검증 4. 최적화 문제와 알고리즘 재검토 어려운 문제를 부분 문제(subproblem)으로 나누거나 완화 문제(relaxation problem)으로 풀 수 있다. minimizer (최소자): 특정 최적화 문제에서 목적함수를 최소로 만드는 값 선형 계획 문제: 목적함수가 선형이고, 모든 제약조건이 선형 등식 혹은 부등식으로 나타낼 수 있는 최적화 문제 비선형 계획 문제: 목적함수나 제약 조건이 비선형함수로 나타난 문제 (2차함수..
-
[Paper Review] - IMPALA: Scalable Distributed Deep-RL with Importance Weighted Actor-Learner ArchitecturesReinforcement Learning 2022. 9. 2. 11:09
TL;DR 강화학습 에이전트를 더 빠르게 학습시키기위한 분산처리 아키텍처를 제안. 아키텍처는 비동기적으로 동작하는 Actor와 Learner로 구성되며, Off-policy 업데이트 방법인 V-trace를 제안하였음. 생각해봐야할 것 왜 분산 강화학습 알고리즘의 개발동기는 무엇일까? 알고리즘의 학습 루프에서 어떤 부분들이 병목현상을 일으키는가? IMPALA가 해결하고자 하는 것은 무엇인가? (contribution) Ape-X, A3C, Batched A2C, IMPALA 간의 차이점은 무엇일까? Retrace labmda 는 무엇인가? Abstract 본 논문에서는 하나의 강화학습 에이전트에 단일 파라미터 셋을 사용해서 task 들의 large collection 을 풀고자 한다. 즉, 같은 환경을 여..