AI 30

자율 창고 로봇 프로세스 최적화를 위한 Q-Learning 구현

유데미 강의를 보고 실습할 수 있는 자료가 있어 공부하여 코드 분석을 하였다.Problem to solve이런 창고가 있고 창고에는 다른 제품들을 각 12개의 구역에 보관한다.12개의 구역은 각각 A부터 L까지로 나눠져있다고 한다.여기서 각 구역 별로 우선 순위가 정해져 있다.G구역이 최우선 순위이고, 차우선 순위는 K구역이다.Environment to define가장 먼저 해야 할 것은 환경을 정의하는 것이다.그리고 환경을 정의하려면 항상 3가지 요소가 있어야 한다.상태 state 정의행동 action 정의보상 reward 정의Defining the states상태는 A부터 L까지 있으며 문자 그대로 하는 것보다 인덱스로 매핑하는 것은 추후에 정의할 보상 행렬과 Q 행렬을 사용하기 때문이다.상태는 구역..

AI/RL 2025.02.20

시간적 차이 Temporal Difference

이번에는 시간적 차이에 대해서 공부하려고 한다.Temporal Difference는 큐러닝 알고리즘의 전부나 다름없다.이전까지 공부했던 가치를 계산하는 방법은 아래와 같다.Q값을 사용한 벨만 방정식이다.이 방정식은 비결정적 탐색, 즉 어디로 갈지 모르기 때문에 다른 행동들의 확률의 값의 합을 구해서 사용했다.여기서 간단하게 쉽게 이해할 수 있도록 결정론적 탐색의 공식으로 바꿔보자.그림으로 이해해보도록 하자.현재 파랑공이 있는 블록에서 위로 가는 행동이 있다고 하자. 그러면 새로운 가치가 계산될 것이다.좌항, Q(s, a)는 행동을 수행하기 전이며, 이전의 학습 경험을 통해 가지고 있는 Q값이다.\( R(s, a) + \gamma max_{a'} Q(s', a') \) 는 행동을 수행하고 다음 상태로 갔다..

AI/RL 2025.02.18

상태가치함수와 행동가치함수(Q함수)

이전의 포스팅을 보면 전부 V(s)를 구하는 것으로 되어 있다.2025.02.17 - [AI/RL] - 마르코프 의사결정 과정(MDP) 마르코프 의사결정 과정(MDP)마르코프 의사결정 과정(Markov Dicision Process, MDP)은 순차적인 의사결정 문제를 수학적으로 모델링하는 방법이다.이는 강화학습에서 핵심 개념으로 사용되며, 에이전트가 환경과 상호 작용하면서hu-bris.tistory.com지금까지는 특정 상태가 되었을 때의 가치에 대해 공부했다.이제는 Q를 활용하여 Q-Learning에 더 가까워져보려고 한다.Q가 무엇인가?큐러닝에 Q가 무엇일까?지금까지 각 상태의 가치를 보고 정책을 정한다고 하면, 이제는 각 행동의 가치를 보는 것이다.이제 V는 상태 가치를 나타내니 쓰지 않고 Q를 ..

AI/RL 2025.02.18

[RL] Living Penalty

Living Penalty강화학습을 단순하게 접근했을 때는 최종 블록, 즉 목표 블록에 도달하면 +1 보상을 얻거나 불구덩이에 닿으면 -1 보상을 얻는 것이다.좀 더 현실적으로 들어가서 게임이 끝나는 지점뿐만 아니라 탐색 과정에서도 보상을 받도록 하는 것이다.예를 들어 총 게임에서 누군가에게 총을 쏘고 적을 죽였으면 점수를 획득할 수 있을 것이다. 다른 게임에서는 다른 차를 추월하면 점수를 얻을 수도 있을 것이다.이를 강화학습에도 적용할 수 있다. 이전에 많이 사용했던 미로를 예시로 들어보자.최종 블록에 +1 보상이 있고 다른 최종 블록에는 -1 보상이 있다.이외의 나머지 블록에는 -0.04의 보상이 있다고 추가해보자.그렇다면 에이전트가 돌아다닐수록 - 보상이 누적될 것이고 그렇기 때문에 에이전트는 최대..

AI/RL 2025.02.18

Plan과 Policy

강화 학습의 Plan과 Policy에 대한 이해강화학습은 에이전트가 환경과 상호작용하며 보상을 최대화하는 방향으로 학습하는 방법이다.이때 Plan과 Policy는 에이전트의 학습과 행동 결정에 중요한 역할을 한다.Plan (계획)계획 Plan은 에이전트가 목표를 달성하기 위해 미래를 예측하고 행동 순서를 계획하는 과정, 즉 미래의 행동을 미리 설계하는 과정을 의미한다.일반적으로 환경의 모델(전이 확률과 보상 정보 등)을 알고 있을 때, 최적의 행동 경로를 계획하는 과정에서 사용된다.모델 기반 강화학습에 주로 사용되며, 모델 기반 강화학습은 환경 모델을 이용하여 Plan을 수립하고, 이를 바탕으로 Policy를 학습하는 방법이다.Policy (정책)정책 Policy는 에이전트가 특정 상태에서 어떤 행동을 ..

AI/RL 2025.02.18

마르코프 의사결정 과정(MDP)

마르코프 의사결정 과정(Markov Dicision Process, MDP)은 순차적인 의사결정 문제를 수학적으로 모델링하는 방법이다.이는 강화학습에서 핵심 개념으로 사용되며, 에이전트가 환경과 상호 작용하면서 최적의 행동을 학습하는 데 활용된다.결정적 탐색(Deterministic Exploration)과 비결정적 탐색(Non-Deterministic Exploration)결정적 탐색(Deterministic Exploration)걸졍적 탐색이란 주어진 상태에서 특정 행동을 취했을 때 정확히 어떤 상태로 전이될지 알 수 있는 환경에서 목표 상태를 찾는 과정이다. 즉, 모든 것이 예측 가능하고 불확실성이 전혀 없는 상황에서 최적의 경로를 찾는 문제이다.예를 들면, 만약 에이전트가 위로 가기로 결정하면 1..

AI/RL 2025.02.17

벨만 방정식

Conceptss : State에이전트의 상태나 다른 모든 상태를 의미a : Action에이전트가 수행할 수 있는 행동을 의미다양한 상태 조합 속에서 행동이 수행되는 걸 관찰할 때 행동이 중요한 역할을 한다.특정 상태에 있고, 행동을 관찰한다면 그 행동의 결과가 어떨지 알 수 있다.상태에 대해 모른 채로 행동 자체만 관찰한다면 결과를 알 수 없을 것이다. 지금 어디에 있으며 어떻게 하면 될지 모르니깐R : Reward에어전트가 특정 상태에 도달하면 얻는 보상을 의미\( \gamma \) : Discount감마는 할인 계수이다.Bellman Equation벨만 방정식은 리차드 어니스트 벨만이 만들어낸 개념이다.미로에서 흰색 블록은 에이전트가 접근할 수 있는 블록이다.보라색 블록은 접근할 수 없는 블록이다,..

AI/RL 2025.02.17

LeNet으로 교통 신호 분류하기

Overview교통 표지판 분류는 자율 주행 자동차에 중요한 과제이다.이 프로젝트에서는 LeNet이라는 딥 네트워크를 교통 표지판 이미지 분류에 사용한다.데이터 세트에는 43개의 서로 다른 이미지 클래스가 포함되어 있다.클래스는 아래와 같다.( 0, b'Speed limit (20km/h)') ( 1, b'Speed limit (30km/h)') ( 2, b'Speed limit (50km/h)') ( 3, b'Speed limit (60km/h)') ( 4, b'Speed limit (70km/h)')( 5, b'Speed limit (80km/h)') ( 6, b'End of speed limit (80km/h)') ( 7, b'Speed limit (100km/h)') ( 8, b'Speed lim..

AI/DL 2025.02.17

Prophet으로 시카고 범죄율 예측하기

Import Libraryimport pandas as pd import numpy as np import matplotlib.pyplot as pltimport seaborn as snsfrom prophet import Prophet위의 네개의 라이브러리는 데이터 분석 및 시각화 처리를 하기 위해서는 필수적이라고 생각하면 되고, 가장 중요한 것은 시계열 예측을 하기 위한 prophet을 설치해야 한다. 원래 이름은 fbprophet이었는데 지금은 prophet으로 설치해야 한다.Importing Datachicago_df_1 = pd.read_csv('Chicago_Crimes_2005_to_2007.csv', on_bad_lines='warn')chicago_df_2 = pd.read_csv('Ch..

AI/ML 2025.02.17

모델 성능평가 척도

모델 성능평가 지표모델 성능평가 지표, 이 사진을 많이 봤을 것이다. 제대로 이해해보려고 한다.True Positive, TP : 모델이 예측을 맞췄고 양성으로 예측을 했다는 뜻True Negative, TN : 모델이 예측을 맞췄고 음성으로 예측했다는 뜻False Positive, FP : 모델이 예측을 틀렸고 양성으로 예측했다는 뜻False Negative, FN : 모델이 예측을 틀렸고 음성으로 예측했다는 뜻위에 설명한 것처럼 모델이 예측을 성공했는지 틀렸는지가 먼저 들어가고 모델이 예측한 것을 뒤에 넣는다.정확도(Accuracy)모델이 정확히 분류 또는 예측한 데이터의 비율이다.그래서 식은 다음과 같이 된다.$$ \frac{TP + TN}{TP + TN + FP + FN} $$여기서 정확도는 2 ..

AI/ML 2025.02.11