|
|
|
|
|
|
|
Ã¥³»¿ë |
|
¡°µ¥ÀÌÅÍ ºÐ¼®¿¡ ÀÇÁ¸ÇÑ ¸Ó½Å·¯´×Àº ÀÌÁ¦ ±×¸¸!¡±
¡º°ÈÇнÀ ÀÌ·Ð&½Ç½À¡»ÀÌ Ã¥Àº ¾ÆÁ÷µµ ÀΰøÁö´ÉÀÌ Àû¿ëµÇÁö ¸ø ÇÑ »ê¾÷¿¡¼ ±â¼úÀ» Àû¿ëÇÒ °¡´É¼ºÀ» Á¦¾ÈÇÏ´Â µµ¼ÀÌ´Ù. ÀÌ Ã¥À̸é Àΰ£º¸´Ù ÁÖ¾îÁø ȯ°æ¿¡ ´õ Àß ÀûÀÀÇÏ´Â ÀΰøÁö´ÉÀÇ °³³äÀ» °øºÎÇÏ¿© ³ª¸¸ÀÇ ÀΰøÁö´ÉÀ» ¸¸µå´Â ±â¼ú¿¡ ´ëÇؼ ¹è¿ï ¼ö ÀÖ´Ù. |
|
¸ñÂ÷ |
|
ÇÁ·Ñ·Î±×
1. ȯ°æ ¼³Á¤
1.1 À©µµ¿ì ¹öÀü
1.2 ¸®´ª½º ¹öÀü
2. °È ÇнÀÀ» À§ÇÑ »çÀü Áö½Ä
2.1 ¸Ó½Å ·¯´×°ú °È ÇнÀ
2.1.1 ¸Ó½Å ·¯´×
2.1.2 °È ÇнÀ
2.2 ±âÃÊ ¼öÇÐ
2.2.1 ±âÃÊ ¼±Çü ´ë¼ö
2.2.2 ±âÃÊ ¹ÌºÐ°ú ÀûºÐ
2.2.3 ±âÃÊ È®·ü Åë°è
2.3 ÃÖÀûÈ
2.3.1 ´ºÅÏ-·¦½¼¹ý(Newton-Raphson method)
2.3.2 °æ»ç ÇÏ°¹ý(Gradient descent method)
2.4 ¸ñÀû ÇÔ¼ö
2.4.1 ÃÖ¼Ò Á¦°ö
2.4.2 È®·ü ¿£Æ®·ÎÇÇ¿Í Äð¹é-¶óÀÌºí·¯ ¹ß»ê
2.5 Àΰø ½Å°æ¸Á
2.5.1 ½ÅÈ£ Àü¡¤ÈÄ Ã³¸®
2.5.2 ¼ø¹æÇâ ÀüÆÄ
2.5.3 ¿ª¹æÇâ ÀüÆÄ
2.6 ÃÊ°£´Ü ÆÄÀÌÅäÄ¡ Æ©Å丮¾ó
2.6.1 MNIST
2.6.2 ȸ±Í ºÐ¼®
2.7 ¸Å°³ º¯¼ö Ž»ö¹ý
2.7.1 °ÝÀÚ Å½»ö¹ý(Grid search)
2.7.2 º£ÀÌÁö¾È Ž»ö¹ý(Bayesian optimization)
3. ¸¶¸£ÄÚÇÁ ÀÇ»ç °áÁ¤°ú µ¿Àû °èȹ¹ý Ç®ÀÌ Àü·«
3.1 ¸¶¸£ÄÚÇÁ ÀÇ»ç °áÁ¤
3.2 µ¿Àû °èȹ¹ý
3.3 [½Ç½À] ÀèÀÇ ·»ÅÍÄ« ¾÷ü ¿î¿µ Àü·« - µ¿Àû °èȹ¹ýÀ» ÀÌ¿ëÇÑ ¸¶¸£ÄÚÇÁ ÀÇ»ç °áÁ¤
4. ¹ë¸¸ ¹æÁ¤½ÄºÎÅÍ °È ÇнÀ±îÁö
4.1 ¸óÅ×-Ä«¸¦·Î ÃßÁ¤¹ý
4.2 ½Ã°£Â÷ ÇнÀ
4.2.1 TD(0)
4.2.2 TD(¥ë)
4.3 Monte-Carlo vs Temporal Difference
4.4 ¿¡ÀÌÀüÆ® ÇнÀ
4.4.1 SARSA
4.4.2 Q-learning
4.4.3 ½Ç½À
5. Q-ÇÔ¼ö´Â ½Å°æ¸Á¿¡ ¸Ã±ä´Ù - DQN
5.1 DQN 208
5.1.1 ÀÌ·Ð 209
5.1.2 ½Ç½À 219
5.2 ÆÄ»ý ¾Ë°í¸®Áò 256
5.2.1 DDQN 256
5.2.2 PER 260
6. Áï°¢ÀûÀÎ ÇнÀÀÌ ÇÊ¿äÇÒ ¶§ - Policy gradient
6.1 Actor-Critic
6.1.1 ÀÌ·Ð
6.1.2 ½Ç½À
6.2 ÆÄ»ý ¾Ë°í¸®Áò
6.2.1 Asynchronous Advantage Actor-Critic
6.2.2 LSTM-Based Advantage Actor-Critic
6.2.3 [°í±Þ] Trust Region Policy Optimization
6.2.4 [°í±Þ] Proximal Policy Optimization
7. ŽÇèÀÇ Àü·« - Model based learning
7.1 »çÀü Áö½Ä - ¹êµ÷ ¸ðµ¨
7.2 ÀÌ·Ð - Monte-Carlo Tree Search
7.3 ½Ç½À
7.3.1 CartPole
7.3.2 Tic-Tac-Toe
ã¾Æº¸±â |
|
|
|
ÀúÀÚ
|
|
ȲÇö¼®
ºÎ»ê´ëÇб³¿¡¼ ÀÚ¿¬°úÇÐÀ» °øºÎÇÏ°í ¼¿ï´ëÇб³¿¡¼ °è»ê°úÇÐ ºÐ¾ß·Î Àü°øÀ» ¹Ù²Ù¾î °øÇм®»ç ÇÐÀ§¸¦ ÃëµæÇß´Ù. °ø½Ä ±³°ú°úÁ¤¿¡¼ Æí¹ÌºÐ ¹æÁ¤½ÄÀ» Ǫ´Â ¹æ½ÄÀ» ¹è¿ï ¶§ ´ëÇпø ½ÃÀý µ¿¾È ¿·ÀÚ¸®¿¡ ¾É¾Ò´ø µ¿±â°¡ ÀΰøÁö´ÉÀ» °øºÎÇÏ´Â °ÍÀ» º¸°í µû¶ó¼ ¸Ó½Å·¯´×À» Á¶±Ý¾¿ µ¶ÇÐÇϱ⠽ÃÀÛÇß´Ù. ¸Ó½Å·¯´× ºÐ¾ß Áß °ÔÀÓÀ» ½º½º·Î Ç÷¹ÀÌ ÇÏ´Â ÀΰøÁö´ÉÀ» º¸°í °ÈÇнÀ¿¡ °¡Àå Å« Èï¹Ì¸¦ ´À³¤ µÚ Ãë¹Ì »ï¾Æ ÀÌ·ÐÀ» °øºÎÇÏ°í °³³äÀ» ±¸ÇöÇÏ´Â µ¥ ½Ã°£À» ¸¹ÀÌ º¸³Â´Ù. ¾î¼´Ù º¸´Ï ÇöÀç ÀΰøÁö´É ¾Ë°í¸®ÁòÀ» Àû¿ëÇÏ´Â ¹ÝµµÃ¼ ¸ðµ¨¸µÀ» Ÿ°ÙÀ¸·Î Çϴ ȸ»ç¿¡¼ ÀΰøÁö´ÉÀ» ÀüÀÚȸ·Î ½Ã¹Ä·¹ÀÌÅÍ¿¡ Á¢¸ñÇÏ´Â ¾÷¹«¸¦ ¸Ã°í ÀÖ´Ù.
|
|
|
|
|
|
|
|
Ãâ°í¾È³» |
|
|
Ãâ°í¶õ ÀÎÅÍÆÄÅ© ¹°·ùâ°í¿¡¼ µµ¼°¡ Æ÷ÀåµÇ¾î ³ª°¡´Â ½ÃÁ¡À» ¸»Çϸç, ½ÇÁ¦ °í°´´Ô²²¼ ¼ö·ÉÇϽô ½Ã°£Àº »óÇ°Áغñ¿Ï·áÇØ Ãâ°íÇÑ ³¯Â¥ + Åùè»ç ¹è¼ÛÀÏÀÔ´Ï´Ù. |
|
ÀÎÅÍÆÄÅ© µµ¼´Â ¸ðµç »óÇ°ÀÇ Àç°í°¡ ÃæÁ·ÇÒ ½Ã¿¡ ÀÏ°ý Ãâ°í¸¦ ÇÕ´Ï´Ù. |
|
ÀϺΠÀç°í¿¡ ´ëÇÑ Ãâ°í°¡ ÇÊ¿äÇÒ ½Ã¿¡´Â ´ã´çÀÚ¿¡°Ô Á÷Á¢ ¿¬¶ôÇϽðųª, °í°´¼¾ÅÍ(°í°´¼¾ÅÍ(1577-2555)·Î ¿¬¶ôÁֽñ⠹ٶø´Ï´Ù. |
|
¹è¼Ûºñ ¾È³» |
|
|
ÀÎÅÍÆÄÅ© µµ¼ ´ë·®±¸¸Å´Â ¹è¼Û·á°¡ ¹«·áÀÔ´Ï´Ù. |
|
´Ü, 1°³ÀÇ »óÇ°À» ´Ù¼öÀÇ ¹è¼ÛÁö·Î ÀÏ°ý ¹ß¼Û½Ã¿¡´Â 1°³ÀÇ ¹è¼ÛÁö´ç 2,000¿øÀÇ ¹è¼Ûºñ°¡ ºÎ°úµË´Ï´Ù. |
¾Ë¾ÆµÎ¼¼¿ä! |
|
|
°í°´´Ô²²¼ ÁÖ¹®ÇϽŠµµ¼¶óµµ µµ¸Å»ó ¹× ÃâÆÇ»ç »çÁ¤¿¡ µû¶ó Ç°Àý/ÀýÆÇ µîÀÇ »çÀ¯·Î Ãë¼ÒµÉ ¼ö ÀÖ½À´Ï´Ù. |
|
Åùè»ç ¹è¼ÛÀÏÀÎ ¼¿ï ¹× ¼öµµ±ÇÀº 1~2ÀÏ, Áö¹æÀº 2~3ÀÏ, µµ¼, »ê°£, ±ººÎ´ë´Â 3ÀÏ ÀÌ»óÀÇ ½Ã°£ÀÌ ¼Ò¿äµË´Ï´Ù.
(´Ü, Åä/ÀÏ¿äÀÏ Á¦¿Ü) |
|
|
|
|
ÀÎÅÍÆÄÅ©µµ¼´Â °í°´´ÔÀÇ ´Ü¼ø º¯½É¿¡ ÀÇÇÑ ±³È¯°ú ¹ÝÇ°¿¡ µå´Â ºñ¿ëÀº °í°´´ÔÀÌ ÁöºÒÄÉ µË´Ï´Ù.
´Ü, »óÇ°À̳ª ¼ºñ½º ÀÚüÀÇ ÇÏÀÚ·Î ÀÎÇÑ ±³È¯ ¹× ¹ÝÇ°Àº ¹«·á·Î ¹ÝÇ° µË´Ï´Ù.
±³È¯/¹ÝÇ°/º¸ÁõÁ¶°Ç ¹× Ç°Áúº¸Áõ ±âÁØÀº ¼ÒºñÀڱ⺻¹ý¿¡ µû¸¥ ¼ÒºñÀÚ ºÐÀï ÇØ°á ±âÁØ¿¡ µû¶ó ÇÇÇظ¦ º¸»ó ¹ÞÀ» ¼ö ÀÖ½À´Ï´Ù.
Á¤È®ÇÑ È¯ºÒ ¹æ¹ý ¹× ȯºÒÀÌ Áö¿¬µÉ °æ¿ì 1:1¹®ÀÇ °Ô½ÃÆÇ ¶Ç´Â °í°´¼¾ÅÍ(1577-2555)·Î ¿¬¶ô Áֽñ⠹ٶø´Ï´Ù.
¼ÒºñÀÚ ÇÇÇغ¸»óÀÇ ºÐÀïó¸® µî¿¡ °üÇÑ »çÇ×Àº ¼ÒºñÀÚºÐÀïÇØ°á±âÁØ(°øÁ¤°Å·¡À§¿øȸ °í½Ã)¿¡ µû¶ó ºñÇØ º¸»ó ¹ÞÀ» ¼ö ÀÖ½À´Ï´Ù.
|
±³È¯ ¹× ¹ÝÇ°ÀÌ °¡´ÉÇÑ °æ¿ì |
|
|
»óÇ°À» °ø±Þ ¹ÞÀ¸½Å ³¯·ÎºÎÅÍ 7ÀÏÀ̳» °¡´ÉÇÕ´Ï´Ù. |
|
°ø±Þ¹ÞÀ¸½Å »óÇ°ÀÇ ³»¿ëÀÌ Ç¥½Ã, ±¤°í ³»¿ë°ú ´Ù¸£°Å³ª ´Ù¸£°Ô ÀÌÇàµÈ °æ¿ì¿¡´Â °ø±Þ¹ÞÀº ³¯·ÎºÎÅÍ 3°³¿ùÀ̳», ±×»ç½ÇÀ» ¾Ë°Ô µÈ ³¯ ¶Ç´Â ¾Ë ¼ö ÀÖ¾ú´ø ³¯·ÎºÎÅÍ 30ÀÏÀ̳» °¡´ÉÇÕ´Ï´Ù. |
|
»óÇ°¿¡ ¾Æ¹«·± ÇÏÀÚ°¡ ¾ø´Â °æ¿ì ¼ÒºñÀÚÀÇ °í°´º¯½É¿¡ ÀÇÇÑ ±³È¯Àº »óÇ°ÀÇ Æ÷Àå»óÅ µîÀÌ ÀüÇô ¼Õ»óµÇÁö ¾ÊÀº °æ¿ì¿¡ ÇÑÇÏ¿© °¡´ÉÇÕ´Ï´Ù.
|
|
|
|
±³È¯ ¹× ¹ÝÇ°ÀÌ ºÒ°¡´ÉÇÑ °æ¿ì |
|
|
|
°í°´´ÔÀÇ Ã¥ÀÓ ÀÖ´Â »çÀ¯·Î »óÇ° µîÀÌ ¸ê½Ç ¶Ç´Â ÈÑ¼ÕµÈ °æ¿ì´Â ºÒ°¡´ÉÇÕ´Ï´Ù. (´Ü, »óÇ°ÀÇ ³»¿ëÀ» È®ÀÎÇϱâ À§ÇÏ¿© Æ÷Àå µîÀ» ÈѼÕÇÑ °æ¿ì´Â Á¦¿Ü) |
|
½Ã°£ÀÌ Áö³²¿¡ µû¶ó ÀçÆǸŰ¡ °ï¶õÇÒ Á¤µµ·Î ¹°Ç°ÀÇ °¡Ä¡°¡ ¶³¾îÁø °æ¿ì´Â ºÒ°¡´ÉÇÕ´Ï´Ù. |
|
Æ÷Àå °³ºÀµÇ¾î »óÇ° °¡Ä¡°¡ ÈÑ¼ÕµÈ °æ¿ì´Â ºÒ°¡´ÉÇÕ´Ï´Ù. |
|
|
´Ù¹è¼ÛÁöÀÇ °æ¿ì ¹ÝÇ° ȯºÒ |
|
|
|
´Ù¹è¼ÛÁöÀÇ °æ¿ì ´Ù¸¥ Áö¿ªÀÇ ¹ÝÇ°À» µ¿½Ã¿¡ ÁøÇàÇÒ ¼ö ¾ø½À´Ï´Ù. |
|
1°³ Áö¿ªÀÇ ¹ÝÇ°ÀÌ ¿Ï·áµÈ ÈÄ ´Ù¸¥ Áö¿ª ¹ÝÇ°À» ÁøÇàÇÒ ¼ö ÀÖÀ¸¹Ç·Î, ÀÌÁ¡ ¾çÇØÇØ Áֽñ⠹ٶø´Ï´Ù. |
|
|
|
|
|