[컨텐츠 연재] #02 가짜에서 진짜 찾기 @진짜연구소

김소연
Written by 김소연 on
[컨텐츠 연재] #02 가짜에서 진짜 찾기 @진짜연구소

안녕하세요!! 오랜만에 뵙겠습니다! 가짜연구소 커뮤니티 빌더 김소연입니다. 오늘은 우리 가짜연구소가 진짜연구소가 된 만우절 행사와 행사를 기획한 빌더분에 대한 이야기를 전해드리려 합니다! ㋡⎠ 이번 행사 이름은 가짜에서 진짜 찾기 였는데요. 행사 제목과 딥러닝 사이의 연결고리에 대한 감이 좀.. 어떻게.. 오시나요?

ab_curri

2022년 4월 1일 만우절 밤 9시에 가짜연구소에서는 가짜에서 진짜 찾기라는 행사를 진행했었습니다. 이름에서도 살짝 엿볼수 있듯 행사는 Anomaly Detection 관련된 행사였습니다..! 게임회사의 데이터 분석팀에서 근무하고 있는 신진수 빌더님이 게임 현업에서 바라보는 이상탐지에 대한 간단한 세미나를 포함해 관심있는 분들과 네트워킹까지를 포함한 아주 흥미로운 행사였습니다! 저도 한 때 out-of-distribution 이라는 키워드가 너무 흥미로워 보여서 찍어먹기로 논문 몇 개만 읽어보고 말았는데요. 아쉽게도 행사에는 참여하지 못했지만, 이때다 싶어서 얼~른..! 진수님한테 행사와 이상탐지에 대해 이것저것 물어봤습니다 :)

그럼 이제 1년에 1번 진짜가 된 가짜연구소 가짜에서 진짜 찾기로 두번째 컨텐츠를 시작하도록 할게요!

Contents



Anomaly Detection이 뭐죠

행사 소개에 앞서 Anomaly detection에 대해 처음이신 분이 계실 듯해서 학문적 정의에 대해 먼저 찾아봤어요. 첫번째 2020년 서베이 논문[1]에서는 아래와 같이 정의하는데요.

Anomaly detection, a.k.a. outlier detection or novelty detection, is referred to as the process of detecting data instances that significantly deviate from the majority of data instances

2021년 서베이 논문[2]에서도 비슷한 뉘앙스로 정의를 하지만, 정의에 쓰이는 용어의 강도와 느낌의 정도에 따라 달라질 수 있는 애매모호함을 강조하는 느낌을 줍니다.

Interests in anomaly detection go back to 1969, which defines anomaly/outlier as samples that appear to deviate markedly from other members of the sample in which it occurs, explicitly assuming the existence of an underlying shared pattern that a large fraction of training samples follow

사실 anomaly detection이 아니더라도 비슷비슷하게 out-of-distribution, novelty detection으로도 들어보셨을 것 같은데요. 결론적으로 쉽게 설명하자면 anomaly detection은 어떤 집단에서 눈에 띄게 다른 행동을 하는 객체를 탐지하는 것입니다.



가짜에서 진짜찾기 행사

이렇듯 비정상적인 객체를 찾는다는 컨셉을 생각했을 때, 제가 떠올렸던 분야는 반도체, 부품 등을 제작하며 발생하는 불량품을 탐지하는 제조업 쪽에 한정되었던 것 같아요. 그래서 이번 행사를 통해 알게된 게임 산업에서의 이상탐지 중요도가 굉장히 새로웠는데요. 무려 만우절, 무려 금요일, 무려 밤 9시라는 시간에도 불구하고 약 17명 정도가 참석해 재미있게 세미나와 네트워킹까지 잘 진행되었다고 합니다.

제가 구태여 설명하기보다 세미나 링크 자료 를 확인해보시길 추천드립니다!

ab_ex



행사를 기획한 진수님의 인터뷰

위 자료를 눌러보시면 알겠지만, 자료의 직관성이나 센스가 남다르다는 것이 느껴질텐데요. 그럼 이런 행사를 기획한 진수님은 어떤 분이실까요?

안녕하세요, 진수님! 진수님은 어떤 분이신가요!

안녕하세요, 가짜연구소 아카데믹/커뮤니티 빌더 신진수 입니다. 저는 현재 게임회사의 데이터분석팀에서 근무를 하고 있고, 최근에는 던전앤파이터 모바일 이라는 게임을 분석 및 연구를 진행하고 있어요. 가짜연구소는 기존에도 알고 있었고, 다양한 행사/이벤트 기획을 해보고 싶어 빌더 신청 기간마다 매번 페이스북하고 카톡에 링크를 저장을 해놨는데요. 막상 지원하려고 할 때는 매번 기간이 지나있더라구요ㅜㅜ. 이번에는 놓치지 않고 신청에 !성공! 해서 빌더로서 비슷한 주제에 관심있는 사람들끼리 연결고리가 되어주는(?) 역할과 여러 활동을 하고 있네요히 (히히)

저는 가짜연구소에서 Casual 하게 Causality 라는 스터디를 진행하고 있어요. 저에게는 제품 개선의 효과를 측정하고 현상에 대한 원인을 분석하는 것이 매우 중요한 일인데요. 회사에는 실험적인 플랫폼이 없어서, 가능하다면 적용 해보고, 만들어보려고 해요. 그래서 이번에는 제대로 공부를 해보고자 스터디를 진행하고 있습니다. 저보다 뛰어나신 스터디원분들 덕분에 많이 배워가고 있어요 (히히+2)

만우절에 이상탐지 행사를 기획하게 된 배경이 궁금해요. 또 causality가 아닌 이상탐지와는 어떤 관계가 있으신건가요?

첫 번째로는, 게임에서는 일반적으로 만우절을 맞아 크고 작은 이벤트를 진행해요. 예를 들어, 만우절 관련 패키지를 팔거나, 연예인과 콜라보, 인게임 이벤트 등등이요. 그래서 가짜연구소에서도 만우절을 맞아 조금 캐주얼하고 기억에 남는 이벤트를 만들어보고 싶어 기획하게 되었습니다. 두 번째는, 만우절에 우리가 하는 행동은 평소와 약간 다르다고 느꼈어요(적어도 학생때는요ㅋㅋㅋ). 아닌가요? 뭔가 평소와는 다르다(이상하다)라는 점이 이상한 패턴/행동을 탐지하는 이상탐지와 비슷하다고 느껴서 이상탐지로 정했습니다!

이상탐지와의 연결 고리라고하면 작년말부터 현재 매 주 일요일마다 지인들과 이상탐지 논문 세미나를 진행하고 있어요. 논문 세미나를 진행하다 보니, 현재 제가 담당하는 게임에서는 어떻게 적용해볼지, 적용했을 때 어떠한 기대효과가 있을지 자연스럽게 고민하고 연구하는 중입니다. 물론, 논문을 읽는다고 이상한 현상을 바로 잡아낼 수 있는 건 아니지만, 꾸준히 연구 하다보면 장기적으로는 도움이 되지 않을까요 (히히+3)

매주 논문 세미나를 하면서 느끼는 거지만, 다양한 관점으로 문제를 접근 할 수 있어서 재미있다고 느껴요. 만약 유저의 행동 관점에서 이상한 부분을 탐지한다고 했을 때, NLP/Vision/Graph 등의 다양한 분야의 관점에서 문제를 접근할 수 있는데요. 가설에 대한 다양한 접근에 대해 고민해볼 때, 고통스럽지만 재미있다고 생각해요. (히히+4) 일을 하다보면 매번 새로운 패턴을 관측하게 되곤하는데요. 이 부분도 새롭고 재미있다고 느껴져요. 설마 그러겠어?! 하는 부분이 매주 나오다보니.. 지루할 틈이 없는 것 같네요^^;

오호, 진수님이 생각하시는 이상탐지는 어떤 것인가요? out of distribution 과의 차이는 어떤 것이라 생각하세요?

저에게 이상탐지는 다름을 정교하게 정의하는 종합 분야 라고 생각해요. 다시 말해서, 아래와 같이 정리될 것 같아요. 1) 사람마다 ‘이상하다’라는 기준이 다를 수도 있는데요. 그러한 기준을 객관적으로 정의하고 연구하는 분야 2) 이상 탐지를 연구할 때, 한 가지 분야에서 나오는 개념만 적용하는 게 아니라, 다양한 학문에서 나온 아이디어를 활용하는 분야

저는 이상탐지(Anomaly, Outlier Detection)가 OOD를 포괄하는 용어로 생각하고 있는데요. Training 분포의 관점에서, Out-of-distribution은 학습 분포를 따르지 않는 이상한 친구일 수 있으니까요 (히히+5)

다양한 접근 만큼이나 이상탐지를 파악하기 위한 단계도 꽤 복잡한 것 같아요. 만들어주신 자료를 보면 이상탐지 단계를 5가지로 나눠주셨는데 어떤 부분이 가장 시간이 많이 드나요 ? 동시에 어떤 부분이 제일 중요한 것 같으세요?

ab_5

개인적으로 시간이 많이 들지만 중요한 부분은 EDA라고 생각을 해요. 좀더 엄밀하게는 EDA에서 나온 분석 결과를 가지고 ‘모델링까지 필요해서 주기적으로 탐지할 필요성이 있어요’라고 이야기를 해야겠네요. 저 과정에서 탐사 분석을 통해 설득하는 과정에 시간이 많이 드는 것 같아요. 또 제일 중요하다고 생각되는 부분은 이상현상 파악입니다. 관성에 의해 종종, 뭐 그럴수도 있지라고 넘어가는 경우가 있는데요. 그런 유혹을 뿌리쳐야 하는 중요한 단계거든요.

저는 게임에서 이상탐지가 중요할거란 생각을 미처 못했던 것 같아요. 실제로 게임 분야에서 이상탐지가 중요한가요? 중요하다면 왜 중요하죠?

저도 게임에서 이상탐지를 아주 많이 알지는 못합니다만, 만약 게임 내 발생한 이상한 행동 또는 누군가의 악의적인 행동으로 정상적으로 플레이하는 유저분들이 피해를 보게 된다면, 유저의 게임 경험 측면에서 매우 큰 문제라고 할 수 있겠죠. 그만큼 유저가 느끼는 게임 내 경험을 최적화 시켜주기 위해서는 중요한 분야라고 생각합니다! 특히 사람이 게임하지 않고 기계가 하는 경우가 있는데, 또 반대로 사람이 기계처럼 하는 경우도 있어서 그 기준을 정하기가 참..어렵네요 (허허)

그런 어려운 기준을 정할 수 있는 접근 방법으로 행동, profile에 대해 세미나에서 설명해주신 것 같아요. 두 방법을 비롯해 어떤 식으로 가설을 세우는지 간단하게만 설명해주실 수 있나요?

저는 게임에서 유저가 이상하다고 느끼면, 크게 2가지 관점(가설)에서 합리적인 의심을 해요. 1) 행동 : 특정 유저가 인게임에서 이상하게 반복되는 행동을 하거나 선량한 유저와 다르게 행동할 때 2) Profile : 유저의 옷차림 (장비/아바타) 상태와 유저의 정보가 조금 특이해보일 때

물론 해당 방법 이외에도 제가 설정한 가설에 따라서 이상함을 정의 내리기도 하죠. 유저의 캐릭터명으로 설명을 드려볼게요. 이상한 유저와 기존 유저의 캐릭터명이 다름을 보이기 위해서는 ‘다름의 기준’이 필요한데요. 해당 방법은 제가 설정한 가설을 기준으로 선정하곤 해요. 예를 들면 아래와 같아요.

  • 가설 : 이상한 유저들은 캐릭터명에 대한 알파벳들이 불규칙적으로 나타날 것 같아!
  • 유사도 기준 : 그러면, 불규칙적인 정보를 나타내는 Entropy 라는 기준을 정해보자!
  • 결과 : 선량한 유저와 이상한 유저 캐릭터명의 분포를 비교(KLD)해볼 수도 있습니다.

이런 이야기들 나눈 이번 행사 엄청 유익했을 것 같은데 분위기는 어땠나요? 재밌었던 이야기는 없었나요?

한 17분 정도가 참석해주신 것 같아요. 금요일 저녁 시간인데 생각보다 많이 참석해주셔서 감사할 따름입니다 (히히+6). 1교시 끝나고 2교시에 참여하신 분들에게 피드백을 받았는데 세미나가 쉽고 재미있었다고 해주신 분들이 많아서 기획한 저로서도 매우 기뻤습니다. 아쉬운건 오프라인으로 했으면 조금 더 참여하신 분들의 반응이나 행사 분위기를 더 잘 느낄 수 있지 않았을까라는 아쉬움이 있네요.

아, 2교시에 만우절 관련해서 몇몇분이 공통된 에피소드를 해주셨어요. 이번 만우절에 Stackoverflow에 검색을 해보려고 했더니, 이상하게 평소처럼 검색이 안되고 렉걸린 것 처럼 나온다고 말씀을 주셨는데요. 알고 보니 만우절 이벤트라고 하더라구요..?! 재미있는 이야기는 아니지만, 저희 회사 공지에 4월 1일에 회사 창립기념일이라고 쉬는날이라고 공지가 올라왔는데요. 처음에는 만우절 장난이거니하고 넘겼는데, ~진짜더라구요….~

진수님, 포스터랑 자료 만드는 완성도와 센스도 남다른데요! 이런 세미나& 이벤트 기획 경험이 있으신건지 궁금해요!

졸업 이후에는 거의 주말마다, 세미나/스터디를 하고 있어서 자료 준비나 PPT 활용에 도움이 많이 되었던 것 같아요. 이벤트 기획은 이번이 처음입니다..!!

그럼 저희~ 내년 만우절 행사도 기대해도 되는건가요? 😇 또는 가까운 시일 내에 새롭게 기획하는 이벤트 일정도 있으신가요?

내년에는 올해보다 업그레이드된 23년 만우절 행사를 열심히 기획해보겠습니다. 23년 만우절 행사 끝나고 저를 다시 인터뷰 해주시면 매우 감사하겠습니다ㅋㅋㅋ 22년이 가기 전에 올해 여러가지 행사를 기획중인데요, 제가 진행하는 Causal Inference 관련 또는 조금 캐쥬얼한 온/오프라인 행사를 아이디에이션 해보고 있어요. 6월 안으로 여러분들과 함께 할 수 있는 이벤트를 열어보도록 하겠습니다. 많은 기대 & 참여 부탁드립니다!


글을 마무리하며

저도 최근에 공부나 프로젝트를 하면서 그리고 어떻게 라는 질문을 스스로 많이 던져보려고 하고 있고, 어떤 현상을 이상하다, 과하다라고 판단해야할까란 고민을 하고 있는데요. 진수님이 하시는 일을 들어보면 현상에 대한 다각적 파악, 현상을 구분할 수 있는 가설 세우기, 그에 대한 근거 세우기, 검증하기, 개선하기 이 모든 것을 하고 있는 것 같아서 새삼 대..단.. 하다는 생각을 아주아주 많이 하게 된 인터뷰였던 것 같아요. 또, 게임 회사에서도 이렇게 재미있는 주제로 일해볼 수 있구나!도 느낄 수 있었구요. 물론 이상탐지를 비롯해 하시는 일에 대해 애정과 재미를 갖고 있는 진수님의 바이브가 글에서도 물씬 느껴진 이유도 있겠습니다 :) 앞으로는 어떤 가설을 세우면서 일하실지, 또 다가오는 새로운 이벤트는 어떤 것일지 궁금해지는데요. 그 다음 행사도 잘 전달드려보도록 하겠습니다!

아참, 이번주 토요일(2022.05.14) 오후에는 가짜연구소 최초 오프라인 모임이 예정되어 있어요. 세미나, 튜토리얼이 예정되어 있진 않지만 이렇게 재미나게 자기 이야기를 해주는 분들과 함께 할 수 있는 자리인만큼 많은 관심 가져주면 감사하겠습니다 :) 자세한 사항은 링크를 통해 확인 해주세요! 그럼 20000!


References

[1] Pang, Guansong, et al. “Deep learning for anomaly detection: A review.” ACM Computing Surveys (CSUR) 54.2 (2021): 1-38

[2] Salehi, Mohammadreza, et al. “A Unified Survey on Anomaly, Novelty, Open-Set, and Out-of-Distribution Detection: Solutions and Future Challenges.” arXiv preprint arXiv:2110.14051 (2021).


가짜연구소 페이지 : https://pseudo-lab.com/
가짜연구소 discord: https://discord.gg/HeHbFAvmSZ
문의 : pseudolab.operator@gmail.com

김소연

김소연

/ 3-4기 / Think globally, act locally.

LG AI NLP Federated learning