Anomaly Detection and Diagnosis from System Logs through Deep Learning

Abstract

Log(특히 IoT기기에서 출력하는) data는 Semi-Structured. 이것을 Structured하게 representation.
entry $e$ = “Took 10 seconds to build instance.” 에 대해서 key $k$ = Took * seconds to build instance.이고 asterisk가 parameter이다. 학습데이터 HDFS는 여러개의 parameter를 가짐
과거의 로그분석은 timestamp와 parameters를 버리곤 했지만 여기서는 모두 활용
DeepLog에서는 경과시간(time elapesd)을 key, parameter와 함께 활용 (아마 기존 분석이 로그의 순서만을 이용했다면 여기서는 순서+로그사이 경과시간까지 고려하겼다는 얘기로 보입니다)

$e$가 입력되어 $k$와 parameter value vector로 나뉨. $k$가 비정상인지 판단 후 비정상이라면 유저에게 알리고 정상이라 판단되면 parameters에 대해 비정상인지 판단함. 둘 중 하나라도 비정상이라고 판단되면 비정상이라고 결론내림. 유저가 개입하여 1종오류를 모델에 알릴 수 있음

window size $h$로 슬라이싱하며 입력. Classification 문제로 생각한다. $Pr[m_{t} = k_{i}\mid w]$. 여기서 $w$는 연속된 key가 있는 벡터

$$Pr(m_{t}=k_{i}\mid m_{1},...,m_{t-1})=Pr(m_{t}=k_{i}\mid m_{t-N},...,m_{t-1})$$

$h$ 이전의 사건은 현재의 사건에 영향을 미치지 않는다고 가정한다. 마치 N-gram 언어모델같다
encode-decode형식을 사용한다. $k_i$는 one-hot 벡터로 입력
parameter value 예측에도 비슷한 LSTM구조가 쓰였으며 value들은 regression 문제로 보았다
$g$ : DeepLog모델은 input에 대해 key 개수 만큼의 확률을 출력할 것이다. 소프트맥스 확률을 sort해서 $g$개까지 뽑는다. 다음에 입력된 input이 이 candidates $g$사이에 있다면 normal한 flow로 판단한다. 만약 $g$개 candidates사이에 다음 입력된 key가 없다면 anomaly로 모델은 판단한다. 그 후의 일은 4. Workflow 에서 다루겠다
$g$는 hyper-parameter
다음에 입력될 key의 sequence에 대해서는 학습할 수 있지만 이것이 정상 flow인지 아닌지는 위와같은 방법으로 비지도학습

특이하게 heuristic한 방법을 활용한다. 반복된 패턴을 workflow로 저장한다. 학습에서 confidence=1 또는 분기에 있는 key들의 확률 합이 1인 경우에만 workflow로 지정한다고 한다. 이때 3가지 유형을 기억하는데 (a) 동시실행(분기) (b) 완전분기 (c)사이클 의 경우이다.
이런 workflow로 지정되는 key들은 각각의 등장확률의 합이 1이되는 경우만 해당되는 것으로 보인다. (i.e. 18→54→57 후 18또는 56이 나올 확률을 더하면 1이 되는 확실한 상황에만 workflow로 지정. workflow가 틀릴 수도 있다. 사용자 feedback으로 수정해나감)
User는 workflow를 통해서 False Positive가 생긴 경우에 원인 진단에 사용할 수 있다고 한다. 관리자의 피드백을 바로 워크플로우에 추가하거나 lstm 모델을 업데이트 하는데 쓸 수 있다. 이는 online learning에서 새로운 유형의 anomaly가 등장했을 때 정말 이것이 이상치인지 맞다면 유저의 판단하에 모델이 학습할 수 있게 한다