본문 바로가기

전체 글

(25)
DFS&BFS 수학 분야에서는 graph라고 하고 그래프이론에서 나온거고 네트워크과학에서는 네트워크? 객체와 객체 간의 pairwise한 관계를 기술해 줄 수 있는 수단 점과 선으로 연결되는 형태를 가진다. 점 (node, vertex) - 대상 선 (edge, ...) - 상호작용 이것을 수학적으로 나타내기 위해서는 adjacency matrix로 표현하는 방법 혹은 edge list 로 하나의 노드가 어떤 노드와 연결되어있는지 list로 구현하는 방법이 있다. 그래프를 탐색하는 알고리즘으로는 가장 간단하게 컴퓨터학과에서 많이 들어봤을 DFS와 BFS가 있다. BFS
이미지 분류에 앞서서 이미지에 대한 이해 영상(image)라고 하는 것은 화소의 집합이라고 할 수 있다. 또한 이런 영상을 $ f(x,y)$ 로 표현이 가능하다. 아날로그 영상을 디지털화 하는 작업을 샘플링이라고 하는데 이는 연속적인 아날로그 영상을 컴퓨터로 표현할 수 없기 때문에 이산적인 공간에 매핑시키는 것이라고 할 수 있다. 실수좌표계에서 정수 좌표계로의 변환이라고 할 수 있다. 화소별로 연속적인 밝기/컬러 값을 불연속적인 디지털 밝기/컬러로 변환하는 것 이를 양자화라고 한다. 보통 우리 컴퓨터가 비트로 보았을 때 G개의 비트로 표현할 수있는 밝기의 수는 $ 2^G$ 라고 할 수 있다. 흑백영상의 경우 8비트(1바이트)를 사용해서 0~255 256개로 밝기를 나누어서 사용한다. 컬러 영상인 겨웅에는 RGB 각각 색별로 8비트씩 할당하여 2..
분류 성능평가지표 TP FP FN TN 지표의 분모에 오는 것에서는 칸을 칠하고 분자에 해당하는 부분은 글씨색을 빨간색으로 하였다. accuracy 정확도 전체 데이터중에 모델이 맞춘 True와 False값의 비율 $$ accuracy = \frac{TP+FN}{TP+FP+TN+FN} $$ precision 정밀도 모델이 True라고 예측한 거 중에 실제 True의 비율 $$ precision = \frac{TP}{TP+FP} $$ recall 재현율 실제 True 중에서 모델이 True라고 예측한 비율 $$ recall = \frac{TP}{TP+TN} $$ ROC AUC
Classical Time Series decomposition STL 논문리뷰에 앞서서 고전적인 방법을 어떻게 진행되는지 알아보았습니다. Moving average 시계열 데이터가 있으면 MA(moving average) 이동평균을 구해서 trend를 얻을 수 있습니다. 기본적으로 홀수값을 골라야 시계열 데이터에서 기준점에 대해 앞뒤를 고르게 볼 수 있어서 홀수값을 사용하는데 짝수값을 사용하게 되면 다시 2MA를 한번 더해주어서 홀수에서 한것처럼 나오게 해준다 실제 코드에서는 rolling이나 convolution_filter를 사용해서 trend를 구한다. Rolling은 과거시점의 정보만 사용하고 Convolution filter는 과거와 미래를 모두 포함하여 계산한다 Seasonal seasonal_component는 각각을 freq라는 기준값으로 나눴을 때 ..
열통계물리 5장 5장. Simple application of macroscopic thermodynamics macroscopic한 현상을 살펴볼꺼다. 무엇을 통해서 macroscopic quantities을 통해서 우리가 알고 있는 기본적인 열역학의 식은 다음과 같다. $$dQ = dE + dW$$ $Q$는 열량에 해당하는 값이고 $E$는 그 계에서의 에너지 $W$는 그 계가 한 일에 해당한다. 이 때 주의해야 할 점 이 있다. 열량의 경우에는 밖에 열량을 주게 되면 열량이 마이너스가 되는데 일의 경우에는 외부에 일을 해준게 플러스라는 점이 헷갈릴 수 있는 부분이라 미리 고지해놓는다. 열량은 $dQ = TdS$로 엔트로피의 변화량으로 볼 수 있고 (내부)에너지는 $dE$ 그대로 사용되고 일은 $dW = pdV$로 부..
감염병 예측 모델 (SI, SIS, SIR, SEIR) SI 모델 총 인구수를 N이라고 할때 감염 가능성이 있는 사람의 수를 S(Susceptible)이라고 합니다. 초기에는 S의 값이 N과 비슷하다고 가정하고 하는데 거기에 감염이 시간에 따라서 점점 증가하게 됩니다. 이를 비율로 나타내는 방식을 사용합니다.따라서 $\frac{S}{N}$ 부분이 전체 인구 수 에서 감염 가능성이 있는 사람의 수의 비율부분이 됩니다. 다음으로 감염에 대한 강도라고 하는것은 그 감염병이 얼마나 전파되는지에 대한 beta값과 감염된 사람의 수의 곱의 형태$\beta I$로 표현할 수 있습니다. $$\frac{dI}{dt} = \beta I \frac{S}{N}$$ 감염된 사람이 위와 같이 늘어났으니 시간에 따른 S에 해당하는 수의 변화량은 그만큼 감소하게 됩니다. $$\frac{..
농산물 예측 데이터전처리 농산물을 예측하는 모델의 구조는 다음과 같습니다. 총 다섯가지 종류의 농작물에 대해서 예측을 합니다. 배추, 무, 양파, 홍고추, 마늘 크게 데이터는 3가지로 구분됩니다. 도매 가격 거래량 기상정보 각 농작물마다 1년주기로 바뀌는 주산지에 대한 기상정보를 얻습니다. 여기에서 기상정보의 경우에 배추와 무는 수확되고 나서 바로 시장에 팔리기 때문에 기상정보를 활용하지만 나머지의 경우에는 창고에 일정 보관 후에 시장에 나오기 때문에 기상정보를 제외하였습니다. 수출수입 정보는 수입에 대해서만 보았고 수입량과 수입시 단위 가격만 보았습니다. 가격&거래량 데이터 전처리 농넷에서 배추, 양파, 홍고추, 마늘, 무 총 5가지의 농작물에 대한 2014년도 1월 4일부터 2019년 12월 31일까지의 데이터는 일별 데이터..
STL(Seasonal-Trend decomposition using Loess) 논문 리뷰 진행중! Time Series 시계열 데이터에 시간에 순서에 대한 정보가 포함되어 있는 데이터 Additive VS Multiplicative additive $$ Y_t = T_t + S_t + R_t $$ Multiplicative $$ Y_t = T_t * S_t * R_t $$ $$ \log Y_t = \log T_t + \log S_t + \log R_t $$ 이와같이 바꿔서 additive처럼 사용도 가능! 시계열 데이터가 어떤식으로 구성되어 있는지에 따라 바뀌는데 보통 주식데이터가 Multiplicative를 따르고 보통은 additive를 따른다. Loess ( Locally weighted regression ) 가장 기본적으로 loess를 하는 방법은 wiehgt function에 mo..