์๊ณ์ด ๋ฐ์ดํฐ ์ฒ๋ฆฌ
์๊ณ์ด ๋ฐ์ดํฐ ์ฒ๋ฆฌ ๊ด๋ จ
์๊ณ์ด ๋ฐ์ดํฐ๋ ์๊ฐ ์์๋๋ก ์ ๋ ฌ๋ ๋ฐ์ดํฐ ํฌ์ธํธ์ ๋ชจ์์ ๋๋ค. ์ด๋ฐ ๋ฐ์ดํฐ๋ ์ฌ๋ฌด, ๊ฒฝ์ , ํ๊ฒฝ, ์ฌํํ์ ํ์๊ณผ ๊ฐ์ด ์๊ฐ์ ๋ฐ๋ผ ๋ณํ๋ ์ด๋ค ์ธก์ ๊ฐ์ ํฌํจํฉ๋๋ค. ์๊ณ์ด ๋ฐ์ดํฐ ์ฒ๋ฆฌ๋ ์ด๋ฐ ๋ฐ์ดํฐ๋ฅผ ๋ถ์ํ๊ณ ํด์ํ์ฌ ์ถ์ธ, ํจํด, ์ด์์น๋ฅผ ์๋ณํ๋ ๊ณผ์ ์ ๋งํฉ๋๋ค. ์ด ๊ธ์์๋ ์๊ณ์ด ๋ฐ์ดํฐ ์ฒ๋ฆฌ์ ์ฃผ์ ๊ฐ๋ ๊ณผ ๋ฐฉ๋ฒ์ ๋ํด ๊ฐ๋ตํ ์ค๋ช ํ๊ฒ ์ต๋๋ค.
์๊ณ์ด ๋ฐ์ดํฐ์ ํน์ฑ
์๊ณ์ด ๋ฐ์ดํฐ๋ ๋ค์๊ณผ ๊ฐ์ ํน์ฑ์ ๊ฐ์ง ์ ์์ต๋๋ค:
- ์ถ์ธ(Trend): ๋ฐ์ดํฐ๊ฐ ์ฅ๊ธฐ๊ฐ์ ๊ฑธ์ณ ์ฆ๊ฐํ๊ฑฐ๋ ๊ฐ์ํ๋ ๊ฒฝํฅ.
- ๊ณ์ ์ฑ(Seasonality): ๋ฐ์ดํฐ๊ฐ ์ผ์ ํ ๊ธฐ๊ฐ์ ์ฃผ๊ธฐ๋ก ๋ฐ๋ณต๋๋ ํจํด.
- ์ฃผ๊ธฐ์ฑ(Cyclic): ๋ถ๊ท์น์ ์ธ ๊ธฐ๊ฐ์ ๊ฐ์ง๋ ๋ฐ์ดํฐ์ ๋ณ๋์ฑ.
- ์ด์์น(Outliers): ๋ฐ์ดํฐ์ ์ผ๋ฐ์ ์ธ ํจํด์์ ๋ฒ์ด๋ ๊ฐ.
- ์ก์(Noise): ๋ฐ์ดํฐ์ ๋ณ๋์ฑ์ ์ค๋ช ํ ์ ์๋ ๋ฌด์์ ๋ณ๋.
์๊ณ์ด ๋ฐ์ดํฐ ์ฒ๋ฆฌ ๋ฐฉ๋ฒ
์๊ณ์ด ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๋ ๊ณผ์ ์ ๋์ฒด๋ก ๋ค์๊ณผ ๊ฐ์ ๋จ๊ณ๋ฅผ ํฌํจํฉ๋๋ค:
- ๋ฐ์ดํฐ ์ ์ (Data Cleaning): ์ด์์น ์ ๊ฑฐ, ๋๋ฝ๋ ๊ฐ ์ฒ๋ฆฌ์ ๊ฐ์ ๋ฐฉ๋ฒ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ์ ์ ํฉ๋๋ค.
- ๋ฐ์ดํฐ ๋ณํ(Data Transformation): ๋ก๊ทธ ๋ณํ, ์ฐจ๋ถ(Differencing) ๋ฑ์ ํตํด ๋ฐ์ดํฐ๋ฅผ ์์ ํํฉ๋๋ค.
- ๋ถ์(Analysis): ๋ฐ์ดํฐ์ ์ถ์ธ, ๊ณ์ ์ฑ ๋ฑ์ ๋ถ์ํฉ๋๋ค. ์ด ๊ณผ์ ์๋ ์ด๋ ํ๊ท , ์ง์ ํํํ ๊ฐ์ ๊ธฐ์ ์ด ์ฌ์ฉ๋ ์ ์์ต๋๋ค.
- ๋ชจ๋ธ๋ง(Modeling): ARIMA, ์๊ณ์ด ๋ถํด, Prophet๊ณผ ๊ฐ์ ๋ชจ๋ธ์ ์ฌ์ฉํ์ฌ ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ธ๋งํ๊ณ ์์ธกํฉ๋๋ค.
- ๊ฒ์ฆ(Validation): ๋ชจ๋ธ์ ์์ธก๋ ฅ์ ํ๊ฐํ๊ณ , ํ์ํ ๊ฒฝ์ฐ ๋ชจ๋ธ์ ์กฐ์ ํฉ๋๋ค.
ํ์ด์ฌ์ ์ฌ์ฉํ ์๊ณ์ด ๋ฐ์ดํฐ ์ฒ๋ฆฌ
ํ์ด์ฌ์ ์๊ณ์ด ๋ฐ์ดํฐ ์ฒ๋ฆฌ๋ฅผ ์ํ ๋ค์ํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ ๊ณตํฉ๋๋ค. ๋ํ์ ์ธ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ก๋ pandas
๊ฐ ์์ผ๋ฉฐ, ์๊ฐ ๋ฐ์ดํฐ๋ฅผ ์ฝ๊ฒ ์ฒ๋ฆฌํ ์ ์๋ ๊ธฐ๋ฅ์ ์ ๊ณตํฉ๋๋ค. numpy
์ scipy
๋ ๋ฐ์ดํฐ ๋ถ์๊ณผ ๊ณผํ ๊ณ์ฐ์ ์ํ ๊ฐ๋ ฅํ ๋๊ตฌ์
๋๋ค. ์๊ณ์ด ์์ธก์ ์ํด statsmodels
๋๋ Prophet
๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ฌ์ฉํ ์ ์์ต๋๋ค.
๊ฒฐ๋ก
์๊ณ์ด ๋ฐ์ดํฐ ์ฒ๋ฆฌ๋ ๋ฐ์ดํฐ์ ์๊ฐ์ ๋ณํ๋ฅผ ์ดํดํ๊ณ ์์ธกํ๋ ๋ฐ ํ์์ ์ ๋๋ค. ๋ฐ์ดํฐ์ ํน์ฑ์ ํ์ ํ๊ณ ์ ์ ํ ์ ์ฒ๋ฆฌ ๋ฐ ๋ชจ๋ธ๋ง ๊ธฐ๋ฒ์ ์ ์ฉํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค. ํ์ด์ฌ๊ณผ ๊ฐ์ ๋๊ตฌ๋ฅผ ์ฌ์ฉํ์ฌ ์๊ณ์ด ๋ฐ์ดํฐ๋ฅผ ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํ๊ณ ๋ถ์ํ ์ ์์ต๋๋ค.