대외 활동/SK네트웍스 Family AI 캠프

[플레이데이터 SK네트웍스 Family AI 캠프 19기] EDA&ML 미니 프로젝트 회고

ansui 2025. 10. 19. 20:42

2025.9.16-2025.9.29

2026 FIFA 월드컵 우승국 예측 및 한국 국가대표 성적 예측 프로젝트

 


회고

1. EDA

선수단의 평균 연령, 선수단별 유명리그에 포함된 선수 수, 피파 게임에서의 선수단 스탯 평균, 20년간의 상대 전적을 컬럼으로 정리하였다. 수업시간에 배운 EDA의 순서에 맞춰 진행하려 노력하였지만 처음에는 생각이 정리가 안되고 데이터의 종류가 많아 어려웠다. 하지만 팀원 4명이 10개가 넘는 csv파일에서 필요한 컬럼을 정제하여 하나의 데이터 프레임으로 병합해본 경험을 통해 ML 프로젝트를 위한 EDA 과정을 익힐 수 있었다. 또한 협업 과정에서의 방식이나 깃허브 활용 방안도 다시 고민해보는 경험이 되었다.

평균 연령이나 포함된 선수 수를 구하면서 mean, isin, map 등의 함수를 적용해 볼 수 있었고 grouping을 하면서 수업시간에 배운 것들을 자연스럽게 복습할 수 있었다. 이번 경험을 통해 2차 프로젝트에서는 더 쉽게 진행할 수 있을 것 같다. 처음 EDA를 진행할 때 Test data를 생각하지 않고 Train data만 만들어서 ML을 하기 전에 다시 돌아와서 2026년 데이터를 다시 정제하였다. 앞서 만든 코드를 거의 비슷하게 사용해서 다음부터는 처음 EDA를 진행할 때 Train, Test 데이터 모두 고려하여 진행해야겠다고 생각했다.

 

2. ML

Xgboost를 사용하여 accuracy를 평가하였다. 처음 다른 팀원분이 전체 순위를 예측하는 방식으로 모델을 학습 및 평가하였을 때 정확도가 매우 낮았다. 다양한 시도를 해보았지만 여전히 정확도가 낮아 아예 데이터를 다른 방식으로 예측해보는 방식을 고려하게 되었다. 팀원들과의 회의를 통해 전체 순위가 아닌 각 나라 별 1:1 경기 시뮬레이션을 통해 승리/패배/무승부를 예측하여 최종 순위를 찾는 방식으로 수정하게 되었다.

방식이 바뀌다보니 앞서 진행한 EDA도 수정하게 되었다. 기존에는 각 나라, 년도 별로 컬럼이 있었다면 수정한 후에는 이전 월드컵 대회를 기준으로 home팀, away팀의 컬럼의 차이를 컬럼으로 넣었다. 또한 여기에 추가적으로 매치 발생 이전 20년까지의 상대 전적을 추가하였다. 이후 XgBoost 모델을 사용하니 accuracy가 0.7정도로 상승하였다. 모델의 파라미터를 조정하며 accuracy를 비교해봐도 큰 변화가 없을 경우 데이터셋을 수정하고 방식을 바꿔 EDA를 다시 진행하는 방식도 고려해볼 수 있다는 것을 느꼈다.

 

3. 아쉬운 점

전적 결과를 추가하는 과정을 추가로 진행하게되어 ML 모델을 많이 못 돌려본 점이 아쉽다. 다음에는 모델의 파라미터를 조정해가며 평가하고 최적의 모델을 찾아보는 과정을 더 해보고 싶다.

 

4. 전체

팀원들과 여러 데이터셋에서 필요한 컬럼을 정제해 하나의 데이터 프레임으로 만들며 EDA 협업 과정을 익혔다. 처음에는 Test 데이터를 고려하지 않고 Train 데이터만 구성하여, 이후 ML 단계에서 2026년 데이터를 다시 정제하는 과정을 거쳤다. EDA 단계에서부터 Train/Test 데이터를 모두 고려했으면 좋았겠다고 느꼈다. 초기에는 국가별 전체 순위를 예측하는 방식으로 모델을 학습했으나, 정확도가 낮아 국가 간 1:1 경기 결과를 예측하고 최종 순위를 도출하는 방식으로 변경하였다. 여러 번의 회의와 시도를 통해 팀원들과 아이디어를 공유하며 문제 해결 방향을 바꾸는 경험이 의미 있었다.

 

팀 프로젝트 깃허브 링크

https://github.com/SKNetworks-AI19-250818/SKN19-mini-4Team


Keep

  • 매일 강의 내용을 노션에 정리하였다.
  • 파이썬 기초 문법을 다시 점검하면서 놓쳤던 개념을 보완할 수 있었다.
  • 지각, 조퇴, 결석을 하지 않았다.

Problem

  • 피곤한 상태에서 수업을 듣다 보니, 집중력이 떨어지는 순간이 있었다.
  • 코테 풀지 못하고 있다.

Try

  • 강의 내용을 단순히 정리하는 것에서 끝내지 않고 매일 예습, 복습하기