오늘의 TIL

모델을 만들 때 생각해야 할 점

머신러닝 모델을 launch 할 때 테스트를 잘 해야합니다.

모델을 잘 만들어서 정롹도를 많이 올렸더라도 빠르고 정확하게 서비스로 적용되는 문제는 또다른 문제입니다.
API 부분에 전처리부분이 잘 적용 되어야 하는데 유닛테스트가 이루어지지 않으면 서비스를 적용할 수 없을 정도의 버그가 있을 수 있습니다. 따라서 모델 개발 부터 최종 론치까지 테스트를 잘 진행해야 합니다.

이런 부담을 줄여주기 위해 머신러닝 모델의 API 형태를 만들어 주는 프레임워크가 많이 만들어지고 있습니다. AWS의 SageMaker가 대표적입니다. google cloud와 azure도 같은 기능을 지원합니다.

리얼타임 머신러닝

https://huyenchip.com/2020/12/27/real-time-machine-learning.html

데이터 청소

데이터들의 품질을 높이는게 중요합니다. 데이터를 쌓는 것만 능사는 아닙니다.
데이터들이 어디에 적재되어 있는지 데이터의 중요도가 시간에 따라 변하는지 등을 고려하면서 데이터를 관리해야합니다.

가설 검정

항상 일의 성공 지표를 생각해야합니다. 객관적인 가설을 수립해야하며 지표를 계산해서 낸 결과가 타당해야합니다. 지표를 어떻게 계산하고 어떻게 설명할지 알고 있어야 합니다.

가능하면 간단한 솔루션으로 시작

반복 기반의 점진적인 개발방식을 사용해서 간단한 솔루션으로 먼저 시작하고
원하는 결과가 나오면 복잡한 모델로 갈 필요없이 그냥 중단하는 것이 좋습니다.

Twitter Facebook LinkedIn

[TIL] 21/02/02

Byeongheon Kang

모델을 만들 때 생각해야 할 점

머신러닝 모델을 launch 할 때 테스트를 잘 해야합니다.

리얼타임 머신러닝

데이터 청소

가설 검정

가능하면 간단한 솔루션으로 시작

공유하기

댓글남기기

참고

RankZephyr: Effective and Robust Zero-Shot Listwise Reranking is a Breeze! 논문 요약

대형 언어 모델(LLMs)은 왜 무관한 문서를 ‘관련 있음’으로 잘못 판단할까?

대형 언어 모델(LLMs)은 사용자의 검색 선호도를 얼마나 정확히 예측할 수 있을까?

[TIL] 21/06/29 임베딩