728x90 전체 글162 Linear Classification, Logistic Regression [ Linear Classification ] Classification 이란? - training set의 output(target) variable이 범주 형태로 주어지는 것. - linear classification - 일차 함수, 즉 직선 형태의 boundary를 이용해 data를 분류하는 model ex) 위의 binary classification 같은 경우, 두 class data의 범주를 나누어주는 경계인 'Decision boundary'를 찾는것이 목표. ex) Decision boundary를 알고 있다면, test data 'x'에 따른 target class를 예측할 수 있다. Linear Classification에서 output variable을 찾는 방법 - Threshol.. 2021. 11. 20. ML Basic 정리 [Step of ML] (1) Training(learning) : Model(NN, DT 등)을 Training Dataset에 대해서 fitting시키는 과정 (2) Test(Inference) : Training을 통해 데이터에 가장 잘 맞는 모델을 찾은 후, 학습한 모델을 통해 Test Dataset에 대해서 성능을 측정하는 과정 [Dataset] - 소규모 data의 경우 6:2:2, 대규모 데이터의 경우 98:1:1의 비율을 갖는다. (1) Training Dataset : 학습에 사용 (2) Validation Dataset : 모델 선택에 사용. 여러 모델의 성능을 측정하여 최종 모델을 선택함 (3) Test Dataset : 최종 모델에 대한 성능 측정에 사용 [교차검정법 (k- fold.. 2021. 11. 20. 쏘카 Socar x 멋사 AI 엔지니어 육성 부트캠프 참여! [1주차, 2주차 1/2] 4학년때 수강했던 인공지능 과목에서 팀 프로젝트를 진행한 적이 있다. 큰 틀은 고객 구매 정보 데이터를 기반으로 사기 거래를 예측하고, 이를 기반으로 고객을 분류한 뒤 고객에 맞는 물품 구매 추천시스템을 개발하는 것 이었지만, 막상 내가 개발에 주도적으로 참여한 부분은 고객 분류 및 추천시스템 개발 부분, 즉 classification, clustering, user/item based collaborative filterigng.. 등을 구현하는 부분이었다. (그 당시 내가 자신있던 부분이어서 선택하였다.) 지금 드는 생각은, 아... 사기 탐지 부분을 맡아서 할 걸 그랬다. 싶은 부분이 있었다. Decision Tree와 Random Forest, Neural network, 여러 층의 hidden .. 2021. 10. 22. [Python3] Bugs Chart Crawling, Encoding Error 해결, UTF-8 Encoding 방식의 문제점, BOM 음원 사이트 Bugs에서 장르 별 인기순 음악 list 정보를 받아 csv파일로 저장하기 위한 코드를 작성하던 중, csv파일 인코딩 문제를 겪게 되었다. Python3의 경우에는 ANSI로 작성된 파일만 읽을 수 있기 때문에, UTF-8이나 CP949로 작성된 파일을 읽을 때는 인코딩 형식을 변환해주어야 한다. savename : file 경로 wt : w -> Writing mode , t -> Text mode -1 : buffering utf-8 utf-8 만으로 encoding을 했을 때는, 오류가 생겼다. utf-8이라는 string, 즉 문자열로 처리되었기 때문이다. uft-8-sig sig는 signature의 약자이다. 문자열이 아닌 인코딩 정보로 인식하고, 즉 BOM을 파일 정보로 취급.. 2021. 10. 13. SQL / Data 분석 / 데이터 분석 보고서 작성 '지표' 라고 하는 것은, 성과를 평가하기 위한 기준으로, 데이터 분석을 위한 좋은 지표를 선택(혹은 도출)해야 한다. 1. 수치 즉, 숫자로 표현 가능한 '측정 가능한 지표'를 사용한다. 객관적이고, 명확한 의미를 찾기 위함이다. 2. 비율 수치 지표를 사용하는 것은 맞지만, 이를 그대로 사용하기보단 '비율'을 이용하는 것이 좋다. 데이터를 분석 하는 것은 데이터 자체를 보려고 한다기 보다는, 데이터를 '분석'해 가설의 기대 효과와 전망을 파악하기 위함이니까!! 3. 최소한의 지표 양치기는 데이터 분석에서 가장 의미 없는 단어가 아닐까 싶다. 의미 없는 지표는 데이터의 관리만 어렵게 할 뿐, 의미 있는 인사이트를 도출 시킬 수도 없다. [ 데이터 분석 보고서 작성 절차 ] 기계적으로 요청하는 쿼리만 짜.. 2021. 10. 10. [python3] 11866 요세푸스 문제 0 https://www.acmicpc.net/problem/11866 11866번: 요세푸스 문제 0 첫째 줄에 N과 K가 빈 칸을 사이에 두고 순서대로 주어진다. (1 ≤ K ≤ N ≤ 1,000) www.acmicpc.net [ 맨 처음 생각한 풀이 ] 1부터 입력 받은 N까지 존재하는 리스트의 0번째 원소와 -1번째 원소가 맞닿아 있는 원 모양의 구조를 생각했다. 현재 위치를 저장한후 그 위치를 기준으로 다음 K번째 요소가 어디에 있는지를 계산하면 된다. 그리고, 특정 위치의 원소를 제거해야 하므로 pop()을 사용하면 되겠다고 생각했다. K번째 요소가 리스트의 크기를 넘어가는 경우, 원 모양의 특성상 0번부터 시작하게 되는데, 이것은 원소의 전체 길이와 현재 위치를 나눈 나머지를 이용해 계산할 수 .. 2021. 10. 4. 이전 1 ··· 22 23 24 25 26 27 다음 728x90