Linear combinations, span, and basis vectors | Chapter 2, Essence of linear algebra https://www.youtube.com/watch?v=k7RM-ot2NWY&list=PLZHQObOWTQDPD3MizzM2xVFitgF8hE_ab&index=2 지난번 비디오에서 벡터 덧셈과 스칼라 곱셈과 함께 벡터 좌표를 설명하였습니다. 예를들어 숫자쌍과 2차원 벡터라는 개념들 사이를 오가면서 말이죠. 이제, 여러분들에게 벡터 좌표가 많이 익숙해 익숙해졌다고 생각합니다. 그런데 이런 좌표들을 다른방식으로 볼 수 있는 흥미로운 또 다른 관점이 있습니다. 선형대수에서 꽤나 중심에 해당하는 것인데요. [3, -2] 와 같은 벡터를 묘사하는 숫자쌍이 있을때 ..
전체 글
내공냠냠문서 간 유사도를 구하는 세 가지 방법이 있다. 다른 방법들도 많지만 이해하기 쉬운 세 가지만 찾아보았다. 설명이 잘 나온 블로그가 아래 있어서 기록. 1) 유클리드 유사도 https://heytech.tistory.com/357 [NLP] 문서 유사도 분석: (2) 유클리디안 거리(Euclidean Distance) 📚 목차 1. 유클리드 거리 개념 2. 유클리드 거리 실습 1. 유클리드 거리 개념 수학적 관점 접근 유클리드 거리(Euclidean Distance)는 두 점 사이의 거리를 계산하는 기법입니다. 두 점 \(p\)와 \(q\)가 각 heytech.tistory.com 2) 코사인 유사도 https://heytech.tistory.com/356 [NLP] 문서 유사도 분석: (1) 코사인 유..
Purpose CountVectorizer를 이용해서 문서에 나온 단어 빈도수 뽑아보기 Source from sklearn.feature_extraction.text import CountVectorizer import pandas as pd import numpy as np dict_voca = {} final_voca = {} bow = CountVectorizer() X_train = document X_train_bow = bow.fit_transform(X_train) sorted_voca = sorted(bow.vocabulary_.items()) for word, index in sorted_voca: dict_voca[index] = word array_voca = X_train_bow.t..
https://www.youtube.com/watch?v=fNk_zzaMoSs&list=PLZHQObOWTQDPD3MizzM2xVFitgF8hE_ab&index=1 기본적, 근본적인 선형 대수의 구성조각은 벡터입니다. 그래서 우리가 정확히 벡터가 무엇인지에 대해 알고가는 것이 중요합니다. 당신도 알다시피 벡터에 대해 서로 구별되지만 관련깊은 3 가지 관점이 있습니다. 하나는 물리학 학생 관점이고, 두번째는 컴퓨터 과학 학생 관점, 마지막으로 수학자들의 관점입니다. 물리학 학생의 관점에서 벡터는 공간에서 화살표입니다. 벡터는 길이와 방향을 가집니다. 이 두가지가 같다면 당신이 공간 어디로 이동시키든 같은 벡터입니다. 평평한 평면에 존재하는 벡터는 2차원 벡터이고, 우리가 살고 있는 공간같이 확장된 공간에 ..
LBGM 익숙해지는 게 좋다. 한국어 임베딩 - 책 2020년도 초창기까지의 연혁을 잘 다룬 NLP 책 딥러닝 쪽으로 갈수록 전통적인 틀 회귀, 분류 이런 것에는 맞지는 않다 2017년도까지의 분야별 논문 연혁 https://coggle.it/diagram/Wf5mYoJbsgABUF9P/t/neural-net-arch-genealogy Neural Net Arch Genealogy (CNN (Object Detection (R-CNN, Fast R-CNN,… Neural Net Arch Genealogy coggle.it sota (state of the art) https://paperswithcode.com/sota Papers with Code - Browse the State-of-the-Art ..
텍스트마이닝이란? 텍스트에서 의미있는 정보를 얻는 것 기계가 의미있는 정보를 얻을 수 있도록. 기계가 사람처럼 했으면 좋겠으니까 기계친화적인 데이터로 바꿔줘야겠다. 사람 친화적 -> 기계 친화적 바꾸는 과정에서 한 번의 왜곡이 생긴다. 그 왜곡을 최소화 하기 위해 전처리에 대한 수고를 많이 한다. 텍스트를 정형화된 데이터로 변환하여 의미있는 정보를 얻어내는 것 최대한 얻을 수 있는 빈도수만 살려서 전처리를 하고 그 모델도 빈도수를 기반으로 분석하는 모델을 쓰겠다. 모델을 쓸 때는 순서정보를 반영하는 전처리를 쓰고 순서정보를 반영하는 시퀀스 모델을 쓰면 된다. 데이터 수집 (웹크롤링..? 잘되어있는 데이터를 가져와도 좋다. 주제에 따라서 다르다.) 웹크롤링: 웹(접근가능한 컴퓨터 집단)이라는 공간에서 데이..
설치 !pip install googletrans==3.1.0a0 설치 시 버전을 지정해주는 이유는 References에서 볼 수도 있겠지만, 리스트를 전달하여 번역을 할 때 2022년 11월 기준으로 버전을 지정하지 않고 설치하였을 때, 오류가 발생하였기 때문입니다. 사용 from googletrans import Translator translator = Translator() translations = translator.translate(['The quick brown fox', '뛰다 over', 'the lazy dog'], dest='ko') for translation in translations: print(translation.origin, ' -> ', translation.text)..
정확도 F1 스코어 ROC_AUC 뒤에가 예측값 앞에는 맞췄다, 못맞췄다 예측 Negative Positive 실제 Negative TN FP Positive FN TP 정확도 Accuracy (TP+TN) / 전체 정밀도 Precision TP / (TP + FP) 재현율 Recall TP / (TP + FN) F1 스코어 2 * 정밀도 * 재현율 / 정밀도 + 재현율 정밀도와 재현율을 둘 다 TP가 분자에 있지만, Precision이 예측한 것이 분모, Recall이 실제인 것이 분모. ROC_AUC AUC : 면적으로 평가하겠다. FPR = 1- 특이도 = FP / (TN + FP) TPR = recall = sensitivity = TP / (FN + TP) p 와 n 둘 다 잘 맞추는지 확인하겠..