https://www.youtube.com/watch?v=kYB8IZa5AuE&list=PLZHQObOWTQDPD3MizzM2xVFitgF8hE_ab&index=3 불행하게도, 누구도 매트릭스가 무엇인지 말할 수 없습니다. 당신 스스로 찾아야만 합니다. - 모피어스 (영화 매트릭스 중에서) (행렬 연산을 시각적으로 이해시키는 놀라울정도로 적절한 문장) 안녕 모두들! 제가 선형대수에서 단지 하나의 주제를 선택해야 한다면, 특히 선형대수에 대해 하나도 모르는 학생을 위해서 하나 선택해야 한다면, 그것은 선형변환(linear transformation) 과 행렬과의 관계입니다. 이 동영상에서는 2차원 예제를 통해 선형변환이 무엇인지에 관해 집중해보겠습니다. 그리고 행렬-벡터 곱셈과 어떤 관련이 있는지도 알아보..
전체 글
내공냠냠Linear combinations, span, and basis vectors | Chapter 2, Essence of linear algebra https://www.youtube.com/watch?v=k7RM-ot2NWY&list=PLZHQObOWTQDPD3MizzM2xVFitgF8hE_ab&index=2 지난번 비디오에서 벡터 덧셈과 스칼라 곱셈과 함께 벡터 좌표를 설명하였습니다. 예를들어 숫자쌍과 2차원 벡터라는 개념들 사이를 오가면서 말이죠. 이제, 여러분들에게 벡터 좌표가 많이 익숙해 익숙해졌다고 생각합니다. 그런데 이런 좌표들을 다른방식으로 볼 수 있는 흥미로운 또 다른 관점이 있습니다. 선형대수에서 꽤나 중심에 해당하는 것인데요. [3, -2] 와 같은 벡터를 묘사하는 숫자쌍이 있을때 ..
문서 간 유사도를 구하는 세 가지 방법이 있다. 다른 방법들도 많지만 이해하기 쉬운 세 가지만 찾아보았다. 설명이 잘 나온 블로그가 아래 있어서 기록. 1) 유클리드 유사도 https://heytech.tistory.com/357 [NLP] 문서 유사도 분석: (2) 유클리디안 거리(Euclidean Distance) 📚 목차 1. 유클리드 거리 개념 2. 유클리드 거리 실습 1. 유클리드 거리 개념 수학적 관점 접근 유클리드 거리(Euclidean Distance)는 두 점 사이의 거리를 계산하는 기법입니다. 두 점 \(p\)와 \(q\)가 각 heytech.tistory.com 2) 코사인 유사도 https://heytech.tistory.com/356 [NLP] 문서 유사도 분석: (1) 코사인 유..

Purpose CountVectorizer를 이용해서 문서에 나온 단어 빈도수 뽑아보기 Source from sklearn.feature_extraction.text import CountVectorizer import pandas as pd import numpy as np dict_voca = {} final_voca = {} bow = CountVectorizer() X_train = document X_train_bow = bow.fit_transform(X_train) sorted_voca = sorted(bow.vocabulary_.items()) for word, index in sorted_voca: dict_voca[index] = word array_voca = X_train_bow.t..
https://www.youtube.com/watch?v=fNk_zzaMoSs&list=PLZHQObOWTQDPD3MizzM2xVFitgF8hE_ab&index=1 기본적, 근본적인 선형 대수의 구성조각은 벡터입니다. 그래서 우리가 정확히 벡터가 무엇인지에 대해 알고가는 것이 중요합니다. 당신도 알다시피 벡터에 대해 서로 구별되지만 관련깊은 3 가지 관점이 있습니다. 하나는 물리학 학생 관점이고, 두번째는 컴퓨터 과학 학생 관점, 마지막으로 수학자들의 관점입니다. 물리학 학생의 관점에서 벡터는 공간에서 화살표입니다. 벡터는 길이와 방향을 가집니다. 이 두가지가 같다면 당신이 공간 어디로 이동시키든 같은 벡터입니다. 평평한 평면에 존재하는 벡터는 2차원 벡터이고, 우리가 살고 있는 공간같이 확장된 공간에 ..
LBGM 익숙해지는 게 좋다. 한국어 임베딩 - 책 2020년도 초창기까지의 연혁을 잘 다룬 NLP 책 딥러닝 쪽으로 갈수록 전통적인 틀 회귀, 분류 이런 것에는 맞지는 않다 2017년도까지의 분야별 논문 연혁 https://coggle.it/diagram/Wf5mYoJbsgABUF9P/t/neural-net-arch-genealogy Neural Net Arch Genealogy (CNN (Object Detection (R-CNN, Fast R-CNN,… Neural Net Arch Genealogy coggle.it sota (state of the art) https://paperswithcode.com/sota Papers with Code - Browse the State-of-the-Art ..
텍스트마이닝이란? 텍스트에서 의미있는 정보를 얻는 것 기계가 의미있는 정보를 얻을 수 있도록. 기계가 사람처럼 했으면 좋겠으니까 기계친화적인 데이터로 바꿔줘야겠다. 사람 친화적 -> 기계 친화적 바꾸는 과정에서 한 번의 왜곡이 생긴다. 그 왜곡을 최소화 하기 위해 전처리에 대한 수고를 많이 한다. 텍스트를 정형화된 데이터로 변환하여 의미있는 정보를 얻어내는 것 최대한 얻을 수 있는 빈도수만 살려서 전처리를 하고 그 모델도 빈도수를 기반으로 분석하는 모델을 쓰겠다. 모델을 쓸 때는 순서정보를 반영하는 전처리를 쓰고 순서정보를 반영하는 시퀀스 모델을 쓰면 된다. 데이터 수집 (웹크롤링..? 잘되어있는 데이터를 가져와도 좋다. 주제에 따라서 다르다.) 웹크롤링: 웹(접근가능한 컴퓨터 집단)이라는 공간에서 데이..
설치 !pip install googletrans==3.1.0a0 설치 시 버전을 지정해주는 이유는 References에서 볼 수도 있겠지만, 리스트를 전달하여 번역을 할 때 2022년 11월 기준으로 버전을 지정하지 않고 설치하였을 때, 오류가 발생하였기 때문입니다. 사용 from googletrans import Translator translator = Translator() translations = translator.translate(['The quick brown fox', '뛰다 over', 'the lazy dog'], dest='ko') for translation in translations: print(translation.origin, ' -> ', translation.text)..