machine learning
-
-
Cluster 평가지표machine learning 2025. 2. 1. 08:41
최근 회사업무에서 클러스터링을 조금씩 활용해보고 있는데, 그 과정에서 학습하게 된 클러스터의 평가지표 내용을 정리한다. Previous Knowledge01. 필요성클러스터링은 비지도 학습의 한 종류로, 별도의 가이드 없이 데이터의 특성만으로 데이터를 군집화(labeling 한다고도 볼 수 있겠네요)하는 방법론이다. 데 이터 특징을 잘 종합하여 클러스터링 하였다면, 각 클러스터에 붙여지는 이름을 label로 활용할 수도 있다.다만 클러스터링을 수행하는 방법이 다양하고, 같은 방법론 안에서도 설정값에 따라 클러스터 성능은 다변한다. 따라서 주어진 데이터 세트에 대해 여러 번의 클러스터링을 시도할 여지가 존재하고, 각각의 시도에 대한 점수(scoring) 필요성이 생긴다. 02. 평가항목 클러스터를 평가하는..
-
Model2Vec: 모델을 외워봅시다machine learning 2024. 12. 22. 13:22
plm 기반의 embedding vector는 대량의 corpus를 기반으로 학습했기에 뛰어난 성능을 발휘하지만, 모델 백본 자체의 자원사용량이 크다는 이슈 가 있다 . model2vec 기법은 vector space의 근사 및 정렬을 통해 매우 가벼운 모델사이즈로 성능저하 없이 동일한 벡터임베딩(공간)을 생성한다 . 01. Architecture & Principle model2vec는 sentence transformer 라이브러리를 기반으로 동작합니다. 가장 유용한 특징 중 하나는, 경량모델을 만들기위해 임의의 정의된 데이터셋이 필요하지 않고, 모델(과 특정 경우 custom vocabulary)만을 필요로 한다는 사실입니다. tokenizer에 사용된 vocab dictionary를 빈도 위주로 ..
-
Matryoshka Representation Learningmachine learning 2024. 12. 22. 10:01
plm(pretrained-language model)을 활용한 임베딩 생성 을 기반으로 벡터검색 을 수행할 때, 일반적으로 큰 차원(768-dim 이상)으로 인해 벡터 검색 서빙에 bottle-neck으로 작용한다 . matryoshka representation learning은 이러한 문제점을 해결하여 성능저하 없이 저차원의 벡터를 활용할 수 있게 하고 , 기 법 을 적용하는 것만 으로도 임베딩 품질 이 개선되는 효과 가 있다 .Introduction to Matryoshka Representation Learning: https://huggingface.co/blog/matryoshka01. MTEB Leaderboard Massive Text Embedding Benchkmark는 text em..
-
딥러닝 하드웨어 담론 (4)machine learning 2024. 11. 30. 06:21
여태까지 3편의 담론을 쓰면서 기저에 깔려있던 핵심주제는 "AI 모델의 추론"이라고 할 수 있습니다. 모델 추론이라는 행위를 하기 위해서 숱한 ml researcher들이 사비로 수백~수천만원씩을 소모하고, 작은 기업들도 nvidia 그래픽카드를 구하기 위해서 수천만 ~ 수억원을 기꺼이 지불합니다. 한편, 모델 추론과 학습을 원활하게 지원하기 위한 새로운 방식의 반도체 장비를 개발하기 위해 글로벌 회사들 또한 저마다의 영역에서 경쟁을 벌이고 있습니다.https://turingpost.co.kr/p/cerebras-nvidiahttps://www.hankyung.com/article/2024051761381 그러면 도대체 왜 이렇게 다들 추론을 열심히 하려고 노력할까요? 이 물음에 대해서 제가 나름대로 생..
-
딥러닝 하드웨어 담론 (3)machine learning 2024. 11. 24. 23:18
이전 글에서는 RISC 아키텍쳐는 무엇이고 이것을 통해 어떻게 그래픽, ai 행렬 연산이 가속되는지를 살펴보았습니다. 또, 이런 구조의 컴퓨터 아키텍쳐는 memory, cpu, gpu 등 여러 요소들로 구성되고 cuda와 같은 라이브러리가 이런 과정을 담당한다는 사실 또한 알게 되었습니다. 또한 첫 담론에서 애플 맥시리즈는 m1 칩 등장 이후로 이러한 구조를 차용하지 않는 것처럼 보이고, 경우에 따라 매우 저렴한 gpu vram 확보용도로 활용될 수도 있음을 이야기했습니다. 그렇다면 애플은 어떤 마법이라도 부려서 하나의 칩에서 모든 작업을 수행하고, gpu도 필요없게 만든 것일까요? 이를 이해하기 위해서는 SoC라는 개념에 대해서 알아볼 필요가 있습니다. SoC (Sysytem on a Chip)SoC는..
-
딥러닝 하드웨어 담론 (2)machine learning 2024. 11. 16. 15:57
이전에 작성한 딥러닝 하드웨어 담론 (1) 글은 맥클러스터를 구축하여 상용으로 공급되는 nvidia gpu 장비를 대체할 수 있을까? 라는 궁금증에 대해 대답해보려는 내용을 담고 있습니다. 링크드인에 글 소개를 올릴 때에는 동료 개발자분들과 이런 주제로 나눈 대화를 정리한 것이라고 언급드린 바 있습니다. 임베디드 개발자로 근무하시는 한 분과 이런 대화를 나누게 되었습니다. 램슬롯이 4개 가량 부착가능한 보드를 통해 ddr5 메모리를 256gb 정도 장착한 데스크탑을 구성하면 맥클러스터를 구성하는 것보다 더 저렴하게 구성할 수 있다는 것이 핵심이었습니다. 당연히(?) 추론연산의 속도가 매우 느릴테니 metal api 등으로 하드웨어 가속을 지원받으면 더 쓸모있어질 것이라는 내용입니다. 저는 여기까지 이야..
-
딥러닝 하드웨어 담론 (1)machine learning 2024. 11. 15. 19:48
1. Mac-mini cluster for llm inference?오랜만에 페이스북에 들어갔다 연구자/엔지니어들이 모여 있는 딥러닝 관련 모임인 tensorflow-kr 채널에서 흥미로운 주제를 발견했습니다. 저도 가난한 엔지니어 중 한 명인 터라, 자세하게 들여다보게 되었습니다. apple사의 m 시리즈 칩들은 기본적으로 metal api를 통해 하드웨어 연산가속을 지원합니다. 딥러닝의 컴퓨팅의 근간이 되는 병렬프로그래밍의 매우 큰 줄기인 cuda operation 또한 같은 맥락의 기술이므로 M-Chip 등장 이후의 맥 제품들은 일종의 "꽤 저렴한 가격에 꽤 크게 얻을 수 있는 gpu vram"으로 보여진다고도 할 수 있습니다. 이러한 주장을 쉽게 이해해보기 위해 2024년 11월 기준 최신 mac..