| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
- 900gle
- Mac
- zip 파일 암호화
- matplotlib
- flask
- high level client
- MySQL
- analyzer test
- plugin
- docker
- springboot
- API
- zip 암호화
- 파이썬
- license delete
- aggregation
- licence delete curl
- sort
- 차트
- Python
- ELASTIC
- Test
- Kafka
- Elasticsearch
- TensorFlow
- query
- token filter test
- License
- Java
- aggs
- Today
- Total
목록ElasticStack8/NLP (5)
개발잡부
RAG 아키텍처는 Retrieval-Augmented Generation의 약자로, 대규모 언어 모델(LLM)에 외부 지식 검색(retrieval) 단계를 결합한 구조를 말합니다. 기본 아이디어는 LLM이 모든 정보를 사전에 학습해두는 대신, 질의 시점에 적절한 문서를 검색해서 참고하도록 만드는 것 RAG 아키텍처의 주요 구성 요소사용자 질의(Query)사용자가 질문이나 요청을 입력합니다.Retriever (검색기)주어진 질의를 기반으로 외부 지식 저장소에서 관련 문서를 검색합니다.보통 벡터 데이터베이스(Vector DB, 예: FAISS, Milvus, Weaviate, ElasticSearch with dense vectors) 를 사용해 임베딩 기반 유사도 검색을 수행합니다.검색 대상은 사전 구축..
koBert 를 사용 loanword_classifier 생성 process로그 추출 후 필터링공백기준 1단어이상 조합, 숫자로만 이루어진 단어, 특수문자 들어간 단어 제외/Users/doo/doo_py/homeplus/season_keyword/log_extrect_clean.py (로그추출 스크립트)result/log_result_clean.txt (로그 파일)외래어 분류/Users/doo/doo_py/homeplus/new_nlp/loanword_inference.py (외래어 분류)/result/loanword/loanword_list.csv (외래어)native_list.csv (일반어)API 조회/Users/doo/doo_py/homeplus/homeplus_api/search.py (..
BERTklue/bert-base (한국어 사전으로 학습된 모델) 모델 로드Device : Local CPU Fine-Tunning식품/비식품“text”와 “label(1=음식, 0=비음식)” 컬럼으로 구성으로 학습식품 비식품 1031개 단어학습 중 - 1000개 학습 약 2분 10초 소요 (epoch 5)추론 10000개 6분 30초 소요 테스트추출 기간: 2024-06-01 00:00:00 ~ 2024-08-31 00:00:00추출 키워드: 59,973개 (Type 에러 발생시키는 키워드 제거)결과식품 : 48,837개비식품: 11,136개 시즌 키워드사계절 및 비시즌 파일로 추론 결과 생성0: "비시즌" - nonseason_list.csv1: "봄" - spring_list.csv2: "여름" -..
흐미 오래걸린다. 허깅페이스에 있는걸 그대로 쓰려고 하니까 방화벽에 막혀서 암것도 안되는 상황 그래서 로컬에 구축 허깅페이스에서 이 파일들 다운 받음 그리고 트레이너 선생님 import reimport pandas as pdimport numpy as npimport torchfrom torch.utils.data import Dataset, DataLoader # Dataset 추가from torch.optim import AdamWfrom transformers import ( BertTokenizer, BertForSequenceClassification, DataCollatorWithPadding, get_linear_schedule_with_warmu..
Elasticsearch 8.0에서는 자연어 처리(NLP) 모델에 대한 네이티브 지원을 Elasticsearch에 직접 제공하여 벡터 검색을 더욱 실용적으로 구현하고 있습니다. 또한 Elasticsearch 8.0은 최근접 유사 항목(ANN) 검색에 대한 네이티브 지원을 포함하므로 빠르고 규모에 맞게 벡터 기반 쿼리를 벡터 기반 문서 모음과 비교할 수 있습니다. Elastic 8.0을 사용하면 사용자는 Elasticsearch에서 직접 PyTorch 머신 러닝 모델(BERT 등)을 사용할 수 있고, Elasticsearch 내에서 기본적으로 이러한 모델을 사용해 추론을 수행할 수 있습니다. 이러한 모델은 사용자 지정 모델이 될 수도 있고 Hugging Face와 같은 리포지토리에 있는 커뮤니티에 게시된 ..