일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- 플루터
- formik
- fake jwt
- 애자일 싫타
- 논블록킹 성능
- Loki 로그
- nGinder
- 오블완
- save/update
- jsonMarshaller
- UnsupportedOperationException
- 월급루팡 일지
- 았
- ㅉ때
- pinpoint
- 노드간 통신
- 핀포인트
- OIDC
- Armeria
- intellij
- 티스토리챌린지
- pinpoint 2.5.3
- Ingress Controller Fake
- LPOS
- 7879
- RedirectService
- 개발 어렵당.ㅠ
- reids
- R2DBC Paging
- hbase 저장공간 설정
- Today
- Total
목록개발이야기/AI (11)
대머리개발자

실시간 API를 붙이기 위한 리소스는 Cost가 너무나도 ㅎㄷㄷ 하다..사업보고서를 요약하는 배치를 만들어.. AI 응답을 미리 저장해 놓고..그것을 서비스 하기로 방향성을 잡았다. 다트를 통해 PDF를 일괄 다운 받아서....RAG를 하는 것으로 고려를 했었는데..어차피.. 일회성으로 진행하기 때문에.. TEXT 레벨로 실시간 받아서 처리하는 것으로 진행했다. RAG를 사용하려는 이유는 답변에 필요한 부분만 프롬프트로 만들어서 사용하려고 했으나.... 본문 일부를 아예 통으로 밀어 넣는 부분이 사실 답변의 쿼리티가 좋았고 그리고 어차피.. 일회성으로 답변을 만들어 놓을거기 때문에.. 프롬프트를 굳이 요약할 필요성이 없었다. 모델로 1분에 약 1-2건 정도가 요약된다. gemma3:12b 네이버 클라우드..

나 혼자 사용하기에 딱이다. 다수에게 서비스하기에는 너무나 할 것이 많고.. 충격적인 제약사항이 있다. 하나의 요청에... 하나밖에 처리를 못한다... 전혀 예상치 못했다.. 여러명에게 서비스하려면 아래처럼 ...구성..결국 20명 동접이고..... 나머지는 웨이팅 걸어야 하고.. 20개의 올라마를 올리려면 ㅋㅋ 서버 사양도....ㅎㄷㄷVRAM 48GB 이상 (예: A6000, 2x A100 40GB)RAM 64~128GB 이상 권장CPU: 16코어 이상 그냥 띠발 그럼 openAI를 쓰는게 베스트하다.chatGPT 가격이 왜 비싼지가 체감이 되네...아오 회사 정보는 즉, 사업보고서는 1년에 한 번 추가되니깐.. AI 답변을 일괄로 RDB에 저장해야 겠다.. 모든 사업보고서 AI 넘기면...약 8시간..

일단 젬마3:12b를 사용하고 있는데 너무나도 훌륭하다. 목표 :각 회사의 사업보고서를 RAG한 후 답변에 필요한 조각을 만들어서 프롬프트로 같이 전달 하고자 한다. 1. 사업보고서의 "개요 부분을 통"으로 넘길지..?2. 백터화 해놓고 유사도 검색을 해 필요한 부분만 발췌해서 넘길지.. 요것을 고민중이다. 참고)DART에서 API를 통해 바로 TEXT레벨로 사업보고서를 받을 수 있으나. RAG하기에는 PDF 형태가 더 이해하기 쉬울듯 하여 PDF 받을 수 있는 EndPoint를 찾았으나... 결론은 없다. 화면을 긁어서 dcm_no를 찾아서 호출해야 한다....그냥 하나 만들어 주지..아오!!사업보고서 다운로드 End-Pointurl = f'https://dart.fss.or.kr/pdf/downl..
상황에 맞게 써야하는게 정론이것 같다. 하나씩 테스트 해봐야 하는 노가다를 해보자! MilvusFAISSChroma라이선스/무료오픈소스(무료)오픈소스(무료)오픈소스(무료)영속성 (재시작 후 데이터 유지)O (DB 서버방식)X(기본:메모리) / 일부 O(파일저장)O (영속모드 있음)대용량 적합성매우 우수매우 빠름(로컬)중소규모 적합필터링/메타데이터 관리뛰어남제한적뛰어남운영 복잡도높음(서버 필요)낮음(로컬 파일)매우 낮음삭제/업데이트 지원지원어렵거나 불편지원RAG/RAG+ 용 RAG 라이브러리 호환매우 좋음매우 좋음매우 좋음 백터의 품질은 임베딩 모델에 결정 되기 때문에어떤 친구를 사용해도 문제는 없겠다. 단 서비스 대상의 규모에 따라 선택지는 있다.별도의 서버가 있다는 것은.. 많은 트래픽을 감당할 수 ..

ChatGPT가 나온 답변이다. 내가 만들고 있는 AI에서 나온 답변이다. 최근 기사들 위주로 RAG 해 놓고 프롬프트 이쁘게 만들어 넣고 맞춤형으로 답변이 나올 수 있도록 개발을 하고 있다. 현재 정테주 시황에 맞게 이재명 후보 관련 주도 보인다. ㅎㅎ 기능 1. DB에 있는 기사 제목과 본문을 RAG -> FEED-> 최신 기사에 스코어를 더 줌기능 2. 리포트 PDF를 RAG -> PDF기능 3. 기능1과 기능2를 MIX!! 여러가지 다른 시험들을 해보려고 한다. 현재 모델은 아래 두가지로 테스트 해보고 있고DeepSeek-llama3.1-Bllossom-8B.Q6_K.ggufllama-3-Korean-Bllossom-8B-Q4_K_M.gguf 구글에서 나온 젬마(Gemma) 도 있네.. ..

무료 사용가능한 임베딩친구들이 많다.그 친구 내부에서도 많은 모델들이 있다...하악하악사용 목적과 성능 요구사항에 따라서 테스트해야 한다...ㅎㅂ 늘 말은 쉽다. 테스트 기준 : PDF(4.8MB) RAG TESTPDF 로더 : PDFPlumberSplitter : RecursiveCharaterText 1. SentenceTransformersEmbeddings몇 가지만 모델만 테스트 해보자. 사실 얼마나 많이 달라질까? 의구심이 들긴했지만...결과는 바로 나왔다. 빠르고 가벼운 모델은 임베딩은 빨랐지만 질문에 대한 답변을 하지 못했다. 바로 Skip임베딩이 아무리 빨리 된다고 하더라도.. 결과가 없으면...의미가 없는 건데.. 다른 모델들도 의미가 있나 싶다. 빠르고 가벼운 모델- all-MiniL..

https://huggingface.co/MaziyarPanahi/DeepSeek-llama3.1-Bllossom-8B-GGUF/tree/main MaziyarPanahi/DeepSeek-llama3.1-Bllossom-8B-GGUF at main huggingface.co 이것저것 테스트 해보려고 보고 있는데.. 따근따근하게 2틀전에..나왔네...성능이 너무 좋타.. 동일한 질문 "너가 가장 잘하는 답변 분야가 뭐지?"DeepSeek-llama3.1-Bllossom-8B.Q6_K.gguf 딥시크의 답변 : 라마의 답변 : llama-3-Korean-Bllossom-8B-Q4_K_M.gguf두 LLM 모델 모두 "과기대"에서 한국어 연결을 강화시킨 모델이다. 뭔가 반응속도도 그렇고 빠릿빠릿한 느낌이다...

지금까지는 콘솔에서 테스트를 했지만.. 좀 더 우아(?)하게순수 코어만 TEST 하려면 크롬 확장 프로그램을 이용해 간단하게 해 볼 수 있다.크롬 확장 프로그램에서 올라마를 찾아서 설치하면 딱 끝! A-Z까지 이미 먼저 건너간 선배님들이 다 해놓았다 우리는 그냥 숟가락 들 힘만 있으면 된다. 늘 고맙습니다!! 물론 우린 api를 통해서 진행할 부분이지만 그냥 웹UI 형태로 테스트 해보고 싶었따.빠르게 테스트 해보고 싶다면 크롬 확장프로그램을 추천하는 바이다. 자바 대에충 8년.. 코틀린 대에충2년..써보다가파일썬 플라스크 보니깐.. 와.. 너무 간결하다.. 심플하다. 와.. 이러니깐. 서버리스에서 인기 있는 언어로 많이 쓰이는구만. 머물러 있지 말자!!@app.route("/ask", methods=["..