오블완 17

[Azure] AI Search 란

개요최근 신규로 담당한 업무 관련하여 AI Search라는 Azure의 서비스를 다루게 되었다. 업무를 진행하기 전에 어떤 서비스이고, 필요한 개념은 뭐가 있는지 정리해 둔다.  AI Search포괄적이고 고급 검색 기술을 갖춘 엔터프라이즈 지원 검색 시스템.구조적이거나 반구조적, 비구조적 문서에서 데이터를 추출하는 검색 솔루션을 만들기 위한 인프라와 도구를 제공한다.Azure Search라는 이름으로 시작해서 Azure Cognitive Search로 변경되었고, 지금은 AI Search라는 이름으로 서비스 중이다.Azure에서 RAG 기반 애플리케이션을 구축할 때 주로 권장된다. 기본적으로 Azure OpenAI와 Azure Machine Learning 간에 LLM이 연동되어 있다. 🤔 Azure..

Azure 2024.11.14

[Python] 비동기 - EventLoop

개요이전에 2024.06.26-[Python] asyncio - 비동기 프로그래밍에서 Python에서 비동기 프로그래밍을 하기 위한 라이브러리, 문법, 실행 방법을 알아보았었다.근데 실제로 사용해 보니 동작 방식에 대한 이래도가 너무 낮다는 느낌이 들었다. 그래서 이번 글에서는 Python에서 비동기 함수를 실행하는 주체인 EventLoop에 대한 개념을 적어두려고 한다.  EventLoopEventLoop는 비동기 프로그램의 핵심적인 요소로, 비동기 작업과 콜백, 네트워크 I/O 연산, 자식 프로세스 등을 실행한다.일반적으로 개발자는 asyncio.run과 같은 고수준 함수를 사용하여 비동기 프로그래밍을 개발하게 된다. 즉, EventLoop를 직접 참조하거나 관련 메서드를 호출할 필요가 없다. 하지만..

Python 2024.11.13

[Git] stash - 특정 파일만 임시 저장

개요최근 Git 로컬 레포지터리에서 수정 작업을 많이 하고 있는데, 수정 내용을 간단하게 저장하고 다시 적용할 수 있는 stash를 적극적으로 활용하고 있다. git stash 명령은 워킹 디렉터리에서 수정이 발생한 모든 내용을 임시로 저장하는데, 특정 파일만 저장할 때도 많아서 방법을 적어둔다.  git stash pushgit stash [push [-p|--patch] [-S|--staged] [-k|--[no-]keep-index] [-q|--quiet] [-u|--include-untracked] [-a|--all] [-m|--message ] [--pathspec-from-file= [--pathspec-file-nul]] ..

Git | GitLab 2024.11.12

[Linux] gzip - 압축률 확인

개요gzip으로 압축된 파일이 원본 대비 얼마나 압축되었는지 확인하고 싶다. 압축 파일과 압축 해제한 파일의 용량을 비교해 보면 되겠지만, 굳이 압축을 풀지 않고 확인할 수 있는 방법을 알아두면 편한 것 같다.방법을 적어둔다.  압축률 확인gzip 압축 방식에 대해서 작업을 할 때는 gzip 명령을 사용한다. gzip 명령은 파일 압축, 파일 압축 해제, 내용 확인 등의 기능을 제공한다. 그중 압축률 확인은 내용 확인 기능에 해당한다.gzip -l # -l : 압축 파일 내용 나열위의 사진의 경우 압축률이 77.1%인 것을 확인할 수 있다. 여러 압축 파일을 나열하면 각각의 파일 압축률과 전체 파일 압축률을 확인할 수 있다.   참고 문서http://igoni.kr/books/1-os/page/gzip

Linux 2024.11.11

[Python] 비동기 - Future와 Task

개요이전에 2024.06.26-[Python] asyncio - 비동기 프로그래밍에서 Python에서 비동기 프로그래밍을 하기 위한 라이브러리, 문법, 실행 방법을 알아보았었다.근데 실제로 사용해 보니 동작 방식에 대한 이해도가 낮아 프로그래밍에 어려움을 느꼈다. 그래서 이번 글에서는 Python 비동기 프로그래밍에서 사용하는 Future와 Task 개념에 대해 정리한다.  FutureFuture란 비동기 프로그래밍에서 널리 사용하는 개념으로, 어떠한 작업의 실행 상태와 결과를 저장하는 객체이다.실행 상태는 PENDING, CANCELLED, FINISHED 값을 가지는데, CANCELLED / FINISHED가 작업의 완료를 의미한다. 실행 결과는 작업의 결과 또는 작업을 진행하면서 발생한 예외 객체가..

Python 2024.11.09

[Pandas] S3에 gz 압축 DataFrame csv 업로드하기

개요Pandas로 처리한 DataFrame을 압축한 CSV 형태로 S3에 업로드하고 싶다. 가능하면 CSV 파일을 파일 시스템에 남기지 않을 수 있었으면 좋겠다. 적절한 방법이 있는지 찾아보자.  테스트 데이터이전에 S3에 저장했던 아래 데이터를 사용하여 테스트해 본다.one, 1two, 2three, 3   코드DataFrame의 CSV 형식 데이터를 gz 압축 파일 객체에 쓰고, 압축 파일 객체의 값을 S3에 업로드하는 방식으로 문제를 해결할 수 있다.  1. 압축할 DataFrame 로드import boto3import pandas as pdbucket = 'BUCKET_NAME'prefix = 'PREFIX'filename = 'FILE_NAME# 압축할 파일 로드df = pd.read_csv(f..

[Yaml] null 표현하기

개요최근 yaml 형식의 문서에 null 값을 명시적으로 지정해야 하는 일이 생긴 김에, 방법을 기억해 두고자 적어둔다.설정한 값은 PyYAML을 사용해 어떻게 인식되는지 확인해본다.  null 키워드yaml에서 빈 값을 지정하는 가장 기본적인 방법은 null 키워드를 사용하는 것이다.key: null  테스트import yamlyaml_txt = """key: value1: null"""print(yaml.safe_load(yaml_txt))  ~~ 문자를 사용하여 null을 표현할 수도 있다.key: ~ 테스트import yamlyaml_txt = """key: value1: null2: ~"""print(yaml.safe_load(yaml_txt)) 생략키-값을 기재할 때 값을 생략해도 null로 ..

기타 2024.11.07
1 2