키자드에 등록된 yumdata의 티스토리 포스트 목록

yumdata의 등록된 링크

yumdata로 등록된 티스토리 포스트 수는 228건입니다.

Model Quantization (양자화) [내부링크]

모델 경량화 딥러닝 모델의 경우 모바일이나 임베디드 환경에서, 메모리, 성능, 저장공간 등의 제한이 있기 때문에 추론하기가 어렵습니다. 딥러닝 모델을 경량화와 관련된 연구들("모델을 가볍게 만드는 연구")이 많이 진행되고 있습니다. 모델 경량화 연구는 크게 두 가지로 나뉩니다. 모델을 구성하는 알고리즘 자체를 효율적인 구조로 설계하는 연구 기존 모델의 파라미터들을 줄이거나 압축하는 연구 모델을 구성하는 알고리즘 자체를 효율적인 구조로 설계하는 연구 모델 구조 변경: 모델 구조를 변경함으로써 경량화하는 방법 (ResNet, DenseNet, SqueezeNet, etc.) 효율적인 합성곱 필터 기술: 채널을 분리시켜, 연산량과 변수의 개수를 줄임으로써 경량화하는 방법 (MobileNet, ShuffleNe..

[Vector DB] Vector Database [내부링크]

Vector Database 벡터 데이터베이스는 신경망을 기반으로 하는 차세대 검색 엔진을 구동하기 위해 몇 년 전에 처음 등장했습니다. 최근에는 GPT4와 같은 대규모 언어 모델을 기반으로 애플리케이션을 배포하도록 돕는 새로운 역할을 수행합니다. 벡터 데이터베이스는 데이터를 특징이나 속성의 수학적 표현인 고차원 벡터로 저장하는 데이터베이스 유형입니다. 각 벡터에는 데이터의 복잡성과 세분성에 따라 수십에서 수천에 이르는 특정 개수의 차원이 있습니다. 벡터 데이터베이스는 밀집된 벡터를 효율적으로 관리하고 고급 유사성 검색을 지원하도록 설계된 특수 저장 시스템이며, 벡터 라이브러리는 기존 DBMS 또는 검색 엔진에 통합되어 더 넓은 데이터베이스 컨텍스트 내에서 유사성 검색이 가능합니다. 둘 사이의 선택은 애..

[Metrics] ROUGE score, text 생성 타스크 평가 지표 [내부링크]

ROUGE (Recall-Oriented Understudy for Gisting Evaluation) https://aclanthology.org/W04-1013/ ROUGE: A Package for Automatic Evaluation of Summaries Chin-Yew Lin. Text Summarization Branches Out. 2004. aclanthology.org ROUGE는 텍스트 자동 요약, 기계 번역 등 자연어 생성 모델의 성능을 평가하기 위한 지표이며, 모델이 생성한 요약본 혹은 번역본을 사람이 미리 만들어 놓은 참조본과 대조해 성능 점수를 계산합니다. ROUGE는 n-gram recall을 계산하며, 정답 문장의 n-gram이 생성 문장에 얼마나 포함되는지의 비율을 의미합..

[Text Annotation][Text Classification] Label Sleuth [내부링크]

Label Sleuth https://www.label-sleuth.org/ Label Sleuth Open-source no-code system for text annotation and building of text classifiers www.label-sleuth.org An open-source no-code system for text annotation and building text classifiers No-code, open-source system for domain experts Easily annotate texts Quickly build text classifiers No AI knowledge required AI 지식이나 코딩 역량이 없더라도 도메인 지식 전문가가 쉽게 본..

Trustworthy AI(신뢰할 수 있는 AI), AI Ethics(AI 윤리) [내부링크]

Trustworthy AI (신뢰할 수 있는 AI) AI가 의도한 대로 작동하고 규정을 준수하는지 확인하기 위해 AI를 지시하고 모니터링할 수 있어야 합니다. 관리되는 데이터 및 AI는 데이터 및 AI 솔루션의 신뢰성을 모니터링하고 유지하는 기술, 도구 및 프로세스를 나타냅니다. 신뢰할 수 있는 AI는 다음의 5가지 항목을 포함하고 있어야 합니다. Transparency (투명성) 투명성은 신뢰를 강화하며 투명성을 높이는 가장 좋은 방법은 공개입니다. AI 솔루션이 윤리적이 되려면 투명성도 필요합니다. 그것은 AI 기술을 쉽게 검사할 수 있게 하고 AI 솔루션에 사용되는 알고리즘이 숨겨져 있거나 더 자세히 볼 수 없다는 것을 의미합니다. Explainability (설명가능성) 투명성은 사용 중인 AI ..

[Large Language Model] Hallucination (환각) [내부링크]

AI Hallucination (환각) 인공지능(AI)이 주어진 데이터나 맥락에 근거하지 않은 잘못된 정보나 허위 정보를 생성하는 것을 의미합니다. 인공지능 언어 모델은 다음 토큰을 확률적으로 예측하여 논리적으로 가장 맞아 보이는 대답을 하기 때문에 발생합니다. 사람이 질문에 것에 대한 이해를 바탕으로 정확한 답변을 생성하는 것이 아니라 확률적으로 가장 적합한 답변을 예측하기 때문입니다. 잘못된 답변은 statistical error(통계적 오류) 입니다. https://www.youtube.com/watch?v=cfqtFvWOfg0 What hallucination is 환각은 사실이나 맥락 논리에서 벗어난 LLM의 출력이며 사소한 불일치에서 완전히 조작되거나 모순된 진술에 이르기까지 다양할 수 있습니..

Risks of Large Language Models (대규모 언어 모델의 위험) [내부링크]

Risks of Large Language Models https://www.youtube.com/watch?v=r4kButlDLUc Risks Strategies Hallucinations - falsehoods Explainability Bias Culture and Audits Consent - copyright issues Accountability Security - jailbreaking - indirect prompt injection Education AI Hallucinations (환각) 인공지능(AI)이 주어진 데이터나 맥락에 근거하지 않은 잘못된 정보나 허위 정보를 생성하는 것을 의미합니다. 인공지능 언어 모델은 다음 토큰을 확률적으로 예측하여 논리적으로 가장 맞아 보이는 대답을 하..

[LLM] 업스테이지 모델, ‘허깅페이스 오픈 LLM 리더보드’서 세계 1위 [내부링크]

업스테이지 LLaMa-2-70b-instruct-v2 model https://huggingface.co/upstage/Llama-2-70b-instruct-v2 upstage/Llama-2-70b-instruct-v2 · Hugging Face This model can be loaded on the Inference API on-demand. huggingface.co 한국어 자연어이해(NLU) 평가 데이터셋 ‘클루(KLUE)’를 구축하고, OCR 세계대회 ICDAR에서 4개종목 우승, 생성 AI 서비스 ‘AskUp’ 운영으로 축적된 프롬프트 엔지니어링 및 파인튜닝 노하우 등 업스테이지만의 차별화된 기술 자산을 총 결집한 결과 Backbone Model: LLaMA-2 [Large Language M..

[Data LakeHouse] Apache Iceberg [내부링크]

Apache Iceberg a high-performance format for huge analytic tables Iceberg는 대규모 분석 테이블을 위한 고성능 형식입니다. Iceberg는 SQL 테이블의 신뢰성과 단순성을 빅 데이터에 제공하는 동시에 Spark, Trino, Flink, Presto, Hive 및 Impala와 같은 엔진이 동시에 동일한 테이블에서 안전하게 작업할 수 있도록 합니다. 대형 페타바이트(PB) 규모의 테이블용으로 설계 ACID 준수 트랜잭션 지원 Atomicity : 원자성. 트랜잭션과 관련된 일은 모두 실행되던지 모두 실행되지 않도록 하던지를 보장하는 특성 Consistency : 일관성. 트랜잭션이 성공했다면, 데이터베이스는 그 일관성을 유지해야 한다. 일관성은 ..

부분구문분석(청크나누기, Chunking) [내부링크]

부분구문분석(청크나누기, Chunking) 부분구문분석(shallow parsing) = 청크나누기(Chunking) 명사, 동사, 형용사와 같은 문법 요소로 구성된 고차원의 단위를 유도해 내는 것 사전 훈련된 품사태깅 모델이 존재함 여러 개의 품사로 구(pharase)를 만드는 것을 chunking이라 하고, 이 구(pharase)를 chunk라 합니다. 문장을 각 품사로 구분하고, Chunking에 의해 구로 구분하면 문장의 의미를 파악하기 용이해 집니다. 문장에서 (DT + JJ + NN), (DT + JJ + JJ + NN), (JJ + NN), 등의 시퀀스는 모두 명사구 (NP : Noun phrase)로 판단합니다. 겹치는 위치에서 태그 패턴이 일치하는 경우 가장 왼쪽 일치가 우선합니다. sp..

LangChain for LLM Application Development [내부링크]

LangChain LLM을 사용하여 애플리케이션 생성을 단순화하도록 설계된 프레임워크 LLM 프롬프트의 실행과 외부 소스의 실행(계산기, 구글 검색, 슬랙 메시지 전송이나 소스코드 실행 등)을 엮어 연쇄(Chaining)하는 것 https://docs.langchain.com/docs/ c️ LangChain | c️ LangChain LangChain is a framework for developing applications powered by language models. docs.langchain.com Open-source development framework for LLM applications Python and Javascript(TypeScript) packages Focused o..

[Generative AI] Best Practices of Prompt Engineering [내부링크]

출처: https://towardsdatascience.com/summarising-best-practices-for-prompt-engineering-c5e86c483af4 Prompt Engineering 프롬프트 엔지니어링은 OpenAI의 ChatGPT와 같은 LLM(Large Language Models)에 대한 프롬프트라는 명령을 만드는 프로세스를 말합니다. 광범위한 작업을 해결할 수 있는 LLM의 엄청난 잠재력을 통해 프롬프트 엔지니어링을 활용하면 상당한 시간을 절약하고 인상적인 응용 프로그램을 쉽게 개발할 수 있습니다. 이 거대한 모델의 모든 기능을 최대한 활용하여 우리가 상호 작용하고 혜택을 받는 방식을 변화시키는 열쇠를 쥐고 있습니다. Best Practices for Prompt Eng..

[Generative AI][Large Language Model] State of GPT [내부링크]

State of GPT 2023.5.24 Speaker: Andrej Karpathy | OpenAI State of GPT를 주제로 OpenAI Andrej Karpathy가 발표한 내용을 발췌하여 정리한 내용입니다. ChatGPT와 같은 GPT Assistant training pipeline에 대해 토큰화에서 pretraining, supervised finetuning, Reinforcement Learning from Human Feedback(RLHF)에 대해 알아보세요. 프롬프트 전략, finetuning, 빠르게 성장하는 도구 생태계 및 향후 확장을 포함하여 이러한 모델을 효과적으로 사용하기 위한 실용적인 기술 및 정신 모델에 대해 자세히 알아보십시오. https://build.micros..

[Large Language Model] 최신 LLM 교육을 위한 전력 요구 사항 [내부링크]

최신 LLM 교육을 위한 전력 요구 사항 LLM(Large Language Model)은 언어 이해 및 생성을 포함하여 인간의 언어 처리 기능을 모방하도록 설계된 컴퓨터 프로그램입니다. LLM은 텍스트 분류, 질문 응답 및 언어 번역과 같은 자연어 처리(NLP) 작업에 널리 사용됩니다. 그러나 이러한 모델의 교육에는 엄청난 양의 컴퓨팅 성능과 에너지 소비가 필요합니다. Large Language Model 및 전원 요구 사항 LLM(Large Language Model)은 인간과 유사한 언어를 처리하고 생성할 수 있는 인공 지능 모델입니다. 이러한 모델은 종종 테라바이트 또는 페타바이트 범위의 방대한 양의 데이터에 대해 훈련되며 수십억 개의 매개변수를 가질 수 있습니다. LLM은 일반적으로 supervi..

[Foundation Model][Large Language Model] PaLM (Pathways Language Model) [내부링크]

PaLM (Pathways Language Model) (2022.04) Google, 540 billion parameters, available via API 다양한 작업을 처리하고 새로운 작업을 빠르게 학습할 수 있는 모델을 구축하는 것을 목표로 하는 Google의 Pathways AI architecture를 기반으로 합니다. PaLM은 경로 시스템으로 훈련된 5,400억 개의 매개변수 모델로, 수백 가지 언어 관련 작업을 수행할 수 있으며 (출시 당시) 많은 작업에서 최첨단 성능을 달성했습니다. PaLM의 놀라운 기능 중 하나는 농담 설명과 같은 여러 복잡한 논리적 단계가 필요한 시나리오에 대한 설명을 생성하는 것이었습니다. References https://ai.googleblog.com/20..

[Foundation Model][Large Language Model] LLaMA [내부링크]

LLaMA (2023.02) Meta AI, Multiple Sizes, downloadable by application Meta AI에서 발표한 LLaMA 모델은 70억에서 650억 매개변수에 이르는 다양한 매개변수 크기로 제공됩니다. Meta는 LLaMA가 대형 모델을 교육하는 데 필요한 컴퓨팅 성능으로 인해 방해를 받아온 현장에 대한 액세스를 민주화하는 데 도움이 될 수 있다고 주장합니다. 다른 LLM과 마찬가지로 이 모델은 일련의 단어를 입력으로 사용하여 작동하고 텍스트를 재귀적으로 생성하기 위해 다음 단어를 예측합니다. 모델에 대한 액세스는 연구원, 정부 산하기관, 학계 종사자 및 Meta에 지원서를 제출한 후에만 사용할 수 있습니다. References https://vectara.com/t..

[Foundation Model][Large Language Model] MT-NLG [내부링크]

MT-NLG (Megatron-Turing Nature Language Generation) (2021.10) Nvidia / Microsoft, 530 billion parameters, API Access by application Transformer-based Megatron의 아키텍처를 사용하였습니다. 완료 예측, 독해, 상식 추론, 자연 언어 추론, 단어 의미 명확화가 가능합니다. References https://vectara.com/top-large-language-models-llms-gpt-4-llama-gato-bloom-and-when-to-choose-one-over-the-other/

[Foundation Model][Large Language Model] LaMDA [내부링크]

LaMDA (Language Model for Dialogue Applications) (2021.05) Google, 173 billion parameters, Not Open Source, No API or Downloads 약 1370억개의 파라미터, 약 30억개의 문서, 11억개의 대화를 사전학습 데이터로 사용 사용자와 보다 자연스럽고 매력적인 대화를 할 수 있도록 설계된 모델입니다. LaMDA가 다른 언어 모델과 차별화되는 점은 LaMDA가 대화에 대해 훈련되었고 모델이 다른 유형의 언어와 구분되는 개방형 토론(open-ended discussions)을 설정하는 다양한 미묘함을 식별할 수 있다는 사실입니다. LaMDA의 잠재적 사용 사례는 고객 서비스 및 챗봇에서 개인 비서 등에 이르기까지 다..

[Foundation Model] ChatGPT [내부링크]

ChatGPT (2022.11.30) OpenAI, 20 billion parameters, Not Open Source, API Access Only 대규모 언어모델(LLM, Large Language Model)에 기반한 대화형 인공지능 서비스 ChatGPT는 텍스트 전용 모델이며 2022년 11월 Open AI에서 출시했습니다. 일반적으로 GPT-4가 더 나은 성능을 나타내지만 GPT-4가 할 수 있는 많은 텍스트 기반 기능을 수행할 수 있습니다. ChatGPT는 InstructGPT의 형제 모델입니다. InstructGPT 자체는 프롬프트를 수신하고 특정 지침을 따르는 자세한 응답을 제공하도록 특별히 훈련되었으며 ChatGPT는 자연어 대화에 참여하도록 설계되었습니다. OpenAI는 더 많은 LL..

[Foundation Model][Multimodal Model] GPT-4 [내부링크]

GPT-4 (2023.03.14) OpenAI, Unknown Size, Not Open Source, API Access Only [NLP] GPT : Generative Pre-trained Transformer, OpenAI가 개발한 인공지능 모델 GPT는 자연어 처리를 위한 인공지능 모델로, 방대한 데이터를 머신러닝으로 미리학습(Pre-trained)해 이를 문장으로 생성(Generative) GPT-4는 ChatGPT 유료 상품인 'ChatGPT 플러스'를 통해 사용 가능합니다. 또는 "Bing Chat"을 이용해서도 사용 가능합니다. 텍스트뿐 아니라 이미지도 입력할 수 있으므로 엄격하게 언어 전용 모델은 아니지만 여러 전문 의료 및 법률 시험을 포함한 다양한 작업에서 인상적인 성능을 보여줍니다..

[Large Language Model] RAG(Retrieval Augmented Generation) [내부링크]

Retrieval Augmented Generation ChatGPT는 정보에 입각한 결정을 내리는 데 필수적일 수 있는 적절한 시기적절한 컨텍스트를 분명히 놓치고 있습니다. How Microsoft Is Solving This Microsoft Build 세션인 Vector Search Isn’t Enough에서 컨텍스트 인식이 덜한 LLM과 벡터 검색을 결합하여 더욱 매력적인 경험을 제공하는 제품을 소개합니다. Elastic Search(또는 벡터 검색)의 관점에서 이 글은 반대 방향에서 시작합니다. 벡터 검색 자체는 제한적이며 LLM 레이어를 추가하면 검색 경험을 크게 향상시킬 수 있다는 생각입니다. 기본 아이디어는 LLM에 관련 컨텍스트를 추가하면 특히 LLM이 이러한 종류의 데이터를 본 적이 없..

Large Language Models (LLMs) [내부링크]

Large Language Models (LLMs), 대규모 언어 모델 대규모 언어 모델(LLM, Large Language Models)은 방대한 양의 텍스트를 처리하고 정확한 결과를 생성하는 기능으로 인해 자연어 처리(NLP) 세계에서 관심을 끌고 있습니다. 이러한 모델은 수억에서 수십억 단어가 포함된 대규모 데이터 세트에서 학습됩니다. 알려진 바와 같이 LLM은 대규모 데이터 세트를 통해 이동하고 단어 수준에서 패턴을 인식하는 Transformer 아키텍처를 포함한 복잡한 알고리즘에 의존합니다. 이 데이터는 모델이 자연어와 컨텍스트에서 사용되는 방식을 더 잘 이해하고 텍스트 생성, 텍스트 분류 등과 관련된 예측을 수행하는 데 도움이 됩니다. Large Language Model이란 a class o..

[Foundation Model][Large Language Model] MPT-7B, MPT-7B-Instruct [내부링크]

MPT-7B https://huggingface.co/mosaicml/mpt-7b mosaicml/mpt-7b · Hugging Face MPT-7B MPT-7B is a decoder-style transformer pretrained from scratch on 1T tokens of English text and code. This model was trained by MosaicML. MPT-7B is part of the family of MosaicPretrainedTransformer (MPT) models, which use a modified transformer archi huggingface.co a decoder-style transformer pretrained from scrat..

[Foundation Model][Large Language Model] GPT-NeoX-20B [내부링크]

GPT-NeoX-20B https://huggingface.co/EleutherAI/gpt-neox-20b EleutherAI/gpt-neox-20b · Hugging Face GPT-NeoX-20B is a 20 billion parameter autoregressive language model trained on the Pile using the GPT-NeoX library. Its architecture intentionally resembles that of GPT-3, and is almost identical to that of GPT-J- 6B. Its training dataset contains a multi huggingface.co Transformer(Decoder)-based ..

[Foundation Model][Large Language Model] mT5-xxl [내부링크]

mT5-xxl https://huggingface.co/google/mt5-xxl google/mt5-xxl · Hugging Face Google's mT5 mT5 is pretrained on the mC4 corpus, covering 101 languages: Afrikaans, Albanian, Amharic, Arabic, Armenian, Azerbaijani, Basque, Belarusian, Bengali, Bulgarian, Burmese, Catalan, Cebuano, Chichewa, Chinese, Corsican, Czech, Danish, Dutch, Eng huggingface.co An encoder-decoder model based on the T5 pretraine..

[Foundation Model][Large Language Model] Flan-UL2 [내부링크]

Flan-UL2 https://huggingface.co/google/flan-ul2 google/flan-ul2 · Hugging Face Flan-UL2 is an encoder decoder model based on the T5 architecture. It uses the same configuration as the UL2 model released earlier last year. It was fine tuned using the "Flan" prompt tuning and dataset collection. You can use the convert_t5x_checkpoint_t huggingface.co An encoder-decoder model based on the T5 archit..

[Foundation Model][Large Language Model] BLOOMZ & mT0 [내부링크]

BLOOMZ & mT0 https://huggingface.co/bigscience/mt0-xxl bigscience/mt0-xxl · Hugging Face Accuracy on Winogrande XL (xl) validation set self-reported 63.380 Accuracy on XWinograd (en) test set self-reported 81.290 Accuracy on XWinograd (fr) test set self-reported 78.310 Accuracy on XWinograd (jp) test set self-reported 78.620 Accuracy on XWinog huggingface.co 논문: https://arxiv.org/abs/2211.01786 ..

[Foundation Model][Large Language Model] BLOOM [내부링크]

BLOOM https://bigscience.huggingface.co/blog/bloom BLOOM Our 176B parameter language model is here. bigscience.huggingface.co 논문: https://arxiv.org/abs/2211.05100 BigScience Large Open-science Open-access Multilingual Language Model BLOOM은 산업 규모의 컴퓨팅 리소스를 사용하여 방대한 양의 텍스트 데이터에 대한 프롬프트에서 텍스트를 계속하도록 훈련된 자동 회귀 대형 언어 모델(autoregressive LLM)입니다. BLOOM은 명시적으로 훈련되지 않은 텍스트 작업을 텍스트 생성 작업으로 캐스팅하여 수행하도록 지시할 ..

[Foundation Model][Large Language Model] FLAN-T5 [내부링크]

FLAN-T5 https://huggingface.co/docs/transformers/model_doc/flan-t5 FLAN-T5 Reinforcement learning models huggingface.co 논문: https://arxiv.org/pdf/2210.11416.pdf An encoder-decoder model based on the T5 Scaling Instruction – Fine-tuned Language Models 여러 타스크를 통해 fine-tuned된 T5의 향상된 버전 Flan 프롬프팅을 기반으로 하는 사전 교육 방법 FLAN-T5-XL https://huggingface.co/google/flan-t5-x google/flan-t5-xl · Hugging Face I..

[Generative AI] Prompt Engineer (프롬프트 엔지니어) [내부링크]

[Generative AI] Prompt Engineering (프롬프트 엔지니어링) [Generative AI] Prompt Engineering (프롬프트 엔지니어링) Prompt(프롬프트) 사용자가 원하는 출력을 생성하고자 할 때 대규모 언어 모델(LLM, Large Language Model)을 안내하기 위한 특정 입력 텍스트 및 질문 텍스트 모델에 제공하는 광범위한 지침으로, 모델이 yumdata.tistory.com Prompt Engineer (프롬프트 엔지니어) 주요 역할 프롬프트 설계 및 개발(프롬프트 엔지니어링): AI 모델이 이해하고 반응할 수 있는 효과적인 프롬프트를 개발하고 최적화 시스템 통합: 자연어 처리(NLP) 알고리즘과 기존 시스템 및 인터페이스와의 통합을 관리 테스트 및 ..

[논문리뷰] The Power of Scale for Parameter-Efficient Prompt [내부링크]

The Power of Scale for Parameter-Efficient Prompt Tuning Google Research 2019.09 https://arxiv.org/pdf/2104.08691.pdf https://arxiv.org/abs/2104.08691 The Power of Scale for Parameter-Efficient Prompt Tuning In this work, we explore "prompt tuning", a simple yet effective mechanism for learning "soft prompts" to condition frozen language models to perform specific downstream tasks. Unlike the di..

[무료 머신 러닝 실습 시스템] Machine Learning for Kids [내부링크]

Machine Learning for Kids https://machinelearningforkids.co.uk/ Machine Learning for Kids An educational tool for teaching kids about machine learning, by letting them train a computer to recognise text, pictures, numbers, or sounds, and make things with it in Scratch. machinelearningforkids.co.uk 이 무료 도구는 머신 러닝 시스템을 교육하고 이를 사용하여 무언가를 구축하기 위한 실습 경험을 제공하여 머신 러닝을 소개합니다. 텍스트, 숫자, 이미지 또는 소리를 인식하도록 ..

[Generative AI] Prompt Engineering (프롬프트 엔지니어링) [내부링크]

Prompt(프롬프트) 사용자가 원하는 출력을 생성하고자 할 때 대규모 언어 모델(LLM, Large Language Model)을 안내하기 위한 특정 입력 텍스트 및 질문 텍스트 모델에 제공하는 광범위한 지침으로, 모델이 원하는 출력을 이해하는 데 도움이 되는 일련의 입력 문구 텍스트는 사용자와 generative AI 모델 간의 주요 통신 수단 예) 긴 기사를 요약하고 싶으면 "Summarize the above in one sentence" 같은 프롬프트와 기사 텍스트를 LLM(Large Language Model)에 입력 AI 프롬프트는 모델의 사고 과정을 위한 출발점 역할을 하므로 AI 모델과 상호 작용하는 데 필수적입니다. 간단하고 간단한 질문부터 AI가 정보를 합성하고 추론을 도출하거나 창의..

Text Mining (텍스트 마이닝) [내부링크]

Text Mining (텍스트 마이닝) Text Data Mining 이라고도 합니다. 텍스트 마이닝은 비정형 텍스트를 정형화하여 의미있는 패턴과 새로운 인사이트를 찾아내는 프로세스입니다. 텍스트 마이닝은 정형 및 비정형 데이터를 자연어 처리방식(Natural Language Processing)과 문서처리 방법을 적용하여 유용한 정보를 추출하여 가공하는 것을 목적으로 하는 기술을 의미하기도 합니다. 텍스트 마이닝은 데이터로부터 유용한 인사이트를 발굴하는 데이터 마이닝(Data Mining), 언어를 정보로 변화하기 위한 자연어 처리, 정보 검색 등 다양한 분야가 접목되어 발전하 학문이자 기술입니다. 텍스트 데이터 종류 텍스트 데이터는 데이터베이스에 따라 구분할 수 있습니다. 정형 데이터 (Structu..

[Generative AI] Generative AI(생성형 AI) [내부링크]

Generative AI(생성형 AI) Generative AI의 핵심은 "충분히 있을 법한" 무언가를 생성하는 것입니다. 생성형 AI란 사람이 AI에게 특정 입력(프롬프트)을 통해 어떤 것을 만들어 달라고 요구하면 그 요구에 맞춰서 결과를 만들어주는 인공지능을 말합니다. Generative AI는 구조화되지 않은 딥 러닝 모델을 사용하여 사용자 입력을 기반으로 콘텐츠를 생성하는 일종의 인공 지능입니다. 이 프로세스의 일부로 생성형 AI는 머신 러닝 및 딥 러닝 알고리즘의 기반을 사용합니다. 그것이 생성하는 콘텐츠에는 서면 자료, 이미지, 비디오, 오디오 및 음악 및 컴퓨터 코드가 포함됩니다. 예를 들어, 인간이 질문이나 진술을 ChatGPT(Generative AI의 선구적인 사례)에 입력하면 짧지만 ..

Data Warehouse vs Data Lake vs Data Lakehouse [내부링크]

Data Warehouse (데이터 웨어하우스) 데이터 웨어하우스는 여러 소스에서 가져온 구조화된 데이터와 반구조화된 데이터를 분석하고 보고하는 데 사용되는 엔터프라이즈 시스템입니다. 데이터 웨어하우스는 임시 분석과 커스텀 보고서 생성에 적합합니다. 데이터 웨어하우스는 현재 데이터와 과거 데이터를 모두 한 곳에 저장할 수 있으며, 시간 흐름에 따른 장기간의 데이터 동향을 확인할 수 있도록 설계되었으므로 비즈니스 인텔리전스의 주요 구성 요소입니다. 데이터 웨어하우스는 여러 소스의 raw data를 중아 repository로 수집하고 이를 관계형 데이터베이스 인프라로 구성합니다. 이 데이터 관리 시스템은 주로 엔터프라이즈 보고와 같은 데이터 분석 및 비즈니스 인텔리전스 애플리케이션을 지원합니다. 시스템은 E..

[Large Language Model][Suvey Paper] Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond [내부링크]

Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond ChatGPT 및 그 이상에 대한 설문조사에 관한 내용을 정리하였습니다. https://arxiv.org/abs/2304.13712 Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond This paper presents a comprehensive and practical guide for practitioners and end-users working with Large Language Models (LLMs) in their downstream natural language processing ..

[NLP][논문리뷰] Distilling the Knowledge in a Neural Network [내부링크]

Distilling the Knowledge in a Neural Network 논문링크: https://arxiv.org/abs/1503.02531 Distilling the Knowledge in a Neural Network A very simple way to improve the performance of almost any machine learning algorithm is to train many different models on the same data and then to average their predictions. Unfortunately, making predictions using a whole ensemble of models is cumbersome arxiv.org Kn..

[Foundation Model] Foundation Model 이란 [내부링크]

Foundation Model (2017) Stanford University HAI(Human-Centered Artificial Intelligence) 논문(2021): On the Opprotunities and Risks of Foundataion Models AI는 대규모의 광범위한 데이터에 대해 훈련되고 광범위한 다운스트림 작업에 적응할 수 있는 모델(예: BERT, DALL-E, GPT-3)의 등장으로 패러다임 전환을 겪고 있습니다. 우리는 이러한 모델을 Foundation Model이라고 부르며 비판적으로 중심적이지만 불완전한 특성을 강조합니다. 이 보고서는 기능(예: 언어, 비전, 로봇 공학, 추론, 인간 상호 작용) 및 기술 원칙(예: 모델 아키텍처, 교육 절차, 데이터, 시스템, 보..

[Machine Learning] U-Net Model [내부링크]

U-Net Architecture

[Machine Learning] Federated Learning (연합 학습) [내부링크]

Federated Learning (연합 학습) 구글에서 제안된 기법으로 개인 모바일 기기에 저장된 데이터를 이용하여 인공지능 모델 학습을 수행하는 방법이다. 데이터를 메인 서버가 아닌, 개개인의 로컬 클라이언트에 두고 그 로컬 클라이언트에서 학습을 수행, 로컬 클라이언트에서 업데이트된 모델의 파라미터들을 중앙 서버로 보내 취합해서 하나의 모델을 업데이트 하는 것을 의미한다. 다수의 개인 모바일 기기에 저장된 데이터를 이용하여 인공지능 모델을 학습하고 학습된 파라미터를 클라우드 상의 서버로 전송하여 통합한 파라미터를 인공 지능 모델 학습에 사용하고 이를 반복하는 방법이다. Federated Learning은 데이터 프라이버시 향상과 커뮤니케이션 효율성을 가진다. 수 만개의 로컬 디바이스의 데이터를 모두 ..

[NLP][Language Model] Language Model이란 [내부링크]

Transfer Learning 특정 태스크를 학습한 모델을 다른 태스크 수행에 재사용하는 기법을 말한다. 학습 데이터의 수가 적을 때 효과적이며, 전이학습 없이 학습할 때보다 훨씬 높은 정확도와 더 빠른 학습 속도를 제공한다. Upstream Task (Self-Supervised Learning) 다음 단어 맞히기, 빈칸 채우기 등 대규모 말뭉치(corpus)의 문맥을 이해하는 과제 Language Model: upstream task를 수행한 모델을 의미한다. Pretrain: upstream task를 학습하는 과정, downstream task를 본격적으로 수행하기에 앞서(pre) 학습(train)한다는 의미한다. Downstream Task 문서 분류, 개체명 인식 등 풀고자 하는 자연어 처리..

[Machine Learning] Active Learning [내부링크]

Active Learning 아직 레이블링이 되어 있지 않은 데이터(unlabeled data) 중에 모델 학습에 가장 효과적일 것 같은 데이터를 고르는 작업을 의미한다. 기계가 라벨링이 필요한 데이터 중 자동적으로, 그리고 점진적으로 가장 정보량이 많은 데이터를 선택하는 것을 목표로 한다. 효과적인 학습이란, 결과적으로 가지고 있는 데이터셋 전체를 잘 학습했을 때의 '기대 성능에 어떻게 하면 빠르게 도달할 수 있는지' 또는 ‘혹시 그 이상의 성능을 확보할 수 있는지’가를 의미할 수 있다. 관련 논문 dsgissin.github.io/DiscriminativeActiveLearning/about/ About An introduction to the active learning framework, from..

[NLP] Natural Language Processing (자연어 처리) [내부링크]

Natural Language Processing (자연어 처리) 컴퓨터를 이용하여 인간 언어의 이해, 생성 및 분석을 다루는 인공지능 기술 자연어 이해, NLU(Natural Language Understanding) 문자로 된 언어를 입력으로 직접 받아들여서, 목적에 맞게 내부적으로 처리해내는 과정 자연어 표현을 기계가 이해할 수 있는 다른 표현으로 변환시키는 것 자연어 생성, NLG(Natural Language Generation) 주어진 수치 등의 정보를 바탕으로 문장을 생성하여 사용자에게 자연어로 응답을 돌려주는 기술 지식 기반이나 논리 형식과 같은 기계 표현에서 의미 표현으로 자연어 문장 생성 기술 자연어 처리 단계 Corpus (말뭉치) 특정한 목적을 가지고 수집한 자연어 데이터. 수많은 ..

PII (Personally Identifiable Information, 개인 식별 정보) [내부링크]

PII (Personally Identifiable Information, 개인 식별 정보) 잠재적으로 특정 개인을 식별할 수 있는 모든 데이터 한 사람을 다른 사람과 구별하는 데 사용할 수 있고 이전에 익명이었던 데이터를 익명화하는 데 사용할 수 있는 모든 정보는 PII로 간주 사람으로 개인으로 고유하게 식별할 수 있는 모든 정보 name address email telephone number date of birth passport number fingerprint driver's license number credit or debit card number Social Security number References https://www.techtarget.com/searchsecurity/defin..

epoch, batch size, iteration [내부링크]

batch (배치) 모델의 가중치를 한번 업데이트시킬 때 사용되는 샘플들의 묶음을 의미 mini batch (미니 배치) 전체 데이터 셋을 몇 개의 데이터 셋으로 나누었을 때, 그 작은 데이터 셋 뭉치 batch size (배치 사이즈) 하나의 미니 배치에 넘겨주는 데이터 갯수, 즉 한번의 배치마다 주는 샘플의 크기 배치 사이즈가 너무 크면 한번에 처리해야 할 양이 많이 때문에 학습 속도가 느려짐 경우에 따라서는 메모리 부족 문제가 발생할 수도 있음 배치 사이즈가 너무 적으면 너무 적은 샘플로 가중치가 자주 업데이트되기 때문에 비교적 불안정하게 훈련될 수 있음 iteration (이터레이션) 하나의 미니 배치를 학습할 때 1iteration이라고 한다. 즉, 미니 배치 갯수 = 이터레이션 수 epoch ..

[Marketing] Lookback Window (전환 추적 기간) [내부링크]

Lookback Window (전환 추적 기간) 지정한 모델에서의 전환 기간을 설정하는 것을 의미 the period of time after which an ad is viewed or clicked that a conversion can be attributed to the ad. 광고를 보거나 클릭한 후 전환이 광고에 기인할 수 있는 기간 marketers to determine which ads resulted in conversion during the specified time frame. 마케터가 지정된 기간 동안 전환으로 이어진 광고를 결정할 수 있다. 가장 일반적인 전환 확인 기간은 7일이지만 한 달의 기간과 마찬가지로 1~3일도 드문 일이 아니다. 그러나 광고를 보고 1년 후에 발생하는..

Ensembler (a python package) [내부링크]

Ensembler a python package that allows fast and easy access to one and two-dimensional model systems simulations https://rinikerlab.github.io/Ensembler/ Welcome to Ensembler — Ensembler beta documentation Description Ensembler is a python package that allows fast and easy access to one and two-dimensional model systems simulations. It enables method development using small test systems and to de..

[Statistical Analysis Model][Time Series Data] Holt-Winters [내부링크]

Holt-Winters Holt와 Winters은 계절성(Seasonality)을 잡아내기 위해 Holt의 기법을 확장하였다. Holt-Winters 모델은 단순하면서도 널리 활용되어지는 시계열 분석도구로서 많은 시계열예측의 기준모델로서 쓰이고 있다. 시계열 분석을 위한 모델로서 3가지 정보를 고려한다. Level: 수준 ℓt에 대한 것 Trend: 추세 bt에 대한 것 Seasonality: 계절 성분 st에 대한 것 m: 계절성의 주기 k: (h-1)/m 의 정수부분, 예측을 위해 계절성 지수를 추정한 값이 표본의 마지막 연도에서 유래하도록 함 Level 수준(level)은 평활값(smooting value)이라고도 하며, 주어진 데이터에서 추세(trend)나 계절성(seasonal)을 제거한 파트 ..

[Statistical Analysis Model][Time Series Data] BATS [내부링크]

BATS Exponential smoothing state space model with Box-Cox transformation, ARMA errors, Trend and Seasonal components The BATS algorithm combines Box-Cox Transformation, ARMA residuals, Trend, and Seasonality factors to forecast future values. BATS 알고리즘은 Box-Cox 변환, ARMA 잔차, 추세 및 계절성 요인을 결합하여 미래 값을 예측한다. The BATS model is an exponential smoothing method along with the ARIMA model for finding the ..

[Statistical Analysis Model][Time Series Data] ARIMA (Autoregressive Integrated Moving Average) [내부링크]

ARIMA (Autoregressive Integrated Moving Average) 시계열 데이터(time series data)를 사용하여 데이터 세트를 더 잘 이해하거나 미래 추세를 예측하는 통계 분석 모델 Autoregressive Integrated Moving Average (ARIMA) model is a typical time series model, which can transform non-stationary data to stationary data through differencing, and then forecast the next value by using the past values, including the lagged values and lagged forecast err..

Statistical Modeling (통계 모델링) [내부링크]

Statistical Modeling (통계 모델링) 수학적 모델과 통계적 가정을 사용하여 샘플 데이터를 생성하고 실제 세계에 대한 예측을 수행하는 것 통계 모델은 실험의 가능한 모든 결과 집합에 대한 확률 분포의 모음이다. 통계 모델링은 데이터 세트에 통계 분석을 적용하는 데이터 과학 프로세스를 말한다. 통계 모델은 하나 이상의 랜덤 변수와 기타 비 랜덤 변수 간의 수학적 관계 원시 데이터에 통계 모델링을 적용하면 데이터 사이언티스트가 전략적 방식으로 데이터 분석에 접근할 수 있으며 변수 간의 관계를 식별하고 예측하는 데 도움이 되는 직관적인 시각화를 제공 통계 분석을 위한 일반적인 데이터 세트 사물 인터넷(IoT) 센서 인구 조사 데이터 공중 보건 데이터 소셜 미디어 데이터 이미지 데이터 실제 예측을..

[Machine Learning] Fairness (공정성) [내부링크]

Fairness in machine learning 특정 그룹의 사람들에 대한 AI 시스템의 부정적인 결과를 피하는 것이 중요!! 기계 학습의 공정성은 기계 학습 모델을 기반으로 하는 자동화된 의사 결정 프로세스에서 알고리즘 편향을 수정하려는 다양한 시도 기계 학습 프로세스 후 컴퓨터가 내리는 결정이 민감한 것으로 간주되는 변수를 기반으로 하는 경우 불공정한 건으로 간주될 수 있다. 예, 성별, 민족, 성적 취향, 장애 등 Disparate impact (이질적인 영향) a metric to evaluate fairness(bias) 모니터링 그룹에 대한 유리한 결과의 백분율 대 참조 그룹에 대한 양호한 결과의 백분율로 계산됨 num_positives: value represents the number ..

[Machine Learning] Feature Engineering [내부링크]

Feature Engineering 모델 정확도를 높이기 위해서 주어진 데이터를 예측 모델의 문제를 잘 표현할 수 있는 features로 변형시키는 과정 머신러닝 모델을 위한 데이터 테이블의 컬럼을 생성하거나 선택하는 작업을 의미 모델 성능에 영향을 많이 미치기 때문에 머신러닝 응용에 있어서 굉장히 중요한 단계 전문성과 시간이 많이 드는 작업 머신러닝 알고리즘을 작동하기 위해 데이터의 도메인 지식을 활용해 특징(feature)를 만드는 과정 Feature Engineering is a Representation Problem Feature: A valuable attribute for your modeling task Importance of Feature Engineering Better feature..

AutoML (Automated Machine Learning) [내부링크]

AutoML (Automated Machine Learning) 머신러닝 모델링은 문제 정의 과정에서부터 데이터 수집, 전처리, 모델 학습 및 평가를 거쳐 서비스 적용에 이르기까지 많은 시간과 노력이 요구된다. 머신러닝을 적용할 때마다 이러한 과정을 되풀이하면서 발생하는 비효율적인 작업을 최대한 자동화하여 생산성과 효율을 높이기 위해 AutoML이 등장하였다. 현실의 문제에 기계학습 적용 과정을 전문가 없이 자동화 → Data Scientist의 역량이 필요한 작업을 자동화 기계 학습 파이프라인에서 수작업과 반복되는 작업을 자동화하는 프로세스 즉, 머신러닝을 자동화하는 AI기술 번거로운 수작업 자동화 머신러닝에 대한 장벽 완화 비전문가도 복잡한 머신러닝 활용 가능 분석 라이프 사이클 Data Prepro..

[Scikit-Learn] Pipeline [내부링크]

Scikit-Learn(sklearn) Pipeline 데이터 전처리에서 학습까지의 과정을 하나로 연결해주는 것 Scikit-learn 파이프라인을 사용하면 데이터 전처리 및 학습의 모든 단계를 포함하는 단일 개체를 만들 수 있다. 파이프라인에 작업(변수 선택, 표준화, 모형 클래스 등)을 등록만 해주면 기존 과정을 한 번에 처리할 수 있다. train과 test 데이터 손실을 피할 수 있다 교차검증 및 기타 모델 선택 유형을 쉽게 만든다. 재현성이 증가한다. Pipeline 작업명, 작업 클래스 두 개로 이루어진 튜플을 리스트로 담아서 전달 Pipeline(['작업명1', 작업 클래스 1), ('작업명2', 작업 클래스 2),...]) from sklearn.feature_selection import..

Cross Validation(CV, 교차검증) [내부링크]

Cross Validation(CV, 교차검증) Training set과 Validation 을 여러번 나눈 뒤 모델의 학습을 검증하는 방식 데이터를 학습용/평가용 데이터 세트로 여러 번 나눈 것의 평균적인 성능을 계산하면, 한 번 나누어서 학습하는 것에 비해 일반화된 성능을 얻을 수 있다. 데이터를 일정한 규칙에 따라 훈련 데이터와 테스트 데이터로 나누어 테스트 데이터에 대한 예측 정확도를 평가하는 방법 교차검증을 사용하여 테스트 데이터에 대해 예측 정확도를 평가하고, 정확도가 최대가 되는 변수의 조합을 선택하는 것 '파라미터 추정 ~ 정확도 평가' 반복으로 인해 계산량이 많아지는 단점이 있음 Cross Validation 효과 및 사용 이유 모든 데이터 셋을 평가에 활용하기 때문에 데이터셋이 부족할 ..

실시간 검색어