yumdata의 등록된 링크

 yumdata로 등록된 티스토리 포스트 수는 228건입니다.

Model Quantization (양자화) [내부링크]

모델 경량화 딥러닝 모델의 경우 모바일이나 임베디드 환경에서, 메모리, 성능, 저장공간 등의 제한이 있기 때문에 추론하기가 어렵습니다. 딥러닝 모델을 경량화와 관련된 연구들("모델을 가볍게 만드는 연구")이 많이 진행되고 있습니다. 모델 경량화 연구는 크게 두 가지로 나뉩니다. 모델을 구성하는 알고리즘 자체를 효율적인 구조로 설계하는 연구 기존 모델의 파라미터들을 줄이거나 압축하는 연구 모델을 구성하는 알고리즘 자체를 효율적인 구조로 설계하는 연구 모델 구조 변경: 모델 구조를 변경함으로써 경량화하는 방법 (ResNet, DenseNet, SqueezeNet, etc.) 효율적인 합성곱 필터 기술: 채널을 분리시켜, 연산량과 변수의 개수를 줄임으로써 경량화하는 방법 (MobileNet, ShuffleNe..

[Vector DB] Vector Database [내부링크]

Vector Database 벡터 데이터베이스는 신경망을 기반으로 하는 차세대 검색 엔진을 구동하기 위해 몇 년 전에 처음 등장했습니다. 최근에는 GPT4와 같은 대규모 언어 모델을 기반으로 애플리케이션을 배포하도록 돕는 새로운 역할을 수행합니다. 벡터 데이터베이스는 데이터를 특징이나 속성의 수학적 표현인 고차원 벡터로 저장하는 데이터베이스 유형입니다. 각 벡터에는 데이터의 복잡성과 세분성에 따라 수십에서 수천에 이르는 특정 개수의 차원이 있습니다. 벡터 데이터베이스는 밀집된 벡터를 효율적으로 관리하고 고급 유사성 검색을 지원하도록 설계된 특수 저장 시스템이며, 벡터 라이브러리는 기존 DBMS 또는 검색 엔진에 통합되어 더 넓은 데이터베이스 컨텍스트 내에서 유사성 검색이 가능합니다. 둘 사이의 선택은 애..

[Metrics] ROUGE score, text 생성 타스크 평가 지표 [내부링크]

ROUGE (Recall-Oriented Understudy for Gisting Evaluation) https://aclanthology.org/W04-1013/ ROUGE: A Package for Automatic Evaluation of Summaries Chin-Yew Lin. Text Summarization Branches Out. 2004. aclanthology.org ROUGE는 텍스트 자동 요약, 기계 번역 등 자연어 생성 모델의 성능을 평가하기 위한 지표이며, 모델이 생성한 요약본 혹은 번역본을 사람이 미리 만들어 놓은 참조본과 대조해 성능 점수를 계산합니다. ROUGE는 n-gram recall을 계산하며, 정답 문장의 n-gram이 생성 문장에 얼마나 포함되는지의 비율을 의미합..

[Text Annotation][Text Classification] Label Sleuth [내부링크]

Label Sleuth https://www.label-sleuth.org/ Label Sleuth Open-source no-code system for text annotation and building of text classifiers www.label-sleuth.org An open-source no-code system for text annotation and building text classifiers No-code, open-source system for domain experts Easily annotate texts Quickly build text classifiers No AI knowledge required AI 지식이나 코딩 역량이 없더라도 도메인 지식 전문가가 쉽게 본..

Trustworthy AI(신뢰할 수 있는 AI), AI Ethics(AI 윤리) [내부링크]

Trustworthy AI (신뢰할 수 있는 AI) AI가 의도한 대로 작동하고 규정을 준수하는지 확인하기 위해 AI를 지시하고 모니터링할 수 있어야 합니다. 관리되는 데이터 및 AI는 데이터 및 AI 솔루션의 신뢰성을 모니터링하고 유지하는 기술, 도구 및 프로세스를 나타냅니다. 신뢰할 수 있는 AI는 다음의 5가지 항목을 포함하고 있어야 합니다. Transparency (투명성) 투명성은 신뢰를 강화하며 투명성을 높이는 가장 좋은 방법은 공개입니다. AI 솔루션이 윤리적이 되려면 투명성도 필요합니다. 그것은 AI 기술을 쉽게 검사할 수 있게 하고 AI 솔루션에 사용되는 알고리즘이 숨겨져 있거나 더 자세히 볼 수 없다는 것을 의미합니다. Explainability (설명가능성) 투명성은 사용 중인 AI ..

[Large Language Model] Hallucination (환각) [내부링크]

AI Hallucination (환각) 인공지능(AI)이 주어진 데이터나 맥락에 근거하지 않은 잘못된 정보나 허위 정보를 생성하는 것을 의미합니다. 인공지능 언어 모델은 다음 토큰을 확률적으로 예측하여 논리적으로 가장 맞아 보이는 대답을 하기 때문에 발생합니다. 사람이 질문에 것에 대한 이해를 바탕으로 정확한 답변을 생성하는 것이 아니라 확률적으로 가장 적합한 답변을 예측하기 때문입니다. 잘못된 답변은 statistical error(통계적 오류) 입니다. https://www.youtube.com/watch?v=cfqtFvWOfg0 What hallucination is 환각은 사실이나 맥락 논리에서 벗어난 LLM의 출력이며 사소한 불일치에서 완전히 조작되거나 모순된 진술에 이르기까지 다양할 수 있습니..

Risks of Large Language Models (대규모 언어 모델의 위험) [내부링크]

Risks of Large Language Models https://www.youtube.com/watch?v=r4kButlDLUc Risks Strategies Hallucinations - falsehoods Explainability Bias Culture and Audits Consent - copyright issues Accountability Security - jailbreaking - indirect prompt injection Education AI Hallucinations (환각) 인공지능(AI)이 주어진 데이터나 맥락에 근거하지 않은 잘못된 정보나 허위 정보를 생성하는 것을 의미합니다. 인공지능 언어 모델은 다음 토큰을 확률적으로 예측하여 논리적으로 가장 맞아 보이는 대답을 하..

[LLM] 업스테이지 모델, ‘허깅페이스 오픈 LLM 리더보드’서 세계 1위 [내부링크]

업스테이지 LLaMa-2-70b-instruct-v2 model https://huggingface.co/upstage/Llama-2-70b-instruct-v2 upstage/Llama-2-70b-instruct-v2 · Hugging Face This model can be loaded on the Inference API on-demand. huggingface.co 한국어 자연어이해(NLU) 평가 데이터셋 ‘클루(KLUE)’를 구축하고, OCR 세계대회 ICDAR에서 4개종목 우승, 생성 AI 서비스 ‘AskUp’ 운영으로 축적된 프롬프트 엔지니어링 및 파인튜닝 노하우 등 업스테이지만의 차별화된 기술 자산을 총 결집한 결과 Backbone Model: LLaMA-2 [Large Language M..

[Data LakeHouse] Apache Iceberg [내부링크]

Apache Iceberg a high-performance format for huge analytic tables Iceberg는 대규모 분석 테이블을 위한 고성능 형식입니다. Iceberg는 SQL 테이블의 신뢰성과 단순성을 빅 데이터에 제공하는 동시에 Spark, Trino, Flink, Presto, Hive 및 Impala와 같은 엔진이 동시에 동일한 테이블에서 안전하게 작업할 수 있도록 합니다. 대형 페타바이트(PB) 규모의 테이블용으로 설계 ACID 준수 트랜잭션 지원 Atomicity : 원자성. 트랜잭션과 관련된 일은 모두 실행되던지 모두 실행되지 않도록 하던지를 보장하는 특성 Consistency : 일관성. 트랜잭션이 성공했다면, 데이터베이스는 그 일관성을 유지해야 한다. 일관성은 ..

부분구문분석(청크나누기, Chunking) [내부링크]

부분구문분석(청크나누기, Chunking) 부분구문분석(shallow parsing) = 청크나누기(Chunking) 명사, 동사, 형용사와 같은 문법 요소로 구성된 고차원의 단위를 유도해 내는 것 사전 훈련된 품사태깅 모델이 존재함 여러 개의 품사로 구(pharase)를 만드는 것을 chunking이라 하고, 이 구(pharase)를 chunk라 합니다. 문장을 각 품사로 구분하고, Chunking에 의해 구로 구분하면 문장의 의미를 파악하기 용이해 집니다. 문장에서 (DT + JJ + NN), (DT + JJ + JJ + NN), (JJ + NN), 등의 시퀀스는 모두 명사구 (NP : Noun phrase)로 판단합니다. 겹치는 위치에서 태그 패턴이 일치하는 경우 가장 왼쪽 일치가 우선합니다. sp..

LangChain for LLM Application Development [내부링크]

LangChain LLM을 사용하여 애플리케이션 생성을 단순화하도록 설계된 프레임워크 LLM 프롬프트의 실행과 외부 소스의 실행(계산기, 구글 검색, 슬랙 메시지 전송이나 소스코드 실행 등)을 엮어 연쇄(Chaining)하는 것 https://docs.langchain.com/docs/ c️ LangChain | c️ LangChain LangChain is a framework for developing applications powered by language models. docs.langchain.com Open-source development framework for LLM applications Python and Javascript(TypeScript) packages Focused o..

[Generative AI] Best Practices of Prompt Engineering [내부링크]

출처: https://towardsdatascience.com/summarising-best-practices-for-prompt-engineering-c5e86c483af4 Prompt Engineering 프롬프트 엔지니어링은 OpenAI의 ChatGPT와 같은 LLM(Large Language Models)에 대한 프롬프트라는 명령을 만드는 프로세스를 말합니다. 광범위한 작업을 해결할 수 있는 LLM의 엄청난 잠재력을 통해 프롬프트 엔지니어링을 활용하면 상당한 시간을 절약하고 인상적인 응용 프로그램을 쉽게 개발할 수 있습니다. 이 거대한 모델의 모든 기능을 최대한 활용하여 우리가 상호 작용하고 혜택을 받는 방식을 변화시키는 열쇠를 쥐고 있습니다. Best Practices for Prompt Eng..

[Generative AI][Large Language Model] State of GPT [내부링크]

State of GPT 2023.5.24 Speaker: Andrej Karpathy | OpenAI State of GPT를 주제로 OpenAI Andrej Karpathy가 발표한 내용을 발췌하여 정리한 내용입니다. ChatGPT와 같은 GPT Assistant training pipeline에 대해 토큰화에서 pretraining, supervised finetuning, Reinforcement Learning from Human Feedback(RLHF)에 대해 알아보세요. 프롬프트 전략, finetuning, 빠르게 성장하는 도구 생태계 및 향후 확장을 포함하여 이러한 모델을 효과적으로 사용하기 위한 실용적인 기술 및 정신 모델에 대해 자세히 알아보십시오. https://build.micros..

[Large Language Model] 최신 LLM 교육을 위한 전력 요구 사항 [내부링크]

최신 LLM 교육을 위한 전력 요구 사항 LLM(Large Language Model)은 언어 이해 및 생성을 포함하여 인간의 언어 처리 기능을 모방하도록 설계된 컴퓨터 프로그램입니다. LLM은 텍스트 분류, 질문 응답 및 언어 번역과 같은 자연어 처리(NLP) 작업에 널리 사용됩니다. 그러나 이러한 모델의 교육에는 엄청난 양의 컴퓨팅 성능과 에너지 소비가 필요합니다. Large Language Model 및 전원 요구 사항 LLM(Large Language Model)은 인간과 유사한 언어를 처리하고 생성할 수 있는 인공 지능 모델입니다. 이러한 모델은 종종 테라바이트 또는 페타바이트 범위의 방대한 양의 데이터에 대해 훈련되며 수십억 개의 매개변수를 가질 수 있습니다. LLM은 일반적으로 supervi..

[Foundation Model][Large Language Model] PaLM (Pathways Language Model) [내부링크]

PaLM (Pathways Language Model) (2022.04) Google, 540 billion parameters, available via API 다양한 작업을 처리하고 새로운 작업을 빠르게 학습할 수 있는 모델을 구축하는 것을 목표로 하는 Google의 Pathways AI architecture를 기반으로 합니다. PaLM은 경로 시스템으로 훈련된 5,400억 개의 매개변수 모델로, 수백 가지 언어 관련 작업을 수행할 수 있으며 (출시 당시) 많은 작업에서 최첨단 성능을 달성했습니다. PaLM의 놀라운 기능 중 하나는 농담 설명과 같은 여러 복잡한 논리적 단계가 필요한 시나리오에 대한 설명을 생성하는 것이었습니다. References https://ai.googleblog.com/20..

[Foundation Model][Large Language Model] LLaMA [내부링크]

LLaMA (2023.02) Meta AI, Multiple Sizes, downloadable by application Meta AI에서 발표한 LLaMA 모델은 70억에서 650억 매개변수에 이르는 다양한 매개변수 크기로 제공됩니다. Meta는 LLaMA가 대형 모델을 교육하는 데 필요한 컴퓨팅 성능으로 인해 방해를 받아온 현장에 대한 액세스를 민주화하는 데 도움이 될 수 있다고 주장합니다. 다른 LLM과 마찬가지로 이 모델은 일련의 단어를 입력으로 사용하여 작동하고 텍스트를 재귀적으로 생성하기 위해 다음 단어를 예측합니다. 모델에 대한 액세스는 연구원, 정부 산하기관, 학계 종사자 및 Meta에 지원서를 제출한 후에만 사용할 수 있습니다. References https://vectara.com/t..

[Foundation Model][Large Language Model] MT-NLG [내부링크]

MT-NLG (Megatron-Turing Nature Language Generation) (2021.10) Nvidia / Microsoft, 530 billion parameters, API Access by application Transformer-based Megatron의 아키텍처를 사용하였습니다. 완료 예측, 독해, 상식 추론, 자연 언어 추론, 단어 의미 명확화가 가능합니다. References https://vectara.com/top-large-language-models-llms-gpt-4-llama-gato-bloom-and-when-to-choose-one-over-the-other/

[Foundation Model][Large Language Model] LaMDA [내부링크]

LaMDA (Language Model for Dialogue Applications) (2021.05) Google, 173 billion parameters, Not Open Source, No API or Downloads 약 1370억개의 파라미터, 약 30억개의 문서, 11억개의 대화를 사전학습 데이터로 사용 사용자와 보다 자연스럽고 매력적인 대화를 할 수 있도록 설계된 모델입니다. LaMDA가 다른 언어 모델과 차별화되는 점은 LaMDA가 대화에 대해 훈련되었고 모델이 다른 유형의 언어와 구분되는 개방형 토론(open-ended discussions)을 설정하는 다양한 미묘함을 식별할 수 있다는 사실입니다. LaMDA의 잠재적 사용 사례는 고객 서비스 및 챗봇에서 개인 비서 등에 이르기까지 다..

[Foundation Model] ChatGPT [내부링크]

ChatGPT (2022.11.30) OpenAI, 20 billion parameters, Not Open Source, API Access Only 대규모 언어모델(LLM, Large Language Model)에 기반한 대화형 인공지능 서비스 ChatGPT는 텍스트 전용 모델이며 2022년 11월 Open AI에서 출시했습니다. 일반적으로 GPT-4가 더 나은 성능을 나타내지만 GPT-4가 할 수 있는 많은 텍스트 기반 기능을 수행할 수 있습니다. ChatGPT는 InstructGPT의 형제 모델입니다. InstructGPT 자체는 프롬프트를 수신하고 특정 지침을 따르는 자세한 응답을 제공하도록 특별히 훈련되었으며 ChatGPT는 자연어 대화에 참여하도록 설계되었습니다. OpenAI는 더 많은 LL..

[Foundation Model][Multimodal Model] GPT-4 [내부링크]

GPT-4 (2023.03.14) OpenAI, Unknown Size, Not Open Source, API Access Only [NLP] GPT : Generative Pre-trained Transformer, OpenAI가 개발한 인공지능 모델 GPT는 자연어 처리를 위한 인공지능 모델로, 방대한 데이터를 머신러닝으로 미리학습(Pre-trained)해 이를 문장으로 생성(Generative) GPT-4는 ChatGPT 유료 상품인 'ChatGPT 플러스'를 통해 사용 가능합니다. 또는 "Bing Chat"을 이용해서도 사용 가능합니다. 텍스트뿐 아니라 이미지도 입력할 수 있으므로 엄격하게 언어 전용 모델은 아니지만 여러 전문 의료 및 법률 시험을 포함한 다양한 작업에서 인상적인 성능을 보여줍니다..

[Large Language Model] RAG(Retrieval Augmented Generation) [내부링크]

Retrieval Augmented Generation ChatGPT는 정보에 입각한 결정을 내리는 데 필수적일 수 있는 적절한 시기적절한 컨텍스트를 분명히 놓치고 있습니다. How Microsoft Is Solving This Microsoft Build 세션인 Vector Search Isn’t Enough에서 컨텍스트 인식이 덜한 LLM과 벡터 검색을 결합하여 더욱 매력적인 경험을 제공하는 제품을 소개합니다. Elastic Search(또는 벡터 검색)의 관점에서 이 글은 반대 방향에서 시작합니다. 벡터 검색 자체는 제한적이며 LLM 레이어를 추가하면 검색 경험을 크게 향상시킬 수 있다는 생각입니다. 기본 아이디어는 LLM에 관련 컨텍스트를 추가하면 특히 LLM이 이러한 종류의 데이터를 본 적이 없..

Large Language Models (LLMs) [내부링크]

Large Language Models (LLMs), 대규모 언어 모델 대규모 언어 모델(LLM, Large Language Models)은 방대한 양의 텍스트를 처리하고 정확한 결과를 생성하는 기능으로 인해 자연어 처리(NLP) 세계에서 관심을 끌고 있습니다. 이러한 모델은 수억에서 수십억 단어가 포함된 대규모 데이터 세트에서 학습됩니다. 알려진 바와 같이 LLM은 대규모 데이터 세트를 통해 이동하고 단어 수준에서 패턴을 인식하는 Transformer 아키텍처를 포함한 복잡한 알고리즘에 의존합니다. 이 데이터는 모델이 자연어와 컨텍스트에서 사용되는 방식을 더 잘 이해하고 텍스트 생성, 텍스트 분류 등과 관련된 예측을 수행하는 데 도움이 됩니다. Large Language Model이란 a class o..

[Foundation Model][Large Language Model] MPT-7B, MPT-7B-Instruct [내부링크]

MPT-7B https://huggingface.co/mosaicml/mpt-7b mosaicml/mpt-7b · Hugging Face MPT-7B MPT-7B is a decoder-style transformer pretrained from scratch on 1T tokens of English text and code. This model was trained by MosaicML. MPT-7B is part of the family of MosaicPretrainedTransformer (MPT) models, which use a modified transformer archi huggingface.co a decoder-style transformer pretrained from scrat..

[Foundation Model][Large Language Model] GPT-NeoX-20B [내부링크]

GPT-NeoX-20B https://huggingface.co/EleutherAI/gpt-neox-20b EleutherAI/gpt-neox-20b · Hugging Face GPT-NeoX-20B is a 20 billion parameter autoregressive language model trained on the Pile using the GPT-NeoX library. Its architecture intentionally resembles that of GPT-3, and is almost identical to that of GPT-J- 6B. Its training dataset contains a multi huggingface.co Transformer(Decoder)-based ..

[Foundation Model][Large Language Model] mT5-xxl [내부링크]

mT5-xxl https://huggingface.co/google/mt5-xxl google/mt5-xxl · Hugging Face Google's mT5 mT5 is pretrained on the mC4 corpus, covering 101 languages: Afrikaans, Albanian, Amharic, Arabic, Armenian, Azerbaijani, Basque, Belarusian, Bengali, Bulgarian, Burmese, Catalan, Cebuano, Chichewa, Chinese, Corsican, Czech, Danish, Dutch, Eng huggingface.co An encoder-decoder model based on the T5 pretraine..

[Foundation Model][Large Language Model] Flan-UL2 [내부링크]

Flan-UL2 https://huggingface.co/google/flan-ul2 google/flan-ul2 · Hugging Face Flan-UL2 is an encoder decoder model based on the T5 architecture. It uses the same configuration as the UL2 model released earlier last year. It was fine tuned using the "Flan" prompt tuning and dataset collection. You can use the convert_t5x_checkpoint_t huggingface.co An encoder-decoder model based on the T5 archit..

[Foundation Model][Large Language Model] BLOOMZ & mT0 [내부링크]

BLOOMZ & mT0 https://huggingface.co/bigscience/mt0-xxl bigscience/mt0-xxl · Hugging Face Accuracy on Winogrande XL (xl) validation set self-reported 63.380 Accuracy on XWinograd (en) test set self-reported 81.290 Accuracy on XWinograd (fr) test set self-reported 78.310 Accuracy on XWinograd (jp) test set self-reported 78.620 Accuracy on XWinog huggingface.co 논문: https://arxiv.org/abs/2211.01786 ..

[Foundation Model][Large Language Model] BLOOM [내부링크]

BLOOM https://bigscience.huggingface.co/blog/bloom BLOOM Our 176B parameter language model is here. bigscience.huggingface.co 논문: https://arxiv.org/abs/2211.05100 BigScience Large Open-science Open-access Multilingual Language Model BLOOM은 산업 규모의 컴퓨팅 리소스를 사용하여 방대한 양의 텍스트 데이터에 대한 프롬프트에서 텍스트를 계속하도록 훈련된 자동 회귀 대형 언어 모델(autoregressive LLM)입니다. BLOOM은 명시적으로 훈련되지 않은 텍스트 작업을 텍스트 생성 작업으로 캐스팅하여 수행하도록 지시할 ..

[Foundation Model][Large Language Model] FLAN-T5 [내부링크]

FLAN-T5 https://huggingface.co/docs/transformers/model_doc/flan-t5 FLAN-T5 Reinforcement learning models huggingface.co 논문: https://arxiv.org/pdf/2210.11416.pdf An encoder-decoder model based on the T5 Scaling Instruction – Fine-tuned Language Models 여러 타스크를 통해 fine-tuned된 T5의 향상된 버전 Flan 프롬프팅을 기반으로 하는 사전 교육 방법 FLAN-T5-XL https://huggingface.co/google/flan-t5-x google/flan-t5-xl · Hugging Face I..

[Generative AI] Prompt Engineer (프롬프트 엔지니어) [내부링크]

[Generative AI] Prompt Engineering (프롬프트 엔지니어링) [Generative AI] Prompt Engineering (프롬프트 엔지니어링) Prompt(프롬프트) 사용자가 원하는 출력을 생성하고자 할 때 대규모 언어 모델(LLM, Large Language Model)을 안내하기 위한 특정 입력 텍스트 및 질문 텍스트 모델에 제공하는 광범위한 지침으로, 모델이 yumdata.tistory.com Prompt Engineer (프롬프트 엔지니어) 주요 역할 프롬프트 설계 및 개발(프롬프트 엔지니어링): AI 모델이 이해하고 반응할 수 있는 효과적인 프롬프트를 개발하고 최적화 시스템 통합: 자연어 처리(NLP) 알고리즘과 기존 시스템 및 인터페이스와의 통합을 관리 테스트 및 ..

[논문리뷰] The Power of Scale for Parameter-Efficient Prompt [내부링크]

The Power of Scale for Parameter-Efficient Prompt Tuning Google Research 2019.09 https://arxiv.org/pdf/2104.08691.pdf https://arxiv.org/abs/2104.08691 The Power of Scale for Parameter-Efficient Prompt Tuning In this work, we explore "prompt tuning", a simple yet effective mechanism for learning "soft prompts" to condition frozen language models to perform specific downstream tasks. Unlike the di..

[무료 머신 러닝 실습 시스템] Machine Learning for Kids [내부링크]

Machine Learning for Kids https://machinelearningforkids.co.uk/ Machine Learning for Kids An educational tool for teaching kids about machine learning, by letting them train a computer to recognise text, pictures, numbers, or sounds, and make things with it in Scratch. machinelearningforkids.co.uk 이 무료 도구는 머신 러닝 시스템을 교육하고 이를 사용하여 무언가를 구축하기 위한 실습 경험을 제공하여 머신 러닝을 소개합니다. 텍스트, 숫자, 이미지 또는 소리를 인식하도록 ..

[Generative AI] Prompt Engineering (프롬프트 엔지니어링) [내부링크]

Prompt(프롬프트) 사용자가 원하는 출력을 생성하고자 할 때 대규모 언어 모델(LLM, Large Language Model)을 안내하기 위한 특정 입력 텍스트 및 질문 텍스트 모델에 제공하는 광범위한 지침으로, 모델이 원하는 출력을 이해하는 데 도움이 되는 일련의 입력 문구 텍스트는 사용자와 generative AI 모델 간의 주요 통신 수단 예) 긴 기사를 요약하고 싶으면 "Summarize the above in one sentence" 같은 프롬프트와 기사 텍스트를 LLM(Large Language Model)에 입력 AI 프롬프트는 모델의 사고 과정을 위한 출발점 역할을 하므로 AI 모델과 상호 작용하는 데 필수적입니다. 간단하고 간단한 질문부터 AI가 정보를 합성하고 추론을 도출하거나 창의..

Text Mining (텍스트 마이닝) [내부링크]

Text Mining (텍스트 마이닝) Text Data Mining 이라고도 합니다. 텍스트 마이닝은 비정형 텍스트를 정형화하여 의미있는 패턴과 새로운 인사이트를 찾아내는 프로세스입니다. 텍스트 마이닝은 정형 및 비정형 데이터를 자연어 처리방식(Natural Language Processing)과 문서처리 방법을 적용하여 유용한 정보를 추출하여 가공하는 것을 목적으로 하는 기술을 의미하기도 합니다. 텍스트 마이닝은 데이터로부터 유용한 인사이트를 발굴하는 데이터 마이닝(Data Mining), 언어를 정보로 변화하기 위한 자연어 처리, 정보 검색 등 다양한 분야가 접목되어 발전하 학문이자 기술입니다. 텍스트 데이터 종류 텍스트 데이터는 데이터베이스에 따라 구분할 수 있습니다. 정형 데이터 (Structu..

[Generative AI] Generative AI(생성형 AI) [내부링크]

Generative AI(생성형 AI) Generative AI의 핵심은 "충분히 있을 법한" 무언가를 생성하는 것입니다. 생성형 AI란 사람이 AI에게 특정 입력(프롬프트)을 통해 어떤 것을 만들어 달라고 요구하면 그 요구에 맞춰서 결과를 만들어주는 인공지능을 말합니다. Generative AI는 구조화되지 않은 딥 러닝 모델을 사용하여 사용자 입력을 기반으로 콘텐츠를 생성하는 일종의 인공 지능입니다. 이 프로세스의 일부로 생성형 AI는 머신 러닝 및 딥 러닝 알고리즘의 기반을 사용합니다. 그것이 생성하는 콘텐츠에는 서면 자료, 이미지, 비디오, 오디오 및 음악 및 컴퓨터 코드가 포함됩니다. 예를 들어, 인간이 질문이나 진술을 ChatGPT(Generative AI의 선구적인 사례)에 입력하면 짧지만 ..

Data Warehouse vs Data Lake vs Data Lakehouse [내부링크]

Data Warehouse (데이터 웨어하우스) 데이터 웨어하우스는 여러 소스에서 가져온 구조화된 데이터와 반구조화된 데이터를 분석하고 보고하는 데 사용되는 엔터프라이즈 시스템입니다. 데이터 웨어하우스는 임시 분석과 커스텀 보고서 생성에 적합합니다. 데이터 웨어하우스는 현재 데이터와 과거 데이터를 모두 한 곳에 저장할 수 있으며, 시간 흐름에 따른 장기간의 데이터 동향을 확인할 수 있도록 설계되었으므로 비즈니스 인텔리전스의 주요 구성 요소입니다. 데이터 웨어하우스는 여러 소스의 raw data를 중아 repository로 수집하고 이를 관계형 데이터베이스 인프라로 구성합니다. 이 데이터 관리 시스템은 주로 엔터프라이즈 보고와 같은 데이터 분석 및 비즈니스 인텔리전스 애플리케이션을 지원합니다. 시스템은 E..

[Large Language Model][Suvey Paper] Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond [내부링크]

Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond ChatGPT 및 그 이상에 대한 설문조사에 관한 내용을 정리하였습니다. https://arxiv.org/abs/2304.13712 Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond This paper presents a comprehensive and practical guide for practitioners and end-users working with Large Language Models (LLMs) in their downstream natural language processing ..

[NLP][논문리뷰] Distilling the Knowledge in a Neural Network [내부링크]

Distilling the Knowledge in a Neural Network 논문링크: https://arxiv.org/abs/1503.02531 Distilling the Knowledge in a Neural Network A very simple way to improve the performance of almost any machine learning algorithm is to train many different models on the same data and then to average their predictions. Unfortunately, making predictions using a whole ensemble of models is cumbersome arxiv.org Kn..

[Foundation Model] Foundation Model 이란 [내부링크]

Foundation Model (2017) Stanford University HAI(Human-Centered Artificial Intelligence) 논문(2021): On the Opprotunities and Risks of Foundataion Models AI는 대규모의 광범위한 데이터에 대해 훈련되고 광범위한 다운스트림 작업에 적응할 수 있는 모델(예: BERT, DALL-E, GPT-3)의 등장으로 패러다임 전환을 겪고 있습니다. 우리는 이러한 모델을 Foundation Model이라고 부르며 비판적으로 중심적이지만 불완전한 특성을 강조합니다. 이 보고서는 기능(예: 언어, 비전, 로봇 공학, 추론, 인간 상호 작용) 및 기술 원칙(예: 모델 아키텍처, 교육 절차, 데이터, 시스템, 보..

[Machine Learning] Federated Learning (연합 학습) [내부링크]

Federated Learning (연합 학습) 구글에서 제안된 기법으로 개인 모바일 기기에 저장된 데이터를 이용하여 인공지능 모델 학습을 수행하는 방법이다. 데이터를 메인 서버가 아닌, 개개인의 로컬 클라이언트에 두고 그 로컬 클라이언트에서 학습을 수행, 로컬 클라이언트에서 업데이트된 모델의 파라미터들을 중앙 서버로 보내 취합해서 하나의 모델을 업데이트 하는 것을 의미한다. 다수의 개인 모바일 기기에 저장된 데이터를 이용하여 인공지능 모델을 학습하고 학습된 파라미터를 클라우드 상의 서버로 전송하여 통합한 파라미터를 인공 지능 모델 학습에 사용하고 이를 반복하는 방법이다. Federated Learning은 데이터 프라이버시 향상과 커뮤니케이션 효율성을 가진다. 수 만개의 로컬 디바이스의 데이터를 모두 ..

[NLP][Language Model] Language Model이란 [내부링크]

Transfer Learning 특정 태스크를 학습한 모델을 다른 태스크 수행에 재사용하는 기법을 말한다. 학습 데이터의 수가 적을 때 효과적이며, 전이학습 없이 학습할 때보다 훨씬 높은 정확도와 더 빠른 학습 속도를 제공한다. Upstream Task (Self-Supervised Learning) 다음 단어 맞히기, 빈칸 채우기 등 대규모 말뭉치(corpus)의 문맥을 이해하는 과제 Language Model: upstream task를 수행한 모델을 의미한다. Pretrain: upstream task를 학습하는 과정, downstream task를 본격적으로 수행하기에 앞서(pre) 학습(train)한다는 의미한다. Downstream Task 문서 분류, 개체명 인식 등 풀고자 하는 자연어 처리..

[Machine Learning] Active Learning [내부링크]

Active Learning 아직 레이블링이 되어 있지 않은 데이터(unlabeled data) 중에 모델 학습에 가장 효과적일 것 같은 데이터를 고르는 작업을 의미한다. 기계가 라벨링이 필요한 데이터 중 자동적으로, 그리고 점진적으로 가장 정보량이 많은 데이터를 선택하는 것을 목표로 한다. 효과적인 학습이란, 결과적으로 가지고 있는 데이터셋 전체를 잘 학습했을 때의 '기대 성능에 어떻게 하면 빠르게 도달할 수 있는지' 또는 ‘혹시 그 이상의 성능을 확보할 수 있는지’가를 의미할 수 있다. 관련 논문 dsgissin.github.io/DiscriminativeActiveLearning/about/ About An introduction to the active learning framework, from..

[NLP] Natural Language Processing (자연어 처리) [내부링크]

Natural Language Processing (자연어 처리) 컴퓨터를 이용하여 인간 언어의 이해, 생성 및 분석을 다루는 인공지능 기술 자연어 이해, NLU(Natural Language Understanding) 문자로 된 언어를 입력으로 직접 받아들여서, 목적에 맞게 내부적으로 처리해내는 과정 자연어 표현을 기계가 이해할 수 있는 다른 표현으로 변환시키는 것 자연어 생성, NLG(Natural Language Generation) 주어진 수치 등의 정보를 바탕으로 문장을 생성하여 사용자에게 자연어로 응답을 돌려주는 기술 지식 기반이나 논리 형식과 같은 기계 표현에서 의미 표현으로 자연어 문장 생성 기술 자연어 처리 단계 Corpus (말뭉치) 특정한 목적을 가지고 수집한 자연어 데이터. 수많은 ..

PII (Personally Identifiable Information, 개인 식별 정보) [내부링크]

PII (Personally Identifiable Information, 개인 식별 정보) 잠재적으로 특정 개인을 식별할 수 있는 모든 데이터 한 사람을 다른 사람과 구별하는 데 사용할 수 있고 이전에 익명이었던 데이터를 익명화하는 데 사용할 수 있는 모든 정보는 PII로 간주 사람으로 개인으로 고유하게 식별할 수 있는 모든 정보 name address email telephone number date of birth passport number fingerprint driver's license number credit or debit card number Social Security number References https://www.techtarget.com/searchsecurity/defin..

epoch, batch size, iteration [내부링크]

batch (배치) 모델의 가중치를 한번 업데이트시킬 때 사용되는 샘플들의 묶음을 의미 mini batch (미니 배치) 전체 데이터 셋을 몇 개의 데이터 셋으로 나누었을 때, 그 작은 데이터 셋 뭉치 batch size (배치 사이즈) 하나의 미니 배치에 넘겨주는 데이터 갯수, 즉 한번의 배치마다 주는 샘플의 크기 배치 사이즈가 너무 크면 한번에 처리해야 할 양이 많이 때문에 학습 속도가 느려짐 경우에 따라서는 메모리 부족 문제가 발생할 수도 있음 배치 사이즈가 너무 적으면 너무 적은 샘플로 가중치가 자주 업데이트되기 때문에 비교적 불안정하게 훈련될 수 있음 iteration (이터레이션) 하나의 미니 배치를 학습할 때 1iteration이라고 한다. 즉, 미니 배치 갯수 = 이터레이션 수 epoch ..

[Marketing] Lookback Window (전환 추적 기간) [내부링크]

Lookback Window (전환 추적 기간) 지정한 모델에서의 전환 기간을 설정하는 것을 의미 the period of time after which an ad is viewed or clicked that a conversion can be attributed to the ad. 광고를 보거나 클릭한 후 전환이 광고에 기인할 수 있는 기간 marketers to determine which ads resulted in conversion during the specified time frame. 마케터가 지정된 기간 동안 전환으로 이어진 광고를 결정할 수 있다. 가장 일반적인 전환 확인 기간은 7일이지만 한 달의 기간과 마찬가지로 1~3일도 드문 일이 아니다. 그러나 광고를 보고 1년 후에 발생하는..

Ensembler (a python package) [내부링크]

Ensembler a python package that allows fast and easy access to one and two-dimensional model systems simulations https://rinikerlab.github.io/Ensembler/ Welcome to Ensembler — Ensembler beta documentation Description Ensembler is a python package that allows fast and easy access to one and two-dimensional model systems simulations. It enables method development using small test systems and to de..

[Statistical Analysis Model][Time Series Data] Holt-Winters [내부링크]

Holt-Winters Holt와 Winters은 계절성(Seasonality)을 잡아내기 위해 Holt의 기법을 확장하였다. Holt-Winters 모델은 단순하면서도 널리 활용되어지는 시계열 분석도구로서 많은 시계열예측의 기준모델로서 쓰이고 있다. 시계열 분석을 위한 모델로서 3가지 정보를 고려한다. Level: 수준 ℓt에 대한 것 Trend: 추세 bt에 대한 것 Seasonality: 계절 성분 st에 대한 것 m: 계절성의 주기 k: (h-1)/m 의 정수부분, 예측을 위해 계절성 지수를 추정한 값이 표본의 마지막 연도에서 유래하도록 함 Level 수준(level)은 평활값(smooting value)이라고도 하며, 주어진 데이터에서 추세(trend)나 계절성(seasonal)을 제거한 파트 ..

[Statistical Analysis Model][Time Series Data] BATS [내부링크]

BATS Exponential smoothing state space model with Box-Cox transformation, ARMA errors, Trend and Seasonal components The BATS algorithm combines Box-Cox Transformation, ARMA residuals, Trend, and Seasonality factors to forecast future values. BATS 알고리즘은 Box-Cox 변환, ARMA 잔차, 추세 및 계절성 요인을 결합하여 미래 값을 예측한다. The BATS model is an exponential smoothing method along with the ARIMA model for finding the ..

[Statistical Analysis Model][Time Series Data] ARIMA (Autoregressive Integrated Moving Average) [내부링크]

ARIMA (Autoregressive Integrated Moving Average) 시계열 데이터(time series data)를 사용하여 데이터 세트를 더 잘 이해하거나 미래 추세를 예측하는 통계 분석 모델 Autoregressive Integrated Moving Average (ARIMA) model is a typical time series model, which can transform non-stationary data to stationary data through differencing, and then forecast the next value by using the past values, including the lagged values and lagged forecast err..

Statistical Modeling (통계 모델링) [내부링크]

Statistical Modeling (통계 모델링) 수학적 모델과 통계적 가정을 사용하여 샘플 데이터를 생성하고 실제 세계에 대한 예측을 수행하는 것 통계 모델은 실험의 가능한 모든 결과 집합에 대한 확률 분포의 모음이다. 통계 모델링은 데이터 세트에 통계 분석을 적용하는 데이터 과학 프로세스를 말한다. 통계 모델은 하나 이상의 랜덤 변수와 기타 비 랜덤 변수 간의 수학적 관계 원시 데이터에 통계 모델링을 적용하면 데이터 사이언티스트가 전략적 방식으로 데이터 분석에 접근할 수 있으며 변수 간의 관계를 식별하고 예측하는 데 도움이 되는 직관적인 시각화를 제공 통계 분석을 위한 일반적인 데이터 세트 사물 인터넷(IoT) 센서 인구 조사 데이터 공중 보건 데이터 소셜 미디어 데이터 이미지 데이터 실제 예측을..

[Machine Learning] Fairness (공정성) [내부링크]

Fairness in machine learning 특정 그룹의 사람들에 대한 AI 시스템의 부정적인 결과를 피하는 것이 중요!! 기계 학습의 공정성은 기계 학습 모델을 기반으로 하는 자동화된 의사 결정 프로세스에서 알고리즘 편향을 수정하려는 다양한 시도 기계 학습 프로세스 후 컴퓨터가 내리는 결정이 민감한 것으로 간주되는 변수를 기반으로 하는 경우 불공정한 건으로 간주될 수 있다. 예, 성별, 민족, 성적 취향, 장애 등 Disparate impact (이질적인 영향) a metric to evaluate fairness(bias) 모니터링 그룹에 대한 유리한 결과의 백분율 대 참조 그룹에 대한 양호한 결과의 백분율로 계산됨 num_positives: value represents the number ..

[Machine Learning] Feature Engineering [내부링크]

Feature Engineering 모델 정확도를 높이기 위해서 주어진 데이터를 예측 모델의 문제를 잘 표현할 수 있는 features로 변형시키는 과정 머신러닝 모델을 위한 데이터 테이블의 컬럼을 생성하거나 선택하는 작업을 의미 모델 성능에 영향을 많이 미치기 때문에 머신러닝 응용에 있어서 굉장히 중요한 단계 전문성과 시간이 많이 드는 작업 머신러닝 알고리즘을 작동하기 위해 데이터의 도메인 지식을 활용해 특징(feature)를 만드는 과정 Feature Engineering is a Representation Problem Feature: A valuable attribute for your modeling task Importance of Feature Engineering Better feature..

AutoML (Automated Machine Learning) [내부링크]

AutoML (Automated Machine Learning) 머신러닝 모델링은 문제 정의 과정에서부터 데이터 수집, 전처리, 모델 학습 및 평가를 거쳐 서비스 적용에 이르기까지 많은 시간과 노력이 요구된다. 머신러닝을 적용할 때마다 이러한 과정을 되풀이하면서 발생하는 비효율적인 작업을 최대한 자동화하여 생산성과 효율을 높이기 위해 AutoML이 등장하였다. 현실의 문제에 기계학습 적용 과정을 전문가 없이 자동화 → Data Scientist의 역량이 필요한 작업을 자동화 기계 학습 파이프라인에서 수작업과 반복되는 작업을 자동화하는 프로세스 즉, 머신러닝을 자동화하는 AI기술 번거로운 수작업 자동화 머신러닝에 대한 장벽 완화 비전문가도 복잡한 머신러닝 활용 가능 분석 라이프 사이클 Data Prepro..

[Scikit-Learn] Pipeline [내부링크]

Scikit-Learn(sklearn) Pipeline 데이터 전처리에서 학습까지의 과정을 하나로 연결해주는 것 Scikit-learn 파이프라인을 사용하면 데이터 전처리 및 학습의 모든 단계를 포함하는 단일 개체를 만들 수 있다. 파이프라인에 작업(변수 선택, 표준화, 모형 클래스 등)을 등록만 해주면 기존 과정을 한 번에 처리할 수 있다. train과 test 데이터 손실을 피할 수 있다 교차검증 및 기타 모델 선택 유형을 쉽게 만든다. 재현성이 증가한다. Pipeline 작업명, 작업 클래스 두 개로 이루어진 튜플을 리스트로 담아서 전달 Pipeline(['작업명1', 작업 클래스 1), ('작업명2', 작업 클래스 2),...]) from sklearn.feature_selection import..

Cross Validation(CV, 교차검증) [내부링크]

Cross Validation(CV, 교차검증) Training set과 Validation 을 여러번 나눈 뒤 모델의 학습을 검증하는 방식 데이터를 학습용/평가용 데이터 세트로 여러 번 나눈 것의 평균적인 성능을 계산하면, 한 번 나누어서 학습하는 것에 비해 일반화된 성능을 얻을 수 있다. 데이터를 일정한 규칙에 따라 훈련 데이터와 테스트 데이터로 나누어 테스트 데이터에 대한 예측 정확도를 평가하는 방법 교차검증을 사용하여 테스트 데이터에 대해 예측 정확도를 평가하고, 정확도가 최대가 되는 변수의 조합을 선택하는 것 '파라미터 추정 ~ 정확도 평가' 반복으로 인해 계산량이 많아지는 단점이 있음 Cross Validation 효과 및 사용 이유 모든 데이터 셋을 평가에 활용하기 때문에 데이터셋이 부족할 ..

[Machine Learning] Pattern Recognition (패턴인식) [내부링크]

Pattern Recognition (패턴 인식) 컴퓨터가 어떤 대상을 인식하는 문제를 다루는 인지과학과 인공지능의 한 분야 모든 대상의 특징들을 가지고 어떤 대상임을 파악하는 것 인지과학(Cognitive Science) 지능과 인..

[Supervised Learning][Ensemble][Boosting] XGBoost (eXtream Gradient Boosting) [내부링크]

XGBoost(eXtream Gradient Boosting) Gradient Boosting 알고리즘을 분산환경에서도 실행할 수 있도록 구현해놓은 라이브러리 Gradient Boosting 알고리즘에 overfitting 방지를 위한 기법이 추가된 알고리즘 Regr..

[Supervised Learning][Ensemble][Bagging] Extra Tree / Extremely Randomized Tree [내부링크]

Extra Tree(엑스트라 트리) / Extremely Randomized Tree (익스트림 랜덤 트리) Random Forest bootstrap 샘플과 랜덤한 후보 특성들을 사용해 여러 개의 결정 트리(decision tree)을 앙상블 훈련 데이터에 overfi..

[Supervised Learning][Ensemble] LGBM (Light Gradient Boosting Machine) [내부링크]

LGBM (Light Gradient Boosting Machine) Light는 "가볍다"라는 의미로 빠른 속도를 나타낸다는 장점이 있다 트리 기반의 학습 알고리즘인 gradient boosting 방식의 프레임워크 performance 및 scalability를 목..

[Supervised Learning][Regression] Regression Tree(회귀 트리) [내부링크]

[Supervised Learning] Decision Tree [Supervised Learning] Decision Tree Decision Tree (결정 트리) 분류와 회귀 문제에 널리 사용하는 모델 결정에 다다르기 위해 예/아니오 질문을 이어 나가면서 학습 결정..

[Machine Learning] Machine Learning Algorithms [내부링크]

Machine Learning Algorithms [Machine Learning] Supervised Learning Supervised Learning - Regression Linear Regression [Supervised Learning][Regression] Linear Regression 알고리즘 장점 단점 Linear..

[Supervised Learning][Ensemble] Boosting, Gradient Boosting [내부링크]

Boosting 동일한 알고리즘의 분류기를 순차적으로 학습해서 여러 개의 분류기를 만든 후, 테스트할 때 가중 투표를 통해 예측값을 결정 분류기 A, B, C가 있고, 각각이 0.3정도의 accuracy를 보여준다면 A, B, C를..

[Supervised Learning][Ensemble] Bagging, Random Forest [내부링크]

Bagging(Bootstrap Aggregation) 여러 개의 학습 알고리즘, 모델을 통해 각각 결과를 예측하고 모든 결과를 동등하게 보고 취합해서 결과를 얻는 방식 한 가지 분류 모델을 여러 개 만들어서 서로 다른 학습 데이..

Machine Learning Valuation Metrics (머신러닝 모델 성능 평가) [내부링크]

Machine Learning Valuation Metrics Regression Metrics [Regression Metrics] MAE, MSE, RMSE MSLE, RMSLE R-squared [Regression Metrics] R-squared(결정계수) Classification Metrics [Classification Metric..

[Unsupervised Learning] [Clustering] Agglomerative Clustering(병합 군집) [내부링크]

Agglomerative Clustering(병합 군집) 시작할 때 각 포인트를 하나의 클러스터로 지정하고, 종료 조건을 만족할 때까지 가장 비슷한 두 클러스터를 합침 종료 조건: 클러스터 갯수, 지정된 갯수의 클러스터가 남..

[Unsupervised Learning] Clustering [내부링크]

Clustering 비슷한 샘플을 구별해 하나의 cluster 또는 비슷한 샘플의 그룹으로 할당하는 작업 Clustering 활용 고객 분류 고객을 구매 이력이나 웹사이트 내 행동을 기반으로 분류 고객 맞춤 제품 추천이나 마케..

[Unsupervised Leaerning][Clustering] HDBSCAN(Hierarchical DBSCAN) [내부링크]

HDBSCAN(Hierarchical Density-Based Spatial Clustering) https://hdbscan.readthedocs.io/en/latest/index.html The hdbscan Clustering Library — hdbscan 0.8.1 documentation Copyright 2016, Leland McI..

[Unsupervised Learning][Clustering] Mean Shift (평균 이동) [내부링크]

Mean Shift (평균 이동) K-means와 유사하지만 K-means는 중심에 소속된 데이터의 평균 거리 중심으로 이동하는데 반해, Mean Shift는 중심을 데이터가 모여있는 밀도가 가장 높은 곳으로 이동시킴 평균 이동 알..

[Machine Learning][Regression Metrics] R-squared(결정계수) [내부링크]

Regression Metrics R (상관계수) 독립변수와 종속변수간의 선형적인 관계를 나타내는 척도 상관계수는 -1부터 1까지의 값을 갖는다. 1에 가까울 수록 양의 상관관계를 의미하고, -1에 가까울수록 음의 상관관계..

[Machine Learning] Loss Function (손실 함수) [내부링크]

Loss Function (손실 함수) Cross-Entropy 라고도 한다. 모델의 출력값과 정답의 오차를 정의하는 함수 신경망을 학습할 때, 학습이 잘 되고 있는지 평가하는 하나의 지표로 사용 Log Loss 전체 훈련 세트에 대한..

[Machine Learning] Data Mining [내부링크]

Data Mining 데이터를 탐색하고 분석하여 의미 있는 패턴이나 규칙을 발견하는 것 일반적으로 데이터 웨어하우스나 연결된 데이터 세트 컬렉션 등 축적된 데이터에서 유용한 정보를 추출하는 과정 데이터 추출 →..

[Unsupervised Learning][Clustering] K means (K 평균) [내부링크]

K means (K 평균) 데이터 간의 거리를 사용해 가까운 거리에 있는 데이터끼리 하나의 클래스로 묶는 알고리즘 거리를 계산하기 위해 데이터는 수치화된 데이터야 함 데이터를 k개의 클러스터로 분류 1. 사용자로부..

[Machine Learning] 머신러닝 모델의 성능 평가 [내부링크]

True Positive(TP) 실제 True인 정답을 True라고 예측 (정답) 맞는 것을 올바르게 예측한 것 True Negative(TN) 실제 False인 정답을 False라고 예측 (정답) 틀린 것을 올바르게 예측한 것 False Positive(FP) 실..

[Supervised Learning] Naïve Bayes Classification [내부링크]

나이브 베이즈 (Naïve Bayes) 나이브 베이즈 분류 알고리즘은 데이터를 나이브(단순)하게 독립적인 사건으로 가정하고, 이 독립 사건들을 베이즈 이론에 대입시켜 가장 높은 확률의 레이블로 분류를 실행하는 알..

[Supervised Learning] Ridge Regression, Lasso Regression [내부링크]

Ridge Regression 릿지도 회귀를 위한 선형 모델 최소 제곱법에서 사용한 것과 예측 함수를 사용. 단, 가중치의 절대값을 가능한 작게 만드는 것이 목적 → 규제: 과대 적합이 되지 않도록 모델을 강제로 제한 L2..

OCR (Optical Character Recognition) [내부링크]

OCR (Optical Character Recognition) 텍스트 이미지를 기계가 읽을 수 있는 텍스트 포맷을 변환하는 과정 사람이 쓰거나 기계로 인쇄한 문자의 영상을 이미지 스캐너로 획득하여 기계가 읽을 수 있는 문자로 변환..

[Cloud Native] [CI/CD] Tekton [내부링크]

Tekton Cloud Native CI/CD https://tekton.dev/ Tekton Cloud Native CI/CD tekton.dev a powerful and flexible open-source framework for creating CI/CD systems, allowing developers to build, test, and..

[Serverless] Knative [내부링크]

Knative (케이네이티브) an open-source enterprise-level solution to build serverless and event driven application https://knative.dev/docs/ Home - Knative Run serverless containers in Kubernetes with..

Kafka [내부링크]

Kafka (카프카) an open-source distributed event streaming platform https://kafka.apache.org/ Apache Kafka Apache Kafka: A Distributed Streaming Platform. kafka.apache.org 아파치 카프카는 아파치 소프..

[Observability][Istio] Kiali [내부링크]

Kiali (키알리) a management console for Istio service mesh https://kiali.io/ Kiali Kiali Project site kiali.io Kiali는 회로 차단기, 요청 속도, 대기 시간, 트래픽 흐름 그래프와 같은 기능에 대한 가시성..

[Tracing] Jaeger [내부링크]

Jaeger https://www.jaegertracing.io/ Jaeger: open source, end-to-end distributed tracing Monitor and troubleshoot transactions in complex distributed systems www.jaegertracing.io 분산 서비스 간 트랜..

[Service Mesh] Istio [내부링크]

Istio(이스티오) Service Mesh-Sidecar network proxies for service-to-service https://istio.io/ Istio A service mesh for observability, security in depth, and management that speeds deployment cycles...

[MSA] Service Mesh [내부링크]

Service Mesh 프록시를 사용하여 서비스 또는 마이크로 서비스 간의 서비스 간 통신을 촉진하기 위한 전용 인프라 계층 서비스 메시는 서비스 간의 통신을 제어하고 표시하고 관리할 수 있도록 하는 데 특화된 마..

Grafana [내부링크]

Grafana open source analytics & monitoring solution for every database https://grafana.com/ Grafana: The open observability platform Your observability  stack Operational dashboards for your data h..

Prometheus [내부링크]

Prometheus An open-source monitoring system with a dimensional data model, flexible query language, efficient time series database and modern alerting approach https://prometheus.io/ Prometheus - Mo..

Fluentd [내부링크]

Fluentd an open source data collector for unified logging layer https://www.fluentd.org/ Fluentd | Open Source Data Collector "Logs are streams, not files. I love that Fluentd puts this concept fron..

OpenTelemetry [내부링크]

OpenTelemetry  telemetry(trace, metric and logs) 데이터를 만들고 관리하는 API, SDK, 도구 통합 세트 a collection of tools, APIs, and SDKs instrument, generate, collect, and export telemetry data (me..

Red Hat OpenShift Terms [내부링크]

Red Hat OpenShift https://www.redhat.com/en/technologies/cloud-computing/openshift Red Hat OpenShift makes container orchestration easier An enterprise-ready Kubernetes container platform with full-..

[Economy] EAR 제도와 ECCN 통제품목번호 [내부링크]

EAR (Export Administration Regulations, 미국 수출관리규정) 제도 미국은 수출관리규정(EAR: Export Administration Regulations)에 근거하여 미국산 완제품 또는 미국산 부품․기술이 포함된 외국제품을 제3..

Blockchain 작동 원리 [내부링크]

Blockchain 작동 원리 디지털 자산 추적 블록체인은 distributed ledger(분산된 원장) 기술을 활용하여 지점 A에서 지점 B까지 가치 값 또는 디지털 자산의 이동을 추적한다. 블록체인 기술은 네트워크 상의 모든..

Blockchain Terms (블록체인 용어) [내부링크]

Blockchain Terms (블록체인 용어) Asset (자산) 가치를 창출하기 위해 소유하거나 통제할 수 있는 모든 물리적 또는 디지털의 모든것. 집, 음악, 특허 또는 현금이 그 예이다. Bitcoin (비트코인) 암호화 기술을..

Blockchain (블록체인) [내부링크]

Blockchain (블록체인) Understand the Blockchain in two minutes https://youtu.be/r43LhSUUGTQ 블록체인은 분산 및 분권화 되는 개인용 컴퓨터 네트워크에 대한 정보를 저장한다. 이는 누구든 네트워크를 이용..

[Security] [보안 매커니즘] 암호화 보안 프로토콜(SSL/TLS) [내부링크]

SSL (Secure Socker Layer) / TLS (Transport Layer Security) [Security] SSL [Security] SSL SSL 개념 Secure Socket Layer Netscape 사에서 웹 서버와 브라우저 사이의 보안을 위해 개발한 것 Certificate Auth..

[Security] [보안 매커니즘] 인증서 [내부링크]

공개 키 인증서(PKC, Public Key Certificate) 인증서 소유자의 이름/소속/메일 주소 등의 개인 정보 인증서 소유자의 공개 키, 인증서의 유효기간 인증기관(CA; Certification Authority)의 개인 키로 서명한 전..

ELMo [내부링크]

ELMo (Embeddings from Language Models) 2018년 6월에 “Deep contextualized word representations” 논문을 통해 발표된 임베딩 모델 Pre-trained word representations A key component in many neural lang..

[NLP] Transformer Model [내부링크]

Transformer Model Attention is All You Need라는 논문을 통해 처음 발표(Vaswani et al.. 2017) Input text를 입력받아, 기본적으로 Attention 매커니즘을 통해 인코딩, 디코딩하는 방식의 모델 병렬화가 가능하..

[NLP] Attention Model [내부링크]

Attention Model Seq2Seq 모델에서 시퀀스의 길이가 너무 길어져 버리면 상태 벡터에 충분한 정보를 담기 어려워지는 문제점 존재 Seq2Seq의 단점을 보완하기 위해 Attention 개념을 도입 Attention은 Seq2Seq..

[Security] [보안 매커니즘] 전자 서명 (Digital Signatures) [내부링크]

전자 서명 (Digital Signatures) 전송되는 메시지의 무결성 검증 가능 개인키를 사용하여 암호화(서명값 작성)하고, 공개키를 사용하여 복호화(서명값 검증)함 -> 서명자를 누구든지 공개키로 검증할 수 있음 -..

[Security] [보안 매커니즘] 메시지 인증코드(MAC) [내부링크]

메시지 인증코드 (MAC, Message Authentication Code) 데이터가 변조되었는지 검증할 수 있도록 데이터에 덧붙이는 코드 통신하는 양쪽에 공유되어 있는 비밀키를 사용, 비밀키를 알지 못하면 MAC값을 계산할 수..

[Security] [보안 매커니즘] 부인 방지 (Non-Repudiation) [내부링크]

부인 방지 (Non-Repudiation) 상대방이 자신의 행위를 부인하지 못하도록 조치하는 것 위반 또는 잘못된 행동의 상황( 또는 잘못된 상황이 발생하지 않음)이 파악될 수 있도록 충분한 정보 보유가 요구됨 적용 기..

[Security] 인증(Authentication) vs 권한 부여(Authorization) [내부링크]

인증(Authentication) 리소스(e.g. 정보, 시스템)에 접근하는 사람/응용 프로그램의 신원을 확인함으로써 해당 주체의 자격을 검증하는 방법. 인증된 사용자 또는 프로세스만이 보호된 리소스에 액세스할 수 있도..

[Security] 보안 요구사항 분석(Analyzing Security Requirements) [내부링크]

보안 요구사항 분석(Analyzing Security Requirements) 위험 분석을 통해 공격자가 보안 요구사항을 위반할 수 있는 사례를 정의한다. 오용 사례 정의, 위협 모델링 등 보안 요구사항 정의 시 누락된 보안 요구사..

[Security] [보안 매커니즘] 암호화(Cryptography) [내부링크]

암호화(Cryptography) 암호화: 암호화키와 암호 알고리즘을 사용하여, 평문(Plaintext)을 암호문(Ciphertext)으로 바꾸는 과정 암호화된 메시지는 이해할 수 없음 -> 기밀성이 유지 복호화: 복호화키와 복호화 알..

[Security] 보안 요구사항(Security Requirements) [내부링크]

보안 요구사항(Security Requirements) 중요한 시스템 데이터의 기밀성, 무결성, 가용성을 보호하는 방법을 명세하는 것을 말한다. 명세(Specification) 수집된 요구사항을 정해진 규칙과 구조에 따라 문서화 하..

[Security] 스푸핑(Spoofing), 스니핑(Sniffing), 스누핑(Snooping) [내부링크]

스니핑(Sniffing) sniff: 코를 킁킁거리다. 네트워크 상에서 자신이 아닌 다른 상대방들의 패킷 교환을 훔쳐보는 행위 기밀성(confidetiality)을 해치기 위한 공격 스누핑(Snoofing) snoop: 기웃거리다, 염탐하다...

[Security] 보안의 정의 및 보안 특성 [내부링크]

보안(Security) 위협에 대한 보호조치를 수립 및 유지하기 위해 만족시켜야 하는 조건 보호조치는 위험 관리 접근법(Risk Management Approach) 기반의 일부로써 제지, 회피, 예방, 탐지, 복구, 수정 등을 포함할..

[Security] Cybersecurity 중요성 [내부링크]

다양한 사이버 보안 공격으로 인해 글로벌 사이버 보안 규제의 움직임이 활발하다. 글로벌 사이버 보안 규제를 대응하기 위해서는 제품에 대한 Reasonable Security Feature가 요구된다. Cybersecurity 규제 동향..

[데이터 분석] Data Scaling (스케일 조정) [내부링크]

Data Scaling (특성 스케일 바꾸기) 데이터를 모델링하기 전에는 스케일링 과정을 거쳐야 한다. 스케일링을 통해 다차원의 값들을 비교 분석하기 쉽게 만들어주며, 자료의 오버플로우(overflow)나 언더플로우(..

[Web Crawling] Scraping & Crawling [내부링크]

Web Crawling은 프로그램이 웹 사이트를 정기적으로 돌며 정보를 추출하는 기술이다. Web Scraping은 웹 사이트에 있는 특정 정보를 추출하는 기술을 말한다. Web Scraping 웹 사이트에 있는 특정 정보를 추출하는..

[Pandas] Dataframe Groupby [내부링크]

groupBy https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html pandas.DataFrame.groupby — pandas 1.4.2 documentation Used to determine the groups for the groupby. If by is a fun..

[Pandas] 데이터 정렬하기 [내부링크]

sort_index() 인덱스(index)를 기준으로 데이터 정렬 data = pd.DataFrame(np.arange(8).reshape(2,4), index=['b','a'], columns=['lee','kim','choi','oh']) data.sort_index() 열 기준으로 데이터 정렬 data...

[Pandas] 데이터프레임 병합 [내부링크]

merge on 매개변수에 병합 열을 지정하여 데이터프레임 병합 how='inner' : default는 inner join임 df1 = pd.DataFrame({'key':list('bbacaab'), 'data1':range(7)}) df2 = pd.DataFrame({'key':list('abd'), 'd..

[Pandas] 데이터프레임 연결 [내부링크]

concat() axis=1 매개변수를 설정하여 행의 축을 따라 연결 df1 = pd.DataFrame(np.arange(6).reshape(3,2), index=list('abc'), columns=['one', 'two']) df2 = pd.DataFrame(np.arange(4).reshape(2,2), index=l..

[Algorithm] big-O [내부링크]

O, big-O (빅오) 입력값이 무한대로 향할 때 함수의 상한을 설명하는 수학적 표기 방법이다. 점근적 실행 시간(Asymptotic Running Time)를 표기할 때 가장 널리 쓰이느 수학적 표시법 중 하나다. Time Complexity..

[Python] 파이썬 코딩 스타일 [내부링크]

PEP 8 https://peps.python.org/pep-0008/ 구글 파이썬 스타일 가이드 https://google.github.io/styleguide/pyguide.html Naming Conventions Type Public Internal 패키지 lower_with_under 모듈 lower_with_und..

[Python] 파이썬 문법 기초 [내부링크]

Intent 파이썬 공식 가이드인 PEP 8(https://peps.python.org/pep-0008/)에 따라 공백 4칸을 원칙으로 한다. PEP(Python Enhancement Proposals) 프로세스 https://peps.python.org/ 새로운 기능을 제안하고 커뮤..

Dynamic Typing vs Static Typing [내부링크]

Dynamic Typing 동적 타이핑은 코드를 작성하는데 있어서 컴퓨터적 구조를 생략한다. 따라서 변수를 지정할 때 해당 변수의 데이터 타입 등을 명시하지 않아도 컴퓨터가 알아서 해석하도록 둔다. 파이썬에서 a = 1..

[Python] 데이터 분석 파이썬 라이브러리 [내부링크]

Scipy 과학 계산용 함수를 모아놓은 파이썬 패키지 고성능 선형대수, 함수 최적화, 신호처리, 특수한 수학 함수와 통계 분포 등을 포함한 많은 기능 제공 pip install scipy import scipy as sp matplotlib [Data..

[Pandas] Pandas 개념 [내부링크]

Pandas 데이터 처리와 분석을 위한 파이썬 라이브러리이다. R의 data.frame을 본떠서 설계한 DataFrame이라는 데이터 구조를 기반으로 만들어졌다. 엑셀의 스프레드시트와 비슷한 테이블 형태를 가진다. SQL처럼..

[Python] 유용한 도구들 [내부링크]

type 데이터 타입 확인 type('12345') >> str type(12345) >> int dir 함수나 모듈에 대한 정보 dir(클래스)를 입력할 경우 해당 클래스에 내장되어 있는 함수들의 이름 확인이 가능하다. help help(클래스), help..

[Python] Collection Data Type - set [내부링크]

Collection Data Type 데이터를 서로 연관시키지(relating) 않고 모아두는 컨테이너(container) 멤버십 연산자: in 크기 함수: len(seq) 반복성: 반복문의 데이터를 순회 set 중괄호 {}을 이용하여 선언 반복 가능..

[Python] Sequence Data Type - byte, bytearray [내부링크]

Sequence Data Type memership 연산: in 키워드 사용 size 함수: len(seq) slicing 속성: seq[:-1] iterability: 반복문에 있는 데이터를 순회할 수 있음 문자열, 튜플, 리스트, 바이트 배열, 바이트 등 5개의 내..

[Python] Sequence Data Type - list [내부링크]

Sequence Data Type memership 연산: in 키워드 사용 size 함수: len(seq) slicing 속성: seq[:-1] iterability: 반복문에 있는 데이터를 순회할 수 있음 문자열, 튜플, 리스트, 바이트 배열, 바이트 등 5개의 내..

[Python] Sequence Data Type - tuple [내부링크]

Sequence Data Type memership 연산: in 키워드 사용 size 함수: len(seq) slicing 속성: seq[:-1] iterability: 반복문에 있는 데이터를 순회할 수 있음 문자열, 튜플, 리스트, 바이트 배열, 바이트 등 5개의 내..

데이터 분석 [내부링크]

빅 데이터 분석 프로세스 Problem Definition 업무 이해 혹은 문제를 정의 Data Definition 데이터 이해 Design of Experiment / Sampling 실험 계획 수립 또는 표본화 Data Processing / Data Wrangling 데이..

[python-pptx] Powerpoint 문서 정보 추출 [내부링크]

python-pptx a Python library for creating and updating PowerPoint (.pptx) files 파워포인트(.pptx) 파일의 슬라이드 내 데이터를 추출하여 분석하고자 하는 경우 python-pptx를 활용할 수 있다. [python-pptx..

[Jenkins] Item [내부링크]

Item Item: 새롭게 정의할 작업 Project: 모든 작업의 정의와 순서를 모아 둔 전체 작업 New Item (새로운 Item) Freestyle project 스타일의 자유도가 높은 방식 구성하기 쉽지만, 과정이 복잡한 작업을 구성하..

[Jenkins] System Configuration [내부링크]

Jenkins 시스템 설정 젠킨스 관리 의존 플러그인 버전 현재 사용중인 플러그인의 의존성 확인 후 버전 만족되지 않는 경우 알람 시스템 설정 메인 화면 표시 문구, 실행기(executors) 개수, 젠킨스 접속 경로, 관..

Elasticsearch Stack [내부링크]

Elasticsearch Stack ELK Stack(Elasticsearch, Logstash, Kibana) + Beats Elasticsearch 텍스트, 숫자, 위치 기반 정보, 정형 및 비정형 데이터 등 모든 유형의 데이터를 위한 무료 검색 및 분석 엔진 [Elastic..

Elasticsearch Cluster, Node [내부링크]

Elasticsearch Cluster 물리적인 노드 인스턴스들의 모임 모든 노트의 검색과 색인 작업을 관장하는 논리적인 개념 분산 처리를 위해서는 다양한 형태이 노드들을 조합해서 클러스터를 구성해야 한다. Elasticsea..

Elasticsearch 데이터 구조 [내부링크]

Elasticsearch 데이터 구조 Elasicsearch와 RDBMS 비교 ElasticSearch RDBMS index Database Shard Partition Type Table Document Row Field Column Mapping Schema Query DSL SQL Index 데이터 저장 공간 하나..

Elasticsearch snapshot 데이터 연동 [내부링크]

Elasticsearch snapshot 데이터 연동 Elasticsearch를 실행한 후 path.repo에서 설정한 물리적인 스냅숏 데이터를 elasticsearch로 인식시켜야 한다. curl -H "Content-Type: application/json" -XPUT "http://..

Kibana 설치 [내부링크]

Kibana Elasticsearch에서 제공하는 데이터 시각화 프로그램 Elasticsearch에서 색인된 데이터를 검색하거나 문서를 추가하거나 삭제하는 등의 기능을 손쉽게 구현할 수 있다. Kibana 설치 Kibana 다운로드 경로에..

Elasticsearch 설치 [내부링크]

Elasticsearch 설치 엘라스틱서치를 운영할 때는 최소 3개 이상의 물리적인 노드로 클러스터를 구축하는 것이 좋다. 테스트용 등으로 사용하기 위해 노드 하나만으로 구성된 클러스터를 싱글 모드 또는 테스트 모..

OpenJDK 설치 [내부링크]

OpenJDK 설치 오라클 정책 변경으로 Java SE(JRE/JDK) 유상버전 변경에 따라 무료 버전이 필요한 경우에는 Open JDK를 설치하면 된다. [OpenJDK 공식 홈페이지] OpenJDK Learn about the key active Projects in t..

Elasticsearch [내부링크]

Elasticsearch https://www.elastic.co/kr/what-is/elasticsearch Elasticsearch는 무엇인가요? 로그, 시스템 메트릭, 웹 애플리케이션 등 다양한 소스로부터 원시 데이터가 Elasticsearch로 흘러들어갑니다. 데이..

검색 시스템 [내부링크]

검색 시스템 검색엔진(Search Engine) 웹에서 정보를 수집해 검색 결과를 제공하는 프로그램 검색 시스템(Search System) 대용량 데이터를 기반으로 신뢰성 있는 검색 결과를 제공하기 위해 검색엔진을 기반으로..

Practical Statistics (데이터 과학을 위한 통계) [내부링크]

데이터 과학을 위한 통계[2판] [Practical Statistics] 데이터 과학을 위한 통계(2판) 통계 교육기관 Statistics.com 설립자. Statistics.com은 100여 개 통계 강의를 제공하며 그중 3할은 데이터 과학자가 대상이..

Textract [내부링크]

Textract 워드, 파워포인트, PDF 파일 등의 텍스트 추출 https://github.com/deanmalmgren/textract GitHub - deanmalmgren/textract: extract text from any document. no muss. no fuss. extract text from any..

[tika-python] PDF, Powerpoint 정보 추출 [내부링크]

tika-python [tika-pyhon @github] GitHub - chrismattmann/tika-python: Tika-Python is a Python binding to the Apache Tika REST services allowing Tika to be call Tika-Python is a Python binding to th..

[tabula-py] PDF 파일 정보 추출 [내부링크]

tabula-py https://github.com/chezou/tabula-py GitHub - chezou/tabula-py: Simple wrapper of tabula-java: extract table from PDF into pandas DataFrame Simple wrapper of tabula-java: extract table from..

[PyMuPDF] PDF 파일 정보 추출 [내부링크]

PyMuPDF 설치 pip install PyMuPDF PyMuPDF를 이용한 파일 정보 추출 import fitz pdf_doc = fitz.open("sample.pdf") # number of pages print(f"전체 Page 수: {pdf_doc.page_count}") # Get the first page pag..

[PyPDF2] PDF 파일 정보 추출 [내부링크]

PyPDF2 https://pythonhosted.org/PyPDF2/ PyPDF2 Documentation — PyPDF2 1.26.0 documentation pythonhosted.org PyPDF2 설치 pip install PyPDF2 PyPDF2를 이용한 파일 정보 추출 from PyPDF2 import PdfFileR..

Python을 이용한 PDF 파일 정보 추출 [내부링크]

PDF 파일 정보 추출을 위한 python 라이브러리들을 소개하고자 한다. PDF 파일에서 추출하고 싶은 데이터의 구조(텍스트, 테이블 데이터 등)나 Output 형태(이미지 파일, Dataframe 등)에 따라 적합한 라이브러리..

Python을 이용한 Powerpoint 파일 정보 추출 [내부링크]

Powerpoint 파일 정보 추출을 위한 python 라이브러리들을 소개하고자 한다. python-pptx [python-pptx] 파워포인트 문서 정보 추출 [python-pptx] Powerpoint 문서 정보 추출 python-pptx a Python library for c..

Quality Attributes [내부링크]

Quality Attributes Availability (가용성) 시스템의 실패에 연관된 품질로써 시스템 실패시에 파급되는 효과로 도출된다. 소프트웨어가 필요할 때 작업을 수행할 준비가 되었는지를 판단 합법적인 사용자에게 서..

Architecture Document Template [내부링크]

Architecture Document Descriptions 1. Project Overview 프로젝트 배경, 이해 관계자 정의, 활동 기간 및 프로젝트 목표에 대해 기술 2. Architectural Drivers 시장 및 비지니스 context 비지니스 및 기술적 제..

Node.js [내부링크]

Node.js [Node.js 공식 사이트] Node.js Node.js is a JavaScript runtime built on Chrome's V8 JavaScript engine. nodejs.org Chrome V8 JavaScript 엔진으로 빌드 된 JavaScript 런타임 노드를 통해 다양..

Spring [내부링크]

Spring [Spring 공식 사이트] Spring Framework spring.io 참고 사이트: https://gmlwjd9405.github.io/2018/10/26/spring-framework.html 자바 엔터프라이즈 개발을 편하게 해주는 경량급 오픈소스 애플..

React [내부링크]

React React는 framework이 아니라 library이다. [React 공식 문서] Create a New React App – React A JavaScript library for building user interfaces reactjs.org 참고 사이트: https://react.vlpt.us/basi..

DevOps [내부링크]

DevOps 소프트웨어의 개발(Development)과 운영(Operations)의 합성어 소프트웨어 개발자와 정보기술 전문가 간의 소통, 협업 및 통합을 강조하는 개발 환경이나 문화 소프트웨어 개발조직과 운영조직간의 상호 의..

MQTT vs CoAP [내부링크]

경량 IoT 통신 프로토콜 MQTT와 CoAP는 인터넷에 기반의 풍부한 리소스를 가진 디바이스로부터 IoT 기반의 제한된 리소스를 가진 디바이스로 통신을 지원한다. CoAP와 MQTT는 모두 경량 애플리케이션 계층을 구현..

Docker [내부링크]

Docker 리눅스의 응용 프로그램들을 소프트웨어 컨테이너 안에 배치시키는 일을 자동화하는 오픈 소스 프로젝트 마이크로서비스 아키텍쳐의 장점은 최대한 살리고 CI/CD를 통해서 효과적인 개발환경을 만들고 싶다..

Compile Language vs Interpreter Language [내부링크]

Compile Language 런타임 이전에 기계어 (혹은 Java의 경우 바이트코드) 로 변환되는 언어 어셈블리어는 CPU에 의존적이기 때문에, 컴파일된 코드들은 여러종류의 프로세서를 자유롭게 옮겨다니며 사용될 수 없..

Web Application Framework [내부링크]

Web Application Framework https://www.geeksforgeeks.org/top-10-frameworks-for-web-applications/ 동적인 웹 페이지나, 웹 애플리케이션, 웹 서비스 개발 보조용으로 만들어지는 애플리케이션 프레임워크의..

Bandwidth vs Latency [내부링크]

네트워크 성능 측면 Speed 특정 네트워킹 기술의 정격 속력, 혹은 명목 속력, ex 100Mbit Bandwitdh (대역폭) 컴퓨터 네트워크나 인터넷이 특정 시간 내에 보낼 수 있는 정보량. 흔히 초당 비트로 측정됨 네트워..

OSI 7 Layer [내부링크]

OSI(Open System Interconnection) 7 Layer 국제표준화기구(ISO, International Organization for Standardization)에서 개발한 모델로서, 네트워크 프로토콜 디자인과 통신을 계층으로 나눠 설명한 것 레벨 계층..

Network Class [내부링크]

IP, Internet Protocol 패킷 교환 네트워크(인터넷)에서 데이터를 주고 받을 때의 통신 규약 IP Address 네트워크(인터넷) 상에서 데이터를 주고받기 위해 모든 컴퓨터들은 각자의 주소를 가지는데 그 주소가 IP..

네트워크 종류 [내부링크]

네트워크 종류 PAN. Personal Area Network 가장 작은 규모의 네트워크 LAN, Local Area Network 근거리 영역 네트워크 네트워크 기기에 상관없이 서로 통신 가능 광역 전송매체의 사용으로 고속통신 가능 많은..

IP [내부링크]

IP Internet Protocol 송신 호스트와 수신 호스트가 패킷 교환 네트워크(패킷 스위칭 네트워크, Packet Switching Network)에서 정보를 주고받는 데 사용하는 정보 위주의 규약(프로토콜, Protocol) OSI 네트워크..

DDoS-Flooding [내부링크]

UDP Flooding의 공격 대상 시스템은 많은 수의 UDP 패킷을 처리하고 ICMP 패킷을 보내느라 시스템 자원을 소비하게 되어 다른 클라이언트 요청에 대해 서비스를 못하는 상태(DoS)가 됨 대량의 UDP 패킷을 만들어..

DDoS-SYN Flooding [내부링크]

TCP vs UDP [AWS Solution Architect/IP Network] - TCP vs UDP SYN Flooding TCP 3-way-handshake 과정의 두번째 과정에 집중된다. "② Server는 SYN 패킷과 ACK 패킷을 Client에게 전달합니다. 그리고 Server..

SSL [내부링크]

SSL 개념 Secure Socket Layer Netscape 사에서 웹 서버와 브라우저 사이의 보안을 위해 개발한 것 Certificate Authority(CA)라 불리는 서드 파티로부터 서버와 클라이언트 인증하는데 사용 전송된 모든 데이터가..

CDN [내부링크]

CDN Content Delivery Network 콘텐츠를 효율적으로 전달하기 위해 여러 노드를 가진 네트워크에 데이터를 저장하여 제공하는 시스템 인터넷 서비스 제공자에 직접 연결되어 데이터를 전송하므로, 콘텐츠 병목을..

UTM [내부링크]

UTM 에 탑재 되는 보안 모듈 Unified Threat Management 방화벽, 가상 전용 네트워크, 침입 차단 시스템, 웹 컨텐츠 필터링, 안티스팸 소프트웨어 등을 포함하는 여러 개의 보안 도구를 이용한 관리 시스템..

SQL Injection [내부링크]

SQL Injection 응용 프로그램 보안 상의 허점을 의도적으로 이용해, 악의적인 SQL문을 실행되게 함으로써 데이터베이스를 비정상적으로 조작하는 코드 인젝션 공격 방법 Blind SQL injection 평범한 SQL injectio..

DDoS Attack [내부링크]

DDoS (Distributed Denial of Service) 여러 대의 공격자를 분산적으로 배치해 동시에 서비스 거부 공격하는 방법 서비스 거부 공격 또는 디오에스/도스는 시스템을 악의적으로 공격해 해당 시스템의 자원을 부족..

IDS/IPS [내부링크]

IDS Intrusion Detection System 컴퓨터나 전산망의 비정상적인 사용이나 오남용과 같은 잠재적인 침입 시도 등을 실시간으로 탐지하기 위한 시스템 컴퓨터 시스템에서 발생하는 서비스 거부 공격 등과 같은 네트..

Hypervisor [내부링크]

Hypervisor (하이퍼바이져) 호스트 컴퓨터에서 다수의 운영 체제를 동시에 실행하기 위한 논리적 플랫폼 가상화 머신 모니터 또는 가상화 머신 매니저라고도 불림 Amazon EC2(Elastic Compute Cloud) Hypervisor..

Linux 서버 부팅 실패 [내부링크]

Amazon EC2 Amazon Elastic Compute Cloud(Amazon EC2)는 Amazon Web Services(AWS) 클라우드에서 확장식 컴퓨팅을 제공 인스턴스: 가상 컴퓨팅 환경 Amazon 머신 이미지(AMI): 서버에 필요한 운영체제와 여러 소..

Infra 모니터링 방법 [내부링크]

Amazon CloudWatch 클라우드 리소스 및 애플리케이션에 대한 완전한 가시성 개발자, 시스템 운영자, 사이트 안정성 엔지니어(SRE) 및 IT 관리자를 위해 구축된 모니터링 및 관리 서비스 로그, 지표 및 이벤트 형태..

DNS [내부링크]

DNS (Domain Name System) 호스트의 도메인 이름을 호스트의 네트워크 주소로 바꾸거나 그 반대의 변환을 수행할 수 있도록 하기 위해 개발 www.example.com과 같이 사람이 읽을 수 있는 이름을 192.0.2.1과 같은..

Host disk 모니터링 툴 [내부링크]

AWS EC2 모니터링 자동 모니터링 도구 시스템 상태 검사 네트워크 연결 끊김 시스템 전원 중단 물리적 호스트의 소프트웨어 문제 네트워크 연결성에 영향을 주는 물리적 호스트의 하드웨어 문제 인스턴스 상태 검..

SAN/NAS/DAS [내부링크]

SAN (Storage Area Network) 저장 지역 통신망 디스크 어레이, 테이프 라이브러리, 옵티컬 주크박스와 같은 원격 컴퓨터 기억 장치를 서버에 부착하는 구조 블록 수준 스토리지에 접속할 수 있도록 지원하는 특정..

DB availability [내부링크]

Availability 서비스 제공시간에 장애없이 서비스를 계속 지속할 수 있는 비율 DB 가용성 확보 방안 (DB 가 full 인 경우 확보 방안) 가용성을 높이는 2가지 전략 1. 심장전략(고품질-소수전략) 시스템..

git vs svn [내부링크]

svn trunk: 프로젝트에서 가장 중심이 되는 디렉토리 branches: 프로젝트 내의 작은 프로젝트들 tags: 버전 별로 소스코드를 따로 관리하는 공간 보통 대부분의 기능을 완성해 놓고 소스를 중앙 저장소에y com..

Hadoop [내부링크]

Hadoop Apache Hadoop (High Availability Distributed Object-Oriented Platform) 대량의 자료를 처리할 수 있는 큰 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 프리웨어 자바 소프트웨어 프레..

WAF (Web Application Firewall) [내부링크]

WAF (Web Application Firewall) 웹 서비스 특성상 서비스 용도로 포트80(HTTP)과 포트443(HTTPS)을 열어야 한다. 그러나 방화벽, 침입탐지/침입방지시스템(IDS/IPS)과 같은 기존 네트워크 보안 솔루션은 이 포..

RDBMS vs NoSQL [내부링크]

RDB(Relational Database) 데이터를 유연하게 쿼리할 수 있지만, 쿼리 비용이 상대적으로 높다 트래픽이 많은 상황에서는 확장성이 떨어진다. 최고 성능을 위해서는 쿼리, 인덱스 및 테이블 구조를 최적화 해야..

TCP vs UDP [내부링크]

UDP (User Datagram Protocol) 어떠한 협상과정 없이 메시지를 실어서 보내기만 하고 받았는지 안 받았는지는 신경쓰지 않는다 TCP (Transmission Control Protocol) 메시지를 보내기 전에, 3-way-handshake 과정..

Load Balancing [내부링크]

Scale-up  Server가 더 빠르게 동작하기 위해 하드웨어 성능을 올리는 방법 Scale-out 하나의 Server 보다는 여러 대의 Server가 나눠서 일을 하는 방법 Scale-out의 장점 하드웨어 향상하는 비용보다 서버 한대..

CI/CD [내부링크]

CI/CD 애플리케이션 개발 단계를 자동화하여 애플리케이션을 더욱 짧은 주기로 고객에게 제공하는 방법 기본개념은 지속적인 통합, 지속적인 서비스 제공, 지속적인 배포 CI(Continuous Integration) 개발자가 각..

3 Tier [내부링크]

3 tier 웹 어플리케이션의 정의와 구성방식 3-tier Web Architecture란 프레젠테이션 로직(클라이언트, 사용자 인터페이스), 비즈니스 로직, 데이터베이스 로직을 각각 다른 플랫폼 상에서 구현한 것 계층(Tier):..

BERTopic [내부링크]

BERTopic BERT 임베딩 및 클래스 기반 TF-IDF를 활용하여 조밀한 클러스터를 생성하여 주제 설명에 중요한 단어를 유지하면서 쉽게 해석 가능한 주제를 허용하는 주제 모델링 기술 https://maartengr.github.io/BE..

Clustering - DBSCAN [내부링크]

DBSCAN(Density-based Spatial Clustering of Application with Noise) 밀도 기반 클러스터링 비선형 클러스터의 군집이나 다양한 크기를 갖는 공간 데이터를 보다 효과적으로 군집하기 위해 이웃한 개체와의 밀도..

NLP Dataset [내부링크]

AI HUB https://aihub.or.kr/ 홈 | AI Hub AI Hub(AI 허브)는 양질의 인공지능 학습용 데이터를 누구에게나 공개하여 지능 정보사회 발전에 도움 aihub.or.kr AI Hub는 지능정보산업인프라조성 사업으로 추진한 AI..

Bokeh [내부링크]

Bokeh https://docs.bokeh.org/en/latest/index.html Bokeh documentation Bokeh is a Python library for creating interactive visualizations for modern web browsers. It helps you build beautiful graphics..

차원축소 (Dimensionality Reduction) [내부링크]

차원축소 (Dimensionality Reduction) 가지고 있는 방대한 양의 데이터에서 필요한 특성만 추출하는 방법 너무 많은 정보를 잃지 않으면서 데이터를 간소화 새로운 데이터를 잘 예측해주는 '설명력'있는 모델을 구..

Selenium [내부링크]

Selenium(셀레니움) 웹 브라우저의 자동화를 가능하게 하고 지원하는 다양한 도구와 라이브러리를 포함한 프로젝트 웹 앱을 테스트 할 때 주로 사용하는 프레임워크 webdriver라는 api를 통해서 browser 제어 동적..

spaCy [내부링크]

spaCy https://spacy.io/ spaCy · Industrial-strength Natural Language Processing in Python spaCy is a free open-source library for Natural Language Processing in Python. It features NER, POS tagging..

map 함수, applymap 함수, apply 함수 [내부링크]

map 함수 Series 타입에서만 사용 Series 값 하나하나에 접근하면서 해당 함수를 수행 applymap 함수 DataFrame클래스의 함수이긴 하나, apply함수처럼 각 row(axis=1)나 각 column(axis=0)별로 작동하는 함수가..

파이썬 통계 분석 [내부링크]

파이썬 통계 분석 개요 4차 산업혁명: 초연결, 지능, 융합 -> 사무인터넷, AI, 빅데이터 데이터 과학과(IoT + 빅데이터 + AI): 데이터 내재된 패턴 분석 -> 전략적 의미를 추론하는 방법 데이터의 분류 정형 데이..

Mecab 설치(Windows OS) [내부링크]

mecab-ko-msvs 다운로드 mecab을 윈도우에서 실행될 수 있게 컴파일 하는 역할 하기 경로에서 윈도우 버전 및 32비트/64비트 선택해서 다운로드 후 원하는 폴더 경로에 파일 압축풀기 https://github.com/Pusnow/m..

KR-BERT [내부링크]

KR-BERT A Small-Scale Korean-Specific Language Model Git Hub github.com/snunlp/KR-BERT snunlp/KR-BERT KoRean based BERT pre-trained models (KR-BERT) for Tensorflow and PyTorch - snunlp/KR-BERT githu..

Information Extraction [내부링크]

정보추출(Information Extraction, IE) 비정형 텍스트에서 정보를 추출하기 위해 규칙적이고 엔티티 간의 의미적 관계를 포함하는 구조화된 데이터 필요 엔티티 간의 의미적 관계를 나타내는 관계형 튜플 형태를..

Pandas-Profiling [내부링크]

Pandas-Profiling 방대한 양의 데이터를 가진 데이터프레임을 .profile_report()라는 단 한 줄의 명령으로 탐색하는 패키지 Github github.com/pandas-profiling/pandas-profiling pandas-profiling/pandas-profil..

NER [내부링크]

NER(Named Entity Recognition) 텍스트에서 고유한 의미의 개체(entity)를 인식(recognition)하는 것 질의 답변, 정보 검색, 관계 추출 등을 위한 NLP 시스템의 핵심 구성 요소 사람(Person, PS), 장소(Location,..

Language Model [내부링크]

Language Model 언어를 이루는 구성 요소(글자, 형태소, 단어, 단어열(문장), 문단 등)에 확률값을 부여하여 이를 바탕으로 다음 구성 요소를 예측한거나 생성하는 모델 통계적 언어 모델(Statistical Language M..

soynlp [내부링크]

soynlp https://github.com/lovit/soynlp lovit/soynlp 한국어 자연어처리를 위한 파이썬 라이브러리입니다. 단어 추출/ 토크나이저 / 품사판별/ 전처리의 기능을 제공합니다. - lovit/soynlp github.com 한국어..

Mecab [내부링크]

Mecab(은전한닢) eunjeon.blogspot.com/2013/02/blog-post.html 은전한닢 프로젝트를 소개합니다. 은전한닢 프로젝트: 오픈 소스 한국어 / 한글 형태소 분석기 Lucene/Solr, ElasticSearch 플러그인 eunjeon.blogs..

Gensim [내부링크]

Gensim Python library for topic modelling, document indexing and similarity retrieval with large corpora 자연어 처리를 위한 python 패키지 Topic modeling 에 자주 이용되는 Latent Dirichlet Alloca..

자연어 처리를 위한 수학 [내부링크]

확률의 기초 확률 어떠한 사건(event)이 발생할 수 있는 가능성을 수치로 나타낸 것 표본 공간 사건에서 발생할 수 있는 모든 경우 확률 변수 어떠한 사건을 실수 표현으로 매칭시키는 일종의 함수 P(X=사건)=확률..

T5 [내부링크]

Transformer 모델의 성능 향상을 위한 시도 1. 어떻게 더 많이, 더 잘 훈련시켜서 성능을 향상시킬 수 있을까? pre-training objective 변형, 모델 변경 등 연구 난이도가 훨씬 높고 computing resource도 많이 필..

Doc2Vec [내부링크]

Doc2Vec 개념 및 방법 개념 Word2Vec에 이어 구글 연구팀이 개발한 문서 임베딩 기법(Le&Mikolov, 2014) 타겟 단어와 이전 단어 k 개가 주어졌을 때, 이전 단어들 + 해당 문서의 아이디로 타겟 단어를 예측하는..

Multilingual BERT [내부링크]

Multilingual BERT 104개 언어 한국어 처리 위해서는 BERT 다국어 버전을 받아야 한다. github.com/google-research/bert/blob/master/multilingual.md google-research/bert TensorFlow code and pre-trained mod..

Semantic Analysis [내부링크]

단어 의미 중의성 중의성 언어 표현에서 둘 이상의 의미를 가지는 표현들 어휘적 중의성 다의어에 의한 중의성 하나의 단어가 주변 문맥이나 상황에 따라 다른 의미들로 해석되는 것 "손 좀 보자" 동음어에 의한..

Syntactic Analysis [내부링크]

구문 분석(Syntactic Analysis) 자연어 문장에서 구성 요소들의 문법적 구조를 분석하는 기술 문법적 구조 정보를 자동으로 추출 기계 번역, 정보 검색, 전문가 시스템에서 문장 의미의 분석을 돕는 세부 기술로..

Lexical Analysis [내부링크]

어휘 분석(Lexical Analysis) 단어의 구조를 식별하고 분석함으로써 어위의 의미와 품사에 관한 단어 수준의 연구 어휘: 어휘적 의미의 기본 단위 한 문장에서 단어나 구를 식별하는 형태소 분석과 단어의 품사 정..

언어학의 기본 원리 [내부링크]

언어를 이루는 단위 음절(Syllable) 언어에서 하나의 덩어리로 여겨지는 가장 작은 발화의 단위 한국어 음절 초성: 가장 처음에 오는 소리, 자음 중성: 가운데 소리, 모음 종성: 마지막 소리, 자음 자연어처리에서..

Corpus [내부링크]

Corpus 말뭉치 통계 혹은 딥러닝 기반의 자연어처리에서 사용되는 매우 많은 수의 문장의 모음 적용 목적과 모델에 따라 변형 또는 신규 구축해야 함 Corpus 구축 데이터의 품질에 학습된 모델의 성능이 크게 영향..

자연어 처리 난제 [내부링크]

언어의 중의성 언어의 중의성 동일 글자/문장이가 맥락에 따라 해석의 여지가 달라지는 것 규칙의 예외 언어의 규칙 여러 단어에서 같은 부분이 반복되면 비슷한 의미를 갖는다고 유추하는 것 ex) 한국어 형태소의..

Tensorflow GPU [내부링크]

NVIDIA Graphic Card Driver 장착된 그래픽 카드에 맞춰 그래픽카드 드라이브 설치 www.nvidia.co.kr/Download/Find.aspx?lang=kr NVIDIA Driver 다운로드 - 고급 검색 SD Studio 드라이버 Studio 드라이버는 핵심..

SVM(Support Vector Machine) [내부링크]

SVM(Support Vector Machine) 각 훈련 데이터 포인트들의 클래스 결정 경계를 구분하는 것을 학습 Support Vector: 두 클래스 사이의 경계에 위치한 데이터 포인터 새로운 데이터 포인트에 대해 예측할 때는 데이..

Ensemble [내부링크]

Ensemble 머신러닝 모델을 연결하여 더 강력한 모델을 만드는 기법 여러 개의 학습 알고리즘을 사용해 더 좋은 성능을 얻는 방법 Bagging(Bootstrap Aggregation) 기본 요소로 결정 트리 사용 샘플을 여러 번 뽑..

Decision Tree [내부링크]

Decision Tree (결정 트리) 분류와 회귀 문제에 널리 사용하는 모델 결정에 다다르기 위해 예/아니오 질문을 이어 나가면서 학습 결정 트리의 학습은 정답에 가장 빨리 도달하는 예/아니오 질문(테스트) 목록을 학..

Linear Regression [내부링크]

Linear Model 입력 특성에 대한 선형 함수를 만들어 예측을 수행 특성 개수: p + 1 Linear Regression 종속 변수 y와 한 개 이상의 독립 변수 x와의 선형 상관 관계를 모델링하는 회귀분석 기법 단순 선형 회귀:..

KNN(K-Nearest Neighbor) [내부링크]

k-최근접 이웃(K-Nearest Neighbor, KNN) 가장 간단한 머신러닝 알고리즘 장점 구현이 쉽다 알고리즘을 이해하기 쉽다 수학적으로 거리를 계산하는 방법만 알면 이해하기가 쉽다 숫자로 구분된 속성에 우수한 성능..

Khaii [내부링크]

카이(Khaiii) Kakao Hangul Analyzer III 국립국어원이 구축한 세종 corpus를 이용해 CNN 모델을 적용해 학습 C++로 구현해 GPU 없이도 형태소 분석이 가능하며 실행 속도 빠름 http://tech.kakao.com/2018/12/13/..

Okt [내부링크]

Okt(Open Korean Text) twitter에서 만든 오픈소스 한국어 처리기 twitter-korean-text를 이어받아 만들고 있는 프로젝트 github.com/open-korean-text/open-korean-text open-korean-text/open-korean-text Open..

Data Preprocessing [내부링크]

Data Preprocessing 문장 부호 제거 불용어 제거 단어 최대 길이 설정 단어 패딩 벡터 표상화 불용어 제거 문장에서 자주 출현하나 전체적인 의미에 큰 영향을 주지 않는 단어 영어에서는 조사, 관사 등과 같은 어..

텍스트 전처리 [내부링크]

텍스트 전처리 비정형 데이터(Unstructured Data) 일정한 규격이나 형태를 지닌 숫자 데이터(Numeric Data)와 달리 그림이나 영상, 문서처럼 형태와 구조가 다른 구조화되지 않은 데이터 전처리 비정형 데이터를..

Kaggle [내부링크]

Kaggle(캐글) 2010년 설립된 예측모델 및 분석 대회 플랫폼 기업 및 단체에서 데이터와 해결과제를 등록하면, 데이터 과학자들이 이를 해결하는 모델을 개발하고 경쟁 opendatascience.com/10-tips-to-get-started..

EDA [내부링크]

EDA(Exploratory Data Anaysis) 탐색적 데이터 분석 정해진 틀 없이 데이터에 대해 최대한 많은 정보를 추출 데이터에 대한 정보 데이터의 평균값, 중앙값, 최솟값, 최댓값, 범위 분포, 이상치(outlier) 등 데이터..

Machine Comprehension [내부링크]

Machine Comprehension 기계가 텍스트를 이해하고 논리적 추론을 할 수 있는지 데이터 학습을 통해 보는 것 기계가 어떤 텍스트에 대한 정보를 학습하고 사용자가 질의를 던졌을 때 그에 대해 응답하는 문제 Data..

Text Similarity [내부링크]

Text Similarity 텍스트가 얼마나 유사한지는 표현하는 방식 같은 단어의 개수를 사용해서 유사도를 판단하는 방법 형태소로 나누어 형태소를 비교하는 방법 자소 단위로 나누어 단어를 비교하는 방법 딥러닝을..

Text Classification [내부링크]

Text Classification 자연어 처리 기술을 활용해 특정 텍스트를 사람들이 정한 몇 가지 범주(class) 중 어느 범주에 속하는지 분류 데이터의 정답 라벨 유무에 따라 학습 방법 선택 지도 학습을 통한 텍스트 분류..