CS

4. 빅데이터 및 인공지능

서영환 2024. 7. 30. 16:45
  1. 빅데이터
    • 데이터의 종류
      • 정형 데이터
        • 데이터 테이블에 적합한 데이터, 정량적이고 수치로 확인할 수 있거나 구조를 가지고 있는 데이터
        • 숫자, 짧은 텍스트, 날짜와 같은 이산형 데이터 유형
        • 시간, 시계열 데이터, 금융 데이터, ID/PW, 온도, 카드번호, 수강생 기록 등등
      • 비정형 데이터
        • 크기 또는 특성 으로 인해 데이터 테이블 적합하지 않는 데이터, 수치적으로 확인할 수 없거나 구조를 띄지 않는 데이터
        • 오디오 및 비디오 파일, 대용량 텍스트 문서, 그림
      • 반정형 데이터
        • 정형데이터와 비정형데이터의 성격을 두개 다 가지는 데이터
        • DICOM 파일(의료용 디지털 영상 및 통신 표준) 그림과 환자 정보가 함께 있음
        • JSON(python에서 튜플형식의 키와 값으로 데이터를 저장함)
        • XML(태그를 통해 데이터 요소를 저장함)
        • 스마트폰에서 위치 값을 함께 저장하는 사진
    • 데이터의 전처리
      • 데이터를 AI에게 학습시키기 전이나 분석하기 전에 적합한 형태로 가공하는 모든 작업 
      • 품질을 향상시키기 위해 꼭 필요한 작업
      • 종류
        • 데이터 정제 : 필요한 데이터만 남도록 필터링 하는 과정
        • 데이터 통합 : 일관된 데이터로 만드는 과정
        • 데이터 변화 : 크기가 벗어났거나 인코딩이 맞지 않는 데이터 수정
        • 데이터 분할 : 전체 데이터를 훈련 데이터 셋시험 데이터 셋으로 분할
    • 빅데이터
      • 단순히 많은 양의 데이터를 의미하는것이 아닌, 3가지 특성을 띄는 데이터를 의미한다
      • 특성
        • 규모 - 굉장히 방대한 양의 유의미한 데이터
        • 속도 - 데이터의 생성 및 처리 속도가 매우 빠름
        • 다양성 - 데이터의 종류 뿐만 아니라 형식이 다양
      • 데이터 수집 계획
        • 빅데이터를 구성하기 위해서는 명확한 수집 계획이 필요
        • 데이터 식별 및 선택 → 데이터 수집/저장 방법 결정 → 데이터 수집 → 데이터 저장 → 데이터 정제 → 데이터 구조화 → 데이터 전처리 → 빅데이터 구성
        • 대체로 위의 방식으로 이루어지나 추가 및 삭제가 될 수있다
    • 알아 두어야 할 개념
      • 메타 데이터
        • 다른 정보에 대한 정보를 의미
        • 대체로 근원 정보를 담고 있다(Ex - 사진 데이터의 메타 데이터에는 장소, 시간 이 담겨져 있다)
      • 회귀분석
        • 두 개 이상의 변수 간의 관계를 분석하는 방법
        • 관찰된 연속형 변수들에 대해 두 변수 사이의 모형을 구한 뒤 적합도를 측정해 내는 분석 방법
        • 종류
          • 단순 회귀 분석 : 하나의 독립 변수와 하나의 종속 변수 간의 관계를 분석
          • 다중 회귀 분석 : 두 개 이상의 독립 변수와 하나의 종속 변수 간의 관계를 분석
          • 다항 회귀 분석 : 독립 변수와 종속 변수 간의 비선형 관계를 분석
          • 로지스틱 회귀 분석 : 종속 변수가 이진형(두 가지 범주)일 때 사용하는 회귀 분석 방법
      • 군집분석
        • 데이터를 유사한 특성을 가진 군집으로 나누기 위한 분석 방법
      • IoT(Internet of Thing, 사물인터넷)
        • 인터넷을 통해 다양한 물리적 장치들이 서로 연결되어 데이터를 주고받으며 상호작용하는 시스템
        • 스마트 폰과 연동 되는 모든 물리적 장치(에어컨, 선풍기, 세탁기, CCTV등등..)
    • 추가로
      • 로드밸런싱 : 부하가 집중되는것을 방지하기 위해 여러 서버에 네트워크 트래픽을 분산시키는 기술
      • 데이터 레이크 : 원시 데이터를 그대로 저장하는 시스템
      • 데이터 거버넌스 : 데이터의 신뢰성, 사용성, 보안성을 보장하기 위해 관리하는 모든 작업
      • 데이터 웨어하우스 : 대량의 데이터를 통합, 저장하여 분석하는 시스템
        • 데이터 베이스는 데이터를 저장만 하지만 데이터 웨어하우스는 거기에 통합, 분석이 들어가있다
  2. 인공지능
    • Deep learning(딥러닝, DL)
      • 인공지능을 학습시키거나 문제를 해결하기 위한 핵심 알고리즘을 의미
      • 개념
        • Neuron(뉴런)
          • 신경망의 기본 단위
          • 입력을 받아 가중치를 적용하고 활성화 함수를 통해 출력을 생성
        • Layer(층)
          • 뉴런들이 모여있는 층
          • 입력층(Input Layer), 은닉층(Hidden Layer), 출력층(Output Layer)으로 구성
        • Weight(가중치)
          • 뉴런에서 다음 뉴런으로 넘길 때 중요도(가중치)를 적용 하기 위한 매개변수
          • 가중치에 따라 결과가 달라 진다!
        • Model(모델)
          • 어떤 AI나 신경망 등 대상체를 의미
        • ANN(Artificial Neural Network, 인공신경망)
          • 여러 뉴런으로 이루어진 인공 신경망
        • DNN(Deep Neural Network, 심층신경망)
          • 기존의 ANN의 단점을 해결하기 위해 은닉층을 통해 더 깊은 신경망 구조를 갖는 신경망
        • CNN(Convolution Neural Network, 합성곱신경망)
          • 특징을 추출하고 패턴을 파악하는데 우수한 신경망
        • RNN(Recurrent Neural Network, 순회신경망)
          • 시간적인 특성을 함께 학습하고 적용하기 위한 신경망
        • 다층 퍼셉트론 (Multilayer Perceptron, MLP)
          • 층이 여러개가 이루어진 신경망
        • 역전파 알고리즘 (Backpropagation)
          • 신경망의 가중치를 업데이트하여 오차를 최소화하는 방법
        • 생성적 적대 신경망 (Generative Adversarial Networks, GAN)
          • 새로운 데이터를 생성하기 위한 신경망
    • Machine learning(기계 학습, ML)
      • 인공지능을 학습 시키는 것을 의미
      • 지도 학습
        • 입력 데이터와 정답을 함께 주며 학습시키는 방식
        • 이미지 분류, 스팸 이메일 탐지, 주식 가격 예측, 코인 가격 예측
      • 비지도 학습
        • 입력 데이터만 주어지고, 정답이 없는 상태에서 데이터의 패턴이나 구조를 찾는 방식
        • 구매 패턴에 따른 고객 세분화, 이상 탐지, 차원 축소
      • 강화 학습
        • 시행착오를 통해 보상을 최대화하기 위해 학습하는 방식
        • 게임 AI, 로봇 제어, 자율 주행 차량
      • 반지도 학습
        • 일부 데이터에 대해서는 분류와 정답이 있지만 나머지 일부는 없는 상태로 학습
        • 데이터 라벨링
    • Artificial Intelligence(인공지능, AI)
      • 딥러닝 알고리즘을 통해 머신러닝이된 프로그램을 인공지능
      • 약인공지능 (Narrow AI or Weak AI)
        • 특정 작업이나 문제를 해결하는 데 특화된 AI
        • 특정 분야에서만 능력을 발휘하는 인공지능 모델
        • 특정 작업은 빠르게 수행 및 학습이 용이
      • 강인공지능 (General AI or Strong AI)
        • 인간과 유사한 수준의 지능을 가지고 다양한 작업을 수행할 수 있는 인공지능 모델
        • 개발 중인 단계
      • 초인공지능 (Superintelligent AI)
        • 인간의 지능을 초월하는 AI
        • 상상 속의 개념으로, 아직은 이론적인 단계
      • 대형 언어 모델 (Large Language Model, LLM)
        • 많은 양의 텍스트 데이터를 학습하여 언어 이해와 생성 능력을 갖춘 인공지능 모델
        • ChatGPT, BERT, T5, Turing-NLG, LLaMA등등
  3. 강의를 듣고 난 후
    • 이번 강의는 이번 캠프를 참여하는 가장 큰 이유인 AI에 대해서 조금은 얕고 넓은 지식을 다루었다
    • 주위에서 항상 말하는 빅데이터와 인공지능을 이번 강의를 통하여 조금은 명확하게 알가는 좋은 시간이 된거 같아 좋았다
    • 빅데이터가 단순히 아주 큰 데이터의 집합이 아닌 3가지 특성을 가진 데이터의 집합인 걸 오늘 알게 되었다
    • 또한 인공지능 모델의 간략한 소개 및 인공지능을 만들기 위해(학습 시키기 위해) 사용되는 DL, ML에 대하여 아주 쉽게 설명 해주셔서 좋았던 같았다
    • 처음 접하는 학문이기도 용어 및 내용이 다소 낯설기는 하였으나 쉬운 설명을 통해 이해하는데에는 크게 어려움이 없어서 좋았다