ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • ChatGPT-4 Plugin: Noteable - 간단한 명령 하나로 머신러닝 분석하기
    카테고리 없음 2023. 6. 19. 00:09

     

    OpenAI의 ChatGPT-4는 다양한 인터넷 텍스트에 대해 학습된 최첨단 언어 모델입니다. 주어진 입력을 기반으로 인간과 유사한 텍스트를 생성할 수 있습니다. 플러그인 도입으로 ChatGPT-4의 기능이 크게 확장되어 다양한 도구 및 서비스와 상호 작용할 수 있으므로 보다 포괄적이고 유용한 응답을 제공할 수 있습니다.

     

    이 게시물에서는 이러한 강력한 플러그인 중 하나인 Noteable을 살펴보고 ChatGPT-4와 함께 사용하여 데이터 세트에서 기계 학습 분석을 수행하는 방법을 시연합니다.

     

     

    ### 주의 아래 내용은 전부 ChatGPT Plus를 가입해야 사용할 수 있습니다.

     

    ChatGPT plus 가입 방법은 아래 주소에서 확인할 수 있습니다.

    https://ai-in-depth.tistory.com/entry/ChatGPT-Plus%EB%A1%9C-%EC%97%85%EA%B7%B8%EB%A0%88%EC%9D%B4%EB%93%9C%ED%95%B4%EC%95%BC-%ED%95%98%EB%8A%94-%EC%9D%B4%EC%9C%A0

     

    Noteable이 뭔가요?

    Noteable은 Python 노트북을 생성, 실행 및 공유할 수 있는 플랫폼입니다. 데이터 분석, 기계 학습 등을 위한 훌륭한 도구입니다. ChatGPT-4용 Notable 플러그인을 사용하면 AI가 Notable 플랫폼과 직접 상호 작용할 수 있습니다. 즉, ChatGPT-4는 노트북을 만들고, 코드를 실행하고, 시각화를 생성하고, Notable 노트북 내에서 기계 학습 작업을 수행할 수도 있습니다.

     

    Notable 플러그인을 사용하려면 Notable 프로젝트의 URL을 ChatGPT-4에 제공하기만 하면 됩니다. 그런 다음 AI는 프로젝트 내에서 새 노트북을 만들고 Python 코드를 작성 및 실행하고 결과를 반환할 수 있습니다. 이러한 원활한 통합을 통해 데이터 분석 및 기계 학습과 같은 복잡한 작업을 매우 쉽게 수행할 수 있습니다.

     

    쉽게말해서

    데이터 시각화와 협업기능을 강화한 Jupyter Notebook이라고 이해 하면 됩니다.

     

    물론 github과 연동할 수 있고 jupyter notebook에서도 파일을 열 수 있습니다.

     

     

     

    1.  Noteable 프로젝트 만들기

    https://app.noteable.io/

    노터블 홈페이지에서 간편하게 구글 아이디로 가입을 하면 Space라는 작업공간이 나오고 프로젝트를 만들 수 있습니다.

     

    무료로 이용할 수 있으니 간단하게 AI project란 이름으로 프로젝트를 만들어 보겟습니다.

     

     

    2. 분석할 자료 준비

    그 다음으로는 자신이 분석할 자료를 프로젝트에 업로드 합니다.

     

    프로젝트에 들어와서 위의 업로드 버튼을 누르면 파일을 업로드 할 수  있습니다.

     

    https://www.kaggle.com/datasets/zxtzxt30/korea-monthly-gas-sales-with-temperature?resource=download 

     

    Korea Natural Gas Sales with Temperature

    Monthly gas sales with temperature and province of South Korea

    www.kaggle.com

    본인은 kaggle에서 구한 위의 한국 천연가스 판매 자료를 다운 받아 올려보겟습니다.

    이제 준비물은 다 끝났습니다.

     

    사실 이렇게 자료를 다운받아 프로젝트에 올리지 않아도 분석할 자료를 다운받을 수 있는 URL 주소를 안다면 생략 할 수 있습니다.

     

     

    3. GPT-4에게 명령하기

    가장중요한 ChatGPT에게 명령을 해보겠습니다.

    우선 GPT-4의 Plugins 사용을 체크하고

    GPT선택창 밑에 화살표를 누르면 Plugin store가 보입니다.

    플러그인 스토어에 들어가서 Noteable을 다운받아

    활성화 시켜주세요. 플러그인은 최대 3개까지만 한번에 사용이 가능하니 사용하시기 전에 미리 확인하셔야 합니다.

     

    이제 진짜 명령을 해보겠습니다.

     

    이게 끝입니다

     

    첫번째 줄은 본인의 노터블 프로젝트의 url 주소이고 두번째 줄에 어떠한 데이터셋을 사용할 것인지 알려줍니다.

    이때 데이터 셋이 있는 url 주소를 제시해도 상관없습니다.

     

    그 다음 '기본적인 시각적 분석과 함께 머신 러닝을 수행하여 데이터를 식별해 주세요. 또한 탐색적 데이터 분석(EDA)을 수행하여 데이터 기반 제안을 해 주세요.' 라고 단순한 명령을 해 보았습니다. 

     

    명령은 짧지만 결과는 전혀 다릅니다.

     

     

     

    4. 결과 확인

    명령을 내리면

    노터블 플러그인이 많이 사용되는 모습을 볼 수 있는데 옆의 화살표를 누르면

    어떠한 작업이 백그라운드에서 실행되고 있는지 보여줍니다. 위 작업은 다소 시간이 걸립니다.

     

    그 이후 답변을 얻었습니다.

     

    귀하의 프로젝트에서 'Gas sales with temperature.csv' 데이터 세트의 분석을 완료했습니다. 다음은 노트북 링크(링크주소)입니다.

    노트북에서 탐색적 데이터 분석(EDA)을 수행하여 데이터의 모양을 확인하고 누락된 값을 찾고 요약 통계를 계산하고 다른 지역의 가스 판매 분포를 시각화했습니다. 또한 데이터 세트의 서로 다른 변수 간의 관계를 이해하기 위해 상관관계 매트릭스를 계산했습니다.

    그런 다음 훈련 세트와 테스트 세트로 나누고 기능 세트를 표준화하여 기계 학습을 위한 데이터를 준비했습니다. 학습 데이터에 대해 간단한 선형 회귀 모델을 학습하고 테스트 데이터에서 평가했습니다. 모델의 평균 제곱근 오차(RMSE)는 약 2.15입니다. 이 값은 잔차(예측 오류)의 표준 편차를 나타냅니다. RMSE 값이 낮을수록 더 적합함을 나타냅니다. 이 경우 우리 모델은 평균 약 2.15 단위의 오차로 온도를 예측할 수 있습니다.

    다음은 EDA 및 기계 학습 분석을 기반으로 한 몇 가지 데이터 기반 제안입니다.

    1. 각 지역의 가스 판매는 다른 분포를 보입니다. 이는 판매를 극대화하기 위해 각 지역에 맞게 판매 전략을 조정할 수 있음을 시사합니다.
    2. 상관관계 분석 결과 일부 지역은 높은 상관관계를 보였다. 이는 해당 지역의 유사한 시장 상황 또는 소비자 행동 때문일 수 있습니다. 이러한 지역은 마케팅 및 영업 전략을 위해 함께 그룹화할 수 있습니다.
    3. 더 복잡한 모델을 사용하거나 현재 모델의 하이퍼파라미터를 조정하여 기계 학습 모델을 개선할 수 있습니다. 이를 통해 가스 판매 데이터를 기반으로 온도를 보다 정확하게 예측할 수 있습니다.

    분석한 데이터에대해 요약을 보여주고 몇 가지 데이터 기반 제안을 알려줍니다.

     

    이제 보여준 노트북 링크를 클릭하여 살펴 보겟습니다.

    프로젝트에 Gas_Sales_Anaysis.ipynb 파일이 생성된것을 확인 할 수 있습니다.

     

    위 프로젝트를 클릭하면

    프로젝트의 제목과 개요부터 해서 필요한 라이브러리를 임포트 하고 데이터를 준비하는 모습이 보이네요.

     

    아래의 데이터 테이블은 noteable에서 코드를 사용하지 않아도 자동으로 데이터를 시각화 시켜주는 기본제공 기능으로 gpt와는 상관 없습니다.

     

    이제 데이터프레임을 자동으로 확인하고 missing값을 찾아내고 데이터를 전처리한 값을 보여줍니다.

    이제 자동으로 지역별 가스 판매 그래프를 보여줍니다. 

    그려진 그래프가 더 많은데 여기까지만 보여드리겟습니다.

     

     

     

    상관관계 분석또한 보여줍니다.

    데이터 집합의 여러 변수 간의 상관관계를 살펴 서로 다른 변수 간의 관계를 이해하는 데 도움이 됩니다.

     

    다음으로 머신러닝을 적용하여 분석까지 해줍니다.

     

    저희 모델의 평균제곱근오차(RMSE)는 약 2.15입니다. 이 값은 잔차(예측 오차)의 표준 편차를 나타냅니다. RMSE 값이 낮을수록 더 잘 맞습니다. 이 경우, 저희 모델은 평균 약 2.15 단위의 오차로 온도를 예측할 수 있습니다.

     

     

    마지막으로 데이터 분석 이후의 제안까지 해줍니다.

     

    EDA 및 머신 러닝 분석을 기반으로 한 몇 가지 데이터 기반 제안 사항은 다음과 같습니다:

    지역별로 가스 판매량이 서로 다른 분포를 보입니다. 이는 매출을 극대화하기 위해 각 지역에 맞는 판매 전략을 수립할 수 있음을 시사합니다.
    상관관계 분석에 따르면 일부 지역은 서로 높은 상관관계가 있는 것으로 나타났습니다. 이는 해당 지역의 시장 상황이나 소비자 행동이 비슷하기 때문일 수 있습니다. 이러한 지역은 마케팅 및 영업 전략을 위해 함께 그룹화할 수 있습니다.
    머신러닝 모델은 더 복잡한 모델을 사용하거나 현재 모델의 하이퍼파라미터를 조정하여 개선할 수 있습니다. 이렇게 하면 가스 판매 데이터를 기반으로 온도를 더 정확하게 예측할 수 있습니다.

     

     

    5. 결론

     

    이 모든 분석이 chatGPT에 쓴 명령 하나로 시작되었다는 것을 기억해보면 정말 놀랍다는 말 밖에는 할 수 없습니다.

    머신러닝이나 코딩에 대해 아무런 지식이 없어도 이러한 결과를 구할 수 있다는 것은 두려우면서도 기대되는 일입니다.

    물론 프로그램적인 지식이 있어야 더 정확하고 원하는 결과를 얻을 수 있을 것입니다.

    그러니 더욱 우리는 AI에 대해 알아야 합니다.

     

    그리고 이것또한 ChatGPT의 하나의 플러그인일 뿐이니 앞으로 소개할 다양한 플러그인에 대해 기대해 주세요.

Designed by Tistory.