인공지능/RNN 8

Callback ( check_point와 Earlystopping)

# Day_32_02_callback.py import tensorflow as tf import pandas as pd import numpy as np from sklearn import preprocessing, model_selection # 자동차 데이터에 대해 80%로 학습하고 20%에 대해 정확도를 구하세요 checkpoint 쓸꺼임 # dense : LabelBinarizer : 피처의 개수가 훨씬 많아짐 # sparse: LableEncoder : 그냥 변환 def get_cars_sparse(): names = ['buying', 'maint', 'doors', 'persons', 'lug_boot', 'safety', 'acc'] cars = pd.read_csv('data/car.d..

인공지능/RNN 2020.12.15

pop corn DBset으로 Baseline, rnn, cnn, cnn-tf, word2vec, nltk 구성하기

이번 코드는 상당히 여러가지 요소들도 많고 기법들도 많이 들어가 있으니 주석을 잘 보시길 바랍니다. # Day_29_01_popcorn.py import tensorflow as tf import pandas as pd import numpy as np import matplotlib.pyplot as plt import gensim import nltk from sklearn import model_selection, feature_extraction, linear_model import re # popcorn_models # labeled = train set # sample = 데이터를 만들어야하는 형태 # testData = test set (id와 리뷰만 있음) # unlabeld = train..

인공지능/RNN 2020.12.15

자연어 처리 - 영화 리뷰 분석해서 그래프로 그려보기

주석이 부족한 부분이 있으면 말해주세요. import csv import re import nltk import collections import matplotlib.pyplot as plt # https://github.com/e9t/nsmc # x, y 데이터를 반환하는 함수를 만드세요 # 김윤 박사 cnn sentence 검색하면 깃헙 나옴 # 해당 사이트에서 clean_str 함수를 찾아서 우리 코드에 적용하세요 # 모든 문서의 토큰 갯수를 그래프로 그려보세요 def clean_str(string, TREC=False): """ Tokenization/string cleaning for all datasets except for SST. Every dataset is lower cased exce..

인공지능/RNN 2020.11.25

자연어 처리 ( text에 있는 word에 대한 빈도수 도출하기 )

import nltk import collections import matplotlib.pyplot as plt # 세익스피어의 헴릿에 등장하는 주인공들의 출현 빈도로 막대 그래프를 그려보세요 # gutemberg # 햄릿, 거트루드, 오필리어, 클로디어스, 레어티스, 호레이쇼 # print(nltk.corpus.gutenberg.fileids()) # 1. 햄릿 읽기 txt = nltk.corpus.gutenberg.raw('shakespeare-hamlet.txt') # text 전체 # 2. actors 찾기 names = ['hamlet', 'gertrude', 'claudius', 'laertes', 'ophelia', 'polonius', 'horatio'] txt = txt.lower() d..

인공지능/RNN 2020.11.24

자연어 처리 (Gensim)

# Day_06_01_gensim.py import gensim import nltk import collections import pprint # 건강한 사람과 암에 걸렸을 확률을 계산 # 암에 걸릴 비율 (0.1%), 건강할 확률 (99.9%) # 암 판정을 받았을 때의 정확도: 95% # 암이 아니라고 판정했을 때의 오진율 : 2% # 암 판정 # 실제 암에 걸렸을 확률: (암에 걸릴 확률 * 정확도)(암에 걸리지 않았을 확률 * 오진률) # 0.001 * 0.95 = 0.00095 -> 0.04538939321548 판정 시 / 전체 확률 # 0.999 * 0.02 = 0.01998 -> 0.954610610678452 아닐 시 / 전체 확률 # -------------------------- #..

인공지능/RNN 2020.11.24

자연어처리( doc2vec )

import nltk import random import collections import time # word to vector -> 단어를 숫자로 바꾸겠다. document to vector 다큐먼트를 벡터로 바꿈 # ex 영화 리뷰를 그 안의 단어를 가지고 충분히 학습 후 -> 긍정, 부정을 나눔 => doc to vec # doc 분석해서 어떤 분류인지 알아내겠다. def make_vocab(vocab_size=2000): # 사실 2천개는 너무 적음 만개는 해야함 # nltk.download('movie_reviews') words = nltk.corpus.movie_reviews.words() # print(len(words)) # print(nltk.corpus.movie_reviews.c..

인공지능/RNN 2020.11.22

자연어 처리 (빈도수) 공부

# Day_04_01_freq 빈도를 알아보는 페이지 토큰의 워드 빈도수에 따라서 분류할 수 있음 import nltk import collections import matplotlib.pyplot as plt import operator # webtext 코퍼스에 있는 wine 파일을 토큰으로 구성하세요 wine = nltk.corpus.webtext.raw('wine.txt') wine = wine.lower() tokens = nltk.regexp_tokenize(wine, r'\w+') # print(tokens[:10]) # print(nltk.corpus.stopwords.fileids()) stopwords = nltk.corpus.stopwords.words('english') # 불용어(..

인공지능/RNN 2020.11.21

간단한 자연어 처리 (NLTK)

# Day_03_02_nltk.py 자연어 처리 import nltk # natural language toolkit 자연어 처리 모듈 # 데이터 -> 코퍼스 -> 토큰화 -> 어간 -> 품사 # 어간 -> 사람은, 사람이, 사람에게, 사람의, 사람이라면, 사람일까, ... # nltk.download('punkt') def load_datasets(): nltk.download('gutenberg') nltk.download('webtext') nltk.download('reuters') # nltk.download() def corpus(): print(nltk.corpus.gutenberg.fileids()) # file_ids 출력 moby = nltk.corpus.gutenberg.raw('me..

인공지능/RNN 2020.11.21