日日操夜夜添-日日操影院-日日草夜夜操-日日干干-精品一区二区三区波多野结衣-精品一区二区三区高清免费不卡

公告:魔扣目錄網(wǎng)為廣大站長提供免費(fèi)收錄網(wǎng)站服務(wù),提交前請做好本站友鏈:【 網(wǎng)站目錄:http://www.ylptlb.cn 】, 免友鏈快審服務(wù)(50元/站),

點(diǎn)擊這里在線咨詢客服
新站提交
  • 網(wǎng)站:51998
  • 待審:31
  • 小程序:12
  • 文章:1030137
  • 會員:747

基礎(chǔ)數(shù)據(jù)準(zhǔn)備

訓(xùn)練所需要的數(shù)據(jù)集合都存儲在數(shù)據(jù)庫中,還有部分文本文件
首先對數(shù)據(jù)進(jìn)行分類結(jié)構(gòu)化存儲[因?yàn)樯婕暗降氖嵌喾诸悊栴}]

整理并存儲原始數(shù)據(jù)集

使用numpy將所有需要數(shù)據(jù)讀取出來

splitlines() ==> 按照r n 或者rn分割

import numpy as np
import pandas as pd
values1 = np.array(open(r'text1.txt', 'r', encoding='utf-8').read().splitlines())
values2 = np.random.choice(open(r'text2.txt', 'r', encoding='utf-8').read().splitlines(),100000) 

設(shè)計(jì)標(biāo)識符

label_map = {
    1: 'values1',
    2: 'values2',
}

將所有數(shù)據(jù)進(jìn)行拼接

data = np.concatenate([values1,values2])

生產(chǎn)相應(yīng)數(shù)量的標(biāo)識

lable = np.concatenate([np.array([4]*len(values1)),np.array([5]*len(values2))])

生成DataFrame數(shù)據(jù)結(jié)構(gòu)

df = pd.DataFrame({"data":data,"lable":lable})

提取數(shù)據(jù)結(jié)構(gòu)中多余的字符

df.replace('r|n|!', '', inplace=True, regex=True)

將整合后的原始數(shù)據(jù)存儲為csv文件

df.to_csv("dataset.csv",sep="!",index=False,header=False)

使數(shù)據(jù)集向量化

from keras.preprocessing.sequence import pad_sequences  # 對序列進(jìn)行預(yù)處理生成長度相同的序列
from keras.utils.np_utils import to_categorical  # 將標(biāo)簽轉(zhuǎn)換為 one-hot 編碼

對每個(gè)字符進(jìn)行old操作

def process(s: str):
    s = str(s).lower()
    return [ord(c) for c in s]
data = df['data'].Apply(process).values

將序列處理成相同長度的數(shù)組

MAX_SEQUENCE_LENGTH = 30
data = pad_sequences(data, maxlen=MAX_SEQUENCE_LENGTH,dtype='int',padding='post',truncating='post')

去除數(shù)組內(nèi)重復(fù)數(shù)字并進(jìn)行排序之后輸出

palette = np.unique(data)

獲取每個(gè)字符在palette中的位置

data = np.digitize(data, palette, right=True)

將標(biāo)簽轉(zhuǎn)化為 one-hot 編碼

labels = to_categorical(df['lable'].values)

劃分訓(xùn)練子集與測試子集

from sklearn.model_selection import train_test_split
train_data, val_data, train_label, val_label = train_test_split(data, labels, test_size=0.2, random_state=42)
print('train data shape: ', train_data.shape, '   train label shape: ', train_label.shape)
print('val data shape: ', val_data.shape, '   val label shape: ', val_label.shape)

#人工智能##深度學(xué)習(xí)##AI科技#

一篇文章搞定人工智能之深度學(xué)習(xí)創(chuàng)建訓(xùn)練數(shù)據(jù)集的方法

 

 

 


 

分享到:
標(biāo)簽:創(chuàng)建 訓(xùn)練 數(shù)據(jù)
用戶無頭像

網(wǎng)友整理

注冊時(shí)間:

網(wǎng)站:5 個(gè)   小程序:0 個(gè)  文章:12 篇

  • 51998

    網(wǎng)站

  • 12

    小程序

  • 1030137

    文章

  • 747

    會員

趕快注冊賬號,推廣您的網(wǎng)站吧!
最新入駐小程序

數(shù)獨(dú)大挑戰(zhàn)2018-06-03

數(shù)獨(dú)一種數(shù)學(xué)游戲,玩家需要根據(jù)9

答題星2018-06-03

您可以通過答題星輕松地創(chuàng)建試卷

全階人生考試2018-06-03

各種考試題,題庫,初中,高中,大學(xué)四六

運(yùn)動步數(shù)有氧達(dá)人2018-06-03

記錄運(yùn)動步數(shù),積累氧氣值。還可偷

每日養(yǎng)生app2018-06-03

每日養(yǎng)生,天天健康

體育訓(xùn)練成績評定2018-06-03

通用課目體育訓(xùn)練成績評定