情侣很暖很污很甜的话
发布时间:2019-07-25 06:56:13
作者:xhs
情侣很暖很污很甜的话:文字矢量虽然在句子中使用词的矢量加权平均法进行文本相似性分析比较简单,但也存在着明显的缺点:不考虑词序,也不清楚词的矢量区分。如以下两句话:“北京的首都是中国”和“中国的首都是北京”的相似性为1。“易学”与“难学”的相似性既简单又高。为了解决这些问题,句子需要用其他方法来表示。LSTM是一种常见的方法。本文简单地使用单层LSTM来表示句子,并通过几个完整的连接层来测量句子的相似性。数据准备培训和测试数据包括两个要比较的句子及其相似性(0-1):列车对测试数据格式类似。语料库编码自然语言不能直接作为神经网络输入,因此需要编码。本部分包括以下步骤:阅读培训和测试数据,分词,给每个词编号。根据字数,进一步生成每个句子的数向量。句子长度固定,不足的位置加零。将单词编号保存到文件中,保存单词向量矩阵以便于预测。中文分词使用jieba分词工具,keras的tokenizer用于单词编号:打印(“fit tokenizer…”)tokenizer=tokenizer(num_words=max_nb_words,lower=false)tokenizer.fit_on_文本(文本_1+文本_2+测试_文本_1+测试_文本_2)如果保存:打印(“保存标记器…”)如果不是操作系统。路径。存在(保存路径):操作系统。makedirs(保存路径)点击。dump(tokenizer,open(os)path)join(sJavae_path,tokenizer_name),“wb”))其中,文本1、文本2、测试文本1和测试文本2的元素分别是训练数据和测试数据分词后的列表,如:[“I”,“是”,“谁”]通过上述过程,tokenizer保存出现在语料库中的单词的数量映射。>打印标记器。单词索引“i”:2,“is”:1,“who”:3_语料库中的句子由记号赋予器编号。>序列_1=标记器。文本到序列(文本1)>打印序列\1[1 2 3),……生成一个固定长度的句子编号列表(假设为10)。>data_1=pad_sequences(sequences_1,maxlen=max_sequence_length)>打印数据\1[[0 0 0 0 0 0 2 1 3],…]数据作为神经网络的输入。字向量映射在对句子进行编码之后,需要准备句子中单词的矢量映射作为LSTM层的输入。这里,使用预先培训过的word vector(hyperlink here)参数生成word vector映射矩阵:word2vec=word2vec.加载(嵌入文件)嵌入_矩阵=np。零((nb_字嵌入_dim))对于word,我在word_index.items()中如果word2vec中有单词。星期五。声乐:嵌入_矩阵[i]=word2vec。星期五。单词vec(word)不适用。保存(嵌入矩阵\路径嵌入矩阵)网络结构这种神经网络使用一个简单的单层LSTM+全连接层来训练数据。网络结构图:LSTM该网络由Keras实施:def get_模型():嵌入层=嵌入(nb_字,嵌入尺寸,weights=[嵌入矩阵],输入长度=最大序列长度,可训练=假)lstm_layer=lstm(num_lstm,dropout=rate_drop_lstm,recular_dropout=rate_drop_lstm)sequence_1_input=输入(shape=(max_sequence_length,),dtype='int32')Embedded_Sequences_1=Embedded_Layer(Sequence_1_输入)y1=lstm_层(嵌入_序列_1)sequence_2_input=输入(shape=(max_sequence_length,),dtype='int32')Embedded_Sequences_2=Embedded_Layer(Sequence_2_输入)Y2=LSTM_层(嵌入_序列_2)合并=连接([y1,y2])合并=退出(速率下降密度)(合并)merged=batchnormalization()(合并)合并=密集(num_密集,激活=ACT)(合并)合并=退出(速率下降密度)(合并)merged=batchnormalization()(合并)preds=密集(1,激活='乙状结肠')(合并)model=model=[序列_1_输入,序列_2_输入],\输出=preds)model.com从运行(loss='二进制交叉熵',优化器='nadam,指标=[“acc”])模型。摘要()回归模型本节首先将嵌入层定义为输入层和lstm层的映射层,并将输入语句编码映射到作为lstm层输入的单词向量列表。两个lstms的输出经标准化处理后作为整个连接层的输入,分别是Dropout和BatchNormalization,最后用于培训。培训与预测使用nadam和earlystopping进行培训,在培训期间将最佳结果保存在验证集中。最后,对测试集进行了预测。model=get_model()。='val_loss'提前停止=提前停止(监视器,耐心=3)bst_model_path=stamp+'.h5'model_checkpoint=modelcheckpoint(bst_model_path,sJavae_best_only=true,sJavae_weights_only=true)labels=model.fit([data_1,data_2],标签,,\验证数据=([Val_1 Val_2],标签)\epochs=100,batch_size=10,shuffle=true,callbacks=[提前停止,模型检查点])predicts=模型预测([data_1 data_2],batch_size=10,verbose=1)对于范围内的i(len(test_id)):打印“T1%s,T2%s,分数:%s”%(测试_1[i],测试_2[i],预测[i])总结该网络在中文应用的Kaggle-Quora数据集的VAL验证中可达到80%左右的准确率。由于数据集有限,会发生较大的过度拟合。此外,当tokenizer.fit在文本上用中文应用时,不支持Unicode编码,并且可以重写其源代码方法以包括ASCII字符和Unicode的转换。''此部分已解决keras.preprocessing.text无法处理unicode''定义文本到单词的顺序(文本,过滤器='!#$%&*()+,-,/:;the<=>?@[\\]^ ~\t\n',下一个=真,拆分为“”):如果低:text=text.lower())如果类型(文本)==unicode:translate_table=ord(c):ord(t)for c,t in zip(filters,split*len(filters))其他:translate_table=keras.maketrans(filters,split*len(filters))。文本=文本。翻译(翻译表格)seq=文本。分裂(分裂)返回[i对于seq if i中的i]角膜。预处理。文本。text_to_word_sequence=文本_to_word_sequence超链接https://github.com/zqhzy/semanlay/项目源代码超链接原创文章,转载署名更多关注:微信情侣很暖很污很甜的话
版权声明:本文内容由互联网用户投稿整理编辑发布,不拥有所有权,不承担应有相关法律责任。如果文章、图片有涉嫌抄袭的内容,请发送到邮箱举报,且提供抄袭的相关证据,一但查实,会在24小时删除涉嫌侵权内容。
热门推荐
1
异地恋女生月经男生暖心话 这时候的温暖会放大十倍哦
女生来月经的时候会变得异常脆弱,这时候异地恋女生月经男生暖心话如果出现,那么对于女生来说是一个很大的安慰,异地恋的男生们要关注自己女友的生理期,女生月经男生暖心话的温暖会放大十倍哦!下面就和看淘网一起看看异地恋女生月经男生暖心话都是怎么说的吧!
2
情侣套路对话一问一答100个 看看你们能问到几个
情侣之间要怎么增加彼此之间的情意呢?其实用套路一问一答的对话就非常合适,情侣套路对话一问一答100个,看看你们能问到几个!和小编一起看看情侣套路的对话一问一答都是怎么样的吧!
3
恋爱时对方说忙咋回复 高情商都这样回
在恋爱聊天中,男生说我去忙了的时候就不要再缠着他了,可以这样高情商回复,让他舍不得离开太久,接下来就一起看看恋爱时对方说忙咋回复吧。
4
抖音男友十大送命题 送给求生欲爆棚的你
男生们想必被女友问的最多最难的问题就是“妈妈和自己掉水里,你先救谁”的问题吧,不过现在的送命题难度又升级,男生们可不要被打倒哦,接下来就和小编一起来看看抖音男友十大送命题吧。
5
男女朋友相处肢体接触 是最容易发生关系的
异性相处,三种男女朋友,是最容易发生关系的!今天小编给大家分享男女朋友相处肢体接触,是最容易发生关系的,男女之间无论是恋人关系,还是异性好友,都应该给对方留下私人空间,这样才能维持关系的稳定。,快来看淘网看看男女肢体接触是怎么回事吧!
6
网恋靠谱男生的8个特征 教你挑选网恋对象
在繁忙的生活和工作压力下,网恋成为了稀松平常的事情,那么你就要知道怎么判断网恋的男生靠不靠谱,网恋靠谱男生的8个特征都有哪些呢?如果你的网恋男生正好有着靠谱的八个特征,那么你真的捡到宝了。