【学习草稿】bert文本分类

这篇具有很好参考价值的文章主要介绍了【学习草稿】bert文本分类。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

https://github.com/google-research/bert
https://github.com/CyberZHG/keras-bert

在 BERT 中,每个单词的嵌入向量由三部分组成:

Token 嵌入向量:该向量是 WordPiece 分词算法得到的子单词 ID 对应的嵌入向量。

Segment 嵌入向量:该向量用于表示每个单词所属的句子。对于一个包含两个句子的序列,使用0表示第一个句子,使用1表示第二个句子。对于一个只包含一个句子的序列,将所有的句子标记都设置为0。

Position 嵌入向量:该向量用于表示每个单词在序列中的位置。对于一个长度为L的序列,每个单词都会被分配一个表示其位置的向量,该向量的维度为d,其中d是嵌入向量的维度。

这三个向量会被按照一定的方式进行组合,得到一个最终的嵌入向量,用于表示当前单词在上下文中的语义信息。这个嵌入向量会作为输入序列的一部分,输入到模型中进行训练或推理。
【学习草稿】bert文本分类,学习,bert,人工智能
【学习草稿】bert文本分类,学习,bert,人工智能
【学习草稿】bert文本分类,学习,bert,人工智能
return [“”.join(x) for x in output]

return [“”.join(x) for x in output]是一个列表推导式,用于将output列表中的子列表转换为字符串列表。

具体来说,output列表中的每个子列表表示一个单词,其中包含了该单词中的所有字符。例如,对于输入文本Hello, world!,_run_split_on_punc()函数会将其分割成一个包含5个子列表的列表[[‘H’, ‘e’, ‘l’, ‘l’, ‘o’], [‘,’], [’ ‘], [‘w’, ‘o’, ‘r’, ‘l’, ‘d’], [’!']],其中每个子列表表示一个单词。

列表推导式[“”.join(x) for x in output]的作用是将每个子列表中的字符拼接成一个字符串,并将这些字符串组合成一个新的字符串列表。具体来说,“”.join(x)将一个子列表中的所有字符拼接成一个字符串,而[“”.join(x) for x in output]则将output列表中的每个子列表都转换为一个字符串,并将这些字符串组合成一个新的列表。

例如,对于输入文本Hello, world!,_run_split_on_punc()函数会将其分割成一个包含5个子列表的列表[[‘H’, ‘e’, ‘l’, ‘l’, ‘o’], [‘,’], [’ ‘], [‘w’, ‘o’, ‘r’, ‘l’, ‘d’], [’!']],而列表推导式[“”.join(x) for x in output]则会将这些子列表转换为一个新的字符串列表[‘Hello’, ‘,’, ’ ', ‘world’, ‘!’],其中每个字符串表示一个单词。
【学习草稿】bert文本分类,学习,bert,人工智能
打印格式问题,才会有空格。。

【学习草稿】bert文本分类,学习,bert,人工智能
【学习草稿】bert文本分类,学习,bert,人工智能

【学习草稿】bert文本分类,学习,bert,人工智能【学习草稿】bert文本分类,学习,bert,人工智能文章来源地址https://www.toymoban.com/news/detail-722413.html

到了这里,关于【学习草稿】bert文本分类的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包