用python实现检查一个文件夹中所有word文件内容是否重复

这篇具有很好参考价值的文章主要介绍了用python实现检查一个文件夹中所有word文件内容是否重复。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

要检查一个文件夹中所有Word文件的内容是否重复,你可以使用Python的python-docx库来读取Word文件的内容,并使用Python的集合数据结构来检查重复项。

以下是一个示例代码,演示如何实现这个功能:

 

python复制代码

import os
from docx import Document
def get_word_files(directory):
"""获取指定目录下的所有Word文件"""
word_files = []
for filename in os.listdir(directory):
if filename.endswith('.docx') or filename.endswith('.doc'):
word_files.append(os.path.join(directory, filename))
return word_files
def get_file_contents(file):
"""读取Word文件内容并返回文本列表"""
doc = Document(file)
contents = [paragraph.text for paragraph in doc.paragraphs]
return contents
def check_duplicates(word_files):
"""检查Word文件内容是否有重复"""
seen = set() # 用于存储已见过的内容
duplicates = [] # 用于存储重复的内容
for file in word_files:
contents = get_file_contents(file)
content_hash = hash(tuple(contents)) # 将内容转换为哈希值以便快速比较
if content_hash in seen:
duplicates.append(file) # 发现重复内容,记录文件名
else:
seen.add(content_hash) # 添加哈希值到已见过集合中
return duplicates # 返回包含重复内容的文件名列表
# 示例用法:检查指定目录下的所有Word文件内容是否重复
directory = 'path/to/your/directory' # 替换为你的目录路径
word_files = get_word_files(directory)
duplicates = check_duplicates(word_files)
print("重复内容的文件:", duplicates)

请注意,这个示例代码使用了python-docx库来读取Word文件的内容。如果你还没有安装这个库,可以使用以下命令来安装:

 

bash复制代码文章来源地址https://www.toymoban.com/news/detail-819331.html

pip install python-docx

到了这里,关于用python实现检查一个文件夹中所有word文件内容是否重复的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • python获取文件夹下所有文件

    python获取文件夹下所有文件,大家肯定都会想到os.listdir了,但是这种方法只能够获取到当前文件夹中的所有文件/文件夹,如果我想获得文件夹-文件夹-文件呢? 我的需求是只要文件夹中所有非文件夹,换句话来说对于我们的需求只有文件夹和非文件夹两种情况,那么直接联

    2024年02月12日
    浏览(17)
  • python遍历文件夹下的所有子文件夹,并将指定的文件复制到指定目录

    在1文件夹中有1,2两个文件夹 将这两个文件夹中的文件复制到 after_copy中 源文件 复制后: 参考1 源文件 复制后 参考2 如果复制bmp文件就将 suffix = \\\".json\\\" 改为 suffix = \\\".bmp\\\"

    2024年02月11日
    浏览(18)
  • Node.js:实现遍历文件夹下所有文件

    Node.js:实现遍历文件夹 代码如下 参考文章 如何使用Node.js遍历文件夹详解

    2024年02月13日
    浏览(14)
  • [python]裁剪文件夹中所有pdf文档并按名称保存到指定的文件夹

    最近在写论文的实验部分,由于latex需要pdf格式的文档,审稿专家需要对pdf图片进行裁剪放大,以保证图片质量。 原图: 裁剪后的图像: 代码粘贴如下。将input_folder和output_folder替换即可。(x1, y1), (x2, y2) 分别代表裁剪框的像素位置。

    2024年01月19日
    浏览(23)
  • python判断文件夹是否存在,不存在则创建它,并将文件夹下所有的文件及子文件删除

    1、python判断文件夹是否存在,不存在则创建它,并将文件夹下所有的文件及子文件删除 2、python之判断文件文件夹是否存在,存在则删除,不存在则创建 2.1、删除文件于文件夹 使用os.remove删除文件夹会出现拒绝访问的错误,所以要使用以下方式进行删除 2.2、创建文件与文件

    2024年02月11日
    浏览(59)
  • CMake 将所有 Target 的工程在 Visual Studio 中加到同一个文件夹

    我想要将所有 Target 的工程在 Visual Studio 中加到同一个文件夹 一开始我想要重写 add_library 函数,来获取到那些 lib 添加了,进而获得所有的 library,存到一个 list 里面,最后对这个 list 遍历,设置 folder 之后我发现还有 utility 类型的工程,我就觉得不能单单看 library 了,应该是

    2024年02月09日
    浏览(24)
  • 如何用python获取单个文件 或 文件夹中所有文件的行数

    本例展示获取单个txt文件中的行数: 本例展示获取labels下的所有txt文件内容的总行数: 函数解释 os.walk()是一种遍历目录数的函数,机理类似深度优先搜索和层次搜索策略,其返回的是 root dirs files 返回值解释 root :代表当前遍历的目录路径,string类型 dirs :代表root路径下的

    2024年02月09日
    浏览(24)
  • Python小技巧【1】——获取指定文件夹下的所有文件【glob模块】

    glob模块 是Python标准库中一个重要的模块,主要用来 查找符合特定规则的目录和文件,并将搜索的到的结果返回到一个列表中。  1、常用函数glob() 返回符合匹配条件的所有文件的路径。  2、重要参数recursive recursive参数 代表是否递归调用,与特殊通配符 ** 一同使用,默认为

    2024年02月04日
    浏览(14)
  • python怎么创建一个文件夹,用python创建一个文件夹

    大家好,小编来为大家解答以下问题,python中如何创建一个新文件,python如何创建一个文件夹,今天让我们一起来看看吧! 这篇文章主要介绍了如何通过python新建一个文件中的文件,具有一定借鉴价值,需要的朋友可以参考下。希望大家阅读完这篇文章后大有收获,下面让小

    2024年04月29日
    浏览(12)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包