Hive是建立在Hadoop文件系统上的数据仓库,它提供了一系列工具,能够对存储在HDFS中的数据进行数据提取、转换和加载(ETL),这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的工具。 查看全文>>
Python+大数据技术文章2021-06-25 |传智教育 |什么是Hive,Hive的特点
Tesseraet是一个命令行工具,安装后只能通过tsseraet命令在Python的外部运行,而不能通过import语句引人使用。为了解决上述问题,Python 提供了支持Tssraec-OCR引擎的Python版本的库pytesseract。 查看全文>>
Python+大数据技术文章2021-06-25 |传智教育 |pytesseract识别验证码教程
每个broker中的partition我们一般都会设置有replication(副本)的个数,生产者写入的时候首先根据分发策略(有partition按partition,有key按key,都没有轮询)写入到leader中,follower(副本)再跟leader同步数据,这样有了备份,也可以保证消息数据的不丢失。 查看全文>>
Python+大数据技术文章2021-06-25 |传智教育 |Kafka数据存储,broker
HDFS磁盘上元数据文件分为两类,用于持久化存储:fsimage 镜像文件、Edits 编辑日志,fsimage和edits文件都是经过序列化的,但同时有有着众多差别,下面就来详细看一下。 查看全文>>
Python+大数据技术文章2021-06-25 |传智教育 |fsimage和edit的区别
Tesseract是一个开源的OCR库,是目前公认的最优秀、最精确的开源OCR系统,具有精准度高、灵活性高等特点。它不仅可以通过训练识别出任何字体(只要字体的风格保持不变即可),而且可以识别出任何Unicode字符。 查看全文>>
Python+大数据技术文章2021-06-25 |传智教育 |Tesseract下载安装教程,环境变量配置
requests是基于Python开发的HTTP库,与urllib标准库相比,它不仅使用方便,而且能节约大量的工作。实际上,requests是在urllib的基础上进行了高度的封装,它不仅继承了urllib的所有特性,而且还支持一些其他的特性,例如,使用Cookie保持会话、自动确定响应内容的编码等,可以轻而易举地完成浏览器的任何操作。 查看全文>>
Python+大数据技术文章2021-06-23 |传智教育 |urllib和requests哪个好用
有些时候我们需要获取某个文件夹下的所有文件的名称,手工操作效率低下而且容易出错,使用Python如何实现这个功能呢? 查看全文>>
Python+大数据技术文章2021-06-22 |传智教育 |python获取当前文件夹下所有文件名
很多时候我们需要将很多同类型的文件合并成一个文件,手工操作效率很低,下面我们通过一个案例来介绍使用Python合并文件夹内容的方法。 查看全文>>
Python+大数据技术文章2021-06-22 |传智教育 |python合并,python合并文件