NG南宫娱乐(中国)官方平台网站-注册链接

优质环保原料

更环保更安全

施工保障

流程严谨、匠心工艺

使用年限

高出平均寿命30%

全国咨询热线

040-177454634

工程案例
您的位置: 首页 > 工程案例

联系我们

地址:广东省广州市天河区某某工业园88号

咨询热线:

040-177454634

13800000000

4个Python数据读取的常见错误:南宫NG注册平台入口

发布时间:2024-12-16 05:34:01人气:
本文摘要:read_csv()是python数据分析包在pandas里面用于成倍较高的函数之一。

read_csv()是python数据分析包在pandas里面用于成倍较高的函数之一。它还包括的参数差不多20个,有可能一开始不一定必须原始告诉每个参数起到。不过,随着用于的了解,实际数据环境越发简单,处置的数据上亿行后,就不会经常出现这样那样的问题,这样劝说我们反过头来再行去解读某些参数的起到。今天,总结平时用于read_csv(),常常遇上的几个问题。

1、UnicodeDecodeErrorread_csv配置文件读取文件的编码格式为:utf-8,如果读取文件无法被utf-8编码,就不会报上面的错误。可是我们怎么告诉读取文件的编码格式呢?今天,为大家讲解一个这方面的包在:chardet,它能回到文件的编码格式。用于前再行用pipinstallchardet,加装一下。

接手里这样撰写回到编码格式,file为读取的文件名称。#提供文件编码类型defget_encoding(file):#二进制方式加载,提供字节数据,检测类型withopen(file,'rb')asf:returnchardet.detect(f.read())['encoding']通过charadet包在分析出有文件的编码格式后,不管用于python原生的open,read,还是pandas的read_csv,都可以起源于给参数encoding.2、sep分隔符少见文件的分隔符,比如,,csv文件配置文件为逗号,不过常用的大数据库,比如hive,有时不会用于分隔符为,这时候就必须调整参数sep.这类错误较为好解决问题。

3、加载文件时遇上和列数不对应的行,此时不会报错特别是在在读取文件为上亿行的,慢读过时,忽然附上这个拢,此行解析出有的字段个数与之前行列数不给定。此时,必须调整一个参数:error_bad_lines为false,意思是忽视此行。pandas.read_csv(***,error_bad_lines=False)实际项目,读取的文件数据环境比我们预期的简单。

假设我们的数据文件配置文件分隔符为逗号,然后如果某行的某个单元格给定为:'山东省,潍坊市,青州市'就光这一个单元格,就不会解析出有多列,报错那也是大自然的,这就拒绝我们在读取之前对数据作好充份的清除。4、EOFinsidestringstartingatline错误这个错误在读取文件时,常常也不会经常出现。这类错误必须改动quoting参数。

df=pd.read_csv(csvfile,quoting=csv.QUOTE_NONE)配置文件给定为0,遇上错误时,可以根据文档调整。quoting:intorcsv.QUOTE_*instance,default0Controlfieldquotingbehaviorpercsv.QUOTE_*constants.UseoneofQUOTE_MINIMAL(0),QUOTE_ALL(1),QUOTE_NONNUMERIC(2)orQUOTE_NONE(3).更加多少见加载错误,青睐大家facebook。


本文关键词:NG南宫娱乐,NG28.666官网版,南宫NG注册平台入口,ng娱乐下载官网,NG体育app下载入口

本文来源:NG南宫娱乐-www.ycdhw.com

推荐资讯