我尝试读取并打印以下文件:txt.tsv (https://www.sec.gov/files/dera/data/financial-statement-and-notes-data-sets/2017q3_notes.zip

根据 SEC,数据集以单一编码提供,如下:

制表符分隔值 (.txt):utf-8、制表符分隔、\n 终止行,第一行包含小写的字段名称。

我当前的代码:

import csv

with open('txt.tsv') as tsvfile:
    reader = csv.DictReader(tsvfile, dialect='excel-tab')
    for row in reader:
        print(row)

所有尝试均以以下错误消息结束:

“utf-8"编解码器无法解码位置 4276 中的字节 0xa0:无效的起始字节

我有点失落。

答案

文件中的编码是"windows-1252”。

open('txt.tsv', encoding='windows-1252')

来自: stackoverflow.com