wordpress 香港繁体/seo人员是什么意思

阅读全文大概需要4.5分钟。
本文是专栏《Excel必知必会》的第四篇教程,如果想了解专栏内容规划,请参阅开篇。温馨提示:如果您已经特别熟悉Excel,大可不必再看这篇文章,或只挑选部分。文中对Excel的说明和操作基于Mac Excel2016和Windows Excel 365

为什么把「分列」单独一篇来讲,其实是出于私心,我在专栏的开篇说过,我目前从事汽车行业,主要工作是测试,平常接触到很多测试系统的配置文件,log都是CSV格式,需要使用Excel打开,阅读,编辑。
所以借着这个话题,今天简单谈一谈编码以及CSV文件处理。
一. 什么是CSV文件
CSV:逗号分隔值(Comma-Separated Values)其文件以纯文本形式存储数据(数字和文本),其中逗号被称为分隔符,但是逗号并不是唯一的分隔符。
其他流行的分隔符包括制表符(t
)、冒号(:
)和分号(;
),所以一般说CSV文件都是泛指,指用特定分隔符进行字段分隔的结构化格式文件。
【1】CVS文件基本规则/特点
- 首行是「字段」行,以分隔符分割,字段也就是列名,就是对数据的描述
- 首行外,其他行是记录行
- 一条记录在一行内,不跨行
【2】CSV文件打开方式
CSV文件本身是相对简单、通用的表格类型文件,也就是说文本编辑器记事本以及Excel都可以直接打开。
如果对文本处理有极高要求,这里推荐Notepad++
- 记事本/Notepad

- Excel


可以看出如果分隔符为",",那么CSV文件在Excel打开后无需分列操作;
但是如果明明分隔符是逗号,打开却没有自动分列,多半是编码问题;此时可以用记事本将CSV文件另存,修改编码为ANSI或者UTF-8

既然已经写到这,我觉得有必要讲一讲字符集和编码,当然如果对这部分不感兴趣或者压根觉得用不上,完全可以跳过内容【3】。
【3】字符集和编码
这里我不打算花大段篇幅来给大家讲字符集和编码,第一我非专业,第二也没必要,感兴趣的可以精读阮老师<<字符集编码笔记: ASCII,Unicode和UTF-8>>[1];
简单讲讲好了
- ASCII码
计算机对所有数据/信息的读取,最底层都是基于二进制0和1,通过多个0和1的组合就可以有多种状态,比如说8位二进制就可以有256种组合/状态,当然也就可以代表256个字符了。
我们都知道计算机是美国人发明的,由英语字母、阿拉伯数字、符号这些字符组成一个字符集,称为美国信息交换标准代码,ASCII码(American Standard Code for Information Interchange)。
关于ASCII码我们需要知道就两条:
<1. 存储使用8位二进制,即一个字节;
<2. 适用于英文环境,不能对中文编码;
- UNICODE码
前面说到,ASCII没法表示中文,事实上除了中文,法文、德文...都没法表示,这时候ISO出现了,制定unicode字符集,unicode 也叫万国码,因为开发者是统一码联盟,所以又称为统一码,unicode 很复杂,不需要深究,知道三点就行:
<1. unicode 制定者是统一码联盟;
<2. 使用2-4个字节来表示字符;
<3. unicode只规定了字符集,并没有规定在计算机如何存储;
同时期,ISO也在开发这样一种编码,叫做通用字符集UCS(Universal Character Set),不同之处是UCS分为UCS-2以及UCS-4,分别指用2/4个字节对字符进行编码。
后来双方开始进行整合,所以现在unicode的编码和ucs的编码都基本一致。
前面说过unicode/ucs只规定了字符集,但是在计算机的存储上却没有指明,于是又出现了UTF-16、UTF-32、UTF-8形式,这里UTF全称Unicode Transformation Format。16,32,8分别指存储位数。
数据在内存上存储又分为大端序[BE, big endian]和小端序[LE, little endian];
举例,数据0x1234,需要占用两个字节存储,数据0x34存储在内存低字节地址上则代表LE,否则则是BE所以说UTF-16可细分为UTF-16 BE、UTF-16 LE
再说UTF-8
UTF-8 也是unicode的实现方式之一
UTF-8的特点是可变字长,用一个字节就可以表示英文字符,用三个字节来表示汉字...
UTF-8的出现完全是顺应了互联网的需求,因为占用存储少,所以现在很流行,目前网页编码多采用这一形式。
- ANSI
ANSI(American National Standards Institute),美国国家标准学会。ANSI就比较奇怪了,首先ANSI的编码是取决与各国家语言的,而且各语言之间并不兼容。
ANSI其实是一种伪编码或者说继承类编码!
ANSI并不是某一种特定的字符编码,而是一种体系,说白了每种语言都会有自己独立的编码,像中文GB2312,繁体中文的BIG5,日本的JIS...,而这些编码都在ANSI体系下。
说白了,ANSI是他们特定语言的指向!
Windows默认编码是ANSI,但是针对不同国家的语言,ANSI是如何确定具体编码那?
其实很简单,就是看windows设置的语言或者设定区域。
比如说,当我用记事本/Notepad录入汉字,保存时会提出警告,建议我将编码更改为unicode,否则汉字将会丢失

为什么?
首先我的系统语言是英语,设定区域为United States,ANSI遵从的编码其实是ASCII,当然是不支持汉字字符的。
假如你跟我一样,系统语言为英文,同时因为各种原因没办法切换到中文系统,怎么办?
- 临时解决
将文本文件另存,编码选择为unicode,因为unicode是支持中文的
缺点就是每次新建记事本都需要更改编码
- 一次性解决
系统位置更改为Chinese(Simplified, China),推荐!

此时ANSI编码实际指向汉字字符集GB2312
这一部分结束,回到主题
二. CSV文件如何在Excel中分列显示
前面说了,对于用逗号分隔的CSV文件,在Excel打开自然就已经分列,所以现在要说的是其他分隔符类型的CSV文件,如何在Excel中分列显示。
三种方法
【1】使用记事本将分隔符直接替换为逗号

【2】使用Excel分列(Text to Column)功能

【3】使用Excel数据导入功能

需要注意的是,如果使用Excel对CSV文件进行编辑,保存后,分隔符自动替换为","!如果需要更改其他分隔符,建议在记事本中替换。
正文结束,下周开始讲函数!
传送门: 链接:https://pan.baidu.com/s/1pVCbvpuwTBoTsoADmFIN7w 密码:4v3h
Xmind 建议以2020版打开,体验更佳!
最后,每一次点赞,收藏都是对创作最大的鼓励,笔芯!
参考
- ^字符编码笔记:ASCII,Unicode 和 UTF-8 http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html