复合数据类型,英文词频统计
這次作業(yè)來源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2753
1.列表,元組,字典,集合分別如何增刪改查及遍歷。
(1)列表
list = ['KOBE', 'INGRAM', 'BALL', 7777]; list1 = [1,2,3,4,5];list.append('JAMES'); print ( list);list.extend(list1); print ( list);list.insert(1,'KUZMA'); print ( list);list[0]='MAGIC'; print ( list);list = ['KOBE', 'INGRAM', 'BALL', 7777]; list1 = [1,2,3,4,5];del list[1]; print (list)list.pop() print (list)list.pop(1) print (list)
list = ['KOBE', 'INGRAM', 'BALL', 7777]; list1 = [1,2,3,4,5];x = list.index('KOBE'); print(x);y = list[0]; print(y);z = list[1:3]; print(z);
list1 = [1,2,3,4,5];print(len(list1));print(max(list1));print(min(list1));
(2)元組
tup1 = ('KOBE', 'INGRAM', 'BALL', 7777); tup2 = (1,2,3,4,5);tup3 = tup1 + tup2; print (tup3);tup1 = ('KOBE', 'INGRAM', 'BALL', 7777); tup2 = (1,2,3,4,5);del tup1;
tup1 = ('KOBE', 'INGRAM', 'BALL', 7777); tup2 = (1,2,3,4,5);print ("tup1[0]: ", tup1[0]); print ("tup1[1:3]: ", tup1[1:3]);
(3)字典
dict = {'KOBE': 24, 'JAMES': 23, 'BALL': 2,'KUZMA':0,'INGRAM':14};dict['KOBE'] = 8; print(dict);dict['HART'] = 5; print(dict);dict = {'KOBE': 24, 'JAMES': 23, 'BALL': 2,'KUZMA':0,'INGRAM':14};del dict['JAMES']; print(dict);dict.clear(); print(dict);del dict
dict = {'KOBE': 24, 'JAMES': 23, 'BALL': 2,'KUZMA':0,'INGRAM':14};print ( dict['KOBE']);
(4)集合
set = {'KOBE', 'JAMES', 'BALL','KUZMA','INGRAM'}; set.add('magic'); print(set);set.update({777,888}); print(set);set = {'KOBE', 'JAMES', 'BALL','KUZMA','INGRAM'}; set.add('magic'); print(set);set.remove('JAMES') print(set)
2.總結(jié)列表,元組,字典,集合的聯(lián)系與區(qū)別。
列表(list)是Python中最有用的一種內(nèi)置類型,是處理一組有序項目的數(shù)據(jù)結(jié)構(gòu),或者說,是一個有序?qū)ο蟮募稀?/span>
元組(tuple)就是不可更改的列表,一旦創(chuàng)建,便不可更改。除了表示的方式有點不一樣、元組的元素不可更改,其他的特性與前面學習的列表基本一致。
字典含義和表示都與我們語義上的感覺近似。像小時候查找漢字,我們通過拼音字母(或筆畫)進行索引,Python中的字典我們可以自己定義名字,然后通過這個名字查找到對應的數(shù)值。這個名字叫做鍵,對應的數(shù)值簡稱值,所以字典也稱鍵值對。需要注意的是,字典沒有順序一說,所有的值僅能用鍵獲取。
簡而言之,字典被看作無序的鍵值對或有名字的元素列表。
集合是無序的對象集,它和字典一樣使用花括號{},但沒有鍵值對的概念。它屬于可變的數(shù)據(jù)類型,一般用于保持序列的唯一性——也就是同樣的元素僅出現(xiàn)一次。
在使用時一定要注意集合的無序和唯一兩個特點,避免出錯。
3.詞頻統(tǒng)計
-
1.下載一長篇小說,存成utf-8編碼的文本文件?file
2.通過文件讀取字符串?str
3.對文本進行預處理
4.分解提取單詞?list
5.單詞計數(shù)字典?set?,?dict
6.按詞頻排序?list.sort(key=lambda),turple
7.排除語法型詞匯,代詞、冠詞、連詞等無語義詞
- 自定義停用詞表
- 或用stops.txt
? ? ? ?8.輸出TOP(20)
- 9.可視化:詞云
?排序好的單詞列表word保存成csv文件
import pandas as pdpd.DataFrame(data=word).to_csv('big.csv',encoding='utf-8')
線上工具生成詞云:
https://wordart.com/create
?
轉(zhuǎn)載于:https://www.cnblogs.com/liangqiuhua/p/10538398.html
總結(jié)
以上是生活随笔為你收集整理的复合数据类型,英文词频统计的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 6.1 从分析到设计
- 下一篇: 医保费用监控指标体系建立(四)医疗机构指