當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

复合数据类型，英文词频统计

發(fā)布時間：2025/3/14 编程问答 13 豆豆

生活随笔收集整理的這篇文章主要介紹了复合数据类型，英文词频统计小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

這次作業(yè)來源：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2753

1.列表，元組，字典，集合分別如何增刪改查及遍歷。

（1）列表

list = ['KOBE', 'INGRAM', 'BALL', 7777]; list1 = [1,2,3,4,5];list.append('JAMES'); print ( list);list.extend(list1); print ( list);list.insert(1,'KUZMA'); print ( list);list[0]='MAGIC'; print ( list);

list = ['KOBE', 'INGRAM', 'BALL', 7777]; list1 = [1,2,3,4,5];del list[1]; print (list)list.pop() print (list)list.pop(1) print (list)

list = ['KOBE', 'INGRAM', 'BALL', 7777]; list1 = [1,2,3,4,5];x = list.index('KOBE'); print(x);y = list[0]; print(y);z = list[1:3]; print(z);

list1 = [1,2,3,4,5];print(len(list1));print(max(list1));print(min(list1));

(2)元組

tup1 = ('KOBE', 'INGRAM', 'BALL', 7777); tup2 = (1,2,3,4,5);tup3 = tup1 + tup2; print (tup3);

tup1 = ('KOBE', 'INGRAM', 'BALL', 7777); tup2 = (1,2,3,4,5);del tup1;

tup1 = ('KOBE', 'INGRAM', 'BALL', 7777); tup2 = (1,2,3,4,5);print ("tup1[0]: ", tup1[0]); print ("tup1[1:3]: ", tup1[1:3]);

(3)字典

dict = {'KOBE': 24, 'JAMES': 23, 'BALL': 2,'KUZMA':0,'INGRAM':14};dict['KOBE'] = 8; print(dict);dict['HART'] = 5; print(dict);

dict = {'KOBE': 24, 'JAMES': 23, 'BALL': 2,'KUZMA':0,'INGRAM':14};del dict['JAMES']; print(dict);dict.clear(); print(dict);del dict

dict = {'KOBE': 24, 'JAMES': 23, 'BALL': 2,'KUZMA':0,'INGRAM':14};print ( dict['KOBE']);

（4）集合

set = {'KOBE', 'JAMES', 'BALL','KUZMA','INGRAM'}; set.add('magic'); print(set);set.update({777,888}); print(set);

set = {'KOBE', 'JAMES', 'BALL','KUZMA','INGRAM'}; set.add('magic'); print(set);set.remove('JAMES') print(set)

2.總結(jié)列表，元組，字典，集合的聯(lián)系與區(qū)別。

列表（list）是Python中最有用的一種內(nèi)置類型，是處理一組有序項目的數(shù)據(jù)結(jié)構(gòu)，或者說，是一個有序?qū)ο蟮募稀?/span>

元組（tuple）就是不可更改的列表，一旦創(chuàng)建，便不可更改。除了表示的方式有點不一樣、元組的元素不可更改，其他的特性與前面學習的列表基本一致。

字典含義和表示都與我們語義上的感覺近似。像小時候查找漢字，我們通過拼音字母（或筆畫）進行索引,Python中的字典我們可以自己定義名字，然后通過這個名字查找到對應的數(shù)值。這個名字叫做鍵，對應的數(shù)值簡稱值，所以字典也稱鍵值對。需要注意的是，字典沒有順序一說，所有的值僅能用鍵獲取。

簡而言之，字典被看作無序的鍵值對或有名字的元素列表。

集合是無序的對象集，它和字典一樣使用花括號{}，但沒有鍵值對的概念。它屬于可變的數(shù)據(jù)類型，一般用于保持序列的唯一性——也就是同樣的元素僅出現(xiàn)一次。

在使用時一定要注意集合的無序和唯一兩個特點，避免出錯。

3.詞頻統(tǒng)計

1.下載一長篇小說，存成utf-8編碼的文本文件?file

2.通過文件讀取字符串?str

3.對文本進行預處理

4.分解提取單詞?list

5.單詞計數(shù)字典?set?,?dict

6.按詞頻排序?list.sort(key=lambda),turple

7.排除語法型詞匯，代詞、冠詞、連詞等無語義詞
- 自定義停用詞表
- 或用stops.txt

? ? ? ?8.輸出TOP(20)

9.可視化：詞云

?排序好的單詞列表word保存成csv文件

import pandas as pd
pd.DataFrame(data=word).to_csv('big.csv',encoding='utf-8')

線上工具生成詞云：
https://wordart.com/create

轉(zhuǎn)載于:https://www.cnblogs.com/liangqiuhua/p/10538398.html

總結(jié)

以上是生活随笔為你收集整理的复合数据类型，英文词频统计的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： 6.1 从分析到设计
下一篇：医保费用监控指标体系建立（四）医疗机构指