日韩性视频-久久久蜜桃-www中文字幕-在线中文字幕av-亚洲欧美一区二区三区四区-撸久久-香蕉视频一区-久久无码精品丰满人妻-国产高潮av-激情福利社-日韩av网址大全-国产精品久久999-日本五十路在线-性欧美在线-久久99精品波多结衣一区-男女午夜免费视频-黑人极品ⅴideos精品欧美棵-人人妻人人澡人人爽精品欧美一区-日韩一区在线看-欧美a级在线免费观看

歡迎訪問 生活随笔!

生活随笔

當前位置: 首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【2017年第1期】基于文本大数据的企业信用风险评估

發布時間:2025/3/15 编程问答 19 豆豆
生活随笔 收集整理的這篇文章主要介紹了 【2017年第1期】基于文本大数据的企业信用风险评估 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

楊揚1, 周一懋2, 周宗放3

1. 西南財經大學經濟數學學院,四川 成都 611130?

2. 江蘇匯譽通數據科技有限公司,江蘇 蘇州 215123?

3. 電子科技大學經濟與管理學院,四川 成都 611731

摘要:相較于個人信用風險評估,銀行關于企業信用風險評估的資料具有更多的文本信息且標準化程度更高,然而文本信息中蘊含的大量關于企業信用風險的增量信息卻沒有得到有效利用。通過對我國上市公司年報以及網民評論的文本進行分析,探索了文本大數據對企業信用風險評估的作用。研究發現,年報管理層討論與分析的風險提示內容、獨立董事意見中關于關聯交易的非正式感情表達以及網民關于公司風險的評論對于企業信用風險評估都具有明顯的增量信息。

關鍵詞:文本;大數據;信用風險;評估

中圖分類號:F830?文獻標識碼:A

doi:10.11959/j.issn.2096-0271.2017006

Credit risk evaluation with text big data from text

YANG Yang1, ZHOU Yimao2, ZHOU Zongfang3

1. School of Economic Mathematics,Southwestern University of Finance and Economics,Chengdu 611130,China?

2. Jiangsu HYT Data Technology Co.,Ltd.,Suzhou 215123,China?

3. School of Economics and Management,University of Electronic Science and Technology of China,Chengdu 611731,China

Abstract: Banks have more text information pertaining to credit risk of enterprises.This information is more complete and standardized compared with that of individuals.Nevertheless,this incremental information of enterprise credit risk,which is contained in documents has not been effectively utilized by banks.The role of text big data on credit risk evaluation through annual reports and commentaries of crowds on networks was explored.It found that both the annual reports and crowds’ commentaries significantly contain the incremental information on credit risk of enterprises.

Key words: text; big data; credit risk; evaluation


論文引用格式:楊揚,周一懋,周宗放. 基于文本大數據的企業信用風險評估[J]. 大數據, 2017, 3(1): 44-50

YANG Y, ZHOU Y, ZHOU Z F. Credit risk evaluation with text big data from text[J]. Big data research, 2017, 3(1): 44-50


1 ?引言

隨著我國市場化水平的不斷提升、信用金融體系的逐步形成,信用風險更加凸顯為各大金融機構所面臨的主要風險,而銀行信用風險管理也面臨著前所未有的挑戰,這種挑戰在當前經濟下行和結構調整深化的宏觀背景下顯得尤為突出[1]。另一方面,互聯網以及移動互聯網的發展和普遍應用為銀行提供了通過大數據進行信用風險管理并挖掘新業務增長點的重要機會。根據Syrus關于風險管理的定義,銀行信用風險管理的流程可以分為3個步驟:風險數據的收集、風險的度量和風險的模擬評估[2]。而大數據的應用無論是對銀行信用風險數據的收集、信用風險的度量,還是對信用風險的模擬評估,都提供了嶄新的視角和方法。相較于銀行傳統信用風險管理手段,通過對大數據進行整合和分析,降低了成本,提高了效率。這不但可以加強經濟波動周期下的信用風險控制,同時也提升了復雜環境下交叉風險的管理能力[3]。事實上,大多數金融機構已經看到了大數據產業化蘊含著的商機,美國花旗銀行通過對客戶信用卡大數據的分析,對客戶進行了有效的信息推送,實現了二次精準營銷;美國富國銀行則通過客戶交易大數據的管理,有效識別了欺詐性交易行為,提升了自身風險控制水平;在我國,阿里巴巴、騰訊等電子支付通道運營商也通過對客戶社交活動的大數據分析,紛紛推出“微粒貸”等金融產品,不斷擠壓金融機構終端零售市場,同時擴寬自身新的利益增長點[4]。

對于大多數銀行而言,企業信用風險評估一直以來都是其核心和市場基點。大量的參考文獻探討了在P2P環境下大數據應用對個人信用風險評估的影響。例如Greiner M E和艾金娣等人[5,6]對P2P個人信用風險的數據和信用風險進行了分析; ?Carlos S C等人[7]考察了個人財富評級對其信用風險的影響;而Larrimore L等人[8]則對Prosper.com的數據進一步分析指出,一些非結構化信息的利用可以有效降低投資者面臨的信用風險;周宗放等人[9]對個人信用風險評估的理論和方法進行了拓展性研究。相較于個人信用風險的評估,一方面銀行所持有的有關企業信用風險評估的資料包含更多的文本信息(如財務報表、審計報告等),也更加標準化;另一方面,這些文本信息往往并沒有被有效利用,許多隱藏在文本中的信息被銀行忽略,這大大損失了銀行企業信用風險評估的效率。一些學者,如Yang Y等人[10]已經注意到了充分利用文本信息能大大提高銀行對企業信用風險評估的效率,而本文則進一步提出了文本大數據應用于企業信用風險評估的3個基本視角,希望能借此為大數據下的企業信用風險評估提供有益啟示。


2 ?數據說明

為了使文本信息更加標準化,同時考慮到數據的真實性和可獲取性,本文選取2009—2015年滬深A股被“特殊對待(special treatment,ST)”的上市公司樣本,借鑒參考文獻[11]的如下配對準則,為這些樣本選取“非ST”上市公司的配對樣本。準則如下:

● 時間一致性,即“ST”樣本和“非ST”樣本為同一年度數據;

● 配對樣本行業類型相同或相近;

● 配對樣本資產總規模相當;

● 配對樣本上市時間接近;

● 剔除數據缺失或兩年內被“ST”的上市公司;

● 剔除因其他異常情況被“ST”的上市公司。

為了方便研究,本文將樣本和配對樣本的文本信息進行了梳理,將年報中“管理層討論與分析”不含“風險分析”“風險提示”的樣本刪除;進一步,將網絡評論少于30條的樣本刪去。最終得到配對的“ST” 樣本和“非ST”樣本,一共600對。

2.1 ?信用風險度量

本文選取Logistic回歸[12]作為樣本的信用風險度量。Logistic回歸是一種廣泛應用于經濟管理的二分類(成功或失敗)或者多次序排序的評估(預測)方法。其核心思想是假設Xi為第i個企業的信用風險評估的變量向量,企業出現信用風險違約的概率Pi和Xi之間的關系如下:

Pi=1/[1+e-(α+∑βiXi)] ? ? ? (1)

其中,α和βi為Logistic回歸的系數。

通過求最大對數似然函數ln(α,β),就可以得出式(1)中的參數,然后通過外生性設定臨界值來判斷企業的信用風險情況,對企業信用風險進行評估。

本文將樣本分為訓練樣本和檢驗樣本,其中訓練樣本400個,檢驗樣本200個。

在利用訓練樣本對模型進行訓練的過程中,當樣本為“ST”樣本時,響應值賦值為1;當樣本為“非ST”樣本時,響應值賦值為0。在確定了系數后,再用訓練好的Logistic模型對檢驗樣本的評估精準性進行檢驗。在本文中,選取0.4作為信用風險評估的臨界值。當式(1)中Pi<0.4時,評估樣本為“非ST”樣本,而當Pi≥0.4時,評估樣本為“ST”樣本。

2.2 ?控制變量

財務數據是各大金融機構現用于企業信用風險評估的最為重要的數據。本文借鑒已有關于企業信用風險評估、財務預警等相關文獻[13],選取財務變量作為控制變量。考慮到文本信息部分表征了財務數據中蘊含的信息,因此,通過內生性檢驗后,本文將表1中的變量作為控制變量。

表1 控制變量

3 ?信用風險評估

本文將考慮兩類文本(規范性文本和非規范性文本)中蘊含的有關企業信用風險的信息增量。規范性文本來源于企業的年度財務報表和獨立董事意見。年度財務報表和獨立董事意見,特別是本文中樣本上市公司的年度財務報表和獨立董事意見具有高度的標準化特征。而非規范性的文本則來源于巨潮資訊網、新浪財經網等廣大股民對企業的評價,體現了文本的多樣性特征。

3.1 ?規范性文本

規范性文本的分析對象在本文中分為兩個部分,即企業年度財務報表和企業關于關聯交易的獨立董事意見。

第一,企業年度財務報表。財務年度報表是各大金融機構用以對其進行信用風險評估時最為重要的文件。然而企業的財務年度報表中除了財務數據以外,大量的文本信息并未得到有效的利用。由于本文要對企業信用風險進行評估,因此,選取企業財務年度報表中“管理層討論與分析”的風險提示相關內容作為文本分析的對象。這部分文本內容大多對企業未來可能面臨的宏觀環境、行業競爭以及市場結構等風險進行定性論述。基于此,本文借鑒了Morinaga S等人[14]的詞頻分析準則,并對風險提示部分相關內容進行了修改。

第二,企業關聯交易的獨立董事意見。關聯交易被普遍認為是影響企業信用風險的重要因素[15],中國證券監督管理委員會要求上市公司獨立董事針對關聯交易給出獨立意見。然而我國獨立董事受限于客戶壓力和失位風險,很少發表否定性意見。盡管如此,從獨立董事意見里仍然可以找出傾向性的感情表達。例如表2中兩種不同類型的表達就帶有明顯的感情傾向[16]。

表2?企業關于關聯交易所發表的獨立董事意見

鑒于此,本文借鑒了中文文本情感分析相關方法,對樣本獨立董事關于關聯交易的意見進行分析,將獨立董事就關聯交易的意見肯定程度分為0~5這6個標度,并作為Logistic模型的判別變量。

表3為在企業信用風險評估的3類分析方法下的第一類錯誤率和第二類錯誤率以及評估的準確率。可以看到:納入企業財務報表“風險提示”相關內容和獨立董事意見以后,第一類和第二類錯誤率都明顯降低,評估準確率有所提高。而圖1則顯示了將檢驗樣本分組后,隨著檢驗樣本的增加,評估準確性率變化。

表3 ?規范性文本信用風險評估的準確率

圖1 ?規范性文本評估(預測)準確率

由表3和圖1可知,無論是企業年度財務報表,還是獨立董事意見文本信息,均蘊含著關于企業信用風險的信息增量。將文本分析納入企業信用風險評估能顯著提高評估的準確性。此外,隨著檢驗樣本量的增加,文本評估準確性呈單調上升趨勢。相較于企業年度財務報表中“風險提示”等相關文本信息,獨立董事關于關聯交易的感情傾向更能幫助銀行分析企業的信用風險狀況。這可能是由于企業年度財務報表的“風險提示”相關文檔過分標準化,很多企業對這部分內容的撰寫甚至前后兩年的修改程度很小,屬于“例行公事” 的模版化處理,這也弱化了這部分文本信息的有效性。

3.2 ?非規范性文本

巨潮資訊網和新浪財經網作為中國最大的財經資訊網,集聚了眾多網友針對我國

上市公司各個方面發表的看法和觀點。這些信息具有典型的非結構化特點。為了簡便,在本文中,僅僅利用Python抓取了其中的純文本部分,由于不同的帖子具有不同的表達習慣,因此,本文借鑒了Tetlock P C等人和Loughran T等人[17,18]在處理社交網絡文本時應用的否定詞頻表方法,并進一步利用Chen H等人[19]的模型,結合Logistic模型對企業信用風險進行檢驗。表4為通過非規范性文本進行信用風險評估的結果。

表4 ?非規范文本信用風險評估準確率

從表4可以看出,對網絡媒體文本信息的分析,顯著提高了企業信用風險評估的準確率,甚至遠遠高于利用規范文本信用風險評估的準確率。這說明來自網絡媒體的文本信息蘊藏著更多的關于企業信用風險的增量信息。這可能一方面是由于網絡媒體的自適應性,眾多發表帖子的網民都顯然將自己認為“正確”的信息發表在了網絡媒體;而另一方面可能與網絡大數據有關。對于規范性文本而言,本文的文本樣本量為2 400個;而對于非規范性文本而言,本文的文本樣本量增加至12 840個,顯著增加的文本數據量可能大大提高了信用風險評估的準確率。


4 ?結束語

銀行在進行企業信用風險評估時,往往都要求企業提供諸如年度財務報表、審計報告以及公司所提供抵押擔保等大量的文本材料。相較于個人信用風險評估,這些文本材料標準化程度更高。然而銀行對這些文本信息的利用效率卻并不高,大量隱藏在文本中的有關企業信用風險的增量信息都被浪費,并未能形成銀行貸款策略的決策支持。為此,本文利用我國上市公司年報標準文本數據以及在線數據,從公司年報管理層討論與分析中“風險提示”的內容、公司年報中關聯交易“獨立董事意見”的感情以及眾多網友網上回帖內容的多樣性等方面著手,探索了文本大數據對企業信用風險評估的影響。研究發現,現有企業文本信息中仍然具有大量的關于企業信用風險的增量信息沒有被銀行有效利用;進一步利用好文本大數據,從中挖掘出有益信息對銀行針對企業信用風險的評估和控制具有重要意義。

總體而言,本文嘗試了利用文本大數據對企業信用風險的評估,然而這種研究仍然是探索性的。所用的方法和對數據的處理還比較粗糙,對文本信息的利用也缺乏精細度。相信對企業文本更加細致的挖掘和分析將能更深刻地認識企業的信用風險,進一步提高銀行關于企業信用風險評估的準確度,也為銀行信用風險管控提供更多的幫助。希望本文不但能對銀行利用文本大數據進行企業信用風險評估起到啟示作用,更能起到拋磚引玉的作用,為更多的大數據情景下銀行信用風險評估的研究提供借鑒。


參考文獻:

[1] 龐淑娟. 大數據在銀行信用風險管理中的應用[J]. 征信, 2005, 33(3): 12-15.

PANG S J. The application of big data to bank credit risk management[J]. Credit Reference, 2005, 33(3): 12-15.

[2] DUFF I E D, SI NGLETON K . Cre d it risk[M]. Princeton: Princeton University Press, 2003.

[3] 宋長龍. 大數據背景下的銀行信用風險管理[J]. 商業經濟, 2015(10): 108-109. ?SONG C L. Credit risk management of banks in the circumstance of big data[J]. Business Economy, 2015(10): 108-109.

[4] 曾偉, 孔新川, 陳威, 等. 大數據發現銀行貸款風險[J]. 大數據, 2014024.

ZENG W, KONG X C, CHEN W, et al. Uncovering the risk in bank loans by big data[J]. Big Data Research, 2014024.

[5] GREINER M E, WANG H. The role of social capital in people-to-people lending market place[C]// The 2009 International Conference on Information Systems, December 15-18, 2009, Arizona, USA.[S.l.:s.n.], 2009: 1-17.

[6] 艾金娣. P2P網絡借貸平臺風險防范[J]. 中國金融, 2012(14): 79-81.

AI J D. Risk prevention of online P2P lending platform [J ]. China Finance, 2012(14): 79-81.

[7] CARLOS S C, BEGONA G N. The use of profit scoring as an alternative to credit scoring systems in P2P lending[J]. Decision Support Systems, 2016, 9(89): 113-122.

[8] LARRIMORE L,JIANG L,MARKOWITZ D, et a l . Pe er t o p e er le nd i n g: t he relationship between language features, trustworthiness, and persuasion success[J]. Jou r n a l of Appl ie d C ommu n ic at io n Research, 2011, 1(39): 19-37.

[9] 周宗放, 帥理, 周一懋. 個人信用風險評估理論和方法:拓展性研究[M]. 北京:中國金融出版社, 2015.

ZHOU Z F, SHUA I L, Z HOU Y M . Personal credit assessment theories and methods:extension research[M]. Beijing: China Financial Publishing House, 2015.

[10] YANG Y, JING G, ZHOU Z F. Credit risk evaluation based on social media[J]. Environmental Research, 2016, 7(148):

582- 585.

[11] 賴娟, 肖珉, 周宗放. 我國集團上市公司財務危機預測建模與實證[J]. 管理學家, 2010(9): 18-24. ?LAI J, XIAO M, ZHOU Z F. Empirical study on forecasting financial distress of listed enterprise groups[J]. An Academic Edition of ManaMaga, 2010(9): 18-24.

[12] MARTIN K, HIRSHLEIFER D, TEOH S H. Investor psychology in capital markets: evidence and policy implications[J ]. Journal of Monetary Economics, 2002, 49(1): 139-209.

[13] 劉新文 . 制造業上市公司信用風險實證研究——基于邏輯回歸方法分析[J]. 金融經濟, 2016(7): 113-115.

LIU X W. Empirical study on credit risk of listed manufacturings [J]. Finance & Economy, 2016(7): 113-115.

[14] MOR INAGA S, YAM A NISHI K, TATEISHI K. Mining product reputations on the Web[C]//The 8th ACM International Conference on Knowledge Discovery and Data Mining, July 23-26, 2002, Edmonton, Alberta, Canada. New York: ACM Press, 2002: 341-349.

[15] DOWNS D H, OOI J T L, WONG W C, et al. Related party transactions and firm value: evidence from property markets in hong kong malaysia and singapore[J]. Journal of Real Estate Finance and Economics, 2016, 52(4): 408-427.

[16] 趙子夜. “無過”和“有功”:獨立董事意見中的文字信號[J]. 管理世界, 2014(5): 131-141.

[17] TETLOCK P C, SAAR-TSECHANSHY M, MAC SKAS SY S . More t ha n word s: quantifying language to measure firms’ fundamental[J]. Journal of Finance, 2008, 43(1): 1437-1467.

[18] LOUGHRAN T, MCDONALD B. When is a liability not a liability? textual analysis, dictionaries, and 10-ks[J]. Journal of Finance, 2011, 66(1): 35-65.

[19] CHEN H, PRABUDDHA D, HU Y J, et al. Wisdom of crowds: the value of stocko pinions transmitted through social?media[J]. Review of Financial Studies, 2014, 5(27): 1367-1403.

楊揚(1987-),男,博士,西南財經大學經濟數學學院講師、碩士生導師,主要研究方向為信用風險管理、管理信息系統、集團管控、風險投資。

周一懋(1982-),男,江蘇匯譽通數據科技有限公司大數據事業部總監、工程師,主要研究方向為數據挖掘、信用評價、項目管理、系統平臺設計等。

周宗放(1950-),男,電子科技大學經濟與管理學院教授、博士生導師,風險分析與數據科學研究中心主任,中國科學院/匯譽通大數據聯合實驗室特聘研究員,主要研究方向為信用風險管理、信用評估、優化理論與方法等。

總結

以上是生活随笔為你收集整理的【2017年第1期】基于文本大数据的企业信用风险评估的全部內容,希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯,歡迎將生活随笔推薦給好友。