机器学习从入门到精通50讲(九)-基于 ANTLR 自己实现一个 SQL 解析器
一、背景
自2014年大數據首次寫入政府工作報告,大數據已經發展7年。大數據的類型也從交易數據延伸到交互數據與傳感數據。數據規模也到達了PB級別。
大數據的規模大到對數據的獲取、存儲、管理、分析超出了傳統數據庫軟件工具能力范圍。在這個背景下,各種大數據相關工具相繼出現,用于應對各種業務場景需求。從Hadoop生態的Hive, Spark, Presto, Kylin, Druid到非Hadoop生態的ClickHouse, Elasticsearch,不一而足...
這些大數據處理工具特性不同,應用場景不同,但是對外提供的接口或者說操作語言都是相似的,即各個組件都是支持SQL語言。只是基于不同的應用場景和特性,實現了各自的SQL方言。這就要求相關開源項目自行實現SQL解析。在這個背景下,誕生于1989年的語法解析器生成器ANTLR迎來了黃金時代。
二、簡介
ANTLR是開源的語法解析器生成器,距今已有30多年的歷史。是一個經歷了時間考驗的開源項目。一個程序從源代碼到機器可執行,基本需要3個階段:編寫、編譯、執行。
在編譯階段,需要進行詞法和語法的分析。ANTLR聚焦的問題就是把源碼進行詞法和句法分析,產生一個樹狀的分析器。ANTLR幾乎支持對所有主流編程語言的解析。從antlr/grammars-v4可以看到,ANTLR支持Java,C, Python, SQL等數十種編程語言。通常我們沒有擴展編程語言的需求,所以大部分情況下這些語言編譯支持更多是供學習研究使用,或者用在各種開發工具(NetBeans、Intellij)中用于校驗語法正確性、和格式化代碼。
對于SQL語言,ANTLR的應用廣度和深度會更大,這是由于Hive, Presto, SparkSQL等由于需
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的机器学习从入门到精通50讲(九)-基于 ANTLR 自己实现一个 SQL 解析器的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 产品经验谈:设计思维 统计思维
- 下一篇: 新手上路之django项目开发(二)--