網站首頁 編程語言 正文
日志收集流程
對于日志收集的客戶端,其work pipeline通常包括三個過程:Input,Process,Output。
- Input: 適配各類日志接入源,目前Logtail支持文本文件、Syslog(TCP流式)兩種形式數據寫入。
- Process:自定義日志處理邏輯,常見的有:日志切分、日志編碼轉換、日志結構化解析、日志過濾等等。
- Output:定義日志輸出,例如Logtail以HTTP協議寫數據到日志服務。
今天要介紹Logtail在日志處理階段的兩個新功能:轉碼、過濾
日志轉碼
日志服務限制數據的字符編碼為UTF-8,這也是Logtail在發送數據階段對于字符編碼的要求。
但可能一些較老的應用組件在處理中文的時候,會打印GBK編碼的數據到日志文件。
這種情況下,你可以在Logtail配置的高級選項中,選擇日志文件編碼為”GBK“。那么,Logtail在采集日志時,會對日志內容先做GBK到UTF-8的編碼轉換,再進行后續處理。
Logtail目前支可以支持UTF-8和GBK兩種文件編碼格式。對于GBK格式,Logtail使用Linux系統的iconv API,編碼轉換過程中會額外消耗機器計算資源。
問:如何判斷我的GBK日志文件是否可以通過Logtail收集?
答:在Linux Shell下使用iconv命令進行轉碼測試,假設日志文件名為gbk.log,執行命令:
iconv -f GBK -t UTF-8 gbk.log -o gbk_to_utf8.log
如果執行成功則說明文件編碼是GBK;如執行失敗(類似iconv: illegal input sequence at position 2743錯誤),則說明文件不是合法的GBK編碼,無法通過Logtail做編碼轉換,請嘗試調整應用輸出的日志文件編碼格式為UTF-8。
日志過濾
舉一個web服務器的例子,Nginx每時每刻接收大量請求,并在access.log記錄這些請求:
10.200.98.220 - - [25/May/2016:14:55:42 +0800] "HEAD sls-pub.alibaba-inc.com/projects/ali-cn-hangzhou-sls-admin/logstores HTTP/1.1" 0.024 18204 200 37 "-" "aliyun-sdk-java" 13605 10.200.98.220 - - [25/May/2016:14:55:42 +0800] "POST sls-pub.alibaba-inc.com/projects/ali-cn-hangzhou-sls-admin/logstores HTTP/1.1" 0.024 18204 404 37 "-" "ali-log-logtail" 13608 10.200.98.220 - - [25/May/2016:14:55:42 +0800] "PUT sls-pub.alibaba-inc.com/projects/ali-cn-hangzhou-sls-admin/logstores HTTP/1.1" 0.024 18204 401 37 "-" "aliyun-sdk-java" 13609 10.200.98.220 - - [25/May/2016:14:55:42 +0800] "PUT sls-pub.alibaba-inc.com/projects/ali-cn-hangzhou-sls-admin/logstores HTTP/1.1" 0.024 18204 502 37 "-" "aliyun-sdk-java" 13610 10.200.98.220 - - [25/May/2016:14:55:42 +0800] "GET sls-pub.alibaba-inc.com/projects/ali-cn-hangzhou-sls-admin/logstores HTTP/1.1" 0.024 18204 401 37 "-" "cpp-sdk-0.6" 13612 10.200.98.220 - - [25/May/2016:14:55:42 +0800] "PUT sls-pub.alibaba-inc.com/projects/ali-cn-hangzhou-sls-admin/logstores HTTP/1.1" 0.024 18204 400 37 "-" "cpp-sdk-0.6" 13614 10.200.98.220 - - [25/May/2016:14:55:42 +0800] "POST sls-pub.alibaba-inc.com/projects/ali-cn-hangzhou-sls-admin/logstores HTTP/1.1" 0.024 18204 400 37 "-" "ali-log-logtail" 13615 10.200.98.220 - - [25/May/2016:14:55:42 +0800] "HEAD sls-pub.alibaba-inc.com/projects/ali-cn-hangzhou-sls-admin/logstores HTTP/1.1" 0.024 18204 200 37 "-" "cpp-sdk-0.6" 13616
對于問題調查的場景,HTTP 200請求的日志量通常是巨大的,如果我們希望降低日志存儲的成本,只上傳發生異常的請求日志,應該怎么來做呢?
在今天,你可以打開Logtail配置的高級選項,設置過濾器來解決數據過濾的問題。
如上圖所示,分別對url字段和status字段設置了兩個過濾器。指定字段Key存在且Value符合正則表達式的日志會被保留。
定義多個過濾器的時候,判斷條件是“與”的關系,滿足所有過濾器設置的日志是合法的,否則被丟棄。
對于一條日志,當url字段與"(POSTs.)|(GETs.)"匹配成功且status字段與"[345]d+"匹配成功的時候(只采集POST、GET請求且狀態碼非200的日志),Logtail將該日志上傳至日志服務,如下圖所示:
如果設置過濾器的字段名在日志里找不到,那么這條日志也是不合法的,需要被丟棄。默認情況下,用戶沒有任何過濾器設置的情況下,所有被Logtail讀取并解析成功的日志數據都會寫入日志服務。
實例配置:
只收集匹配到 topic? 為? action 或者 plugin 的日志?
原文鏈接:https://www.cnblogs.com/weifeng1463/p/10577272.html
相關推薦
- 2022-04-11 MVVMLight項目Model?View結構及全局視圖模型注入器_Android
- 2022-10-01 Python使用Asyncio進行web編程方法詳解_python
- 2023-06-16 GO的鎖和原子操作的示例詳解_Golang
- 2022-06-27 ASP.net?core使用Autofac實現泛型依賴注入_實用技巧
- 2022-10-04 Qt實現右擊菜單項_C 語言
- 2022-11-17 python標準庫random模塊處理隨機數_python
- 2022-10-31 Golang中map數據類型的使用方法_Golang
- 2022-12-09 python淺拷貝與深拷貝使用方法詳解_python
- 最近更新
-
- window11 系統安裝 yarn
- 超詳細win安裝深度學習環境2025年最新版(
- Linux 中運行的top命令 怎么退出?
- MySQL 中decimal 的用法? 存儲小
- get 、set 、toString 方法的使
- @Resource和 @Autowired注解
- Java基礎操作-- 運算符,流程控制 Flo
- 1. Int 和Integer 的區別,Jav
- spring @retryable不生效的一種
- Spring Security之認證信息的處理
- Spring Security之認證過濾器
- Spring Security概述快速入門
- Spring Security之配置體系
- 【SpringBoot】SpringCache
- Spring Security之基于方法配置權
- redisson分布式鎖中waittime的設
- maven:解決release錯誤:Artif
- restTemplate使用總結
- Spring Security之安全異常處理
- MybatisPlus優雅實現加密?
- Spring ioc容器與Bean的生命周期。
- 【探索SpringCloud】服務發現-Nac
- Spring Security之基于HttpR
- Redis 底層數據結構-簡單動態字符串(SD
- arthas操作spring被代理目標對象命令
- Spring中的單例模式應用詳解
- 聊聊消息隊列,發送消息的4種方式
- bootspring第三方資源配置管理
- GIT同步修改后的遠程分支