網站首頁 編程語言 正文
sqoop是一款用于hadoop和關系型數據庫之間數據導入導出的工具。你可以通過sqoop把數據從數據庫(比如mysql,oracle)導入到hdfs中;也可以把數據從hdfs中導出到關系型數據庫中。sqoop通過Hadoop的MapReduce導入導出,因此提供了很高的并行性能以及良好的容錯性。
sqoop適合以下的人群使用:
- 系統和應用開發者
- 系統管理員
- 數據庫管理員
- 數據分析師
- 數據工程師
說明
使用sqoop導出導入數據非常的方便,但是對于postgresql(簡稱PG庫)時就碰到了一個問題,pg庫是三層結構的database——schema——table。如果想導入到某一個模式下,那就需要指定模式才可以。但是sqoop如何指定pg庫的模式?
解決辦法
碰到問題首先要看文檔才對的。文檔這里已經指出如何指定pg庫的schema了。官方文檔地址
文檔已經說了,如果向指定schema需要添加-- --schema <name> 但是要注意的是必須在命令行的!!!!最后!!!添加才會生效。
但是,這是命令行的解決辦法,如果我們使用的是java呢?在沒解決之前,我的java代碼是這樣寫的:
public static boolean ExportCmdInPg(Configuration conf, String tableName, List<String> columns, String hdfsDir,Map<String, String> dbMap) { try { LogUtils.logInfoPrint("開始任務",logger); List<String> list = new ArrayList<>(); list.add("--connect"); list.add(dbMap.get(Constant.DRIVERURL)); list.add("--username"); list.add(dbMap.get(Constant.USER)); list.add("--password"); list.add(dbMap.get(Constant.PASSWORD)); list.add("--table"); list.add(tableName); list.add("--columns"); list.add(StringUtils.join(columns, ',')); list.add("--fields-terminated-by"); list.add("\t"); list.add("--export-dir"); list.add(hdfsDir); list.add("-m"); list.add("1"); ExportTool exporter = new ExportTool(); Sqoop sqoop = new Sqoop(exporter); String[] data = list.toArray(new String[0]); if (0 == data.length) { LogUtils.logErrorPrint("sqoop參數為空,請檢查ExportCmd方法!",logger); return false; } if (0 == Sqoop.runSqoop(sqoop, data)){ return true; } }catch (Exception e){ LogUtils.logErrorPrint("ExportCmd 導入到HDFS出現錯誤",logger,e); } return false; }
結果當然是不成功。那我哦添加-- --schema 參數試一下
public static boolean ExportCmdInPg(Configuration conf, String tableName, List<String> columns, String hdfsDir,Map<String, String> dbMap) { try { LogUtils.logInfoPrint("開始任務",logger); List<String> list = new ArrayList<>(); list.add("--connect"); list.add(dbMap.get(Constant.DRIVERURL)); list.add("--username"); list.add(dbMap.get(Constant.USER)); list.add("--password"); list.add(dbMap.get(Constant.PASSWORD)); list.add("--table"); list.add(tableName); list.add("--columns"); list.add(StringUtils.join(columns, ',')); list.add("--fields-terminated-by"); list.add("\t"); list.add("--export-dir"); list.add(hdfsDir); list.add("-m"); list.add("1"); list.add("-- --schema"); list.add("HERO"); ExportTool exporter = new ExportTool(); Sqoop sqoop = new Sqoop(exporter); String[] data = list.toArray(new String[0]); if (0 == data.length) { LogUtils.logErrorPrint("sqoop參數為空,請檢查ExportCmd方法!",logger); return false; } if (0 == Sqoop.runSqoop(sqoop, data)){ return true; } }catch (Exception e){ LogUtils.logErrorPrint("ExportCmd 導入到HDFS出現錯誤",logger,e); } return false; }
結果也是不成功,顯示報錯不識別-- --schema 。。。為了能夠使schema參數生效,廢了我不少勁。。。也查了不少資料,但是查到的資料都沒有關于java的schema的設置。所以。。。最終正確的解決辦法是:
public static boolean ExportCmdInPg(Configuration conf, String tableName, List<String> columns, String hdfsDir,Map<String, String> dbMap) { try { LogUtils.logInfoPrint("開始sqoop將oracle的數據導出到HDFS目錄",logger); List<String> list = new ArrayList<>(); list.add("--connect"); list.add(dbMap.get(Constant.DRIVERURL)); list.add("--username"); list.add(dbMap.get(Constant.USER)); list.add("--password"); list.add(dbMap.get(Constant.PASSWORD)); list.add("--table"); list.add(tableName); list.add("--columns"); list.add(StringUtils.join(columns, ',')); list.add("--fields-terminated-by"); list.add("\t"); list.add("--export-dir"); list.add(hdfsDir); list.add("-m"); list.add("1"); // 注意這里是--是分開的,源碼這里是通過--做判斷的 list.add("--"); list.add("--schema"); list.add("HERO"); ExportTool exporter = new ExportTool(); Sqoop sqoop = new Sqoop(exporter); String[] data = list.toArray(new String[0]); if (0 == data.length) { LogUtils.logErrorPrint("sqoop參數為空,請檢查ExportCmd方法!",logger); return false; } if (0 == Sqoop.runSqoop(sqoop, data)){ return true; } }catch (Exception e){ LogUtils.logErrorPrint("ExportCmd 導入到HDFS出現錯誤",logger,e); } return false; }
當然你也可能會使用字符串數組,數組方式就要這樣寫了
// 這里只是舉個示例 String[] string = new String[]{"--","--schema","HERO"}
so 問題解決,心情愉快。如果問題不解決,可能會憋一天。。。。
本文分享自華為云社區《【Hadoop】關于Sqoop導出數據到postgresql時schema的設置問題》,作者:Copy工程師 。
原文鏈接:https://www.cnblogs.com/huaweiyun/p/15832598.html
相關推薦
- 2022-12-08 vscode擴展代碼定位實現步驟詳解_相關技巧
- 2023-09-12 如何升級spring boot中spring框架的版本
- 2023-10-09 element-ui,tree樹形控件,通過接口返回數據判斷是否繼續拿子節點
- 2023-02-27 pandas中concatenate和combine_first的用法詳解_python
- 2022-04-14 Python實現注冊登錄功能_python
- 2022-11-07 Flink?側流輸出源碼示例解析_服務器其它
- 2023-12-09 添加依賴時,出現了此問題maven Cannot resolve org.apache.dubbo:
- 2022-04-12 Top-level statements must precede namespace and ty
- 最近更新
-
- window11 系統安裝 yarn
- 超詳細win安裝深度學習環境2025年最新版(
- Linux 中運行的top命令 怎么退出?
- MySQL 中decimal 的用法? 存儲小
- get 、set 、toString 方法的使
- @Resource和 @Autowired注解
- Java基礎操作-- 運算符,流程控制 Flo
- 1. Int 和Integer 的區別,Jav
- spring @retryable不生效的一種
- Spring Security之認證信息的處理
- Spring Security之認證過濾器
- Spring Security概述快速入門
- Spring Security之配置體系
- 【SpringBoot】SpringCache
- Spring Security之基于方法配置權
- redisson分布式鎖中waittime的設
- maven:解決release錯誤:Artif
- restTemplate使用總結
- Spring Security之安全異常處理
- MybatisPlus優雅實現加密?
- Spring ioc容器與Bean的生命周期。
- 【探索SpringCloud】服務發現-Nac
- Spring Security之基于HttpR
- Redis 底層數據結構-簡單動態字符串(SD
- arthas操作spring被代理目標對象命令
- Spring中的單例模式應用詳解
- 聊聊消息隊列,發送消息的4種方式
- bootspring第三方資源配置管理
- GIT同步修改后的遠程分支