목록빅데이터 (7)
now is better than never
최대값 db.emp.find({}, {_id:0, ename:1, sal:1}).sort({sal:-1}).limit(1) db.emp.aggregate( {$match:{"comm":null}}, {$group:{_id:null, maxSalary:{$max:"$sal"}}} ) or db.emp.find( {$or:[{job:"SALESMAN"}, {sal:{$gte:3000}}]}, {_id:0, ename:1, sal:1, job:1} ) 1994 년 미국 항공 빅데이터 분석 -- EDA db.airline.findOne() -- 컬럼 확인 db.airline.count() db.airline.aggregate( {$match:{ArrTime:{$gt:0}}}, {$group:{_id:"$Mont..

스파크 장점 테이블 생성이 쉬움 DML 작업 가능 속도가 빠름 하둡 : 디스크에서 데이터 처리 스파크 : 메모리에서 처리, NoSQL 1. 처음 스파크 켤 때 하이브는 켜지말고 스파크만 키기 2. reboot -> 하둡 올리고 (start-all.sh) -> 스파크 시작 start-all.sh #nameNode, secondaryNameNode, dataNode, jps, jobTracker, taskTracker jsp #spark 접속 spark-shell #Hive 문법 사용 val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) #테이블 생성 sqlContext.sql("CREATE TABLE IF NOT EXISTS employee (id..
mongoDB 오라클과 mySQL, hive 의 경우 미리 테이블을 생성해야 함 -> 컬럼이 많으면 테이블 생성 스크립트 작성에 오래 걸림 mongoDB 는 테이블 생성이 빠르고 쉬움 NoSQL 중 유일하게 insert, update, delete 가능 테이블 생성 cat 파일명 | mongoimport --type 확장자 -c 파일명 --headerline --drop --headerline --drop: 맨 위의 행 (컬럼명) 을 삭제 $ cat 1994.csv | mongoimport --type csv -c airline --headerline --drop find db.테이블명.find({검색조건}, {출력할 컬럼명}) db.emp.find({deptno:{$eq:10}}, {_id:0, emp..

Linux mariaDB / SQL anaconda mariaDB / Python system link Hadoop Spark mongoDB 리눅스 프로세서 관리 명령어 top 지금 현재 작동중인 프로세서들의 CPU 사용율과 메모리 사용율을 확인하는 명령어 서버 전체를 느리게 하는 악성 명령어를 수행하고 있는 유저 탐색 %CPU : CPU 사용율 %MEM : 메모리 사용율 COMMAND : 지금 수행하고 있는 명령어 ps 현재 시스템에서 수행되고 있는 프로세서의 정보를 표시 ps [option] [PID] option -p : 해당 프로세서의 간단한 정보 -e : 현재 서버에서 실행중인 모든 프로세서 ps -e -f : 실제 유저명, 개시 시간 등을 표시 ps -ef 특정 관련된 프로세서만 검색 ps -..
mv 파일 이름 변경하거나 파일을 다른 디렉토리로 이동 mv [기존 파일명] [변경 파일명] mv [위치/기존 파일명] [이동할 위치/기존 파일명] 파일 이동 # mv /root/emp.csv /root/backup/emp.csv 파일 복사 # cp /root/*.csv /root/backup/ chown 파일이나 디렉토리 소유자를 변경 change owner 의 약자 # ls -l emp.csv - rw- rw- rw- . 1 root root 633 4월 11 10:31 emp.csv d면 디렉토리 소유자 그룹 기타 유저 링크 소유자명 그룹명 파일크기 파일 생성/수정 날짜 r : 읽기 권한 w : 쓰기 권한 x : 실행 권한 chown [소유자명] : [그룹명] [파일명] -R : 하위 디렉토리와 파..

데이터 탐색 sort 특정 컬럼을 기준으로 정렬 -n : 숫자 정렬 -r : 내림차순 정렬 (ascending=False) -k : 정렬할 컬럼 번호 1. 월급이 낮은 사원부터 출력 # sort -t ',' -nk 6 emp300.csv 2. 월급이 높은 사원부터 출력 # sort -t ',' -nrk 6 emp300.csv 3. 월급이 1200 이상인 사원들의 이름과 입사일을 최근 입사일 정렬로 출력 # awk '$6 >= 1200 {print $2, $5}' mp.txt | sort -rk 2 uniq 중복된 라인을 제거 uniq 옵션 [파일명] 조건 필터링 정렬 중복 제거 # awk -F ',' '{print $3}' emp300.csv # awk -F ',' '{print $3}' emp300.c..