빅데이터을 활용한 바이오인포매틱스 + 통계기초 + 딥러닝 실습에 대한 스터디입니다.
https://drive.google.com/drive/folders/0B6bSLTlVnagfTFJqV0dwRGdGMWs
- 통계 기초
- 딥러닝 실습( tensorflow )
- 빅데이터 기초
- 구글 genomics
- 빅데이터 유전체 분석
- 윈도우즈 환경에서 Jupyter와 R연동
- Markdown 문법
- Bengio 교수의 딥러닝 강의 - 딥러닝에 대한 깊은 통찰을 얻을 수 있음.
- 인공신경망과 딥러닝-무료 동영상 강의 한글
- udacity의 Deep Learning-무료 동영상 강의 영어
- Spark - 무료 동영상 강의 한글
- Hadoop - 무료 동영상 강의 한글
- Deepmind DQN 설치
- 논문 : Human-level control through deep reinforcement learning
- Distributed TensorFlow
- 분산 TensorFlow 컴파일 및 테스트
- 빅데이터분석-무료 동영상 강의 한글
- 하둡 및 Spark로 개발된 바이오인포 도구 목록
- 클라우데라 배포판으로 하둡 설치하기
- 실습 주제 : 암 환자 RNA정보를 활용한 암 예측 모델 개발
- 암환자 RNA 정보 획득방법 및 Data 구조파악
- 암환자 mRNA 데이터 수집 및 구조
- 암환자 mRNA데이터를 DB와 HBase에 올리기
- 암환자 mRNA에서 학습용, Valiaiotion용, Test용 데이터 만들기
- 공유폴더 > 빅바이오 > 참고자료 > 학습용 데이터
- mrna_20160125-200855_type1_00.pkl.gz 와 같은 파일이 24개, 전체 용량 700MB
- 장소: 토즈 신촌 아트레온토즈점 ( http://www.toz.co.kr/branch/main/index.htm?id=6 )
- 매주 화요일, 저녁 7시 30분~10시
- 시작: 2016년03월 08일
- 04월 05일 빅바이오:파트 2 - 1회차
- 03월 29일 빅바이오:파트 1 - 4회차
- 03월 22일 빅바이오:파트 1 - 3회차
- 03월 15일 빅바이오:파트 1 - 2회차
- 03월 08일 빅바이오:파트 1 - 1회차
seq. | 날짜 | 내용 | 후기 |
---|---|---|---|
1 | 2016. 3. 8 | (통계기초) Introductory Statistics with R (Chap. 1~2)(이승우) | 후기 |
(딥러닝 실습) Getting Started(남광우) | 후기 | ||
(빅데이터 기초) 직접 해보는 하둡 프로그래밍 : 2장(지용기) | |||
2 | 2016. 3.15 | (통계기초) Introductory Statistics with R (Chap. 3~4)(성민경) | 후기 |
(딥러닝 실습) MNIST For ML Beginners의 발표자료(유재용), MNIST For ML Beginners의 코드 | |||
(빅데이터 기초) 직접 해보는 하둡 프로그래밍 : 3장(우륭) | |||
3 | 2016. 3.22 | (통계기초) Introductory Statistics with R (Chap. 5~6), 이론설명(조현선) | |
(딥러닝 실습) Deep MNIST for Experts, 용어설명(박혜진) | |||
(빅데이터 기초) 직접 해보는 하둡 프로그래밍 : 4장(이재환) | |||
4 | 2016. 3.29 | (통계기초) Introductory Statistics with R (Chap. 7~8)(서승연) | 후기 |
(통계기초) 7장 실습, 8장실습 | |||
(딥러닝 실습) TensorFlow Mechanics 101(박세진) | |||
(빅데이터 기초) 직접 해보는 하둡 프로그래밍 : 5장(박지환), 참고자료 |
seq. | 날짜 | 내용 | 후기 |
---|---|---|---|
1 | 2016.5.3 | (딥러닝 실습) 암 환자의 유전체데이터 및 데이터 변환작업 소개 ( TCGA )(지용기) | |
(빅데이터 기초) 러닝 스파크(Learning Spark) 이론 : 3장(이승우) | |||
(빅데이터 기초) 러닝 스파크(Learning Spark) 실습 : 3장(이승우) | |||
(빅데이터 기초) 러닝 스파크(Learning Spark) : 4장(박혜진) | |||
2 | 2016.5.10 | (딥러닝 실습) TensorFlow을 사용해서 암 환자 유전체에서 암 예측 모델 개발( 회귀모형 1, 실습1)(조익연) | |
(딥러닝 실습) TensorFlow을 사용해서 암 환자 유전체에서 암 예측 모델 개발( 회귀모형 1, 실습2)(조익연) | |||
(빅데이터 기초) 러닝 스파크(Learning Spark) 이론 : 5장(손준영) | |||
(빅데이터 기초) 러닝 스파크(Learning Spark) 실습 : 5장(손준영) | |||
(빅데이터 기초) 러닝 스파크(Learning Spark) : 6장(박세진) | |||
3 | 2016.5.17 | (딥러닝 실습) TensorFlow을 사용해서 암 환자 유전체에서 암 예측 모델 개발( 회귀모형 2)(조익연) | |
(빅데이터 기초) 러닝 스파크(Learning Spark) : 7장(지용기) | |||
(빅데이터 기초) 러닝 스파크(Learning Spark) : 8장(박혜진) | |||
4 | 2016.5.24 | (딥러닝 실습) TensorFlow을 사용해서 암 환자 유전체에서 암 예측 모델 개발(MLP) 이론(한성국) | |
(딥러닝 실습) TensorFlow을 사용해서 암 환자 유전체에서 암 예측 모델 개발(MLP) 코드(한성국) | |||
(딥러닝 실습) TensorFlow을 사용해서 암 환자 유전체에서 암 예측 모델 개발(데이터 변환 및 PCA 활용)(박혜진) | |||
(빅데이터 기초) 러닝 스파크(Learning Spark) : 9장(박세진) | |||
(빅데이터 기초) 러닝 스파크(Learning Spark) : 11장 이론(지용기) | |||
(빅데이터 기초) 러닝 스파크(Learning Spark) : 11장 실습(지용기) |
seq. | 날짜 | 내용 | 후기 |
---|---|---|---|
1 | 2016.5.31 | (구글 genomics) https://cloud.google.com/genomics/what-is-google-genomics : | |
What Is Google Genomics?, Pricing and Quotas , Getting Started (이승우) | |||
(빅데이터 유전체 분석) Data Algorithms: 1장 , 2장 : Secondary Sort (박세진) | |||
2 | 2016.6.7 | (구글 genomics) How-to Guide: Analyze Variants Using BigQuery( 조익연 )발표자료 | |
(빅데이터 유전체 분석) Data Algorithms: 5장 Order Inversion ( 박혜진 ) | |||
(빅데이터 유전체 분석) 테스트환경 구축 | |||
(빅데이터 유전체 분석) Data Algorithms: 6장 Moving Average( 지용기 ) | |||
3 | 2016. 6.14 | (구글 genomics) How-to Guide : Installing the Cloud SDK and Genomics Commands(이창언) 발표자료 | |
(빅데이터 유전체 분석) Data Algorithms: 7장 Market Basket Analysis( 박세진) | |||
(빅데이터 유전체 분석) Data Algorithms: 8장 Common Friends(지용기 ) | |||
4 | 2016. 6.21 | (구글 genomics) How-to Guide : Loading Genomic Variants (Peterpan Kim)발표자료 | |
(빅데이터 유전체 분석) Data Algorithms: 9장 Recommendation Engines Using MapReduce (이승우) | |||
(빅데이터 유전체 분석) Data Algorithms: 9장 보강 | |||
(빅데이터 유전체 분석) Data Algorithms: 10장 Content-Based Recommendation: Movies (이창언) |
seq. | 날짜 | 내용 | 후기 |
---|---|---|---|
1 | 2016. 6.28 | (구글 genomics) Broad Institute GATK on Google Genomics (박세진) | |
GATK 자료1, GATK 자료2, GATK 자료3 | |||
(빅데이터 유전체 분석) Data Algorithms: 11장 Smarter Email Marketing with the Markov Model (박혜진) | |||
(빅데이터 유전체 분석) Data Algorithms: 12장 K-Means Clustering(송원종) | |||
2 | 2016. 7. 5 | (구글 genomics) Running Custom Pipelines 발표자료 (이승우) | |
(빅데이터 유전체 분석) Data Algorithms: 13장 k-Nearest Neighbors(이창언) | |||
(빅데이터 유전체 분석) Data Algorithms: 14장 Naive Bayes(지용기) | |||
3 | 2016. 7.12 | (구글 genomics) Google Genomics Public Data | |
full list of published data정리, 3가지 access방법에 대한 예제 보여주기 (손준영) | |||
(빅데이터 유전체 분석) Data Algorithms: 15장 Sentiment Analysis (송원종) | |||
(빅데이터 유전체 분석) Data Algorithms: 16장 Finding, Counting, and Listing All Triangles in Large Graphs (지용기) | |||
4 | 2016. 7.19 | (구글 genomics)Docs » Process Data on Google Cloud » Run workflows and common tasks in parallel (손준영) | |
(빅데이터 유전체 분석) Data Algorithms: 17장 K-mer Counting (지용기) | |||
(빅데이터 유전체 분석) Data Algorithms: 18장 DNA Sequencing (김가경) |
seq. | 날짜 | 내용 | 후기 |
---|---|---|---|
1 | 2016. x.xx | (구글 genomics)Docs » Process Data on Google Cloud » Create a Grid Engine cluster on Compute Engine | |
(빅데이터 유전체 분석) Data Algorithms: 19장 Cox Regression | |||
(빅데이터 유전체 분석) Data Algorithms: 20장 Cochran-Armitage Test for Trend | |||
2 | 2016. x.xx | (구글 genomics)Docs » Process Data on Google Cloud » Create a Grid Engine cluster with Preemptible VM workers | |
(빅데이터 유전체 분석) Data Algorithms: 21장 Allelic Frequency | |||
(빅데이터 유전체 분석) Data Algorithms: 22장 The T-Test | |||
3 | 2016. x.xx | (구글 genomics) Docs » Process Data on Google Cloud » Run SAMtools to index BAM files in Cloud Storage | |
(빅데이터 유전체 분석) Data Algorithms: 23장 Pearson Correlation | |||
(빅데이터 유전체 분석) Data Algorithms: 24장 DNA Base Count | |||
4 | 2016. x.xx | (구글 genomics) Docs » Analyze Data in Google Genomics » Analyze Reads | |
(빅데이터 유전체 분석) Data Algorithms: 25장 RNA Sequencing | |||
(빅데이터 유전체 분석) Data Algorithms: 26장 Gene Aggregation |
- (구글 genomics) http://googlegenomics.readthedocs.io/en/latest/use_cases/analyze_variants/index.html :
- Docs » Analyze Data in Google Genomics » Analyze Variants
- (구글 genomics) http://googlegenomics.readthedocs.io/en/latest/use_cases/annotate_variants/index.html :
- Docs » Analyze Data in Google Genomics » Annotate Variants
- (구글 genomics) http://googlegenomics.readthedocs.io/en/latest/use_cases/perform_quality_control_checks/index.html :
- Docs » Analyze Data in Google Genomics » Perform Quality Control Checks"
- (구글 genomics) http://googlegenomics.readthedocs.io/en/latest/use_cases/linkage_disequilibrium/index.html :
- Docs » Analyze Data in Google Genomics » Compute and Analyze Linkage Disequilibrium"
- (구글 genomics) http://googlegenomics.readthedocs.io/en/latest/sections/advanced_bigquery.html :
- Docs » Analyze Data in Google Genomics » Advanced BigQuery Topics