Orange 실습
실습
다운로드
- https://orangedatamining.com/download/ 에서 자신의 OS에 맞는 버전 설치
Image Analytics Add-on 설치
- 윈도우의 경우 관리자 버전으로 실행
- Options -> Add-ons -> Image Analytics 검색, 설치
wine dataset 실습
데이터 불러오기
- 좌측 Data 메뉴에서 File 위젯 두개 생성
- 파일을 더블 클릭하여 옵셩 창 열고, 다운로드한 데이터 설정
데이터 합치기
- 촤즉 Transform 탭에서 Concate 선택
- 아래와 같이 연결 후 Concatenate 더블 클릭
두 데이터셋의 컬럼명이 같기 때문에
all variables that appear in input table
을 선택해도 상관없다. 하지만, 다를 경우 위는 합집합, 아래는 교집합이라는 점 참고하자
- Append data source IDs 선택
- Feature name: type
하단의
1599
개의 샘플 과4898
개의 샘플을 받아6497
개의 샘플로 concatenate 한다는 뜻
데이터 확인
- Data 탭에 DataTable 두개 선택(하나는 Concatenate, 하나는 wine red에 연결)
- Data Table을 더블 클릭하여 확인
Wine Red:
- Tranform 탭에서 Select Columns 선택하여 Concatenate 와 연결 후 클릭
Target에
type
가 있는지 확인, 없다면 드래그 엔 드롭
- pH, alchohol, residual sugar만 features로 하고 나머지는 ignore로 옮겨준다
train-test split
- Transform 탭에 Data Sampler 연결
Cross validation과 Bootstrap도 할 수 있는걸 확인할 수 있다
Modelling
- Model 탭에서 SVM, Random Forest, Neural Network 선택하여 연결
- 선에 있는
Data Sample -> Data
더블클릭
Remaining Data: Test 데이터로 남겨뒀다는 뜻
Random Forest
Random Forest 더블 클릭하면 No. of trees
가 10개로 선택되어 있는걸 확인할 수 있다
Number of attributes considered at each split
: Feature 수가 3 이니 2로 설정Do not split subsets amller than
: 5
Neural Network
Neurons in hidden layers
: 100개 노드 layer, 50개 노드 layer
Evaluate
- Evaluate탭에서 Predictions 생성
- 3 model 연결, data sampler에서 test data로 변경
- Predictions 더블 클릭해서 결과 확인
AOU: Area Under Curve (accuracy, recall)
개 표정 읽기
데이터 불러오기
- Image Analytics 탭에서
Import Images
- 데이터셋이 포함된 폴더 선택
데이터 확인
- Image Viewer 연결시키고 더블클릭
Modelling
Image Embedding
Embedder
: 특징 뽑아내는 부분: Inception v3을 써서 feature extraction 진행
R-CNN의 경우 각 영역에 대해 별도로 CNN을 통해 특징을 추출하고, 이후 SVM을 사용하여 객체를 분류했었다
feature extraction하는 구조를 backbone이라고도 부른다
Neural Network
Oranges 단점
- 대용량 데이터에 부적합
- 따라서 교육용으로는 훌륭하지만 현업에서는 prototyping 단계에서만 적용
추가
- Logistic 함수의 최대 기울기: 0.5
- Hyperbolic Tangent 함수의 최대 기울기: 1