미르나 과발현에 의해 하향조정된 성적표를 식별하기 위한
미르나의 표적 성적표에 대한 결합이 반드시 유전자 발현 하향조정을 초래하지는 않는다는 것이 잘 확립되어 있다. 사실,클립 분석에 의해 밝혀진 대부분의 관찰 된 미르 나 바인딩 이벤트는 기능적 결과가 거의 없습니다. 따라서,미르 나 결합에 초점을 맞추는 것만으로는 기능적 미르 나 표적,즉 하향 조절 된 표적의 예측에 대한 제한된 값을 갖는다. 이 문제를 완화하기 위해 우리는 미르나에 의한 목표 하향 조절을 직접 결정했습니다. 전반적인 연구 설계는 추가 파일 1:그림 1 에 요약되어 있습니다. 첫 번째 단계로,25 미르 나스는 음성 대조군과 함께 형질 감염에 의해 헬라 세포에서 개별적으로 과발현되었다. 이 25 개의 미르 나는 표 1 에 나와 있습니다. 미르나 과발현의 영향은 전사체 수준에서 프로필되었다. 실험적인 변이에 대 한 제어를 각 미 르 나 다른 일에 중복 된 셀에 형질 하 고 또한 다른 일에 중복에서 수행 했다 서열 라이브러리 건설 및 시퀀싱 실행. 총,15 억 읽기 52 아르 자형 유전자 샘플의 식 프로 파일링을 위해 생성 되었다. 프로파일링 데이터는 추가 파일 2:표 1 에 나와 있습니다. 모든 시퀀싱 데이터를 결합하여 미르 나 과발현에 의해 하향 조절 된 유전자를 확인했습니다. 우리의 분석에서 적어도 하나의 미 르 나 씨앗 바인딩 사이트를 포함 하 고 중복 된 실험 모두에서 적어도 40%에 의해 규제 했다 성적 증명서는 미 르 나 대상으로 지정 됩니다. 대조적으로,적어도 1 시드 사이트를 포함 하지만 식 변경 되지 않은 성적 증명서는 비 대상 컨트롤로 지정 됩니다. 이러한 방식으로,2240 및 4127 미르 타겟 및 비 타겟 컨트롤이 각각 식별되었다. 특히,각 미르나에 대해 평균 90 개의 표적이 확인되었으며,표 1 의 표적은 개별 미르나에 따라 상당히 다양합니다(11 에서 206 까지,표 1).
미르 나 종자 유형이 표적 하향 조절에 미치는 영향
이전 연구는 6-메르,7-메르 또는 8-메르 미르 나 종자 서열과 일치하는 것을 포함하여 몇 가지 주요 유형의 표준 미르 나 표적 부위를 확인했습니다(표 2). 시퀀스 보존 분석 더 이상 미 르 나 씨앗 페어링 대상 사이트 종에 걸쳐 더 보존 하 고 따라서 선의의 미 르 나 대상 될 가능성이 좋습니다. 시드 유형 강도에 대 한이 가설은 또한 대상 하향 조절의 맥락에서 이기종 마이크로 어레이 데이터 집합을 분석 하 여 확인 되었습니다. 그러나 각 종자 유형의 기여도를 정확하게 정량화하려면 추가 분석이 필요합니다. 25 미 르 나 균일 한 실험 조건 하에서 평가 포괄 하는 우리의 새로 생성 된 대규모 미 르 나-서열 데이터 세트 목표 하향 조절에 다른 미 르 나 씨앗의 강도 정량적으로 평가 하는 독특한 기회를 제공 합니다. 특히,우리는 비 대상 사이트에 비해 다운 규제 대상 사이트에서 각 시드 유형의 농축 평가.
표 2 및 도 1 에 도시 된 바와 같이. 1 에이,시드 6 가장 널리 퍼진 유형이며,모든 하향 조절 대상의 86%에서 확인됩니다. 그러나 길이가 짧기 때문에 종자 6 은 비 표적 부위의 36%에 비 구체적으로 존재하여 종자 농축 비율이 가장 낮습니다(표 2 의 2.40). 다른 쪽 끝에서,종자 8 에이 1 은 농축 비율이 6 인 가장 선택적 유형입니다.83 과 하향 규제 대상의 30%에 존재한다. 모든 7 메르 종자 중에서 종자 7 비 과 종자 7 에이 1 비슷한 농축 비율을 가지며,둘 다 종자 7 에이의 비율보다 높습니다.
또 다른 유형의 8 메르 종자 인 종자 8 은 농축 비율이 5.48 로 두 번째로 높으며 이는 모든 7 메르 종자의 비율보다 높습니다. 또한 터미널 기지 일치의 잠재적인 기여 터미널에서 대상 사이트에 베이스를 구별 하기 위해,우리는 독점적으로 5′-엔드 유(그림. 1 비). 모든 25 미르 나와 비교했을 때,우리는 미르 나스(표 2)의 하위 집합에서 각각 종자 7 비 및 종자 8 에이 1 에 대한 유사한 농축 비율을 관찰했다. 이러한 결과 터미널-유 완벽 하 게 일치 하는 미 르 나,페어링 상태에 관계 없이 대상 사이트에 터미널의 존재 대상 인식에 작은 영향을 미칠 대상 다운 규제와 관련 된 것이 좋습니다. 흥미롭게도,우리는 또한이 미르 나 하위 집합에서 종자 8 에 대한 농축 비율이 크게 감소한 것을 관찰했습니다. 사실,시드 8 비율(3.32)은 시드 7 비(표 2)보다 훨씬 낮습니다. 따라서,-유 이외의 완벽한 단말기 경기는 표적 인식에(기여하기보다는)해롭다. 시드 분석을 기반으로 대상 예측 모델링을 위해 시드 8 에이 1,시드 7 비 및 시드 7 에이 1 을 포함한 3 가지 가장 강력한 시드 유형에 초점을 맞추기로 결정했습니다. 함께 결합 된이 3 가지 종자 유형은 하향 조절 된 성적표의 76%의 3′-유타 지역에서 확인되었습니다.
타겟 하향조절과 클립 결합 데이터를 결합하여 일반적인 타겟팅 특징을 파악한다.
미르나 과발현 연구와 관련된 한 가지 공통 관심사는 타겟 성적표 내에서 정확한 미르나 결합 부위를 찾는 것이 어렵다는 것이다. 이 우려를 완화하기 위해,우리는 정식 7 메르 또는 8 메르 시드 사이트의 존재에 따라 후보 대상 사이트를 확인했다. 미르나 과발현 분석과는 달리,클립 결찰 연구는 미르나와 동족 대상 부위를 교차 결합시켜 표적 사본에서 미르나 결합 부위를 명확하게 식별 할 수 있습니다. 그러나,미 르 나 대상 바인딩,클립에 의해 식별의 기능적 결과 쉽게 확인할 수 없습니다. 따라서,클립 결합 및 미르나 과발현 방법 둘 다 장단점을 가지며,각각의 방법만으로는 미르나 표적 조절,즉 표적 결합 및 기능적 억제의 단지 하나의 중요한 양상을 각각 나타낸다.
우리의 분석에서 우리는 미 르 나 바인딩 및 후속 대상 다운 레 귤 레이 션을 포함 하 여 기능 대상 규제의 특징은 일반적인 기능을 식별에 관심이 있습니다. 최근 대상 예측 분석에서 우리는 여러 공개 클립 결 찰 연구에서 파생 된 미 르 나 대상 바인딩 데이터 집합을 컴파일 했습니다. 클립 결 찰 방법은 전통적인 클립 방법에 비해 유리한 것으로 간주 됩니다. 현재 연구에서 클립 바인딩 데이터 집합 추가 결합 된 새로운 미 르 나 과다 표현 데이터 미 르 나 바인딩 및 대상 억제에 공통 되는 타겟팅 기능을 식별 합니다. 이 방법으로,4774 대상 사이트 및 8081 비 대상 사이트,클립 및 미 르 나 과발현 연구에서 확인 된 결합 하 고 후속 기능 분석에서 평가 했다.
결합 된 데이터 집합에서 대상 및 비 대상 사이트 미 르 나 대상 규제와 관련 된 일반적으로 기능을 식별 하기 위해 비교 했다. 이러한 기능은 추가 파일 3:표 2 에 나열되어 있습니다. 미르 대상 사이트가 진화 적으로 보존된다는 것은 잘 확립되어 있습니다. 우리의 연구에서 우리는 두 가지 보완적인 접근법을 사용하여 목표 보존을 평가했습니다. 첫째,우리는 시드 바인딩 위치와 측면 위치 사이의 보존 점수의 차이를 계산,100 웨이 멀티 게놈 정렬에서 필롭 점수에 의해 결정. 둘째,우리는 또한 전체 종자 사이트(7-메르 또는 8-메르)가 단어 검색을 통해 여러 종에서 발견되는지 여부를 결정했습니다. 두 보존 분석 대상 사이트 비 대상 사이트에 비해 매우 크게 보존 했다 표시. 사실,종자 보존 미 르 나 과발현 및 클립 바인딩 데이터를 별도로 분석 했다 또는 조합에서 가장 크게 풍부한 기능 중 이었다. 특히,보존 된 종자 8 에이 1 은 표적 부위에서 가장 풍부했다(피=2.8 전자−245 교차 종 종자 일치 및 피=7.3 전자-218 각각 필롭 점수). 다른 쪽 끝에서 비 보존 종자 7 에이 1 가장 고갈 된 종자 유형이었습니다(9.5 전자−134 종자 일치 및 피=1.3 전자−138 필롭 점수,각각). 종자 보존 외에도 두 데이터 세트에서 일반적으로 발견되는 다른 많은 기능이있었습니다. 예를 들어,미 르 나 대상 사이트 우선적으로 짧은 3′-유토피아 시퀀스(피=4.7 전자−126)와 관련 된 그리고 그들은 3′-유토피아 시퀀스(피=5.4 전자−66)의 끝으로 발견 될 가능성이 더 높은 긴 성적 증명서(피=2.5 전자−87)의 중심에서.
많은 유사점에도 불구하고,미르나 과발현과 클립 결합 데이터 사이에는 뚜렷한 차이점이 있다. 한 가지 눈에 띄는 예는 대상 사이트의 콘텐츠와 관련이 있습니다. 대상 사이트가 아닌 사이트에 비해 클립 바인딩 데이터에서 대상 사이트 콘텐츠가 훨씬 낮았습니다(피=1.10),그러나 미르 나 과발현 데이터(피=2.1 이자형−10)에서만 겸손하게 낮다. 다 뉴클레오티드의 고갈은 두 데이터 세트에서 중간 정도였다. 따라서,두 데이터 집합 간의 지 뉴클레오타이드에 대 한 훨씬 더 강한 바이어스의 결과 주로 두 데이터 집합 간의 과감 한 차이(피=7.7 전자−137),과발현 데이터(피=1.2 전자−19)와 달리. 한 가지 가능한 설명이 관련 요건을 충족할 수 있도록 RNase T1 에서 사용되는 클립 연구 우선적으로 인하 G 뉴클레오티드의 결과,고갈 내부 G 에서는 시퀀싱 읽습니다. 그러나,그것은 또한 사실 수 지의 농축 방해 대상 사이트 바인딩으로 미 리 스크 복잡 한,지 또한 비록 적당히 미 르 나 과발현 데이터에서 고갈 되었다. 또 다른 흥미로운 특징은 시드/타겟 듀플렉스의 자유 에너지에 의해 결정되는 시드 바인딩 안정성입니다. 시드 바인딩 안정성은 미르 나 과발현 데이터(피=2.5 전자−12)에서 선호되었지만 클립 바인딩 데이터(피=5.4 전자−26)에서 선호되지 않았습니다. 전반적으로,이 기능은 두 데이터 세트가 결합되었을 때 더 이상 중요하지 않았습니다(피=0.26).
공통 타겟팅 기능을 가진 타겟 예측 모델 개발
추가 파일 3:표 2 에 나열된 모든 미르나 타겟팅 기능은 알고리즘 개발을 위한 지원 벡터 머신 프레임워크에서 모델링되었다. 또한,우리는 또한 수행 재귀 기능 제거 모델 성능에 그것의 독립적인 기여에 대 한 각 기능의 상대적 중요성을 평가 하는 분석. 이 평가에서는 모든 기능을 사용하여 집합 적으로 분석했습니다. 특히,첫 번째 단계로서,가장 중요한 특징이 식별되고 이후 모델에서 제거되었다. 다음으로,나머지 특징들을 평가하여 제거를 위한 두 번째로 덜 중요한 특징들을 식별하였다. 이 평가 프로세스는 하나의 기능 만 남을 때까지 각 반복에서 하나의 기능이 제거 된 상태에서 반복되었습니다. 이 접근 방식은 모델에 포함된 개별 기능의 독립적인 기여도를 이해하는 데 도움이 됩니다. 표 3 에는 20 개의 상위 타겟팅 기능이 요약되어 있습니다. 모든 기능의 전체 순위는 추가 파일 3:표 2 에 나열되어 있습니다. 이전 섹션에서 제시 하는 기능 분석과 일치,여러 종자 보존 기능 가장 영향력 있는 기능으로 보존 된 종자 8 에이 1 로 분석 하 여 가장 높은 중 순위. 통계적으로 유의미한 기능과 중요하지 않은 기능을 모두 포함한 96 개의 기능이 모두 통합되어 예측 모델을 구축했습니다. 5 중 교차 검증은 그리드를 사용하여 커널 함수에 대한 최적의 매개 변수를 결정하기 위해 수행되었습니다.이 패키지에는 디버깅 심볼이 들어 있습니다. 채점 방식은 다음 예측의 신뢰를 표현하기 위해 개발되었다. 각 후보 대상 사이트에 대해 미르타겟은 앞서 설명한 대로 확률 점수(0-1 범위)를 계산합니다. 이 대상 사이트 점수는 예측 정확도의 통계적 평가를 반영합니다. 개별 대상 사이트 점수를 기반으로,미르타겟은 다음 공식을 사용하여 3′-유타르 내의 모든 사이트 점수를 결합하여 유전자가 미르나 대상인지 여부를 예측합니다:
여기서 엔 3’에서 후보 대상 사이트의 수를 나타냅니다. 대부분의 표적 유전자는 하나의 부위 만 포함하므로 최종 목표 점수는 동일한 방정식을 사용하여 계산됩니다 엔=1. 미르타겟 점수는 예측 대상의 상대적 중요도를 평가하는 데 사용되었습니다. 이런 식으로,우리는 미르 표적의 게놈 전체 예측에 대한 미르 타겟을 사용했습니다. 모든 예측된 표적은 미르데비티(http://mirdb.org)로 제시된다.
독립적 인 실험 데이터를 사용한 알고리즘 평가
알고리즘 개발의 한 가지 공통 관심사는 모델이 훈련 데이터에서는 잘 작동 할 수 있지만 독립적 인 보이지 않는 데이터에서는 작동하지 않는다는 것입니다. 따라서 미르타겟의 성능을 평가하는 가장 좋은 방법은 이를 독립적인 실험 데이터에 적용하는 것이다. 현재의 연구에서 이기종 실험 데이터 클립 바인딩과 미 르 나 최저 실험에서 생성 된 것을 포함 하 여 알고리즘 평가 대 한 분석 했다. 미르타겟의 성능은 타겟스캔 7.0,다이아나-마이크로트,미란다(미르스비르),피타를 포함한 네 개의 다른 잘 확립된 알고리즘과 비교되었다. 이 알고리즘은 가장 인기있는 미르 나 대상 예측 도구 중 하나이며,전사 전체 예측 데이터는 각각의 웹 사이트에서 쉽게 다운로드 할 수 있습니다.
클립 서열 데이터
치 등의 유효성 검사. 미르 대상 성적 증명서의 실험 식별을위한 히트 클립 방법을 개척했다. 이 방법으로,그들은 마우스 뇌에서 미리스크와 연관되었던 미리스크의 성적표를 끌어내리기 위해 가교 결합 면역수술을 시행하였다. 높은 처리량 시퀀싱 다음 식별 하기 위해 수행 되었습니다. 치 외. 일반적으로,성적 증명서 태그는 시드 바인딩 사이트를 중심으로 입증. 이 히트 클립 데이터 집합 추가 잠재적인 미 르 나 대상 사이트를 식별 하기 위해 우리의 연구에서 분석 되었다. 전부,886 잠재적인 대상 사이트 6 가장 풍부 하 게 표현 미르나에 대 한 씨앗 일치 시퀀스에 따라 확인 되었다. 부정적인 컨트롤로 잠재적인 비 대상 시퀀스의 집합 또한 다음 기준에 따라 선택 되었다:(1)그들은 안타 클립 실험에서 식별 된 시퀀스 태그와 겹치지 않습니다 및(2)그들은 마이크로 어레이에 의해 계시 된 감지 식 수준 성적 증명서에서. 이러한 비 대상 사이트에서 시드 일치 시퀀스를 가진 889 가 부정적인 컨트롤로 선택되었습니다.
우리의 분석에서 미르타겟,타겟스캔,다이애나-마이크로트,미란다,피타를 포함한 5 개의 계산 알고리즘의 성능은 히트-클립에 의해 밝혀진 바와 같이 표적과 비 표적을 구별하는 능력을 비교하여 평가되었습니다. 록 분석 전반적인 감도 및 예측 알고리즘의 특이성을 평가 하기 위해 수행 되었다. 도에 도시 된 바와 같이. 2 에이,미르 타겟은 최고의 성능을 가지고,로코 곡선 아래 영역(경매)의 0.78. 다이애나-마이크롯은 두 번째로 좋은 성능을 가지고 있습니다(경매=0.73). 흥미롭게도,다이애나-마이크로 다른 공개 알고리즘 미 르 나 과발현 데이터 훈련 했다 반면 클립 바인딩 데이터로 훈련에 의해 개발 되었다. 따라서 다이애나 마이크로트가 클립 테스트 데이터에 비교적 잘 맞는다는 것은 놀라운 일이 아닙니다. 로코 분석 옆에,우리는 또한 예측의 정확성을 평가하기 위해 정밀 리콜(홍보)곡선을 구성. 홍보 곡선은 일반적으로 리콜 속도(모든 진정한 긍정 중 확인 된 진정한 긍정의 비율)와 관련하여 예측 정밀도(모든 예측 된 긍정적 중 진정한 긍정의 비율)를 결정하기 위해 알고리즘 평가에 사용됩니다. 도에 도시 된 바와 같이. 2 비,미르 타젯은 다섯 가지 알고리즘 중 최고의 성능을 가지고. 특히,회수율이 20%미만일 때 미르타겟의 정밀도는 90%이상이다. 이는 신뢰도가 높은 예측(즉,높은 예측 점수)에 대해 미르타겟이 특히 정확하다는 것을 나타냅니다.
미르 녹다운 데이터
대상 예측 알고리즘으로 유효성 검사 대상 식 변경의 맥락에서 평가 했다. 이 비교 분석에서,우리는 하프너 등의 알에 의해 공공 미르 최저 연구를 사용하여 알고리즘을 평가. . 그 공개 연구에서 저자는 동시에 안티센스 억제제에 의해 25 미르나의 기능을 억제 하 고 마이크로 어레이와 함께 표적에 미치는 영향을 평가. 이들 미르나에 의해 표적화 된 유전자는 미르 나 억제로 인해 상향 조절 될 것으로 예상되었다. 우리의 분석에서 대상 예측 점수 및 대상 식 상향 조절 간의 상관 관계를 평가 했습니다. 도에 도시 된 바와 같이. 다른 알고리즘에 비해,미르타겟에 의해 계산된 예측 점수는 유전자 발현 상향조절과 가장 높은 상관관계를 갖는다. 또한,우리 또한 평가 유전자 발현 변화 개별 알고리즘에 의해 상위 순위 예측에 대 한 연구자는 특히 높은 신뢰 대상 후보에 관심이 있습니다. 이를 위해,우리는 각 알고리즘에 의해 평균 미르 당 100 상위 순위 예측 목표를 평가했다. 상관 분석과 일치하여,미르타겟에 의해 예측된 표적은 다른 알고리즘에 의해 예측된 표적과 비교하여 평균적으로 가장 상향 조절되었다(그림 1). 3 비).