Shared cM project v4 er ute


Innlegget er en forenkelt og fornorsket utgave av «Introducing the updated shared cM tool, av Jonny Perl«

Den nye fjerde utgave av Shared cM Project er lansert, med nye verktøy

Siden 2015 har Blaine Bettinger hatt en nettdugnad hvor han har samlet inn data om delt DNA mengde av kjente relasjoner. Noe som har hjulpet mange å forstå hvordan man er i slekt med ett ukjent DNA treff. Leah Larkin har også bidratt med sannsynligheter, noe som også brukes i «What are the Odds» (omtalt hos meg som Hva er Oddsen)

Oppdatert versjon – Shared cM project

Siste versjon baserer seg på 60.000 kjente slektskap, noe som er en økning på 147% fra versjon 3. Dette gir økt nøyaktighet og flere detaljer. Verktøy er veldig likt som før men med følgende endringer:

Oppdaterte tallverdier

Tallene har ikke endret seg i stor grad, men noen er endret fordi tallgrunnlaget er forbedret. Blaine forklarer dette på sitt nettsted

Grand tante/onkel smed veid snitt, og forventet intervall

Histogramm er ett klikk unna

Du kan nå klikk på relasjoner, etthvert slektskap i blandt sannsynlighetene for å se histogram i ett nytt vindu. Histogrammer er grafer over over tallene bak. Disse kan gi deg bedre forståelse som:

  • Foreldre/barn bare noen få har registret delt DNA mengde under 3000cM
  • Minste verdi er derfor endret ned til 2376
  • Noen kan være det som kalles uteliggere, disse kan skyldes inntastingsfeil.
  • Histogrammet viser at majoriteten av data ligger mellom 3300 og 3900
Hvordan lese data: (Graf er for slektskap – Forelder). Tallverdier på x akse er gruppert, og fungerer som kurver. Tallverdier over søyler er antall registereringer i hver kurv

Om datagrunnlaget

Relasjonene

Blaine Bettinger har gjennomgått datagrunnlaget sitt og fjernet opplagte feil og uteliggere han har beskrevet dette i en rapport. Histogrammene er tatt derfra

Sannsynlighetene

Sannsynligheter er gruppert etter hvor sannsynlige de er og soteret fra høy til lav sannsynlighet.

Sannsynligheter for 1240 cM

Datagrunnlaget for disse sannsynlighetene kom fra en helt annen kilde Figur 5.2 Ancestrys fagartikkel om sammenligning (White paper on Matching). Figur viser hvor sannsynlig en spesifikk mendge delt DNA samsvarer med gitte slektskap, basert på Ancestry’s simuleringer. Noe Leah Larkin forklarer i sin blogg. Leah bearbeidet dataene videre

Disse omarbeidede data gir oss svaret på hvor sannsynlig ett 1240 cM treff er for ulike grupper. Den første gruppen Oldeforeldre, Gandtante/ grandonkel, Halv- tante/ onkel, søskenbarn, Halv niese/ nevø, Grand niese/ nevø, oldebarn har ca 74% sjanse, og netse gruppe har ca 26% sjanse (Besteforelder, Tante/ onkel, halvsøsken, niese/ nevø, Barnebarn)

Uenigheter

Siden det er to ulike datakilder og dermed ulike måter å se på disse, vil det ikke komme overaskende for noen at simulerte data og data fra nettdugnaden ikke alltid enes. Eksempelvis 400cM kan være en søskenbarn med lavt anslag av delt DNA basert på nettdugnaden, men simulerte verdier gir dette 0% sannsynlighet.

Når dette inntreffer vil verktøyet si ifra at dette er utenfor forventet sannsynlighet:

  • Nedenfor ser vi at for 150cM kan det være mnge slektskap som er mulig (positivt anslag 17-0,5%) Har merket disse med gult nedenfor
  • 1C1R – (barn av ett søskenbarn) har tilnærmet 0% sannsynlighet, men fordi omfavnes innefor de grenseverdier som er mulig er de listet opp som en mulighet.
† – Gitt 99% konfidensintervall havner enkelte slekskap utenfor hva som er sannsynlig

Advarsler

De samme advarslene finnes som før, men nå er de plassert i en blå boks på høyresiden. (Disse vises ikke på mobilversjon)

Flere slektskap og endogami

Hverken shared cM project, simuleringer, nettdugnader kan håndtere flere slektskap mellom testedes aner med påfølgende anesammenfall eller edogami. Har du dette vil ikke dette verktøy være treffsikkert nok.

Gjennomsnittlige verdier vist i boksene er bare bestemt av slektskap som er kjent. For mer fjerne slektskap er det større sannsylighet at du ikke vil DNA med fjerns slektninger enn at du gjør det. Les mer om dette

Veidsnitt og intervall for seksmenning

Eksempelvis, veid gjennomsnitt for en seksmenning er 25cM. Men vi deler bare DNA med 30% av våre seksmenninger (red: min artikkel: Hvorfor alle slektninger ikke er dine DNA slektninger )

  • Forventet intervall for seksmenning er 0 til 117cM
  • 25cM er ett veid snitt for relasjonen. Dette betyr ikke at det er det du vil dele med dine seksmenninger

Delt mengde går ikke opp?


Noen ganger får man DNA resultater som gjør at man stusser. Fikk spørsmål om hva jeg tenkte om dette tilfelle som gjengis i bildet nedenfor

Hvordan skal man forklare dette?

A, B og en person la oss kalle vedkommende for Barn hadde alle delt DNA mengde på ca 800-900 cM. Barnets relasjon til de andre som er testet er nevø/niese. Dersom man sjekker shared cM prosjektet så sier den at dette forholdet er svært lite sannsynlig.

NB Dagen etter jeg skrev dette endret Shared cM project seg. Grenseverdier kan ha endret seg. Og Jonny Perl skrev «Hverken shared cM project, simuleringer, nettdugnader kan håndtere flere slektskap mellom testedes aner med påfølgende anesammenfall eller edogami. Har du dette vil ikke dette verktøy være treffsikkert nok»

Sannsynlighet for 880cM relasjon
tabell med sannsylighet for 880cM relasjon

Hva skal vi trekke ut av dette? Siden alle har nesten lik mengde delt dna er alle søskenbarn? Hæ? Er noe galt i slekta, sier du?

Kjent relasjon er ikke ett valg

Ikke trekk konklusjoner for fort

Å hoppe til incest er svært betenkelig og muligens ganske spekulativt, bare fordi delt DNA ser likt ut på tvers betyr det ikke at familierelasjonene er de samme. Det er mange relasjoner som kan komme ut med samme verdier på delt DNA.

Jeg har tidligere skrevet om Halvsøsken når at delt dna kan komme fra flere kanter og at hvordan dette kan slå ut. Når man er i slekt fra flere kanter har man fått DNA fra flere aner. Dette hoper seg opp slik at hver relasjon legger til sin relasjons DNA. Feks dine foreldre er tremenninger?

  • Foreldre gir barn ca 3487 cM (eller egentlig alt mellom 3330 og 3720) du får altså 3487 fordi du er ett barn.
  • Tremenninger deler 233 cM (46 – 515). La oss si at tallet er 233. Du får dermed 233+233 fra dine foreldre, men husk at dine foreldre gir deg 50% av sitt dna, ergo du arver ca 233 pga denne relasjonen.
  • 3487 + 233 = 3720 cM

Hvorfor morfar ikke er far til Barn (ergo halv tante/onkel + 1CR1)

  • Normal verdier: 1330 (891+439) Verdiene er ikke i nærheten av 1300 tallet så jeg synes det alternativet virker søkt.
  • Min: 641 (500+141)
  • Maks: 2297 (1446+851)
  • Selv om minimums verdier gir dette som en sannsynlighet, men dette er sannsynlighetsberegning. Jeg er rimelig sikker på om man tar i bruk fornuftige sikkerhetsmarginer (konfidensintervaller) vil dette alternativet falle bort

Hvordan regne seg bakover

Man kan aldri være sikker på hvem som har gitt deg hva uten å kjenne sine forfedres DNA. Man arver aldri 50% delt på n for hver generasjon bakover. Dersom man for enkelheten skyld sier at at mot A og B deler man 880 cM og denne relasjonen er av typen onkel/nevø eller sagt på annen måte søkenbarn forskjøvet 1 generasjon som forkortes til 1CR1. Viser Shared cM prosjekt at:

Forventet verdi på en slik relasjon er 439 cM, men kan være så lavt som 141 eller så høyt som 851 (sikkerhetsmargin på 99%). Ved å ta disse verdiene og trekke det ifra 880 står man igjen med 441 (739-29).

Dette betyr at restverdien av DNA fra en eller flere relasjoner kan være så lite som 29 cM, og så stort som 739 cM, men i snitt 441 cM.

Om foreldrene er i slekt med hverandre så må jeg ta høyde for at ca 50% forsvant på veien ned. Foreldre som deler 58 cM kan være i slekt med hvaernadre langt ut i. 1478 kan være halvsøsken, eller onkel/niese type forhold men også flere men lite trolig pga generasjonsgap.

«Normalen» 882 kan være søskenbarn, eller halv onkel/niese. Men feilen kan skyldes noe annet

For nære relasjoner påvirker rekominering sterkere enn slektskap lengre ut. Ofte går små biter uforandret fra foreldre fordi rekombinasjon inntreffer 1-3 ganger pr kromoson som igjen gjør at disse bitene ikke blir omfattet av rekombinering som opptod mellom foreldre og barn. Større biter har større sjanse for å bli brutt opp enn små (artikkel om rekombinering av xDNA)

En bedre forklaring?

All DNA som dukker opp som delt DNA skyldes ikke slektskap, det kan skyldes tilfeldigheter. Segmenter under 7 cM bør aldri telles opp, og der hvor man vet at det kan være slektskap mellom foreldre, eller at deres aner er fra samme område det som kalle endogamy eller «lite oppfinnesomme» aner som ikke gikk langt for å finne ektefelle. så bør man ikke telle med segmenter under 10, 15, 20 cM (hvilket all du skal bruke avhenger litt av hvor tett dine aner «bodde»)

DNA painter har en tjeneste for å vaske små segmenter om du har vansligheter å plukke vekkde små og summere opp de store segmentene https://dnapainter.com/tools/imf

Dette er svært viktig å huske på om du har teste deg hos FTDNA de tar med alt over 1cM om man har ett segment større enn 9cM (eller ett segment på 7,69cM og totalt 20cM sammenlagt). Myheritage tar med segmenter alle over 6cM om man har ett over 8cM.

En vask av segmenter kunne fort gitt ett annet resultat og tatt vekk mange segmenter. det skal så lite som 30 cM for å komme inn under en mulig relasjon for 1CR1 !

Segment lengde (cM)Sannsynlighet for felles ane (6 gen)
> 30 90%
20-3050%
12-2020%
6-125%
< 6< 1%
Tim Janzen https://isogg.org/wiki/Endogamy

DNA testing er heller ikke uten feil les mer om dette: DNA testing prinsipper

Er foreldre i slekt med hverandre?

På Gedmatch kan man gjøre noe snedig. Man kan sjekke om foreldrene dine er i slekt med hverandre! DNA tips #2 Er dine foreldre i Slekt? (Viser slektskap mellom foreldre som er tremenninger)

Konklusjon

Aldri start diskusjoner med familien basert på løse antagelser. Det kan være helt naturlige forklaringer på hvorfor statistikken ikke virker. En vanlig forklaring er at «Folk i Norge» er ofte mer i slekt med hverandre enn det de først tror. Folk tar ofte med for store verdier på delt DNA som burde vært vasket vekk og da får man ofte ett mindre antall på totalt delt DNA.

Normalen er man bommer på hvor felles aner må ligge med en generasjon. Den skal en generasjon lengre bak fordi delt DNA mendge er for stort.

Dersom man har (uoppdagede) halvsøken relasjoner så vil delt DNA mendge være ca halvparten av foreventet verdi (man mangler 50% i utgangpunktet). Når dette inntreffer bommer folk flest med delt DNA mendge viser. Relasjonen er en generasjon nærmere enn man skulle først anta.