使用本网站需要启用 JavaScript, 请启用后刷新页面获得更好的体验
登录
注册
首页
个人居家检测
临床应用研究
科研合作项目
合作与服务
社区
纯合片段分析
姓氏祖源
祖源平均脸
基因关系
基因保险助手
原始数据
使用 WeGene 需要启用 Cookies, 请启用后刷新页面获得更好的体验
社区首页
祖源讨论区
讨论详情
zsx
祖源分析
wegene数据转23andme数据的尝试
本来想试一下dna.land的,结果发型墙内上不了dna.land.........
试了下gedmatch,虽然,去掉了wegene所有的定制位点,但是结果还是和原来一样,有1+%的非洲
2017-08-11 • IP属地中国
与内容相关的链接
提交
按热门排序
按默认排序
16 个回复
zsx
dna.land经测试成功,看来伪装是成功了一部分,可以骗过gedmatch和dna.land,但是无法骗过myheritage
chengang
-
WeGene勤杂工
给一个我的思路
把WeGene的原始数据转换成23andme的数据,要解决的问题:
1. 23andme的数据是有5个版本的,从V1到V5。V5是刚刚出来,很多第三方也不支持,V4用了很多年,用得比较多。现在建议以V4为转化目标。
2. 修改rawdata的头部注释信息。很多第三方应用都会验证原始数据txt文件头部的注释信息,这个肯定要改成跟23andme一样的。
3. 修改数据中的SNP列表。WeGene跟23andme的rawdata是有区别的,把两者重叠的部分全部保留。
4. 剩下的是23andme数据中有,而WeGene数据中没有的位点。这部分有几种处理方法,根据我自己的看法,从易到难罗列一下:
4.1 全部标为未检出:这显然是最简单的,但是会损失很多信息,有些第三方应用也会提示数据的nocall rate太高。
4.2 全部用中国人的高频基因型填充:根据千人基因组项目的SNP frequency信息,把中国人群的高频基因型填充进去。这个方法也可以细化一点,比如根据CHB和CHS对南方和北方的数据做不同的处理。
4.3 先用WeGene原始数据中所有的位点,用千人的Chinese做参考数据集,对23andme多测的那些位点的结果做imputation,把impute中info值比较高的位点的impute结果填充进去,impute效果不好的点用未检出填充。
从合理性来说,4.3是最好的
zsx
做了两份数据,已经上传到myheritage,一份是所有缺少的位点一律未检出,另一份以一个台湾网友的位点代替
zsx
更新myheritage
zsx
可以看到,套件号是m开头,而不是w开头了
zsx
如果,有需要转23andme格式的人,可以联系我,我正好需要测试一下,这个应用是否成功
温暖的NTM基因
我也在墙内,dna.land主页能上去啊,是上传不成功?
温暖的NTM基因
我也在墙内,dna.land主页能上去啊,是上传不成功?
[已注销]
您好,可否把程序拿到兰海论坛共享下载呢?
chengang
-
WeGene勤杂工
去掉定制位点是什么意思?
chengang
-
WeGene勤杂工
你用的数据是刚从网站下载的吗?
蓝星旗
-
孤独的提纯纯合绿豌豆
感谢楼主,dna.land祖源结果已出!(wg没有的位点全部标为未检出,顺利被dna.land认证了,不影响哒~)
@wang
这个差得有点儿多哦。。。
chengang
-
WeGene勤杂工
做个应用吧:)
坚韧的ABCC1基因
这个不错
kaji
-
无
你好,楼主能帮我转一下吗?
[已注销]
我自己的也出来了
要回复问题请先
登录
或
注册
发起讨论
zsx
祖源分析
3078 个讨论
16 个回复
赞同来自: wls 、蓝星旗 、李璐mlxy 、wanhuatong
把WeGene的原始数据转换成23andme的数据,要解决的问题:
1. 23andme的数据是有5个版本的,从V1到V5。V5是刚刚出来,很多第三方也不支持,V4用了很多年,用得比较多。现在建议以V4为转化目标。
2. 修改rawdata的头部注释信息。很多第三方应用都会验证原始数据txt文件头部的注释信息,这个肯定要改成跟23andme一样的。
3. 修改数据中的SNP列表。WeGene跟23andme的rawdata是有区别的,把两者重叠的部分全部保留。
4. 剩下的是23andme数据中有,而WeGene数据中没有的位点。这部分有几种处理方法,根据我自己的看法,从易到难罗列一下:
4.1 全部标为未检出:这显然是最简单的,但是会损失很多信息,有些第三方应用也会提示数据的nocall rate太高。
4.2 全部用中国人的高频基因型填充:根据千人基因组项目的SNP frequency信息,把中国人群的高频基因型填充进去。这个方法也可以细化一点,比如根据CHB和CHS对南方和北方的数据做不同的处理。
4.3 先用WeGene原始数据中所有的位点,用千人的Chinese做参考数据集,对23andme多测的那些位点的结果做imputation,把impute中info值比较高的位点的impute结果填充进去,impute效果不好的点用未检出填充。
从合理性来说,4.3是最好的
赞同来自: 种骁楠
赞同来自: 蓝星旗
赞同来自: chengang
赞同来自:
赞同来自:
赞同来自:
赞同来自:
赞同来自:
赞同来自:
赞同来自:
赞同来自:
赞同来自:
赞同来自:
赞同来自:
赞同来自:
要回复问题请先登录或注册