Saturday, January 23, 2021

抖音数据采集Frida进阶:脱壳、自动化、高频问题

抖音数据采集Frida进阶:脱壳、自动化、高频问题

短视频、直播数据实时采集接口,请查看文档: TiToData


免责声明:本文档仅供学习与参考,请勿用于非法用途!否则一切后果自负。

1 Frida用于脱壳

安全工程师在拿到应用评测的任务之后,第一件事情是抓到他的收包发包,第二件事情应该就是拿到它的apk,打开看看里面是什么内容,如果不幸它加了壳,可能打开就是这样的场景,见下图,什么内容都看不到,这时候就要首先对它进行脱壳。
image.png
壳的种类非常多,根据其种类不同,使用的技术也不同,这里稍微简单分个类:

  • 一代整体型壳:采用Dex整体加密,动态加载运行的机制;
  • 二代函数抽取型壳:粒度更细,将方法单独抽取出来,加密保存,解密执行;
  • 三代VMP、Dex2C壳:独立虚拟机解释执行、语义等价语法迁移,强度最高。

先说最难的Dex2C目前是没有办法还原的,只能跟踪进行分析;VMP虚拟机解释执行保护的是映射表,只要心思细、功夫深,是可以将映射表还原的;二代壳函数抽取目前是可以从根本上进行还原的,dump出所有的运行时的方法体,填充到dump下来的dex中去的,这也是fart的核心原理;最后也就是目前我们推荐的几个内存中搜索和dumpdexFrida工具,在一些场景中可以满足大家的需求。

1.1 文件头搜dex

地址是:https://github.com/r0ysue/frida_dump

# frida -U --no-pause -f com.xxxxxx.xxxxxx -l dump_dex.js  ____ / _ | Frida 12.8.9 - A world-class dynamic instrumentation toolkit | (_| | > _ | Commands: /_/ |_|  help  -> Displays the help system . . . .  object? -> Display information about 'object' . . . .  exit/quit -> Exit . . . . . . . . More info at https://www.frida.re/docs/home/Spawned `com.xxxxx.xxxxx`. Resuming main thread!    [Google Pixel::com.xxxxx.xxxxx]-> [dlopen:] libart.so_ZN3art11ClassLinker11DefineClassEPNS_6ThreadEPKcmNS_6HandleINS_6mirror11ClassLoaderEEERKNS_7DexFileERKNS9_8ClassDefE 0x7adcac4f74[DefineClass:] 0x7adcac4f74[find dex]: /data/data/com.xxxxx.xxxxx/files/7abfc00000_8341c4.dex[dump dex]: /data/data/com.xxxxx.xxxxx/files/7abfc00000_8341c4.dex[find dex]: /data/data/com.xxxxx.xxxxx/files/7ac4096000_6e6c8.dex[dump dex]: /data/data/com.xxxxx.xxxxx/files/7ac4096000_6e6c8.dex [find dex]: /data/data/com.xxxxx.xxxxx/files/7ac37c4028_8781c4.dex[dump dex]: /data/data/com.xxxxx.xxxxx/files/7ac37c4028_8781c4.dex

其核心逻辑原理就是下面一句话magic.indexOf("dex") == 0,只要文件头中含有魔数dex,就把它dump下来。

if (dex_maps[base] == undefined) { dex_maps[base] = size; var magic = ptr(base).readCString(); if (magic.indexOf("dex") == 0) {  var process_name = get_self_process_name();  if (process_name != "-1") {   var dex_path = "/data/data/" + process_name + "/files/" + base.toString(16) + "_" + size.toString(16) + ".dex";   console.log("[find dex]:", dex_path);   var fd = new File(dex_path, "wb");   if (fd && fd != null) {    var dex_buffer = ptr(base).readByteArray(size);    fd.write(dex_buffer);    fd.flush();    fd.close();    console.log("[dump dex]:", dex_path);   }  } }}

1.2 DexClassLoader:objection

安卓只能使用继承自BaseDexClassLoader的两种ClassLoader,一种是PathClassLoader,用于加载系统中已经安装的apk;一种就是DexClassLoader,加载未安装的jar包或apk
可以用objcetion直接在堆上暴力搜索所有的dalvik.system.DexClassLoader实例,效果见下图:

# android heap search instances dalvik.system.DexClassLoader


连热补丁都被搜出来了,在某些一代壳上效果不错。

1.3 暴力搜内存:DEXDump

地址:https://github.com/hluwa/FRIDA-DEXDump

  • 对于完整的dex,采用暴力搜索dex035即可找到。
  • 而对于抹头的dex,通过匹配一些特征来找到,然后自动修复文件头。

效果非常好:

root@roysuekali:~/Desktop/FRIDA-DEXDump# python main.py [DEXDump]: found target [7628] com.xxxxx.xxxxx[DEXDump]: DexSize=0x8341c4, SavePath=./com.xxxxx.xxxxx/0x7abfc00000.dex[DEXDump]: DexSize=0x8341c4, SavePath=./com.xxxxx.xxxxx/0x7ac0600000.dexroot@roysuekali:~/Desktop/FRIDA-DEXDump# du -h com.xxxxx.xxxxx/*8.3M com.xxxxx.xxxxx/0x7abfc00000.dex8.3M com.xxxxx.xxxxx/0x7ac0600000.dexroot@roysuekali:~/Desktop/FRIDA-DEXDump# file com.xxxxx.xxxxx/*com.xxxxx.xxxxx/0x7abfc00000.dex: Dalvik dex file version 035com.xxxxx.xxxxx/0x7ac0600000.dex: Dalvik dex file version 035

打开dump下来的dex,非常完整,可以用jadx直接解析。用010打开可以看到完整的文件头——dexn035,其实现代码也是简单粗暴,直接搜索:64 65 78 0a 30 33 35 00

Memory.scanSync(range.base, range.size, "64 65 78 0a 30 33 35 00").forEach(function (match) {var range = Process.findRangeByAddress(match.address);if (range != null && range.size < match.address.toInt32() + 0x24 - range.base.toInt32()) { return;}var dex_size = match.address.add("0x20").readInt();if (range != null) { if (range.file && range.file.path  && (range.file.path.startsWith("/data/app/")   || range.file.path.startsWith("/data/dalvik-cache/")   || range.file.path.startsWith("/system/"))) {  return; } if (match.address.toInt32() + dex_size > range.base.toInt32() + range.size) {  return; }}

还有一部分想要特征匹配的功能还在实现中:

// @TODO improve fuzzif ( range.size >= 0x60 && range.base.readCString(4) != "dexn" && range.base.add(0x20).readInt() <= range.size //file_size // && range.base.add(0x24).readInt() == 112 //header_size && range.base.add(0x34).readInt() < range.size && range.base.add(0x3C).readInt() == 112 //string_id_off) { result.push({  "addr": range.base,  "size": range.base.add(0x20).readInt() });}

1.4 暴力搜内存:objection

既然直接使用FridaAPI可以暴力搜索内存,那么别忘了我们上面介绍过的objection也可以暴力搜内存。

# memory search "64 65 78 0a 30 33 35 00"


搜出来的offset是:0x79efc00000,大小是c4 41 83 00,也就是0x8341c4,转化成十进制就是8602052,最后dump下来的内容与FRIDA-DEXDump脱下来的一模一样,拖到jdax里可以直接解析。

2 Frida用于自动化

Frida出现之前,没有任何一款工具,可以在语言级别支持直接在电脑上调用app中的方法。像Xposed是纯Java,根本就没有电脑上运行的版本;各种Native框架也是一样,都是由C/C++/asm实现,根本与电脑毫无关系。
Frida主要是一款在电脑上操作的工具,其本身就决定了其"高并发"、"多联通"、"自动化"等特性:

  • "高并发":同时操作多台手机,同时调用多个手机上的多个app中的算法;
  • "多联通":电脑与手机互联互通,手机上处理不了的在电脑上处理、反之亦然;
  • "自动化":手机电脑互相协同,实现横跨桌面、移动平台协同自动化利器。

2.1 连接多台设备

Frida用于自动化的场景中,必然是不可能在终端敲frida-tools里的那些命令行工具的,有人说可以将这些命令按顺序写成脚本,那为啥不直接写成python脚本呢?枉费大胡子叔叔(Frida的作者oleavr的头像)为我们写好了Python bindings,我们只需要直接调用即可享受。
Python bindings在安装好frida-tools的时候已经默认安装在我们的电脑上了,可以直接使用。
连接多台设备非常简单,如果是USB口直接连接的,只要确保adb已经连接上,如果是网络调试的,也要用adb connect连接上,并且都开启frida server,键入adb devices或者frida-ls-devices命令时多台设备的id都会出现,最终可以使用frida.get_device(id)API来选择设备,如下图所示。

2.2 互联互通

互联互通是指把app中捕获的内容传输到电脑上,电脑上处理结束后再发回给app继续处理。看似很简单的一个功能,目前却仅有Frida可以实现。
比如说我们有这样一个app,其中最核心的地方在于判断用户是否为admin,如果是,则直接返回错误,禁止登陆。如果不是,则把用户和密码上传到服务器上进行验证登录操作,其核心代码逻辑如下:

public class MainActivity extends AppCompatActivity { EditText username_et; EditText password_et; TextView message_tv; @Override protected void onCreate(Bundle savedInstanceState) {  super.onCreate(savedInstanceState);  setContentView(R.layout.activity_main);  password_et = (EditText) this.findViewById(R.id.editText2);  username_et = (EditText) this.findViewById(R.id.editText);  message_tv = ((TextView) findViewById(R.id.textView));  this.findViewById(R.id.button).setOnClickListener(new View.OnClickListener() {   @Override   public void onClick(View v) {    if (username_et.getText().toString().compareTo("admin") == 0) {     message_tv.setText("You cannot login as admin");     return;    }    //我们hook的目标就在这里    message_tv.setText("Sending to the server :" + Base64.encodeToString((username_et.getText().toString() + ":" + password_et.getText().toString()).getBytes(), Base64.DEFAULT));   }  }); }}

运行起来的效果如下图:
image.png
我们的目标就是在电脑上"得到"输入框输入的内容,并且修改其输入的内容,并且"传输"给安卓机器,使其通过验证。也就是说,我们的目标是哪怕输入admin的账户名和密码,也可以绕过本地校验,进行服务器验证登陆的操作。
所以最终我们的hook代码的逻辑就是,截取输入,传输给电脑,暂停执行,得到电脑传回的数据之后,继续执行,用js来写就这么写:

Java.perform(function () { var tv_class = Java.use("android.widget.TextView"); tv_class.setText.overload("java.lang.CharSequence").implementation = function (x) {  var string_to_send = x.toString();  var string_to_recv;  send(string_to_send); // 将数据发送给kali主机的python代码  recv(function (received_json_object) {   string_to_recv = received_json_object.my_data   console.log("string_to_recv: " + string_to_recv);  }).wait(); //收到数据之后,再执行下去  return this.setText(string_to_recv); }});

在电脑上的处理流程是,将接受到的JSON数据解析,提取出其中的密码部分保持不变,然后将用户名替换成admin,这样就实现了将adminpassword发送给服务器的结果。我们的代码如下:

import timeimport fridadef my_message_handler(message, payload): print message print payload if message["type"] == "send":  print message["payload"]  data = message["payload"].split(":")[1].strip()  print 'message:', message  data = data.decode("base64") # 解码  user, pw = data.split(":") # 提取用户名和密码  data = ("admin" + ":" + pw).encode("base64") # 组成新的组合并编码  print "encoded data:", data  script.post({"my_data": data}) # 将JSON对象发送回去  print "Modified data sent"device = frida.get_usb_device()pid = device.spawn(["com.roysue.demo04"])device.resume(pid)time.sleep(1)session = device.attach(pid)with open("s4.js") as f: script = session.create_script(f.read())script.on("message", my_message_handler) # 注册消息处理函数script.load()raw_input()

同样很多手机上无法处理的数据,也可以编码后发送到电脑上进行处理,比如处理GBK编码的中文字符集数据,再比如对dump下来的内存或so进行二次解析还原等,这些在js几乎是无法处理的(或难度非常大),但是到了电脑上就易如反掌,用python导入几个库就可以。
在一些(网络)接口的模糊测试的场景中,一些字典和畸形数据的构造也会在电脑上完成,app端最多作为执行端接受和发送这些数据,这时候也需要使用到Frida互联互通动态修改的功能。

2.3 远程调用(RPC)

在脚本里定义一个导出函数,并用rpc.exports的字典进行声明:

function callSecretFun() { //定义导出函数 Java.perform(function () {  //to-do 做自己想做的事情   //比如这里是找到隐藏函数并且调用  Java.choose("com.roysue.demo02.MainActivity", {   onMatch: function (instance) {    console.log("Found instance: " + instance);    console.log("Result of secret func: " + instance.secret());   },   onComplete: function () { }  }); });}rpc.exports = { callsecretfunction: callSecretFun //把callSecretFun函数导出为callsecretfunction符号,导出名不可以有大写字母或者下划线};

在电脑上就可以直接在py代码里调用这个方法:

import timeimport fridadef my_message_handler(message, payload): print message print payloaddevice = frida.get_usb_device()pid = device.spawn(["com.roysue.demo02"])device.resume(pid)time.sleep(1)session = device.attach(pid)with open("s3.js") as f: script = session.create_script(f.read())script.on("message", my_message_handler)script.load()command = ""while 1 == 1: command = raw_input("Enter command:n1: Exitn2: Call secret functionnchoice:") if command == "1":  break elif command == "2": #在这里调用  script.exports.callsecretfunction()

最终效果就是按一下2function callSecretFun()就会被执行一次,并且结果会显示在电脑上的py脚本里,以供后续继续处理,非常方便。
笔者有一位朋友甚至将该接口使用pythonflask框架暴露出去,让网络里的每个人都可以调用该方法,给自己的发包进行签名,可用说是一个需求非常庞大的场景。

3 Frida更多技巧

最后收集和整理一下大家在学习Frida的过程中可能会遇到的几个高频问题,以餮读者。

3.1 必须上版本管理

Frida从面世到现在已经有四五年了,大概17~18年那会儿开始火爆起来,大量的脚本和工具代码都是那段时间写出来的,而Frida又升级特别快,新的Frida对老的脚本兼容性不是很好,见下图最新的Frida运行老的脚本,日志格式已经乱掉了,而老版本(12.4.8)就没问题,见图2-18。如果要运行一些两三年历史的代码,必然需要安装两三年前左右的版本,这样才能跑起来,并且不出错。

版本管理用pyenv即可,熟练使用pyenv可以基本上满足同时安装几十个Frida版本的需求。

3.2 反调试基本思路

几个最基本的思路,首先frida-server的文件名改掉,类似于frida-server-12.8.9-android-arm64这样的文件名,我一般改成fs1289amd64,当然读者可以想改成啥就改成啥。
有些反调试还会检查端口,比如frida-server的默认端口是27042,这个端口一般不会有人用,如果27042端口打开并且正在监听,反调试就会工作,可以把端口改成非标准端口,方法下一小节就讲。
最后还有一种通过Frida内存特征对mapself文件进行扫描匹配特征的反调试方法,支持frida-gadgetfrida-server,项目地址在这里。
其核心代码如下:

void *check_loop(void *) { int fd; char path[256]; char perm[5]; unsigned long offset; unsigned int base; long end; char buffer[BUFFER_LEN]; int loop = 0; unsigned int length = 11; //"frida:rpc"的内存布局特征 unsigned char frida_rpc[] =   {     0xfe, 0xba, 0xfb, 0x4a, 0x9a, 0xca, 0x7f, 0xfb,     0xdb, 0xea, 0xfe, 0xdc   }; for (unsigned char &m : frida_rpc) {  unsigned char c = m;  c = ~c;  c ^= 0xb1;  c = (c >> 0x6) | (c << 0x2);  c ^= 0x4a;  c = (c >> 0x6) | (c << 0x2);  m = c; } //开始检测frida反调试循环 LOGI("start check frida loop"); while (loop < 10) {  fd = wrap_openat(AT_FDCWD, "/proc/self/maps", O_RDONLY, 0);  if (fd > 0) {   while ((read_line(fd, buffer, BUFFER_LEN)) > 0) {    // 匹配frida-server和frida-gadget的内存特征    if (sscanf(buffer, "%x-%lx %4s %lx %*s %*s %s", &base, &end, perm, &offset, path) !=     5) {     continue;    }    if (perm[0] != 'r') continue;    if (perm[3] != 'p') continue;     if (0 != offset) continue;    if (strlen(path) == 0) continue;    if ('[' == path[0]) continue;    if (end - base <= 1000000) continue;    if (wrap_endsWith(path, ".oat")) continue;    if (elf_check_header(base) != 1) continue;    if (find_mem_string(base, end, frida_rpc, length) == 1) {     //发现其内存特征     LOGI("frida found in memory!");#ifndef DEBUG     //杀掉自己的进程     wrap_kill(wrap_getpid(),SIGKILL);

No comments:

Post a Comment