FFmpeg/libavcodec/x86/x86util.asm

;*****************************************************************************
;* x86util.asm
;*****************************************************************************
;* Copyright (C) 2008 Loren Merritt <lorenm@u.washington.edu>
;*
;* This program is free software; you can redistribute it and/or modify
;* it under the terms of the GNU General Public License as published by
;* the Free Software Foundation; either version 2 of the License, or
;* (at your option) any later version.
;*
;* This program is distributed in the hope that it will be useful,
;* but WITHOUT ANY WARRANTY; without even the implied warranty of
;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
;* GNU General Public License for more details.
;*
;* You should have received a copy of the GNU General Public License
;* along with this program; if not, write to the Free Software
;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA  02111, USA.
;*****************************************************************************

%macro SBUTTERFLY 4
    mova      m%4, m%2
    punpckl%1 m%2, m%3
    punpckh%1 m%4, m%3
    SWAP %3, %4
%endmacro

%macro TRANSPOSE4x4W 5
    SBUTTERFLY wd, %1, %2, %5
    SBUTTERFLY wd, %3, %4, %5
    SBUTTERFLY dq, %1, %3, %5
    SBUTTERFLY dq, %2, %4, %5
    SWAP %2, %3
%endmacro

%macro TRANSPOSE2x4x4W 5
    SBUTTERFLY wd,  %1, %2, %5
    SBUTTERFLY wd,  %3, %4, %5
    SBUTTERFLY dq,  %1, %3, %5
    SBUTTERFLY dq,  %2, %4, %5
    SBUTTERFLY qdq, %1, %2, %5
    SBUTTERFLY qdq, %3, %4, %5
%endmacro

%macro TRANSPOSE4x4D 5
    SBUTTERFLY dq,  %1, %2, %5
    SBUTTERFLY dq,  %3, %4, %5
    SBUTTERFLY qdq, %1, %3, %5
    SBUTTERFLY qdq, %2, %4, %5
    SWAP %2, %3
%endmacro

%macro TRANSPOSE8x8W 9-11
%ifdef ARCH_X86_64
    SBUTTERFLY wd,  %1, %2, %9
    SBUTTERFLY wd,  %3, %4, %9
    SBUTTERFLY wd,  %5, %6, %9
    SBUTTERFLY wd,  %7, %8, %9
    SBUTTERFLY dq,  %1, %3, %9
    SBUTTERFLY dq,  %2, %4, %9
    SBUTTERFLY dq,  %5, %7, %9
    SBUTTERFLY dq,  %6, %8, %9
    SBUTTERFLY qdq, %1, %5, %9
    SBUTTERFLY qdq, %2, %6, %9
    SBUTTERFLY qdq, %3, %7, %9
    SBUTTERFLY qdq, %4, %8, %9
    SWAP %2, %5
    SWAP %4, %7
%else
; in:  m0..m7, unless %11 in which case m6 is in %9
; out: m0..m7, unless %11 in which case m4 is in %10
; spills into %9 and %10
%if %0<11
    movdqa %9, m%7
%endif
    SBUTTERFLY wd,  %1, %2, %7
    movdqa %10, m%2
    movdqa m%7, %9
    SBUTTERFLY wd,  %3, %4, %2
    SBUTTERFLY wd,  %5, %6, %2
    SBUTTERFLY wd,  %7, %8, %2
    SBUTTERFLY dq,  %1, %3, %2
    movdqa %9, m%3
    movdqa m%2, %10
    SBUTTERFLY dq,  %2, %4, %3
    SBUTTERFLY dq,  %5, %7, %3
    SBUTTERFLY dq,  %6, %8, %3
    SBUTTERFLY qdq, %1, %5, %3
    SBUTTERFLY qdq, %2, %6, %3
    movdqa %10, m%2
    movdqa m%3, %9
    SBUTTERFLY qdq, %3, %7, %2
    SBUTTERFLY qdq, %4, %8, %2
    SWAP %2, %5
    SWAP %4, %7
%if %0<11
    movdqa m%5, %10
%endif
%endif
%endmacro

%macro ABS1_MMX 2    ; a, tmp
    pxor    %2, %2
    psubw   %2, %1
    pmaxsw  %1, %2
%endmacro

%macro ABS2_MMX 4    ; a, b, tmp0, tmp1
    pxor    %3, %3
    pxor    %4, %4
    psubw   %3, %1
    psubw   %4, %2
    pmaxsw  %1, %3
    pmaxsw  %2, %4
%endmacro

%macro ABS1_SSSE3 2
    pabsw   %1, %1
%endmacro

%macro ABS2_SSSE3 4
    pabsw   %1, %1
    pabsw   %2, %2
%endmacro

%define ABS1 ABS1_MMX
%define ABS2 ABS2_MMX

%macro ABS4 6
    ABS2 %1, %2, %5, %6
    ABS2 %3, %4, %5, %6
%endmacro

%macro SPLATB_MMX 3
    movd      %1, [%2-3] ;to avoid crossing a cacheline
    punpcklbw %1, %1
%if mmsize==16
    pshuflw   %1, %1, 0xff
    punpcklqdq %1, %1
%else
    pshufw    %1, %1, 0xff
%endif
%endmacro

%macro SPLATB_SSSE3 3
    movd      %1, [%2-3]
    pshufb    %1, %3
%endmacro

%macro PALIGNR_MMX 4
    %ifnidn %4, %2
    mova    %4, %2
    %endif
    %if mmsize == 8
    psllq   %1, (8-%3)*8
    psrlq   %4, %3*8
    %else
    pslldq  %1, 16-%3
    psrldq  %4, %3
    %endif
    por     %1, %4
%endmacro

%macro PALIGNR_SSSE3 4
    palignr %1, %2, %3
%endmacro

%macro DEINTB 5 ; mask, reg1, mask, reg2, optional src to fill masks from
%ifnum %5
    mova   m%1, m%5
    mova   m%3, m%5
%else
    mova   m%1, %5
    mova   m%3, m%1
%endif
    pand   m%1, m%2 ; dst .. y6 .. y4
    pand   m%3, m%4 ; src .. y6 .. y4
    psrlw  m%2, 8   ; dst .. y7 .. y5
    psrlw  m%4, 8   ; src .. y7 .. y5
%endmacro

%macro SUMSUB_BA 2-3
%if %0==2
    paddw   %1, %2
    paddw   %2, %2
    psubw   %2, %1
%else
    mova    %3, %1
    paddw   %1, %2
    psubw   %2, %3
%endif
%endmacro

%macro SUMSUB_BADC 4-5
%if %0==5
    SUMSUB_BA %1, %2, %5
    SUMSUB_BA %3, %4, %5
%else
    paddw   %1, %2
    paddw   %3, %4
    paddw   %2, %2
    paddw   %4, %4
    psubw   %2, %1
    psubw   %4, %3
%endif
%endmacro

%macro HADAMARD4_V 4+
    SUMSUB_BADC %1, %2, %3, %4
    SUMSUB_BADC %1, %3, %2, %4
%endmacro

%macro HADAMARD8_V 8+
    SUMSUB_BADC %1, %2, %3, %4
    SUMSUB_BADC %5, %6, %7, %8
    SUMSUB_BADC %1, %3, %2, %4
    SUMSUB_BADC %5, %7, %6, %8
    SUMSUB_BADC %1, %5, %2, %6
    SUMSUB_BADC %3, %7, %4, %8
%endmacro

%macro TRANS_SSE2 5-6
; TRANSPOSE2x2
; %1: transpose width (d/q) - use SBUTTERFLY qdq for dq
; %2: ord/unord (for compat with sse4, unused)
; %3/%4: source regs
; %5/%6: tmp regs
%ifidn %1, d
%define mask [mask_10 GLOBAL]
%define shift 16
%elifidn %1, q
%define mask [mask_1100 GLOBAL]
%define shift 32
%endif
%if %0==6 ; less dependency if we have two tmp
    mova   m%5, mask   ; ff00
    mova   m%6, m%4    ; x5x4
    psll%1 m%4, shift  ; x4..
    pand   m%6, m%5    ; x5..
    pandn  m%5, m%3    ; ..x0
    psrl%1 m%3, shift  ; ..x1
    por    m%4, m%5    ; x4x0
    por    m%3, m%6    ; x5x1
%else ; more dependency, one insn less. sometimes faster, sometimes not
    mova   m%5, m%4    ; x5x4
    psll%1 m%4, shift  ; x4..
    pxor   m%4, m%3    ; (x4^x1)x0
    pand   m%4, mask   ; (x4^x1)..
    pxor   m%3, m%4    ; x4x0
    psrl%1 m%4, shift  ; ..(x1^x4)
    pxor   m%5, m%4    ; x5x1
    SWAP   %4, %3, %5
%endif
%endmacro

%macro TRANS_SSE4 5-6 ; see above
%ifidn %1, d
    mova   m%5, m%3
%ifidn %2, ord
    psrl%1 m%3, 16
%endif
    pblendw m%3, m%4, 10101010b
    psll%1 m%4, 16
%ifidn %2, ord
    pblendw m%4, m%5, 01010101b
%else
    psrl%1 m%5, 16
    por    m%4, m%5
%endif
%elifidn %1, q
    mova   m%5, m%3
    shufps m%3, m%4, 10001000b
    shufps m%5, m%4, 11011101b
    SWAP   %4, %5
%endif
%endmacro

%macro HADAMARD 5-6
; %1=distance in words (0 for vertical pass, 1/2/4 for horizontal passes)
; %2=sumsub/max/amax (sum and diff / maximum / maximum of absolutes)
; %3/%4: regs
; %5(%6): tmpregs
%if %1!=0 ; have to reorder stuff for horizontal op
    %ifidn %2, sumsub
         %define ORDER ord
         ; sumsub needs order because a-b != b-a unless a=b
    %else
         %define ORDER unord
         ; if we just max, order doesn't matter (allows pblendw+or in sse4)
    %endif
    %if %1==1
         TRANS d, ORDER, %3, %4, %5, %6
    %elif %1==2
         %if mmsize==8
             SBUTTERFLY dq, %3, %4, %5
         %else
             TRANS q, ORDER, %3, %4, %5, %6
         %endif
    %elif %1==4
         SBUTTERFLY qdq, %3, %4, %5
    %endif
%endif
%ifidn %2, sumsub
    SUMSUB_BA m%3, m%4, m%5
%else
    %ifidn %2, amax
        %if %0==6
            ABS2 m%3, m%4, m%5, m%6
        %else
            ABS1 m%3, m%5
            ABS1 m%4, m%5
        %endif
    %endif
    pmaxsw m%3, m%4
%endif
%endmacro


%macro HADAMARD2_2D 6-7 sumsub
    HADAMARD 0, sumsub, %1, %2, %5
    HADAMARD 0, sumsub, %3, %4, %5
    SBUTTERFLY %6, %1, %2, %5
%ifnum %7
    HADAMARD 0, amax, %1, %2, %5, %7
%else
    HADAMARD 0, %7, %1, %2, %5
%endif
    SBUTTERFLY %6, %3, %4, %5
%ifnum %7
    HADAMARD 0, amax, %3, %4, %5, %7
%else
    HADAMARD 0, %7, %3, %4, %5
%endif
%endmacro

%macro HADAMARD4_2D 5-6 sumsub
    HADAMARD2_2D %1, %2, %3, %4, %5, wd
    HADAMARD2_2D %1, %3, %2, %4, %5, dq, %6
    SWAP %2, %3
%endmacro

%macro HADAMARD4_2D_SSE 5-6 sumsub
    HADAMARD  0, sumsub, %1, %2, %5 ; 1st V row 0 + 1
    HADAMARD  0, sumsub, %3, %4, %5 ; 1st V row 2 + 3
    SBUTTERFLY   wd, %1, %2, %5     ; %1: m0 1+0 %2: m1 1+0
    SBUTTERFLY   wd, %3, %4, %5     ; %3: m0 3+2 %4: m1 3+2
    HADAMARD2_2D %1, %3, %2, %4, %5, dq
    SBUTTERFLY  qdq, %1, %2, %5
    HADAMARD  0, %6, %1, %2, %5     ; 2nd H m1/m0 row 0+1
    SBUTTERFLY  qdq, %3, %4, %5
    HADAMARD  0, %6, %3, %4, %5     ; 2nd H m1/m0 row 2+3
%endmacro

%macro HADAMARD8_2D 9-10 sumsub
    HADAMARD2_2D %1, %2, %3, %4, %9, wd
    HADAMARD2_2D %5, %6, %7, %8, %9, wd
    HADAMARD2_2D %1, %3, %2, %4, %9, dq
    HADAMARD2_2D %5, %7, %6, %8, %9, dq
    HADAMARD2_2D %1, %5, %3, %7, %9, qdq, %10
    HADAMARD2_2D %2, %6, %4, %8, %9, qdq, %10
%ifnidn %10, amax
    SWAP %2, %5
    SWAP %4, %7
%endif
%endmacro

%macro SUMSUB2_AB 3
    mova    %3, %1
    paddw   %1, %1
    paddw   %1, %2
    psubw   %3, %2
    psubw   %3, %2
%endmacro

%macro SUMSUB2_BA 3
    mova    m%3, m%1
    paddw   m%1, m%2
    paddw   m%1, m%2
    psubw   m%2, m%3
    psubw   m%2, m%3
%endmacro

%macro SUMSUBD2_AB 4
    mova    %4, %1
    mova    %3, %2
    psraw   %2, 1
    psraw   %1, 1
    paddw   %2, %4
    psubw   %1, %3
%endmacro

%macro DCT4_1D 5
%ifnum %5
    SUMSUB_BADC m%4, m%1, m%3, m%2; m%5
    SUMSUB_BA   m%3, m%4, m%5
    SUMSUB2_AB  m%1, m%2, m%5
    SWAP %1, %3, %4, %5, %2
%else
    SUMSUB_BADC m%4, m%1, m%3, m%2
    SUMSUB_BA   m%3, m%4
    mova       [%5], m%2
    SUMSUB2_AB m%1, [%5], m%2
    SWAP %1, %3, %4, %2
%endif
%endmacro

%macro IDCT4_1D 5-6
%ifnum %5
    SUMSUBD2_AB m%2, m%4, m%6, m%5
    SUMSUB_BA   m%3, m%1, m%6
    SUMSUB_BADC m%4, m%3, m%2, m%1, m%6
%else
    SUMSUBD2_AB m%2, m%4, [%5], [%5+16]
    SUMSUB_BA   m%3, m%1
    SUMSUB_BADC m%4, m%3, m%2, m%1
%endif
    SWAP %1, %4, %3
%endmacro

%macro LOAD_DIFF 5
%ifidn %3, none
    movh       %1, %4
    movh       %2, %5
    punpcklbw  %1, %2
    punpcklbw  %2, %2
    psubw      %1, %2
%else
    movh       %1, %4
    punpcklbw  %1, %3
    movh       %2, %5
    punpcklbw  %2, %3
    psubw      %1, %2
%endif
%endmacro

%macro LOAD_DIFF8x4_SSE2 8
    LOAD_DIFF  m%1, m%5, m%6, [%7+%1*FENC_STRIDE], [%8+%1*FDEC_STRIDE]
    LOAD_DIFF  m%2, m%5, m%6, [%7+%2*FENC_STRIDE], [%8+%2*FDEC_STRIDE]
    LOAD_DIFF  m%3, m%5, m%6, [%7+%3*FENC_STRIDE], [%8+%3*FDEC_STRIDE]
    LOAD_DIFF  m%4, m%5, m%6, [%7+%4*FENC_STRIDE], [%8+%4*FDEC_STRIDE]
%endmacro

%macro LOAD_DIFF8x4_SSSE3 8 ; 4x dst, 1x tmp, 1x mul, 2x ptr
    movh       m%2, [%8+%1*FDEC_STRIDE]
    movh       m%1, [%7+%1*FENC_STRIDE]
    punpcklbw  m%1, m%2
    movh       m%3, [%8+%2*FDEC_STRIDE]
    movh       m%2, [%7+%2*FENC_STRIDE]
    punpcklbw  m%2, m%3
    movh       m%4, [%8+%3*FDEC_STRIDE]
    movh       m%3, [%7+%3*FENC_STRIDE]
    punpcklbw  m%3, m%4
    movh       m%5, [%8+%4*FDEC_STRIDE]
    movh       m%4, [%7+%4*FENC_STRIDE]
    punpcklbw  m%4, m%5
    pmaddubsw  m%1, m%6
    pmaddubsw  m%2, m%6
    pmaddubsw  m%3, m%6
    pmaddubsw  m%4, m%6
%endmacro

%macro STORE_DCT 6
    movq   [%5+%6+ 0], m%1
    movq   [%5+%6+ 8], m%2
    movq   [%5+%6+16], m%3
    movq   [%5+%6+24], m%4
    movhps [%5+%6+32], m%1
    movhps [%5+%6+40], m%2
    movhps [%5+%6+48], m%3
    movhps [%5+%6+56], m%4
%endmacro

%macro STORE_IDCT 4
    movhps [r0-4*FDEC_STRIDE], %1
    movh   [r0-3*FDEC_STRIDE], %1
    movhps [r0-2*FDEC_STRIDE], %2
    movh   [r0-1*FDEC_STRIDE], %2
    movhps [r0+0*FDEC_STRIDE], %3
    movh   [r0+1*FDEC_STRIDE], %3
    movhps [r0+2*FDEC_STRIDE], %4
    movh   [r0+3*FDEC_STRIDE], %4
%endmacro

%macro LOAD_DIFF_8x4P 7-10 r0,r2,0 ; 4x dest, 2x temp, 2x pointer, increment?
    LOAD_DIFF m%1, m%5, m%7, [%8],      [%9]
    LOAD_DIFF m%2, m%6, m%7, [%8+r1],   [%9+r3]
    LOAD_DIFF m%3, m%5, m%7, [%8+2*r1], [%9+2*r3]
    LOAD_DIFF m%4, m%6, m%7, [%8+r4],   [%9+r5]
%if %10
    lea %8, [%8+4*r1]
    lea %9, [%9+4*r3]
%endif
%endmacro

%macro DIFFx2 6-7
    movh       %3, %5
    punpcklbw  %3, %4
    psraw      %1, 6
    paddsw     %1, %3
    movh       %3, %6
    punpcklbw  %3, %4
    psraw      %2, 6
    paddsw     %2, %3
    packuswb   %2, %1
%endmacro

%macro STORE_DIFF 4
    movh       %2, %4
    punpcklbw  %2, %3
    psraw      %1, 6
    paddsw     %1, %2
    packuswb   %1, %1
    movh       %4, %1
%endmacro
Add x264 SSE2 iDCT functions to H.264 decoder. Originally committed as revision 16409 to svn://svn.ffmpeg.org/ffmpeg/trunk 2009-01-03 02:46:17 +02:00			`;*****************************************************************************`
Fix wrong file name in header, noticed by David DeHaven, dave sagetv com. Originally committed as revision 17158 to svn://svn.ffmpeg.org/ffmpeg/trunk 2009-02-11 18:12:04 +02:00			`;* x86util.asm`
Add x264 SSE2 iDCT functions to H.264 decoder. Originally committed as revision 16409 to svn://svn.ffmpeg.org/ffmpeg/trunk 2009-01-03 02:46:17 +02:00			`;*****************************************************************************`
			`;* Copyright (C) 2008 Loren Merritt <lorenm@u.washington.edu>`
			`;*`
			`;* This program is free software; you can redistribute it and/or modify`
			`;* it under the terms of the GNU General Public License as published by`
			`;* the Free Software Foundation; either version 2 of the License, or`
			`;* (at your option) any later version.`
			`;*`
			`;* This program is distributed in the hope that it will be useful,`
			`;* but WITHOUT ANY WARRANTY; without even the implied warranty of`
			`;* MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the`
			`;* GNU General Public License for more details.`
			`;*`
			`;* You should have received a copy of the GNU General Public License`
			`;* along with this program; if not, write to the Free Software`
			`;* Foundation, Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02111, USA.`
			`;*****************************************************************************`

			`%macro SBUTTERFLY 4`
			`mova m%4, m%2`
			`punpckl%1 m%2, m%3`
			`punpckh%1 m%4, m%3`
			`SWAP %3, %4`
			`%endmacro`

			`%macro TRANSPOSE4x4W 5`
			`SBUTTERFLY wd, %1, %2, %5`
			`SBUTTERFLY wd, %3, %4, %5`
			`SBUTTERFLY dq, %1, %3, %5`
			`SBUTTERFLY dq, %2, %4, %5`
			`SWAP %2, %3`
			`%endmacro`

			`%macro TRANSPOSE2x4x4W 5`
			`SBUTTERFLY wd, %1, %2, %5`
			`SBUTTERFLY wd, %3, %4, %5`
			`SBUTTERFLY dq, %1, %3, %5`
			`SBUTTERFLY dq, %2, %4, %5`
			`SBUTTERFLY qdq, %1, %2, %5`
			`SBUTTERFLY qdq, %3, %4, %5`
			`%endmacro`

			`%macro TRANSPOSE4x4D 5`
			`SBUTTERFLY dq, %1, %2, %5`
			`SBUTTERFLY dq, %3, %4, %5`
			`SBUTTERFLY qdq, %1, %3, %5`
			`SBUTTERFLY qdq, %2, %4, %5`
			`SWAP %2, %3`
			`%endmacro`

			`%macro TRANSPOSE8x8W 9-11`
			`%ifdef ARCH_X86_64`
			`SBUTTERFLY wd, %1, %2, %9`
			`SBUTTERFLY wd, %3, %4, %9`
			`SBUTTERFLY wd, %5, %6, %9`
			`SBUTTERFLY wd, %7, %8, %9`
			`SBUTTERFLY dq, %1, %3, %9`
			`SBUTTERFLY dq, %2, %4, %9`
			`SBUTTERFLY dq, %5, %7, %9`
			`SBUTTERFLY dq, %6, %8, %9`
			`SBUTTERFLY qdq, %1, %5, %9`
			`SBUTTERFLY qdq, %2, %6, %9`
			`SBUTTERFLY qdq, %3, %7, %9`
			`SBUTTERFLY qdq, %4, %8, %9`
			`SWAP %2, %5`
			`SWAP %4, %7`
			`%else`
			`; in: m0..m7, unless %11 in which case m6 is in %9`
			`; out: m0..m7, unless %11 in which case m4 is in %10`
			`; spills into %9 and %10`
			`%if %0<11`
			`movdqa %9, m%7`
			`%endif`
			`SBUTTERFLY wd, %1, %2, %7`
			`movdqa %10, m%2`
			`movdqa m%7, %9`
			`SBUTTERFLY wd, %3, %4, %2`
			`SBUTTERFLY wd, %5, %6, %2`
			`SBUTTERFLY wd, %7, %8, %2`
			`SBUTTERFLY dq, %1, %3, %2`
			`movdqa %9, m%3`
			`movdqa m%2, %10`
			`SBUTTERFLY dq, %2, %4, %3`
			`SBUTTERFLY dq, %5, %7, %3`
			`SBUTTERFLY dq, %6, %8, %3`
			`SBUTTERFLY qdq, %1, %5, %3`
			`SBUTTERFLY qdq, %2, %6, %3`
			`movdqa %10, m%2`
			`movdqa m%3, %9`
			`SBUTTERFLY qdq, %3, %7, %2`
			`SBUTTERFLY qdq, %4, %8, %2`
			`SWAP %2, %5`
			`SWAP %4, %7`
Update x264 asm code to latest to add support for 64-bit Windows. Use the new x86inc features to support 64-bit Windows on all non-x264 nasm assembly code as well. Patch by John Adcock, dscaler.johnad AT googlemail DOT com. Win64 changes originally by Anton Mitrofanov. x86util changes mostly by Holger Lubitz. Originally committed as revision 19580 to svn://svn.ffmpeg.org/ffmpeg/trunk 2009-08-04 10:42:55 +03:00			`%if %0<11`
Add x264 SSE2 iDCT functions to H.264 decoder. Originally committed as revision 16409 to svn://svn.ffmpeg.org/ffmpeg/trunk 2009-01-03 02:46:17 +02:00			`movdqa m%5, %10`
			`%endif`
			`%endif`
			`%endmacro`

			`%macro ABS1_MMX 2 ; a, tmp`
			`pxor %2, %2`
			`psubw %2, %1`
			`pmaxsw %1, %2`
			`%endmacro`

			`%macro ABS2_MMX 4 ; a, b, tmp0, tmp1`
			`pxor %3, %3`
			`pxor %4, %4`
			`psubw %3, %1`
			`psubw %4, %2`
			`pmaxsw %1, %3`
			`pmaxsw %2, %4`
			`%endmacro`

			`%macro ABS1_SSSE3 2`
			`pabsw %1, %1`
			`%endmacro`

			`%macro ABS2_SSSE3 4`
			`pabsw %1, %1`
			`pabsw %2, %2`
			`%endmacro`

			`%define ABS1 ABS1_MMX`
			`%define ABS2 ABS2_MMX`

			`%macro ABS4 6`
			`ABS2 %1, %2, %5, %6`
			`ABS2 %3, %4, %5, %6`
			`%endmacro`

			`%macro SPLATB_MMX 3`
			`movd %1, [%2-3] ;to avoid crossing a cacheline`
			`punpcklbw %1, %1`
			`%if mmsize==16`
			`pshuflw %1, %1, 0xff`
			`punpcklqdq %1, %1`
			`%else`
			`pshufw %1, %1, 0xff`
			`%endif`
			`%endmacro`

			`%macro SPLATB_SSSE3 3`
			`movd %1, [%2-3]`
			`pshufb %1, %3`
			`%endmacro`

			`%macro PALIGNR_MMX 4`
			`%ifnidn %4, %2`
			`mova %4, %2`
			`%endif`
			`%if mmsize == 8`
			`psllq %1, (8-%3)*8`
			`psrlq %4, %3*8`
			`%else`
			`pslldq %1, 16-%3`
			`psrldq %4, %3`
			`%endif`
			`por %1, %4`
			`%endmacro`

			`%macro PALIGNR_SSSE3 4`
			`palignr %1, %2, %3`
			`%endmacro`

Update x264 asm code to latest to add support for 64-bit Windows. Use the new x86inc features to support 64-bit Windows on all non-x264 nasm assembly code as well. Patch by John Adcock, dscaler.johnad AT googlemail DOT com. Win64 changes originally by Anton Mitrofanov. x86util changes mostly by Holger Lubitz. Originally committed as revision 19580 to svn://svn.ffmpeg.org/ffmpeg/trunk 2009-08-04 10:42:55 +03:00			`%macro DEINTB 5 ; mask, reg1, mask, reg2, optional src to fill masks from`
			`%ifnum %5`
			`mova m%1, m%5`
			`mova m%3, m%5`
			`%else`
			`mova m%1, %5`
			`mova m%3, m%1`
			`%endif`
			`pand m%1, m%2 ; dst .. y6 .. y4`
			`pand m%3, m%4 ; src .. y6 .. y4`
			`psrlw m%2, 8 ; dst .. y7 .. y5`
			`psrlw m%4, 8 ; src .. y7 .. y5`
			`%endmacro`

			`%macro SUMSUB_BA 2-3`
			`%if %0==2`
Add x264 SSE2 iDCT functions to H.264 decoder. Originally committed as revision 16409 to svn://svn.ffmpeg.org/ffmpeg/trunk 2009-01-03 02:46:17 +02:00			`paddw %1, %2`
			`paddw %2, %2`
			`psubw %2, %1`
Update x264 asm code to latest to add support for 64-bit Windows. Use the new x86inc features to support 64-bit Windows on all non-x264 nasm assembly code as well. Patch by John Adcock, dscaler.johnad AT googlemail DOT com. Win64 changes originally by Anton Mitrofanov. x86util changes mostly by Holger Lubitz. Originally committed as revision 19580 to svn://svn.ffmpeg.org/ffmpeg/trunk 2009-08-04 10:42:55 +03:00			`%else`
			`mova %3, %1`
			`paddw %1, %2`
			`psubw %2, %3`
			`%endif`
Add x264 SSE2 iDCT functions to H.264 decoder. Originally committed as revision 16409 to svn://svn.ffmpeg.org/ffmpeg/trunk 2009-01-03 02:46:17 +02:00			`%endmacro`

Update x264 asm code to latest to add support for 64-bit Windows. Use the new x86inc features to support 64-bit Windows on all non-x264 nasm assembly code as well. Patch by John Adcock, dscaler.johnad AT googlemail DOT com. Win64 changes originally by Anton Mitrofanov. x86util changes mostly by Holger Lubitz. Originally committed as revision 19580 to svn://svn.ffmpeg.org/ffmpeg/trunk 2009-08-04 10:42:55 +03:00			`%macro SUMSUB_BADC 4-5`
			`%if %0==5`
			`SUMSUB_BA %1, %2, %5`
			`SUMSUB_BA %3, %4, %5`
			`%else`
Add x264 SSE2 iDCT functions to H.264 decoder. Originally committed as revision 16409 to svn://svn.ffmpeg.org/ffmpeg/trunk 2009-01-03 02:46:17 +02:00			`paddw %1, %2`
			`paddw %3, %4`
			`paddw %2, %2`
			`paddw %4, %4`
			`psubw %2, %1`
			`psubw %4, %3`
Update x264 asm code to latest to add support for 64-bit Windows. Use the new x86inc features to support 64-bit Windows on all non-x264 nasm assembly code as well. Patch by John Adcock, dscaler.johnad AT googlemail DOT com. Win64 changes originally by Anton Mitrofanov. x86util changes mostly by Holger Lubitz. Originally committed as revision 19580 to svn://svn.ffmpeg.org/ffmpeg/trunk 2009-08-04 10:42:55 +03:00			`%endif`
Add x264 SSE2 iDCT functions to H.264 decoder. Originally committed as revision 16409 to svn://svn.ffmpeg.org/ffmpeg/trunk 2009-01-03 02:46:17 +02:00			`%endmacro`

Update x264 asm code to latest to add support for 64-bit Windows. Use the new x86inc features to support 64-bit Windows on all non-x264 nasm assembly code as well. Patch by John Adcock, dscaler.johnad AT googlemail DOT com. Win64 changes originally by Anton Mitrofanov. x86util changes mostly by Holger Lubitz. Originally committed as revision 19580 to svn://svn.ffmpeg.org/ffmpeg/trunk 2009-08-04 10:42:55 +03:00			`%macro HADAMARD4_V 4+`
			`SUMSUB_BADC %1, %2, %3, %4`
Add x264 SSE2 iDCT functions to H.264 decoder. Originally committed as revision 16409 to svn://svn.ffmpeg.org/ffmpeg/trunk 2009-01-03 02:46:17 +02:00			`SUMSUB_BADC %1, %3, %2, %4`
Update x264 asm code to latest to add support for 64-bit Windows. Use the new x86inc features to support 64-bit Windows on all non-x264 nasm assembly code as well. Patch by John Adcock, dscaler.johnad AT googlemail DOT com. Win64 changes originally by Anton Mitrofanov. x86util changes mostly by Holger Lubitz. Originally committed as revision 19580 to svn://svn.ffmpeg.org/ffmpeg/trunk 2009-08-04 10:42:55 +03:00			`%endmacro`

			`%macro HADAMARD8_V 8+`
Add x264 SSE2 iDCT functions to H.264 decoder. Originally committed as revision 16409 to svn://svn.ffmpeg.org/ffmpeg/trunk 2009-01-03 02:46:17 +02:00			`SUMSUB_BADC %1, %2, %3, %4`
			`SUMSUB_BADC %5, %6, %7, %8`
Update x264 asm code to latest to add support for 64-bit Windows. Use the new x86inc features to support 64-bit Windows on all non-x264 nasm assembly code as well. Patch by John Adcock, dscaler.johnad AT googlemail DOT com. Win64 changes originally by Anton Mitrofanov. x86util changes mostly by Holger Lubitz. Originally committed as revision 19580 to svn://svn.ffmpeg.org/ffmpeg/trunk 2009-08-04 10:42:55 +03:00			`SUMSUB_BADC %1, %3, %2, %4`
			`SUMSUB_BADC %5, %7, %6, %8`
			`SUMSUB_BADC %1, %5, %2, %6`
			`SUMSUB_BADC %3, %7, %4, %8`
			`%endmacro`

			`%macro TRANS_SSE2 5-6`
			`; TRANSPOSE2x2`
			`; %1: transpose width (d/q) - use SBUTTERFLY qdq for dq`
			`; %2: ord/unord (for compat with sse4, unused)`
			`; %3/%4: source regs`
			`; %5/%6: tmp regs`
			`%ifidn %1, d`
			`%define mask [mask_10 GLOBAL]`
			`%define shift 16`
			`%elifidn %1, q`
			`%define mask [mask_1100 GLOBAL]`
			`%define shift 32`
			`%endif`
			`%if %0==6 ; less dependency if we have two tmp`
			`mova m%5, mask ; ff00`
			`mova m%6, m%4 ; x5x4`
			`psll%1 m%4, shift ; x4..`
			`pand m%6, m%5 ; x5..`
			`pandn m%5, m%3 ; ..x0`
			`psrl%1 m%3, shift ; ..x1`
			`por m%4, m%5 ; x4x0`
			`por m%3, m%6 ; x5x1`
			`%else ; more dependency, one insn less. sometimes faster, sometimes not`
			`mova m%5, m%4 ; x5x4`
			`psll%1 m%4, shift ; x4..`
			`pxor m%4, m%3 ; (x4^x1)x0`
			`pand m%4, mask ; (x4^x1)..`
			`pxor m%3, m%4 ; x4x0`
			`psrl%1 m%4, shift ; ..(x1^x4)`
			`pxor m%5, m%4 ; x5x1`
			`SWAP %4, %3, %5`
			`%endif`
			`%endmacro`

			`%macro TRANS_SSE4 5-6 ; see above`
			`%ifidn %1, d`
			`mova m%5, m%3`
			`%ifidn %2, ord`
			`psrl%1 m%3, 16`
			`%endif`
			`pblendw m%3, m%4, 10101010b`
			`psll%1 m%4, 16`
			`%ifidn %2, ord`
			`pblendw m%4, m%5, 01010101b`
			`%else`
			`psrl%1 m%5, 16`
			`por m%4, m%5`
			`%endif`
			`%elifidn %1, q`
			`mova m%5, m%3`
			`shufps m%3, m%4, 10001000b`
			`shufps m%5, m%4, 11011101b`
			`SWAP %4, %5`
			`%endif`
			`%endmacro`

			`%macro HADAMARD 5-6`
			`; %1=distance in words (0 for vertical pass, 1/2/4 for horizontal passes)`
			`; %2=sumsub/max/amax (sum and diff / maximum / maximum of absolutes)`
			`; %3/%4: regs`
			`; %5(%6): tmpregs`
			`%if %1!=0 ; have to reorder stuff for horizontal op`
			`%ifidn %2, sumsub`
			`%define ORDER ord`
			`; sumsub needs order because a-b != b-a unless a=b`
			`%else`
			`%define ORDER unord`
			`; if we just max, order doesn't matter (allows pblendw+or in sse4)`
			`%endif`
			`%if %1==1`
			`TRANS d, ORDER, %3, %4, %5, %6`
			`%elif %1==2`
			`%if mmsize==8`
			`SBUTTERFLY dq, %3, %4, %5`
			`%else`
			`TRANS q, ORDER, %3, %4, %5, %6`
			`%endif`
			`%elif %1==4`
			`SBUTTERFLY qdq, %3, %4, %5`
			`%endif`
			`%endif`
			`%ifidn %2, sumsub`
			`SUMSUB_BA m%3, m%4, m%5`
			`%else`
			`%ifidn %2, amax`
			`%if %0==6`
			`ABS2 m%3, m%4, m%5, m%6`
			`%else`
			`ABS1 m%3, m%5`
			`ABS1 m%4, m%5`
			`%endif`
			`%endif`
			`pmaxsw m%3, m%4`
			`%endif`
			`%endmacro`


			`%macro HADAMARD2_2D 6-7 sumsub`
			`HADAMARD 0, sumsub, %1, %2, %5`
			`HADAMARD 0, sumsub, %3, %4, %5`
			`SBUTTERFLY %6, %1, %2, %5`
			`%ifnum %7`
			`HADAMARD 0, amax, %1, %2, %5, %7`
			`%else`
			`HADAMARD 0, %7, %1, %2, %5`
			`%endif`
			`SBUTTERFLY %6, %3, %4, %5`
			`%ifnum %7`
			`HADAMARD 0, amax, %3, %4, %5, %7`
			`%else`
			`HADAMARD 0, %7, %3, %4, %5`
			`%endif`
			`%endmacro`

			`%macro HADAMARD4_2D 5-6 sumsub`
			`HADAMARD2_2D %1, %2, %3, %4, %5, wd`
			`HADAMARD2_2D %1, %3, %2, %4, %5, dq, %6`
			`SWAP %2, %3`
			`%endmacro`

			`%macro HADAMARD4_2D_SSE 5-6 sumsub`
			`HADAMARD 0, sumsub, %1, %2, %5 ; 1st V row 0 + 1`
			`HADAMARD 0, sumsub, %3, %4, %5 ; 1st V row 2 + 3`
			`SBUTTERFLY wd, %1, %2, %5 ; %1: m0 1+0 %2: m1 1+0`
			`SBUTTERFLY wd, %3, %4, %5 ; %3: m0 3+2 %4: m1 3+2`
			`HADAMARD2_2D %1, %3, %2, %4, %5, dq`
			`SBUTTERFLY qdq, %1, %2, %5`
			`HADAMARD 0, %6, %1, %2, %5 ; 2nd H m1/m0 row 0+1`
			`SBUTTERFLY qdq, %3, %4, %5`
			`HADAMARD 0, %6, %3, %4, %5 ; 2nd H m1/m0 row 2+3`
			`%endmacro`

			`%macro HADAMARD8_2D 9-10 sumsub`
			`HADAMARD2_2D %1, %2, %3, %4, %9, wd`
			`HADAMARD2_2D %5, %6, %7, %8, %9, wd`
			`HADAMARD2_2D %1, %3, %2, %4, %9, dq`
			`HADAMARD2_2D %5, %7, %6, %8, %9, dq`
			`HADAMARD2_2D %1, %5, %3, %7, %9, qdq, %10`
			`HADAMARD2_2D %2, %6, %4, %8, %9, qdq, %10`
			`%ifnidn %10, amax`
			`SWAP %2, %5`
			`SWAP %4, %7`
			`%endif`
Add x264 SSE2 iDCT functions to H.264 decoder. Originally committed as revision 16409 to svn://svn.ffmpeg.org/ffmpeg/trunk 2009-01-03 02:46:17 +02:00			`%endmacro`

			`%macro SUMSUB2_AB 3`
			`mova %3, %1`
			`paddw %1, %1`
			`paddw %1, %2`
			`psubw %3, %2`
			`psubw %3, %2`
			`%endmacro`

Update x264 asm code to latest to add support for 64-bit Windows. Use the new x86inc features to support 64-bit Windows on all non-x264 nasm assembly code as well. Patch by John Adcock, dscaler.johnad AT googlemail DOT com. Win64 changes originally by Anton Mitrofanov. x86util changes mostly by Holger Lubitz. Originally committed as revision 19580 to svn://svn.ffmpeg.org/ffmpeg/trunk 2009-08-04 10:42:55 +03:00			`%macro SUMSUB2_BA 3`
			`mova m%3, m%1`
			`paddw m%1, m%2`
			`paddw m%1, m%2`
			`psubw m%2, m%3`
			`psubw m%2, m%3`
			`%endmacro`

Add x264 SSE2 iDCT functions to H.264 decoder. Originally committed as revision 16409 to svn://svn.ffmpeg.org/ffmpeg/trunk 2009-01-03 02:46:17 +02:00			`%macro SUMSUBD2_AB 4`
			`mova %4, %1`
			`mova %3, %2`
			`psraw %2, 1`
Update x264 asm code to latest to add support for 64-bit Windows. Use the new x86inc features to support 64-bit Windows on all non-x264 nasm assembly code as well. Patch by John Adcock, dscaler.johnad AT googlemail DOT com. Win64 changes originally by Anton Mitrofanov. x86util changes mostly by Holger Lubitz. Originally committed as revision 19580 to svn://svn.ffmpeg.org/ffmpeg/trunk 2009-08-04 10:42:55 +03:00			`psraw %1, 1`
			`paddw %2, %4`
			`psubw %1, %3`
			`%endmacro`

			`%macro DCT4_1D 5`
			`%ifnum %5`
			`SUMSUB_BADC m%4, m%1, m%3, m%2; m%5`
			`SUMSUB_BA m%3, m%4, m%5`
			`SUMSUB2_AB m%1, m%2, m%5`
			`SWAP %1, %3, %4, %5, %2`
			`%else`
			`SUMSUB_BADC m%4, m%1, m%3, m%2`
			`SUMSUB_BA m%3, m%4`
			`mova [%5], m%2`
			`SUMSUB2_AB m%1, [%5], m%2`
			`SWAP %1, %3, %4, %2`
			`%endif`
			`%endmacro`

			`%macro IDCT4_1D 5-6`
			`%ifnum %5`
			`SUMSUBD2_AB m%2, m%4, m%6, m%5`
			`SUMSUB_BA m%3, m%1, m%6`
			`SUMSUB_BADC m%4, m%3, m%2, m%1, m%6`
			`%else`
			`SUMSUBD2_AB m%2, m%4, [%5], [%5+16]`
			`SUMSUB_BA m%3, m%1`
			`SUMSUB_BADC m%4, m%3, m%2, m%1`
			`%endif`
			`SWAP %1, %4, %3`
Add x264 SSE2 iDCT functions to H.264 decoder. Originally committed as revision 16409 to svn://svn.ffmpeg.org/ffmpeg/trunk 2009-01-03 02:46:17 +02:00			`%endmacro`

			`%macro LOAD_DIFF 5`
			`%ifidn %3, none`
			`movh %1, %4`
			`movh %2, %5`
			`punpcklbw %1, %2`
			`punpcklbw %2, %2`
			`psubw %1, %2`
			`%else`
			`movh %1, %4`
			`punpcklbw %1, %3`
			`movh %2, %5`
			`punpcklbw %2, %3`
			`psubw %1, %2`
			`%endif`
			`%endmacro`

Update x264 asm code to latest to add support for 64-bit Windows. Use the new x86inc features to support 64-bit Windows on all non-x264 nasm assembly code as well. Patch by John Adcock, dscaler.johnad AT googlemail DOT com. Win64 changes originally by Anton Mitrofanov. x86util changes mostly by Holger Lubitz. Originally committed as revision 19580 to svn://svn.ffmpeg.org/ffmpeg/trunk 2009-08-04 10:42:55 +03:00			`%macro LOAD_DIFF8x4_SSE2 8`
			`LOAD_DIFF m%1, m%5, m%6, [%7+%1FENC_STRIDE], [%8+%1FDEC_STRIDE]`
			`LOAD_DIFF m%2, m%5, m%6, [%7+%2FENC_STRIDE], [%8+%2FDEC_STRIDE]`
			`LOAD_DIFF m%3, m%5, m%6, [%7+%3FENC_STRIDE], [%8+%3FDEC_STRIDE]`
			`LOAD_DIFF m%4, m%5, m%6, [%7+%4FENC_STRIDE], [%8+%4FDEC_STRIDE]`
Add x264 SSE2 iDCT functions to H.264 decoder. Originally committed as revision 16409 to svn://svn.ffmpeg.org/ffmpeg/trunk 2009-01-03 02:46:17 +02:00			`%endmacro`

Update x264 asm code to latest to add support for 64-bit Windows. Use the new x86inc features to support 64-bit Windows on all non-x264 nasm assembly code as well. Patch by John Adcock, dscaler.johnad AT googlemail DOT com. Win64 changes originally by Anton Mitrofanov. x86util changes mostly by Holger Lubitz. Originally committed as revision 19580 to svn://svn.ffmpeg.org/ffmpeg/trunk 2009-08-04 10:42:55 +03:00			`%macro LOAD_DIFF8x4_SSSE3 8 ; 4x dst, 1x tmp, 1x mul, 2x ptr`
			`movh m%2, [%8+%1*FDEC_STRIDE]`
			`movh m%1, [%7+%1*FENC_STRIDE]`
			`punpcklbw m%1, m%2`
			`movh m%3, [%8+%2*FDEC_STRIDE]`
			`movh m%2, [%7+%2*FENC_STRIDE]`
			`punpcklbw m%2, m%3`
			`movh m%4, [%8+%3*FDEC_STRIDE]`
			`movh m%3, [%7+%3*FENC_STRIDE]`
			`punpcklbw m%3, m%4`
			`movh m%5, [%8+%4*FDEC_STRIDE]`
			`movh m%4, [%7+%4*FENC_STRIDE]`
			`punpcklbw m%4, m%5`
			`pmaddubsw m%1, m%6`
			`pmaddubsw m%2, m%6`
			`pmaddubsw m%3, m%6`
			`pmaddubsw m%4, m%6`
			`%endmacro`

			`%macro STORE_DCT 6`
			`movq [%5+%6+ 0], m%1`
			`movq [%5+%6+ 8], m%2`
			`movq [%5+%6+16], m%3`
			`movq [%5+%6+24], m%4`
			`movhps [%5+%6+32], m%1`
			`movhps [%5+%6+40], m%2`
			`movhps [%5+%6+48], m%3`
			`movhps [%5+%6+56], m%4`
			`%endmacro`

			`%macro STORE_IDCT 4`
			`movhps [r0-4*FDEC_STRIDE], %1`
			`movh [r0-3*FDEC_STRIDE], %1`
			`movhps [r0-2*FDEC_STRIDE], %2`
			`movh [r0-1*FDEC_STRIDE], %2`
			`movhps [r0+0*FDEC_STRIDE], %3`
			`movh [r0+1*FDEC_STRIDE], %3`
			`movhps [r0+2*FDEC_STRIDE], %4`
			`movh [r0+3*FDEC_STRIDE], %4`
			`%endmacro`

			`%macro LOAD_DIFF_8x4P 7-10 r0,r2,0 ; 4x dest, 2x temp, 2x pointer, increment?`
			`LOAD_DIFF m%1, m%5, m%7, [%8], [%9]`
			`LOAD_DIFF m%2, m%6, m%7, [%8+r1], [%9+r3]`
			`LOAD_DIFF m%3, m%5, m%7, [%8+2r1], [%9+2r3]`
			`LOAD_DIFF m%4, m%6, m%7, [%8+r4], [%9+r5]`
			`%if %10`
			`lea %8, [%8+4*r1]`
			`lea %9, [%9+4*r3]`
			`%endif`
			`%endmacro`

			`%macro DIFFx2 6-7`
			`movh %3, %5`
			`punpcklbw %3, %4`
Add x264 SSE2 iDCT functions to H.264 decoder. Originally committed as revision 16409 to svn://svn.ffmpeg.org/ffmpeg/trunk 2009-01-03 02:46:17 +02:00			`psraw %1, 6`
Update x264 asm code to latest to add support for 64-bit Windows. Use the new x86inc features to support 64-bit Windows on all non-x264 nasm assembly code as well. Patch by John Adcock, dscaler.johnad AT googlemail DOT com. Win64 changes originally by Anton Mitrofanov. x86util changes mostly by Holger Lubitz. Originally committed as revision 19580 to svn://svn.ffmpeg.org/ffmpeg/trunk 2009-08-04 10:42:55 +03:00			`paddsw %1, %3`
			`movh %3, %6`
			`punpcklbw %3, %4`
			`psraw %2, 6`
			`paddsw %2, %3`
			`packuswb %2, %1`
			`%endmacro`

			`%macro STORE_DIFF 4`
Add x264 SSE2 iDCT functions to H.264 decoder. Originally committed as revision 16409 to svn://svn.ffmpeg.org/ffmpeg/trunk 2009-01-03 02:46:17 +02:00			`movh %2, %4`
			`punpcklbw %2, %3`
Update x264 asm code to latest to add support for 64-bit Windows. Use the new x86inc features to support 64-bit Windows on all non-x264 nasm assembly code as well. Patch by John Adcock, dscaler.johnad AT googlemail DOT com. Win64 changes originally by Anton Mitrofanov. x86util changes mostly by Holger Lubitz. Originally committed as revision 19580 to svn://svn.ffmpeg.org/ffmpeg/trunk 2009-08-04 10:42:55 +03:00			`psraw %1, 6`
Add x264 SSE2 iDCT functions to H.264 decoder. Originally committed as revision 16409 to svn://svn.ffmpeg.org/ffmpeg/trunk 2009-01-03 02:46:17 +02:00			`paddsw %1, %2`
			`packuswb %1, %1`
			`movh %4, %1`
			`%endmacro`